最近Text-to-Speechというテキストから音声を作成してくれるAPIをつかって英単語クイズアプリを作ってみたのですが、その逆の音声からテキストを作るSpeech-to-TextのAPIを使ってみることにしました。Youtubeにある字幕の付いていない英語で話している動画の英語字幕を作成できれば英語学習に役立つと思ったからです。
試してみた動画がこちら
30秒の企業CMです。CMなのではっきりと聞き取りやすい話し方をしているので、高精度でテキスト化されると期待しました。
原音の文章:I have been driving trucks for 20 years. I'd thought I'd seen everything, but Quon has changed it all. my ride Comfort has gone to another level. The new 12-speed ESCOT transmission. driving is even easier. Brakes are responsive and smooth. Everything is different with the new Quon. The all new Quon. Innovation that puts people first.
テキスト化されたもの:I have been driving trucks for 20 years I thought I'd seen everything but corn has changed it for my ride Comfort has gone to another level of 12 speed transmission driving is he break responsive and smooth everything is different with the new corn the old U Kwon Innovation that puts
赤い太字にした箇所が間違ってるところですが、たった30秒のスピーチのテキスト化なのに間違いすぎです。Quonという単語は車の名前なので仕方ないですが、driving is even easier. Brakes are responsive and smooth.(運転はさらに簡単です。ブレーキは反応が良くスムーズです。)というところをdriving is he break responsive and smooth(運転は彼が敏感でスムーズに壊れる)に間違えるのはひどいです。意味が全く違ってきます。
これだけ間違いが多いとテキスト化した後に自分で直しまくる作業が必要になりますね。いっそ開き直って正確さを求めないで使うくらいじゃないと今の所は使い物にならないんじゃないかと思いました。