ニュース

話し言葉からキーワードを高精度に抽出する音声認識技術を開発【日本電気】

2011年10月6日

~自然な発話によるWeb検索やスケジュール入力の実現へ~

NECは、人が自然に発話した音声(話し言葉)から、人名や地名などの複数のキーワードを高精度に認識し抽出する、音声認識技術を開発しました。

今回開発した技術は、入力された音声に、例えば「人名」と「地名」といった複数種類のキーワードが含まれる場合でも、キーワードの種類に適したきめ細かい認識処理を行うことで、高精度な認識を実現するものです。

本技術をレストラン検索などの条件入力に適用することで、エリアや料理名といったキーワードが、ユーザが自然な話し言葉で入力した音声から正しく認識、抽出されるようになり、従来個々に入力する必要のあった複数の検索条件が一回の発声で正しく入力できるようになります。

また、本技術をスケジュール管理ソフトなどの情報入力に適用した場合、外出先などのキーボードが使いにくい場面でも、日付や参加者、場所などのスケジュール情報のキーワードを、音声を用いて手軽に入力できるようになります。

このたび、本技術を用いて、TV番組検索、レストラン検索などのシステムを想定した性能評価を行った結果、検索キーワードの音声認識誤り率を、従来比で約3割削減できました。


昨今、スマートフォンや携帯電話などのモバイル機器において、情報の検索などを行う際の簡便な入力方法として、音声入力への期待が高まっています。
しかし、従来の音声認識技術では、入力音声の全体に対して、例えば「食事」や「旅行」などの大まかな種別を推定し、その種別に合わせた認識処理を行っていました。しかしこれは入力音声全体の認識精度を一律に高めるための技術であり、キーワード部分の精度を高めることは難しい場合がありました。
このたび開発した技術は、これらの課題を解決し、高精度なキーワード音声認識を実現するものです。


このたび開発した技術の特長は、以下の通りです。

(1)  キーワードの出現位置と種類を自動的に推定

人名や日付など、検索条件のキーワードが質問文中のどのような文脈で出現したかを確率モデルとして学習し利用することで、入力音声からキーワードの出現位置と種類を自動的に推定。
例えば、レストランを検索する場合、検索条件となる料理名の周囲には「~のお店」「~がおいしい」のような特徴的な表現が頻出するため、これらを自動学習し随時利用することで、高精度なキーワード位置と種類の推定を実現。

(2)  キーワードの種類に瞬時に適応し音声認識を高精度化

複数の言語モデル(注)の組み合わせ方をミリ秒単位の細かい時間単位で瞬時に制御する認識方式を開発。検索キーワードに依存する言語モデルを上記(1)の種別の推定結果に従って制御し、音声認識処理を検索キーワードに適応。


NECは、1960年代より、中央研究所を中心に、音声認識に関する研究開発を続けています。その成果をベースに、これまで、耐騒音性に優れた「VoiceDo」をはじめ、電話音声応答システム「CSVIEW/VoiceOperator」、コンタクトセンタ支援ソフト「CSVIEW/VisualVoice」、音声認識ミドルウェア「WebOTX Speech Recognition」、議事録作成支援ソフト「VoiceGraphy」など、多数の製品やソリューションを提供しています。
今回開発した音声認識技術は、これらのソリューションをはじめとして、営業管理システムやグループウェア等におけるモバイル端末からの音声入力といった、様々な場面への応用が期待できるものです。

NECでは今後も、音声認識技術・製品開発に積極的に取り組んでまいります。


(注)
出現する単語の出現傾向(どのような単語がどのように並びやすいか)の知識を表現する確率モデル。話す内容が異なると、単語の出現傾向も異なることが多い。



日本電気株式会社ホームページはこちら

 

キーワードをクリックして関連ニュースを検索

#日本電気
#音声認識