ニュース
自然な抑揚やリズムで滑らかに文章を読み上げるテキスト音声合成技術を開発【NEC】
NECは、入力された文章を、自然で豊かな抑揚やリズムで滑らかに読み上げることができる、テキスト音声合成技術を開発しました。
本技術は、大量の音声データから抽出した抑揚やリズムなどの情報を利用することで、従来は単調になったり不自然になる場合のあった合成音声を、聞きやすく高い品質で生成できるようにするものです。
本技術を電話の自動応答装置や車載端末などに利用することで、合成音声の聞き手の負担を低減することができます。また従来、録音した音声を利用していた場面に適用することで、アナウンスやガイダンスの変更に伴う再録音が不要となります。
本技術を検証するため、一般の被験者48名を対象とした主観評価実験を行い、国内トップレベルの品質を実現したことを確認しました。
開発した技術の特長は、次のとおりです。
1. 音声データベースから抽出した、典型的な抑揚やリズムの情報を利用
大量の音声データベースから、前後の単語や文の長さなどを基に、文章中の単語をどのような抑揚やリズムで読み上げるべきかを抽出し利用。音声合成時には、従来の人手で作成した少数のパターンルールと組み合わせることで、自然でバリエーションの豊かな合成音声を安定的に生成できる方式を実現。
2. 多様な抑揚やリズムが表現できる、豊富な音声素片(音声の最小構成要素)を利用
音声データベースから直接抽出した音声素片に加え、音声データベースに含まれない音声素片を、口や声道の動き方など人間が音声を生成する仕組みに基づいて推定し利用。これらの素片を適切に選択して繋ぐことで、多様な抑揚やリズムを高品質な合成音声で生成可能。
NECでは今後も、テキスト音声合成技術の研究開発および様々なアプリケーションの開発に積極的に取り組んでまいります。
なおNECは本技術を、6月9日(木)から6月10日(金)まで、マイドームおおさか(大阪市中央区)にて開催される「コールセンター/CRMデモ&コンファレンス2011 in 大阪(第4回)」において展示する予定です。
日本電気株式会社ホームページはこちら