【米国】アレクサの音声合成がコンテンツに合わせてより自然に。ニュースはニュースキャスターのように読み上げる。

- 1月 17, 2019

【米国】アレクサの音声合成がコンテンツに合わせてより自然に。ニュースはニュースキャスターのように読み上げる。:

2019年1月16日、Amazon公式ブログでAlexaの最新の音声合成システム「Neural text-to-speech (NTTS)」の音声サンプルと既存の「text-to-speech (TTS)」の音声サンプルの比較が紹介された。

ディープニューラルネットワークにより、イントネーションの改善、文中の正しい単語の強調、セグメント品質向上など技術的に音声合成の精度が上がっただけではなく、コンテンツの内容に応じて発話のスタイルを変えて、より自然な声を実現しているのが最大のポイントだ。

ニュース読み上げ

ニュースを読み上げるときにはニュースキャスターのような読み上げ方になる。どちらも同じ原稿を読み上げているものだが、SoundCloud上の波形の見た目も違うし、NTTSの方がよりニュースとして聞き取りやすい。ネイティブでなくても聞けばその違いは明らかだろう。

TTS：現在のAlexaの声

NTTS：新しいAlexaのニュースキャスターの声

Wikipedia読み上げ

WIkipediaの読み上げの場合はニュートラルな読み上げ方になる。こちらもNTTSのほうがメリハリがあって聞きやすい。

TTS：現在のAlexaの声

NTTS：新しいAlexaのニュートラルの声

日本語の読み上げもいずれこの技術が取り入れられることを期待したい。

Source：The Amazon Blog – day one

Amazon Echo fan club japan

このブログを検索

IT音痴アラフィフおやじのストック記事倉庫