日頃、耳にするカーナビや自動オペレーターなどの「音声」。
よく聞いてみると、機械的に棒読みをしていた昔のものと違い、最近のものは比較的自然に話していることに気づくと思います。
もしかすると、それは人ではなくハイテク音声合成技術「エーアイトーク」かもしれません。今回は、いまや生活で身近になった“人間らしい音声”の秘密に迫ります!
機械ではなく“実在する人の声”?
エーアイトークはスマートフォンの天気予報読み上げや、自治体のスピーカー放送など、なんと約400カ所で使われているとっても身近な音声。


使われるシーンに合わせて、大人の男女から子供まで様々な声の種類があるのも特徴の一つです。これは実際に人の声をたくさん録音し、それを元に音声を作ることで可能にしているとのこと。

しかし声色だけではなく、自然な抑揚まで再現できているのはなぜでしょうか?
人間らしい抑揚を作るため、文章を音読?
エーアイトークの抑揚は、独自開発した200本の文章を人に読んでもらい、五十音分のさまざまな抑揚の要素を取得することで実現していました。
言葉はそれぞれ、発音や文脈によって強さや長さが異なるため、「あ」の抑揚のパターンだけでも約80種類以上あるのだとか。

それらの要素を組み合わせることによって、自然な抑揚がついた音声を出すことを可能にしています。

「エーアイトーク」生みの会社
ハイテク音声合成技術エーアイトークを作っているのは、株式会社エーアイ。

2003年に創業したエーアイは、今では年商は7億円にまで大成長。2018年6月に株式上場を果たしました。
自然な抑揚で文章を読み上げてくれるエーアイトーク、これからも活用の場はどんどん広がりそうですね。
経済のことが学べる
がっちりマンデー!!
(TBS系列 日曜あさ7:30~)
▪️次回(6/16)の放送