※日経エンタテインメント! 2022年8月号の記事を再構成

MTVジャパンやユニバーサルミュージックなどで新規事業開発を担ってきた鈴木貴歩が、エンターテックの最新キーワードとキーパーソンを探る連載。今月は「AI音声合成」に迫ります。

世界約65カ国の計1万社以上で導入されているAI音声合成サービス。今年、吉本興業とタッグを組み、ゆりやんレトリィバァの声をAI音声合成する実験を実施。「声の著作権化」につながる取り組みに(画像をクリックすると、ReadSpeakerのホームページでAI音声合成で作ったゆりやんレトリィバァの声をが確認できる)
ReadSpeaker
世界約65カ国の計1万社以上で導入されているAI音声合成サービス。今年、吉本興業とタッグを組み、ゆりやんレトリィバァの声をAI音声合成する実験を実施。「声の著作権化」につながる取り組みに(画像をクリックすると、ReadSpeakerのホームページでAI音声合成で作ったゆりやんレトリィバァの声をが確認できる)
AI音声合成
機械学習に基づいた、音声合成の技術。近年のディープラーニングの技術進化により、音声、読み方、イントネーション、アクセントなどのデータを学習することで、違和感のない自然な人間の声を人工的に作り出すことが可能に。ゲーム、駅での音声案内、スマートスピーカーなど、様々な場面で使われている。世界展開するReadSpeakerはシーンをけん引するサービスの1つで、次世代のディープニューラルネットワーク(DNN)テクノロジーを使用することで、ハイレベルなAI音声合成を実現している。

 音声市場が熱を帯びるなか、AIを活用した音声合成も注目度が上がっています。なかでも、光学機器メーカーのHOYAの「ReadSpeaker」は、世界約65カ国の計1万社以上で導入されている、AI音声合成サービスです。同社でReadSpeaker部門のCEOを務める太田光昭氏に話を聞きました。

太田光昭(おおた・みつあき)氏
家電メーカー、外資系戦略コンサルティング会社などを経て、2020年にReadSpeaker事業のCEOに就任

――「音声合成」の転換点はどのあたりだったのでしょうか?

太田光昭氏(以下、太田) 2016年頃に、GoogleがAIの音声合成を使ったボイスを発表し、それ以降、各社でAI音声合成の技術革新が行われてきました。AI以前の音声合成はというと、何十時間にも及ぶレコーディングを行い、録った音素材を音の破片に刻み、それをソフトウエアを使って言葉としてつなぎ合わせていくという手法でした。ただ、どうしてもロボットっぽくなるというか、音の波形がきれいにならないんですよね。

 しかし、現在のAI音声合成では、数時間のレコーディングで録音した音素材があれば、AIがそれをマネして言葉をしゃべってくれるような仕組みとなっています。どんな言葉でもスムーズに話してくれるため、一聴しただけでは、本人の実際の声かどうか分からないレベルにまで達しています。

――HOYAさんが音声合成に参入された経緯とは?

太田 08年に合併したペンタックスが、もともと音声合成事業を行っていたんです。そして事業拡大の一環で、海外でサービスを展開していたReadSpeaker社を17年に買収しました。

 弊社が音声合成に注力する理由は、音声市場が大きく成長しているからです。例えば、AIスピーカーの普及率は伸び続けており、特に米国では22年度中に50%強になるとの予測も出ています。日本は海外に比べるとやや後れを取っていますが、小さい子たちは初めてコンピューターに触れる経験をするのが、キーボードやスクリーンではなく、ボイスになるという“ボイスファーストジェネレーション”が生まれ始めています。

喜怒哀楽などの感情表現も

太田 そんな時代背景があるなかで、弊社のReadSpeakerの優位性は何といっても、技術力の高さですね。世界規模で展開し、研究所も国内外に備えているため、対応言語も40を超えており、AIの精度1つ取っても他の国内メーカーを大きくリードしている自負があります。例えば、日本語は漢字の読み方が言葉によって異なりますが、それを識別する精度の高さに表れているのではと。さらには、喜び、悲しみ、怒りといった感情表現を声に付け加えることも可能となっています。

 また、GoogleやAmazonとの比較でいうと、弊社は独立系という立ち位置なので、お客様から得たデータを使って別のビジネスを行っているわけではありません。なので、プライバシーに関する問題もクリアになっており、国内だけでも約1700社で導入していただいています。一例を挙げると、JR東日本や京王電鉄の駅構内の音声や、SHARPのテレビの音声案内などですね。

――先日は、吉本興業さんと組んで、芸人のゆりやんレトリィバァさんの音声合成技術開発の実証実験をされていましたね。

太田 今回の実験では、新たにレコーディングを行わず、既にあるゆりやんさんの約30分の声の録音データから、声質や話し方を再現することに成功しました。冒頭にも述べた、最新のAI音声合成の技術を使っているのですが、1度録音して制作してしまえば、あとはPC上で自由に発声やカスタマイズが可能となっています。つまり、いつどんな状況でも、ゆりやんさんの声を再現できるのです(音声はReadSpeakerのホームページで確認できる)。

 実際、このようなニーズは各業界で高まっています。エンタテインメント界でいうと、ゲーム業界が特にそうですね。購入後もアップデートされるゲームが増えていますが、この技術を使えば、新しいセリフを加える場合などの自由度が増します。

 メタバース、バーチャルリアリティーという言葉が世間を騒がせ、アバターやバーチャルヒューマンといったキャラクターのデジタル化が進むなか、音声のデジタル化も今求められています。弊社としては今後、そこにしっかりと対応していこうと考えています。

【スズキの視点】“合成音声の多様性”がメタバースを補完する
“イケボ”のような言葉が話題になることからも、声の特性がキャラクターを決めており、いずれIoTが話すようになると、そのプロダクトやブランドを声が表すようになっていきます。ReadSpeakerはそこに早くも対応し、先端を切り拓いているなと感じました。特に“合成音声の多様性”の下に、様々な民族や地方のアクセントをいち早く取り入れていることが印象的でした。今後メタバース空間でアバターと交流するなかで、テキストや画像だと均質化しがちな「ルーツ」や「ローカル」性を、音声合成技術が補完していくのではないかと思います。

(構成/中桐基善)

2
この記事をいいね!する