※日経エンタテインメント! 2022年8月号の記事を再構成
MTVジャパンやユニバーサルミュージックなどで新規事業開発を担ってきた鈴木貴歩が、エンターテックの最新キーワードとキーパーソンを探る連載。今月は「AI音声合成」に迫ります。
音声市場が熱を帯びるなか、AIを活用した音声合成も注目度が上がっています。なかでも、光学機器メーカーのHOYAの「ReadSpeaker」は、世界約65カ国の計1万社以上で導入されている、AI音声合成サービスです。同社でReadSpeaker部門のCEOを務める太田光昭氏に話を聞きました。
――「音声合成」の転換点はどのあたりだったのでしょうか?
太田光昭氏(以下、太田) 2016年頃に、GoogleがAIの音声合成を使ったボイスを発表し、それ以降、各社でAI音声合成の技術革新が行われてきました。AI以前の音声合成はというと、何十時間にも及ぶレコーディングを行い、録った音素材を音の破片に刻み、それをソフトウエアを使って言葉としてつなぎ合わせていくという手法でした。ただ、どうしてもロボットっぽくなるというか、音の波形がきれいにならないんですよね。
しかし、現在のAI音声合成では、数時間のレコーディングで録音した音素材があれば、AIがそれをマネして言葉をしゃべってくれるような仕組みとなっています。どんな言葉でもスムーズに話してくれるため、一聴しただけでは、本人の実際の声かどうか分からないレベルにまで達しています。
――HOYAさんが音声合成に参入された経緯とは?
太田 08年に合併したペンタックスが、もともと音声合成事業を行っていたんです。そして事業拡大の一環で、海外でサービスを展開していたReadSpeaker社を17年に買収しました。
弊社が音声合成に注力する理由は、音声市場が大きく成長しているからです。例えば、AIスピーカーの普及率は伸び続けており、特に米国では22年度中に50%強になるとの予測も出ています。日本は海外に比べるとやや後れを取っていますが、小さい子たちは初めてコンピューターに触れる経験をするのが、キーボードやスクリーンではなく、ボイスになるという“ボイスファーストジェネレーション”が生まれ始めています。
喜怒哀楽などの感情表現も
太田 そんな時代背景があるなかで、弊社のReadSpeakerの優位性は何といっても、技術力の高さですね。世界規模で展開し、研究所も国内外に備えているため、対応言語も40を超えており、AIの精度1つ取っても他の国内メーカーを大きくリードしている自負があります。例えば、日本語は漢字の読み方が言葉によって異なりますが、それを識別する精度の高さに表れているのではと。さらには、喜び、悲しみ、怒りといった感情表現を声に付け加えることも可能となっています。
また、GoogleやAmazonとの比較でいうと、弊社は独立系という立ち位置なので、お客様から得たデータを使って別のビジネスを行っているわけではありません。なので、プライバシーに関する問題もクリアになっており、国内だけでも約1700社で導入していただいています。一例を挙げると、JR東日本や京王電鉄の駅構内の音声や、SHARPのテレビの音声案内などですね。
――先日は、吉本興業さんと組んで、芸人のゆりやんレトリィバァさんの音声合成技術開発の実証実験をされていましたね。
太田 今回の実験では、新たにレコーディングを行わず、既にあるゆりやんさんの約30分の声の録音データから、声質や話し方を再現することに成功しました。冒頭にも述べた、最新のAI音声合成の技術を使っているのですが、1度録音して制作してしまえば、あとはPC上で自由に発声やカスタマイズが可能となっています。つまり、いつどんな状況でも、ゆりやんさんの声を再現できるのです(音声はReadSpeakerのホームページで確認できる)。
実際、このようなニーズは各業界で高まっています。エンタテインメント界でいうと、ゲーム業界が特にそうですね。購入後もアップデートされるゲームが増えていますが、この技術を使えば、新しいセリフを加える場合などの自由度が増します。
メタバース、バーチャルリアリティーという言葉が世間を騒がせ、アバターやバーチャルヒューマンといったキャラクターのデジタル化が進むなか、音声のデジタル化も今求められています。弊社としては今後、そこにしっかりと対応していこうと考えています。
(構成/中桐基善)