2018年8月、米アマゾン・ドット・コムが提供するスマートスピーカー「Amazon Echo」で読み上げるニュースが、突然滑らかな日本語になった。といっても、Amazon Echoで読み上げられるすべてのニュースというわけではない。Alexaのスキル「ハロー エディオン」のニュースサービスで、AI(人工知能)アナウンサーの「荒木ゆい」による自然な日本語のニュース読み上げが提供されるようになったのだ。

スマートスピーカー「Amazon Echo」は音声コミュニケーションの機会を増やしている
スマートスピーカー「Amazon Echo」は音声コミュニケーションの機会を増やしている

 ハロー エディオンは、全国に家電量販店を展開するエディオンが提供する、アマゾンの音声AIアシスタント「Alexa」に対応したスキル。17年11月に提供を開始し、ニュースや天気、今日の運勢、今日は何の日といった情報を、利用者の好みや住まいの地域、生年月日などに合わせて提供している。そのニュースを、AIサービスなどを手がけるSpectee(東京・新宿)が開発したAIアナウンサー「荒木ゆい」が担当して読むようになった。

「荒木ゆい」とは何者か?

 スマートスピーカーを使ったことがある人ならば、一度ぐらいはニュース読み上げサービスを使ったことがあるだろう。人間のアナウンサーが読み上げたラジオ番組の音声をそのまま流すようなサービスならば、自然な日本語がスマートスピーカーから流れてくる。一方で、AIの音声エンジンがニュース原稿を「読む」ようなサービスでは、流れの不自然さに首をかしげることも少なくない。固有名詞や数字の読み方、文章の区切り方などにも違和感を覚える。スマートスピーカーを使ったことのない人でも、何となく合成音声につきものの不自然さは想像がつくだろう。

 ところが、Specteeが開発したAIアナウンサーの荒木ゆいは、「アナウンサー」と名乗るだけのことがあるよどみのない日本語でニュース原稿を読み上げてくれる。Spectee代表取締役の村上建治郎氏は、アマゾンが提供するAIを活用したテキスト読み上げサービスの「Amazon Polly」と比較した例を示して、こんな説明をする。

 「1つは読み方。Pollyは平坦な読み方で、単語をつなげて読んでいるだけだが、荒木ゆいは自然な抑揚をつけて文章を読み上げることができる。ここが自然に感じるための大きな違いになる。もう1つはさまざまな読み分け。『東京の日本橋(にほんばし)』と『大阪の日本橋(にっぽんばし)』、時間の『十分(じっぷん)』と足りていることを示す『十分(じゅうぶん)』、『辛い(からい)』と『辛い(つらい)』など、日本語には同じ書き方をしても読みが違うケースが多くある。こうした読み分けはPollyでは事実上不可能だが、荒木ゆいは前後の文脈から判断して正しく読むことができる」

 そんなスグレモノのアナウンサーをAIで実現してしまったのが、荒木ゆいだというのだ。どうやって教育したの?と、まるで人間を育てるときのように興味を持ってしまうのだが、それに対して村上氏は「人間のアナウンサーが読んでいる音声と原稿のセットを使って、機械学習を行っている」と明かす。17年11月に荒木ゆいがリリースされた時点までに、10万件の発音と原稿のセットを使ってAIに学習させた。このデータは、テレビやネットなどからの音声をコードに落とし込んだり、実際に原稿を読んでもらったり、データ保有企業から直接提供を受けたりして集めた。

 音声合成でできた音をどう発話させるかの部分にディープラーニングを活用。この単語はどう発声させるか、この文章はどこに間を置いて、どういうテンポで読むかなど、そういった発声・発話の仕方を向上させている。

機械学習に微調整を加え発音滑らかに

 そもそも、Amazon PollyのようなAIによるテキスト読み上げは、長文を読むように作られていないというのが村上氏の見立てだ。「Pollyやその他のAIによる読み上げの多くは、会話をやり取りするような短文ならば、かなり滑らかに読むことができる。一方でニュースのような長文を読んでいくのは苦手だ。荒木ゆいは、ニュースの読み方を機械学習させることで、滑らかに読むことができるようになった。アナウンサーが実際に原稿をどのように読むか、その時のイントネーションや間も含めて、読み方を学習で習得した」

 ニュースに特化することで、人間と会話をすることではなく、滑らかに原稿を読み上げることを主に学習させたというわけだ。その成果は、ニュースの内容を判断して、「英国」の文字を「イギリス」と読んだり、「五輪」を「オリンピック」と読んだりという融通を利かせることにもつながっている。「千代田区1-1」ならば、「いちのいち」だが、「日本対コロンビアは2-1」ならば「にたいいち」と読むことも学習した。

 その上で、機械学習だけで終わらせるのではなく、手作業による調整も行っている。発話するための音声の生成部分は、外部のデータを利用してSpecteeでニュース読み上げに適するように音を調整したりすることもある。読みがスムーズに聞こえるように「休符」を1000ミリ秒単位で調整したり、単語の区切りやアクセントを人手で調整したりすることもある。もちろん機械学習で起きた読み間違いの修正もする。地名に関しては、既存の地名データベースを基にデータを流し込んで対応している。

 さらにリリース後も、1日500件程度のニュース速報を毎日読ませており、こうした日々の学習により、荒木ゆいは読み間違いの修正やイントネーション改善を進め、毎日成長を続けているというわけだ。

AIアナウンサー「荒木ゆい」のキャラクター
AIアナウンサー「荒木ゆい」のキャラクター

 実際にハローエディオンでニュース原稿の読み上げを聞くと、その前後に話すAlexaのほうがぎくしゃくしたものに感じる。とはいうものの、荒木ゆいであっても人間のアナウンサーと全く同じにはならない。まだ時折の不自然さが残っていて、今後も成長を続けていく可能性を秘めている。

 一方、ニュースをかなり上手に読めるようになったAIアナウンサーであっても苦手なジャンルがあるという。“育て親”の村上氏は苦笑しながら「ニュースに特化して学習させているので、日常会話的なものはそこまで上手ではない。原稿がある観光案内は上手にできるけれど、会話をするのは苦手な人のよう」だという。それはそれ、人間にも個性があるように、AIアナウンサーにも個性があってよいのだ。

Alexa向けのモジュールを提供し活用を拡大

 もともと、Specteeは、報道機関向けのニュース速報サービス「Spectee」を16年から提供していた。これはAIによってSNS上の事件情報を収集・分析してリアルタイムで配信するもの。テレビ局や新聞社など100社以上の採用実績がある。このニュース速報サービスに、テキスト読み上げサービスを実装しようとしたことが、荒木ゆい誕生のきっかけだった。

 「アマゾンのPollyや米グーグルのCloud Speechなど既存のテキスト読み上げサービスを試してみたが、ニュース速報サービスの読み上げとしては間違いが多くて使い物にならなかった。それならば自前でテキスト読み上げプラットフォームを作ろうと決断した」(村上氏)。17年11月に誕生した荒木ゆいは、これまでにラジオNIKKEIの番組「大人のラヂオ」で「大人の科学」のコーナーの進行役として「レギュラー出演」するほか、テレビやラジオ、イベントなどで数多くのゲスト出演を果たしている。料金は月額9800円・税別(作成した音声のダウンロード 20回分または音声の再生100回まで)から利用できる。

 そしてSpecteeは、Amazon Echoを通じて荒木ゆいの声でテキスト読み上げができるモジュール「AIアナウンサー『荒木ゆい』for Alexaスキル・モジュール」を開発。18年8月にAlexaスキルを開発する事業者に向けて、提供を開始した。モジュールをAlexaスキルに搭載すれば、スキルを提供する企業などは自然でよどみなく読み上げる荒木ゆいのアナウンス能力を簡単に利用できるようになる。「毎日内容が変わるニュースや天気予報、より分かりやすく伝えて顧客満足度を高めたい製品やサービスのQ&Aなどの用途が向いている」と村上氏は説明する。料金は非公開だが、読み上げ数や時間にかかわらず月額定額になるという。

 このモジュールを利用したスキルの第1号が、冒頭に紹介したエディオンのハロー エディオンである。日本語のニュアンスを的確に伝えられる荒木ゆいの高いアナウンス能力を、スマートスピーカーという新しい情報ツールに比較的容易に組み込めるようになった事例といえる。Specteeは今年度中に約100社、3年以内に延べ1000社のスキルに搭載されることを目指す。

 音声コミュニケーションの機会を増やすと注目されるスマートスピーカー市場。連携を容易にしたことで、AIアナウンサーである荒木ゆいの活躍の場は一段と拡大していくことになりそうだ。