Yellston(エールストン、東京・港)は2021年7月、AI(人工知能)を活用した日本語の音声合成サービス「CoeFont CLOUD」を開始した。自分の声を登録するのに最短15分、500円(税込み)と手軽なうえ、ほかの人が登録した音声を「フォント」のように利用できる。さまざまな人の音声を使ってゲームのセリフに音声を付けたり、カーナビやオーディオブック、放送、医療・福祉の分野などでも活用が期待されている。
CoeFont CLOUDは自分の声をコンピューター音声として簡単に登録できるほか、事前に登録した人の声から作り上げたコンピューター音声を用い、テキストで記述した文字を読み上げてくれるサービス。登録者本人の声の特徴や話し方が精密に反映されており、人に近いリアルな音声が聞ける。同社は「声をフォントのように扱うサービス」と表現している。例えば、さまざまな人の音声を使ってゲームのセリフに音声を付けたり、カーナビやオーディオブック、放送、医療・福祉の分野などでも活用が期待されている。
ユーザーの利用料でもうける
同社によるとすでに2万~3万人が同サービスを利用しているという。CoeFont CLOUDの第1の特徴は、文脈に応じたアクセントなど自然な音声ができることだという。第2は使用環境を問わない手軽さだ。ウェブ上で利用できるため、パソコンでアクセントの編集などもすべて行うことができる。第3は音声登録が最短15分、500円で済むことだろう。より高品質な音声を作成する場合は、収録時間が約60分、1000円のプランや約120分、1500円のプランもある。
「従来、音声を作成するには50万円程度、10時間以上の収録を必要としていた。CoeFont CLOUDの価格はほぼディープラーニングの学習コストにかかっているので、ほとんど原価。声を作るところでもうけることは考えていない」と早川尚吾社長は言い切る。
作成した音声はクラウド上に公開しており、他のユーザーがこれを使うときに利用料が発生する。利用料の大部分は作成者に、一部が同社に還元される。
この記事は会員限定(無料)です。