中国ネットサービス大手の騰訊控股(テンセント)は、2022年2月4日から実施された北京冬季五輪・パラリンピックにおいて、自社で設計・開発を手掛けた、AI(人工知能)を使った3D手話バーチャルヒューマン「聆語(リンユー)」の提供を開始した。試合の生放送後に、中国中央電視台のビデオアプリ「央視頻APP」にて、リンユーが中国の聴覚障害者に向けて手話で実況を届ける。

北京冬季五輪を期に登場した3D手話バーチャルヒューマン「聆語(リンユー)」(画像はテンセントのニュースリリースより)
北京冬季五輪を機に登場した3D手話バーチャルヒューマン「聆語(リンユー)」(画像はテンセントのニュースリリースより)
[画像のクリックで拡大表示]

 3D手話バーチャルヒューマン「聆語(リンユー)」は、テンセントのクラウドサービス「騰訊雲(テンセントクラウド)」傘下のスマートサービスシステム開発部門「騰訊雲小微(テンセントクラウドシャオウェイ)」と、テンセントのプラットフォーム&コンテンツ事業部「PCG」のAI部門が共同で開発した。2021年末に中国中央電視台から、北京五輪・パラリンピック開催時に提供するAI手話解説システムの制作で、協業の意向を受け2カ月足らずで完成に至ったという。

リンユーの宣伝イメージ(画像はテンセントのニュースリリースより)
リンユーの宣伝イメージ(画像はテンセントのニュースリリースより)
[画像のクリックで拡大表示]

聆語(リンユー)の3つの特徴

 リンユーには3つの特徴がある。

 1つ目は、外観の自然さだ。リンユーは、最先端の3D光学スキャニングによる再現や、顔面部の筋肉に忠実な動作の連動、そして表情や肢体のキャプチャリングなどの技術を利用することで、高度に人間の頭髪や皮膚を再現し、動作もより自然で生命力のあるものになっている。

 2つ目は、手話の動作の滑らかさと手話表現の高度さだ。中国の公用手話辞典「国家通用手語詞典」に基づき、リンユーは非聴覚障害者の言葉と聴覚障害者の手話の両方の自動翻訳能力を持つ。放送する内容をシステムに入力するだけで、自動翻訳を通じて、少ない遅延で高精度な手話表現を生成できる。加えて、テンセントのマルチモーダル生成モデル(言葉が話されている状況や話者の身ぶり、そして表情などの複数の情報を基に実施する深層学習技術を利用したもの)に基づき、高精度の動作や表情、そして唇の動きなどをより重要なものから順に生成し、自然であり、専門的な表現を含みながらも、同時に理解が容易な手話を実現している。

この記事は会員限定(無料)です。