家電の総合展からIoT総合展に昨年大きく舵を切ったCEATEC。今年も引き続きIoT関連の出展でにぎわったが、深層学習の「眼」を活用した接客やマーケティングに加えて、「耳」となる音声認識などの参考展示も注目を集めていた。また、次世代の有力なユーザーインターフェースとして音声応答の展示も注目を集めていた。

 日立製作所は、深層学習による「眼」を活用したリアルタイムな人物発見・追跡技術を開発して、参考出展した。

「眼」活用のリアルタイム人物発見

 監視カメラなどの映った人物の性別、年齢層、服装の種類、色、所持品など、12種類100項目以上の外見に関する特徴と、「歩く」「走る」「しゃがむ」など10項目の動作に関する特徴をリアルタイムかつ同時に判別する深層学習アルゴリズムを開発。特徴を判別する際、従来は項目ごとに異なる演算が必要だったが、複数の項目を同時に判別できる演算方法を用いることによって必要な計算量を、同社従来方法の約40分の1に削減したという。

 これまで、空港や駅、スタジアムなどの大規模施設や街区などの公共空間では、防犯カメラによる監視や警備が行われているが、事件の早期発見と解決には、施設利用者などの目撃情報を基に不審者や迷子の映像を即座に絞り込み、該当する人物がどこにいるのかを、広域の防犯カメラ網からリアルタイムに把握する必要がある。

 今回参考出展したシステムは「目撃情報などを手がかりに、不審者、迷子、徘徊者など特定の人物を瞬時に発見・追跡できる技術。人物の性別、年齢層、髪型、服装、持ち物、動作など、様々な条件を自由に組み合わせて、リアルタイムで解析して人物を特定する。地図情報との連動で足取りの追跡も可能」(日立製作所中央研究所)という。

 例えば、身体的特徴としては年齢(30代)、性別(男性)、髪型(黒短髪)など、外見特徴としては「茶色のカバン」、「赤いジャケット」、「水色シャツ」、「黒ズボン」など。行動特徴(動作)として、「走っている」を組み合わせてリアルタイムで解析する。「顔が映っていない場合でも、全身特徴を用いて抽出できる」(日立製作所)という。

卓球ロボはスマッシュを察知

オムロンの卓球ロボット「フォルフェイス」2017年版
オムロンの卓球ロボット「フォルフェイス」2017年版

 会場内で人垣ができていたのが、オムロンの卓球ロボット「フォルフェイス」である。2016年のロンドン五輪の卓球で銅メダルを獲得した水谷隼選手とラリーを実現するなど話題を呼んでいた。フォルフェイスは2017年版になって、深層学習による「眼」を活用し、相手のスマッシュに対応できるようになった。

 卓球ロボットは上部に設置された人体センサーによって人の動き(両手の手のひらや、ひじの位置)をセンシングしている。そのデータや球の動きを深層学習の1種である「時系列ディープラーニング」で解析してスマッシュを打つ気配を読取り、先回りして球筋を予測する。ピンポン球の「追従アルゴリズム」の高速化によって通常のラリー時よりも高速な動作でスマッシュに対応できるようになった。

深層学習による「耳」の活用も

 深層学習による識別能力は、「眼」だけでなく優れた「耳」としても活用できる。

 AIによる音声応答技術を持つNextremer(東京都板橋区)とホンダは、人とインタラクティブにコミニュケーションする次世代のクルマの開発を目指しており参考出展した。実現すれば、最適な対話提案が可能になるという。

 人間の発話に対して認識・応答するNextremerの対話システム「minarai」に加えて、ドライバーの意図や位置情報、渋滞状況、車載診断など様々なシーンにおける状況を総合的に理解して実現しようとしている。近々、実証実験を行う計画だという。

Nextremerとホンダによるドライバーとの対話システムの展示
Nextremerとホンダによるドライバーとの対話システムの展示

 NECは深層学習による声認証技術の参考出展を行った。個人によって異なる発声器官(喉や口など)から生成される音声の特徴量を、深層学習で抽出して活用している生体認証だ。本人認証や話者識別機能として使える。

 例えば、最近注目されているAIスピーカーは、音声で買物ができるなどあらたな利便性を提供している。ところが、オウムがしゃべった声を誤って認識して、人間が注文していないのに商品を購入する羽目になることもあるという。AIスピーカーに声認証技術を使えば、こうしたことは起きなくなる。そのほか、適用領域はロボットや家電の操作、コールセンターの対応、スマートフォンのログイン、犯罪捜査など幅広い。

 三菱電機は同時に話した男女の声を、深層学習による「耳」によってキレイに分離するデモンストレーションを行った。深層学習アルゴリズムが男女それぞれの音声の特徴量を抽出し、それぞれを切り出して再生するという技術だ。同社は騒音の中で話している音声とノイズをそれぞれ切り出して、あたかも静かな部屋で話しているようなノイズ除去技術を開発しているが、今回の技術と原理は同じだ。

 深層学習などを用いて、人の音声だけを抽出してそれをリアルタイムに再構成して雑音除去音声を合成する。雑音が混入した信号から人の音声以外の信号はすべて雑音と見なして除去している。