ディープラーニング(深層学習)研究では国内トップレベルの東京大学・松尾研究室のメンバーが開催する最新論文の輪読会から、話題の論文を紹介する本連載。今回は、「より良い表現学習」に関する論文を取り上げる。

顔の表現を自在に変えられるようにするためには、AIに何をどう学習させればいいのだろうか(写真/Shutterstock)
顔の表現を自在に変えられるようにするためには、AIに何をどう学習させればいいのだろうか(写真/Shutterstock)

 まず下の画像を見てもらいたい。ある顔画像に関するデータの集合をAI(人工知能)に学習させた結果である。ある低次元の潜在的なベクトル表現zが得られたとしよう。画像の右側は、zの要素の1つであるz2を動かした場合で、顔の角度しか変わらず、髪の色は変わらない。zのもう一つの要素であるz1を動かすと、髪の色のみが変わり、顔の角度は変わらない。これはベクトル間が「disentangle(もつれがほどけている)」状態である。

ある顔画像に関するデータ集合について、AI(人工知能)に学習させた結果
ある顔画像に関するデータ集合について、AI(人工知能)に学習させた結果

 一方画像の左側、zのいずれかの要素を動かすと、顔の角度と髪の色が同時に変わってしまう。これは「entangle(もつれている)」状態である。

 今回のテーマは、「より良い表現学習」についてだ。前者はより良い表現学習の例であり、後者はそうではない。なぜなら、得られた表現と実際の画像の要素が1対1に対応してないためだ。

良い表現学習の重要性とは

 表現学習とは、画像や音などの生データを抽象的な特徴量としてベクトルの形にする方法である。ディープラーニング(深層学習)の発展に最も貢献した1人ヨシュア・ベンジオ(Yoshua Bengio)氏は、良い表現学習を行うことの重要性について説いている(i)。良い表現学習はある個別に特化した問題ではなく、より広い問題を解くことができる表現を獲得するための学習である。

 さて、良い表現学習を行うためにはいくつかの事前知識を導入する必要がある。その一つが、データを説明するさまざまな要素がそれぞれ独立に変化するというものだ。冒頭に紹介したように、顔の画像は「顔の方向」「目や口の大きさ」「背景部分と顔部分」など、独立した要素から出来上がる。AIは大量の顔画像データからピクセルごとの色の数値(具体的にはRGB)を読み込み、各要素を学習する。

 そのための一つの方法が、画像ごとに要素をラベル付けして、AIに教える方法「教師あり学習」である。画像数と要素数ごとにラベル付けを行う必要があり、コストがかかるやり方だ。そのため、画像から特徴を自動学習する方法「教師なし学習」が、最近は重要な研究課題として捉えられている。

 データを説明するための各要素が独立ということは、表現学習を通じて得られる潜在的な表現も独立している必要があるということだ。disentangleな表現は、言い換えれば潜在的な表現が独立である表現だと言える。

有料会員になると全記事をお読みいただけるのはもちろん
  • ①2000以上の先進事例を探せるデータベース
  • ②未来の出来事を把握し消費を予測「未来消費カレンダー」
  • ③日経トレンディ、日経デザイン最新号もデジタルで読める
  • ④スキルアップに役立つ最新動画セミナー
ほか、使えるサービスが盛りだくさんです。<有料会員の詳細はこちら>