深層学習(ディープラーニング)の領域は非常に広く、さまざまな分野での活用が期待されている。例えば、時系列の予測や分類のために、VAEやGANといった画像処理の技術を利用する、という方法もある。一見自分に関係なさそうな領域でも、深掘りすると通底している部分が見つかる、という点が深層学習研究の面白いところだ。

 深層学習が適用できるタスクはさまざまな分野に及ぶため、深層学習の研究論文が出される範囲も非常に幅広くなっている。松尾研究室では本連載のベースにもなっている毎週の論文輪読会が行われているが、研究室外の学生も参加していることもあって参加者のバックグラウンドが多種多様なため、紹介される内容も多岐に及ぶ。自分の専門外になると勉強会で1回聞いただけでは理解できないような研究も多数出てくるが、なるべく聞いて概要だけでも把握しようとしている。

 勉強会の参加者は、なぜわざわざ自分の専門外の発表も聞くのだろうか。その目的の一つに、発想の引き出しを増やすことがあると考える。今回紹介する論文 “Learning from Irregularly-Sampled Time Series A Missing Data Perspective” [Li 20]は20年夏の「ICML2020」(International Conference on Machine Learning)で発表されたものであるが、これも筆者にいろいろな引き出しがあったから実現できた研究であるように思える。本コラムでこれまでに紹介された研究に比べて地味に思えるかもしれないが、設定した目的達成のために筋道を地道に考えて、さまざまな手法を組み合わせることで実現させる研究であったので、この場で紹介したい。

 この研究の目的は、不規則にサンプリングされた複数の時系列の予測や分類である。自然現象の観測や生体に関する現実世界のデータは、常にモニタリングしておいたり一定周期でサンプリング(観測)し続けたりできるわけではない。さらに、このようなデータは形状もまちまちなので、従来手法を単純に適用することが難しいことがある。この研究では、実際にそのようなデータを予測や分類するにはどうすればいいかを考えていく。

データのマスク位置による復元可能性の問題

 先述したような条件において目的を達成するために、まず、対象とするデータを「サンプリングされていない部分が欠損されているデータ」であると捉えて、本タスクを欠損値の補完に関する問題であると捉え直す。そして、その問題を解くために、VAE(変分オートエンコーダー)やGAN(敵対的生成ネットワーク)を使用することを考える。ここで挙げた手法名だけを見ると、これが画像に関する研究に思えてくるかもしれないが、筆者らも画像を用いたアナロジーで考えたほうが以降の説明についてもイメージがしやすいと考えたからか、画像を用いた説明を展開している。

 まず、単純なサンプリング時刻のセットtを条件とした条件付きVAEを学習させることを考える(P-VAE)。また、観測されていなかった部分を0とするマスク関数を導入する。これを画像で例えるならば、見えている部分はそのまま、見えてない部分は黒色に塗り潰したものであると考えればよい。時系列の場合は、観測されていない時刻の出力が0であるとみなす。

 しかし、今回は通常のVAEのように、入力と復元が常に一致するようにVAEを学習すればいいということにはならない。これはどういうことか。この点について、筆者らが用意した画像を用いて説明する。さまざまな手書き数字を集めたMNISTデータセットから、「8」の画像を一部だけ観測した(残りをマスクした)ものを考え、それから元画像を再構成することを考える。同一の「8」の画像を複数のパターンでマスクし、それをVAEで再構成した結果が図1である。(以降、画像はいずれも元論文から引用)

図1:「8」の元画像とそのマスク部分の違いによる、再構成後の画像の違いの例
図1:「8」の元画像とそのマスク部分の違いによる、再構成後の画像の違いの例

 一番上の列である、画像の中央から少し右側だけが観測された状態で画像全体を再構成すると、その右側にあるように「8」ではなく「3」と再構成する可能性も考えられ、「3」としても間違いであるとは言えない。一方、中段のように画像の中央だけを観測した場合は、「8」とだけ再構成される。しかし、下段のように左上だけ観測した場合は、数字としては何も見えていないので、「8」ではないさまざまな数字で再構成される可能性が考えられる。

図2:マスク位置の違いによる潜在空間上の分布
図2:マスク位置の違いによる潜在空間上の分布

 その分布を潜在空間上に表したものが図2である。元の画像は「8」の一種であり、潜在空間上では図2の赤三角の密集している位置のあたりにあると考えられる。しかし、マスクの位置によっては、緑四角の分布のように再構成される画像の可能性がこんなにもバラバラになってしまう。これを言い換えるならば、入力から再構成後の出力を1対1で決定論的に定めることができず、確率的にしなければならないということである。

有料会員になると全記事をお読みいただけるのはもちろん
  • ①2000以上の先進事例を探せるデータベース
  • ②未来の出来事を把握し消費を予測「未来消費カレンダー」
  • ③日経トレンディ、日経デザイン最新号もデジタルで読める
  • ④スキルアップに役立つ最新動画セミナー
ほか、使えるサービスが盛りだくさんです。<有料会員の詳細はこちら>
1
この記事をいいね!する