2021年、ARグラスやヘッドマウントディスプレーの開発に力を入れるFacebook AI Research (現Meta AI)が一人称視点動画に対する機械学習の研究論文を発表した。本記事では、一人称視点(First-Person View、もしくはEgocentric Viewと呼ばれる)の映像に対する機械学習の試みを取り上げる。

 一人称視点の映像とは、カメラの視点が人物の視点と一致している映像のことである。そうではない一般の映像は三人称視点(Third-Person View、もしくはExocentric View)と呼ばれる。

 映画やゲームで没入感を高める演出方法として知られているが、近年はウエアラブルデバイスの普及により、個人が自身の生活を記録するライフログとしての活用や、産業において現場作業者の作業・行動を記録・活用するという用途も進んでいる。特に後者のケースに対しては、デジタルトランスフォーメーション(DX)の文脈で注目されており、画像・動画に対する機械学習技術の進展と組み合わせることで、現場作業の映像の利活用が期待されている。

 しかし、既存の画像に関する機械学習の取り組みのほとんどは三人称視点の映像に対して行われている。一人称視点に関するデータセットの規模はとても小さく、その結果タスクも限られている。2022年にはEgo4D[1]という大規模なデータセットが整備・公開されたが、利用が進むのはこれからである。こうした背景から一人称視点動画に対する研究はこれから急激に進むと考えられるものの、現時点では道半ばである。

この記事は会員限定(無料)です。

有料会員になると全記事をお読みいただけるのはもちろん
  • ①2000以上の先進事例を探せるデータベース
  • ②未来の出来事を把握し消費を予測「未来消費カレンダー」
  • ③日経トレンディ、日経デザイン最新号もデジタルで読める
  • ④スキルアップに役立つ最新動画セミナー
ほか、使えるサービスが盛りだくさんです。<有料会員の詳細はこちら>
この記事をいいね!する