学習していないものも予測できることで注目を集める画像モデル「CLIP」がコンピュータービジョン(画像や映像の識別)の分野に大きな影響を与えている。米スタンフォード大学はCLIPやBERT、GPT-3といった、大規模データで学習して幅広いタスクに汎用的に適用できるモデルを“基盤モデル”と称し、研究センターの設立まで発表するほど。そんなCLIPの周辺動向および各分野での応用例を紹介する。

 2021年の1月にテキスト(文章)から高い品質の画像を生成することで大きな話題になったモデル「DALL・E(ダリー)」。DALL・Eと同じタイミングで発表され、その処理の中でも高いクオリティーの結果を生成する上で大きな役割を果たしているのが「CLIP」(Contrastive Language-Image Pretraining)である。

 CLIPはネット上から収集した画像とテキストの4億ペアの訓練データで画像に対応する記述文を見つけ出す対照学習を通し、マルチモーダルな埋め込み表現を学習。テキストと画像間の類似性の推定をゼロショット学習(学習していない未知のものを予測する技術)で可能にした(i)

 発表当時はDALL・Eの話題性の高さの陰に隠れ、CLIPはそれほど注目を浴びなかったが、その可能性は大きく、発表から短期間の間に数多くの応用事例が発表された。 CLIPの登場は今まで広く使われていた静的クラスのデータセットの“死”とまでいわれている(ii)

 今回はコンピュータービジョン(画像や映像の識別)の分野に大きな影響を与えているCLIPに焦点を当てて、その周辺の動向および続々と発表されている各分野での応用例をいくつか紹介したい。

このコンテンツ・機能は会員限定です。

有料会員になると全記事をお読みいただけるのはもちろん
  • ①2000以上の先進事例を探せるデータベース
  • ②未来の出来事を把握し消費を予測「未来消費カレンダー」
  • ③日経トレンディ、日経デザイン最新号もデジタルで読める
  • ④スキルアップに役立つ最新動画セミナー
ほか、使えるサービスが盛りだくさんです。<有料会員の詳細はこちら>
4
この記事をいいね!する