画像に何が写っているかをコンピューターに理解させようとする画像認識のタスクの中に「セグメンテーション」がある。セグメンテーションは画像のピクセル単位で何を示しているかを分類する手法である。中でも単純に各ピクセルが何を表しているかを推定するSemantic Segmentation、画像中から物体とその意味を推定するInstance Segmentation、そして、これらを組み合わせたPanoptic Segmentationの3つに分けられる。今回は、最新の研究からPanoptic Segmentationとピクセルの深さ推定を同時に行った論文を紹介する。

 現代の深層学習の発展において画像認識(Image Recognition)は最も活発に研究されているタスクの1つである。深層学習が世の中の注目を集めるきっかけになったといわれるILSVRC2012でのコンペも画像認識を行うものであった。近年精度は大きく向上しており、より複雑なタスクへの取り組みが進んでいる。

 画像認識とはその名の通り画像に何が写っているかをコンピューターに理解させようというものだが、画像認識も目的に応じてより細かいタスクに別れる。

 例えば画像分類(Image Classification)は画像が何を表しているかを推定するタスクであり、一般には1つの画像に1つのクラス(犬、猫、人間といった事前に用意されたカテゴリー)を割り当てるタスクであるが、複数のクラスを割り当てることもある。これは画像に猫が写っているか否かを予測するものであり、最も単純な画像認識のタスクであるといえる。

 また、物体検出(Object Detection)は、画像内に写っている物体のクラスと位置を推定するタスクだ。一般には画像内から指定のサイズの短形を切り出して、それぞれの画像を分類し、クラスを割り当てるものである。そうした中で今回紹介する研究ではセグメンテーションというタスクを扱っている。

 セグメンテーションは画像のピクセルごとに、そのピクセルが何を表しているかをラベル付けするタスクである。物体検出と比較して、より細かいレベルでの判定が必要になるため、一般には高度なタスクだといえる。

 セグメンテーションはSemantic Segmentation、Instance Segmentation、Panoptic Segmentationという3つのタスクに分けられる。

 Semantic Segmentationは各ピクセルのクラスを推定する最もシンプルなセグメンテーションである。この課題として、例えば犬が2匹写っている画像を考える。すると、犬が写っているピクセルを犬と認識できるが、そのピクセルにどちらの犬が写っているピクセルかを判断することができない。

 Instance Segmentationはこうした問題を解決するためのセグメンテーションである。まず写っている物体を検出し、各ピクセルに対してどの物体のピクセルか、そしてどのクラスに属しているかを推定する。これによって犬が2匹写っていても、どちらの犬かどうかを判別することができる。一方でInstance Segmentationでは物体と認識したところのピクセルしか判定しないため、全てのピクセルにクラスを割り当てることはしない。例えば室内で犬が2匹写っている場合、背景となっている床や壁は物体としては認識されないため、それらのピクセルにはクラスが割り当てられない。

 Panoptic Segmentationでは、物体として認識されたピクセルは物体とクラスを推定するが、物体として認識されなかったピクセルに対してもクラスを推定する。Panoptic SegmentationはECCV2018で初めて提案された比較的新しいタスクであり、近年活発に研究されている。

この記事は会員限定(無料)です。

有料会員になると全記事をお読みいただけるのはもちろん
  • ①2000以上の先進事例を探せるデータベース
  • ②未来の出来事を把握し消費を予測「未来消費カレンダー」
  • ③日経トレンディ、日経デザイン最新号もデジタルで読める
  • ④スキルアップに役立つ最新動画セミナー
ほか、使えるサービスが盛りだくさんです。<有料会員の詳細はこちら>
5
この記事をいいね!する