ディープラーニング(深層学習)研究では国内トップレベルの東京大学・松尾研究室のメンバーが開催する最新論文の輪読会から、話題の論文を紹介する本連載。今回は、それぞれの物体を区別しつつ、物体がある領域をピクセル単位で分割する、より高度な認識技術であるインスタンスセグメンテーションを紹介する。

図1 画像認識タスクの例
図1 画像認識タスクの例
(https://engineering.matterport.com/splash-of-color-instance-segmentation-with-mask-r-cnn-and-tensorflow-7c761e238b46より引用)

 今日大きく盛り上がりを見せている第3次AI(人工知能)ブームの口火を切ったのは、2012年に発表された“ImageNet Classification with Deep Convolutional Neural Networks”という画像認識についての論文だといわれている。著者のK. AlexらはCNN(畳み込みニューラルネットワーク)によってImageNetという画像分類コンペティションの最高スコアを大きく更新した。

 それ以降CNNの発展の勢いは目覚ましく、画像分類において既に人間の能力を上回っているともいわれている。また、CNNの適用先も徐々に増え、ほとんどの画像認識のタスクで既存の手法を上回る成果を上げている。今回は画像認識の中の1つのタスクである「インスタンスセグメンテーション」の最新研究を紹介する。

インスタンスセグメンテーションとは

 ここで、一旦「画像認識」という言葉の定義を確認しよう。原田達也・東京大学教授の著書『画像認識』には「画像に写る内容を理解すること」と書かれている。つまり、画像認識の研究はコンピューターによって自動で画像からある情報を抽出することを目的としている。

 画像認識の中で最も基本的なタスクは画像に1つのラベルを割り当てる「分類」である(冒頭の図1 左上)。「分類」よりも一段階複雑なタスクとして、ピクセルの1つひとつにラベルを割り当てる「セマンティックセグメンテーション」(図1 右上)や物体を矩形領域で抽出する「物体検出」(図1 左下)がある。ただし、これらは画像の内容の完全な理解という観点からは不十分だと言えるだろう。セマンティックセグメンテーションは物体が重なっているときにそれぞれを区別することができないし、物体検出は物体を矩形領域で抽出するので正確な形状を捉えることができないからだ。

 これらを統合したより高度な画像認識が、「インスタンスセグメンテーション」というタスクである(図1 右下)。インスタンスセグメンテーションはそれぞれの物体を区別しつつ、物体がある領域をピクセル単位で分割するというタスクである。物体の形状をさらに正確に捉えるので人間の画像認識により近づいていると言うことができるだろう。

 インスタンスセグメンテーションのデファクトスタンダードとなる手法は“Mask R-CNN”という米Facebook AI Research所属のKaiming Heらが提案した手法である(余談ではあるが、画像分類タスクで人間の能力を初めて上回ったといわれるResNetも彼らの研究グループの発表によるものである)。

有料会員になると全記事をお読みいただけるのはもちろん
  • ①2000以上の先進事例を探せるデータベース
  • ②未来の出来事を把握し消費を予測「未来消費カレンダー」
  • ③日経トレンディ、日経デザイン最新号もデジタルで読める
  • ④スキルアップに役立つ最新動画セミナー
ほか、使えるサービスが盛りだくさんです。<有料会員の詳細はこちら>