過学習を防ぎ、AIの精度を高める上で欠かせないData Augmentation(DA)。近年では様々なタスクに対するDAが研究されているが、メジャーなタスクである動画認識が近年までDAの研究対象としてほとんど注目されていなかったのは驚くべきことだ。今回は、そのような中で登場した動画分類向けDA手法「VideoMix」を紹介する。画像分類において有効なDAとして知られる「CutMix」に、動画に特有の要素である「時間軸」を盛り込むことで誕生した、新たな動画向けDA手法は注目だ。

 今日の深層学習において欠かすことのできない要素の一つであるData Augmentation(DA)。DAは学習に用いるデータに様々な加工を加えることで実質的なデータ量を増加させ、大量の学習データを必要とする深層学習の精度を向上させるという技術であり、日本語では「データ拡張」と呼ばれている。DAそのものは深層学習を学んだ経験のあるほとんどの方が聞いたことのある技術であると思われるが、実はこのDA、最先端の研究においても注目の対象となっていることをご存じだろうか?

画像分類におけるData Augmentation

 本記事ではDAの中でも「動画分類」に向けたDA手法の研究であるVideoMix(i)について説明するが、その前にVideoMixを理解する上で重要となる「画像分類」におけるDAについて解説する。というのも動画は「画像を時間軸方向に並べたもの」として扱われるのが一般的であり、動画分類は画像分類の上に成り立つタスクと考えることができるからである。

(図1)近年提案された画像認識におけるData Augmentation手法の例。左端の元データに対し、別クラスの画像を重ね合わせるMixup、一部を欠損させるCutout、欠損させた部分に他クラスの画像を埋め込むCutMixなどが提案され、有効性が確認されている(ii)
(図1)近年提案された画像認識におけるData Augmentation手法の例。左端の元データに対し、別クラスの画像を重ね合わせるMixup、一部を欠損させるCutout、欠損させた部分に他クラスの画像を埋め込むCutMixなどが提案され、有効性が確認されている(ii)

 まず、画像分類における一般的なDAの考え方は、「画像の本質情報」を変化させない変換を学習に用いる画像に加えることでデータを増やすということである。例えば、猫の画像を左右反転させたとしても猫であることには変わりがないといった具合だ。左右反転以外にも、回転、明るさ変化、水平移動、拡大縮小、ノイズ付与など、様々な変換が用いられ、精度の向上に貢献している。それに加え、近年では図1に示すような、異なるクラスの画像を重ね合わせクラスラベルも平均化する「Mixup」、画像の一部を欠損させる「Cutout」、さらに欠損させた部分に他のクラスの画像を埋め込み、面積に比例した正解ラベルを付与する「CutMix」(ii)といったDA手法が提案・考察され、その有効性が確認されている。

この記事は会員限定(無料)です。

有料会員になると全記事をお読みいただけるのはもちろん
  • ①2000以上の先進事例を探せるデータベース
  • ②未来の出来事を把握し消費を予測「未来消費カレンダー」
  • ③日経トレンディ、日経デザイン最新号もデジタルで読める
  • ④スキルアップに役立つ最新動画セミナー
ほか、使えるサービスが盛りだくさんです。<有料会員の詳細はこちら>
2
この記事をいいね!する