近年、深層学習を活用したアプリケーションが企業から提供されるようになった。例えば自分の声でスマートフォンを操作したり、撮った写真の色合いをを自動で加工したりできる。これらの裏側ではAI(人工知能)の技術が使われている。米アドビや米エヌビディアがAIを用いた新機能をお披露目して見る人を毎回驚かせている。
最新AIの活用例の一つが、エヌビディアの「GauGAN」だ(i)。ペイントソフトのようなインターフェースで、手描きでそこに何があるかを描き込んで指定するだけで、条件に合う写真のような画像が数秒程度で生成される。建築デザイナーが建築物や周囲のイメージを画像化する際や、AI研究者が自動運転システムの学習のために特殊な入力画像を作る際に活用するなど、広い可能性を秘めているとされる。一般人でも、もし画像編集ソフトに搭載されたら延々と遊んでしまいそうだ。
GauGANを理解するための2つの視点
GauGANは、どのような仕組みで成り立っているのだろうか。高性能なサーバーを使って大量のデータを学習させるのは必要条件にはなるが、それだけではうまくいかない。他の研究やアプリケーションと同様、これまでの深層学習の研究の積み重ねをベースにして成り立っている。本記事ではベースとなっている研究を大きく2つに分け、それぞれの領域について歴史や概要に触れていきたいと思う。
そのうちの一つの研究は画像変換である。これはいわゆる画像生成手法の一種だと捉えられる。もう一つは正規化層で、数々の深層学習を成功に導いた立役者の一つだ。現在、多くの研究で当然のように用いられている技術だ。
このコンテンツ・機能は有料会員限定です。