本物と見分けのつかないリアルな画像を生成できることで注目を集めるGenerative Adversarial Network(GAN)の計算コストの削減を図った「Lightweight GAN」について紹介する。莫大な学習コストのために一個人では学習が困難であった従来のGANに対して、Lightweight GANはGPU1枚かつ1日未満というお手軽な学習が可能だ。さらに学習に必要なデータも従来モデルと比較して大幅に少なく、GANの低リソース化は今後の応用、発展を推進するに違いない。

 まずはこの6人の“写真”を見ていただきたい。彼ら、彼女らは、実はこの世に存在しないAIによって「つくられた」人々だと言ったら、皆さんは驚かれるだろうか。

図1:最新のGANであるStyleGAN2 [T. Karras+ 2019]による生成画像。本物と見分けがつかないクオリティーかつ高画質の画像の生成が可能である一方、このような生成器の学習には莫大な計算コストを要する(出典:[1])
図1:最新のGANであるStyleGAN2 [T. Karras+ 2019]による生成画像。本物と見分けがつかないクオリティーかつ高画質の画像の生成が可能である一方、このような生成器の学習には莫大な計算コストを要する(出典:[1])
[画像のクリックで拡大表示]

 深層学習の発展によって可能になったことは数多く存在するが、その中で大きな注目を集めている分野の一つが「生成モデル」である。生成モデルは画像分類や機械翻訳等の「入力されたデータに対して出力を返す」タイプのAIとは異なり、「データそのものを作り出す」ことができるAIである。生成モデルには幾つかの代表的な種類が存在し、その中でも本記事では「敵対的生成ネットワーク」、もしくは「Generative Adversarial Network(GAN)」と呼ばれる生成モデルの学習コスト削減を目指した「Lightweight GAN」を紹介する。

GANが抱える弱点

 GANはGenerator(生成器)とDiscriminator(識別器)の2つの深層ニューラルネットワークによって構成されるモデルであり、「敵対的学習」と呼ばれる手法によって学習が行われる。敵対的学習では、生成器がデータを生成し、識別器が「そのデータは生成されたデータなのか、もともと存在したデータなのか」を判定する。生成器は識別器を欺こうと学習し、識別器はより正確に識別しようと学習する。

 このような学習を経ることで、生成器は本物のデータに類似したデータを生成することが可能となる。GANは2014年にIan J. Goodfellowらにより提案されて以来、数多くの研究が行われ、現在では画像認識において、冒頭の画像(図1)のように本物と見分けがつかないレベルでの生成が可能となっている。

 一方で、このようなGANの学習には非常に莫大な計算コストがかかるという弱点がある。GANに限らず一般的に深層学習では、高速に計算を行うために(パソコンでゲームをする方にはおなじみの)GPUという演算装置を用いる。図1の画像を生成したGANの学習にももちろんGPUが用いられているが、「Tesla V100」という現在の価格で120万円以上の高性能なGPUを8枚用い、さらにこのようなGPUを用いて10日程度の学習時間を必要とする。このような莫大な計算を実行するのは、個人はもちろん大学の研究室をもってしても容易ではない。したがって我々一般人が従来のGANの学習を行い、高いクオリティーの画像生成器を得ることは事実上不可能に近い(なお、図1のGANの研究を行ったのはGPUシェア世界1位のNVIDIA社である)。

「Lightweight GAN」による計算コスト削減

 このような問題に対して、今回紹介する論文「Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis」 [Bingchen Liu+ 2021]では、「Lightweight GAN」と呼ばれるGANモデルを提案している。このLightweight GANは学習に従来モデルのような莫大な計算コストを必要とせず、一般的なGPU1枚で1日以内での学習が可能である。このレベルの計算量ならば、個人で学習を行うことも十分可能と考えられる。

 ではなぜ、Lightweight GANは低計算コストでの学習が可能なのだろうか。

この記事は会員限定(無料)です。