「バックパックを背負って自転車に乗る柴犬(しばいぬ)」「パン生地を練る幸せそうなパンダ」など、AI(人工知能)に描かせた写真のような画像がネットで話題になっている。条件文を入れれば、現実に存在しないような画像も生成できてしまう「Text-to-Imageモデル」の最新状況について解説する。

 最近、文章(英文)から高画質な画像を生成するText-to-ImageモデルがTwitterなどで話題になっており、実際に数々の生成結果が公開されている。このようなモデルを用いると条件文に合った、まるで写真のような高画質な画像を生成できるが、面白いのが、現実に存在しない条件を入力してもそれらしい画像を生成できるという点だ。適切な条件文さえ入れればファンタジーのような画像も生成できることから、この技術は創作支援にも使えるのではないかと、その創造性も注目され、創作者側はどのような条件文を与えれば面白い結果を得られるかを考え出す段階に入っている。このような文章から画像を生成する深層学習モデルの研究は以前から行われていたが、数年の時を経て、単に面白いだけでなく、ついに実用に耐えうるレベルになりつつあるといえよう。

条件文とそれをもとにImagenで生成した画像の例。出典(i)
条件文とそれをもとにImagenで生成した画像の例。出典(i)

 このようなText-to-Imageモデルは1種類だけではなく、複数の異なるモデルが近年立て続けに発表されている。例えば、Open AIの公開した「DALL・E2」や、Googleの公開した「Parti」などが挙げられる。実は、これらのモデルは内部の構造や下地とするモデルが大きく異なっている。今回の記事だけではすべてのモデルを紹介できないが、その中でも今回はGoogleが公開したImagenについて概要を解説し、比較しながら他のモデルにも簡単に触れたい。

拡散モデルとは何か

 Imagenでは生成モデルの一種である拡散モデル(Diffusion Models)が用いられている。これは、DALL・Eなどでも用いられている「VAE(Variational Autoencoder; 変分オートエンコーダー)」や「GAN(Generative Adversarial Network; 敵対的生成ネットワーク)」「Flow(フローベースモデル)」とも異なる生成モデルだ。画像以外のさまざまなドメインのタスクでもSOTAを出し始めていることから、近年注目が高まりつつある。

 ここでの拡散モデルとは、「DDPM(Denoising diffusion probabilistic models:ノイズ除去拡散確率モデル)」を指す。熱力学から発想を得た生成モデルの一種である。

 DDPMでは、まず、マルコフ連鎖を用いて元画像データにガウシアンノイズ(正規分布ノイズ)を付与していく順拡散過程(Forward diffusion process)がある。この過程を重ねるにつれて、もともとの特徴が失われていき、これを無限回繰り返していくと、ガウシアンノイズそのものになっていく。次に、その過程を逆にして、ノイズを除去しながら元のデータを復元しようとする逆拡散過程(Backward diffusion process)を学習する。これはガウス分布からガウシアンノイズを取り除き、複雑な分布を生成する過程であるともいえる。このノイズを除去するプロセスが学習できれば、最終的には、ガウシアンノイズから元データのような画像を生成できるようになる。また、拡散モデルは、画像の生成だけではなく、欠損補完、着色、高解像度化などの異なるタスクにも対応できる。

順拡散過程と逆拡散過程を示したグラフィカルモデル。出典(ii)
順拡散過程と逆拡散過程を示したグラフィカルモデル。出典(ii)

 拡散モデルはVAEやGANとは異なる特徴があることがNVIDIAの研究で提唱されている。彼らの示した生成モデルのトリレンマの図によると、拡散モデルは高画質や生成結果の多様性の面で有効性が示されていることに対し、その欠点としてサンプリングに非常に時間を要する点を挙げている。これまでよく使われてきた生成モデルであるVAEやGANと比べて、学習コストの高さや必要なマシンリソースが大きくなるという点は、個人レベルでの使用には大きな欠点である。ただ、生成過程の高速化のための研究が現在盛んに進められていることや、計算マシンがより高性能になっていくことによって、実用的になりつつある。数年以内にVAEやGANのような定番手法になっていく可能性が秘められているといえよう。

生成モデルのトリレンマ。生成モデルは実世界の問題に対応するために「高品質なサンプル(High Quality Samples)」「高速なサンプリング(Fast Sampling)」「モードカバレッジとサンプルの多様性(Mode Coverage/Diversity)」のすべてを満たしていることが望ましいが、GANやVAE、Flow、拡散モデルのいずれも3つすべてを満たすことはできていない。出典(iii)
生成モデルのトリレンマ。生成モデルは実世界の問題に対応するために「高品質なサンプル(High Quality Samples)」「高速なサンプリング(Fast Sampling)」「モードカバレッジとサンプルの多様性(Mode Coverage/Diversity)」のすべてを満たしていることが望ましいが、GANやVAE、Flow、拡散モデルのいずれも3つすべてを満たすことはできていない。出典(iii)

この記事は会員限定(無料)です。

4
この記事をいいね!する