自由視点画像生成アルゴリズム「NeRF(Neural Radiance Field)」(ナーフ)。近年、非常に注目を集めているが、課題の一つが学習に非常に時間がかかるという点だ。解決策としてGoogle DeepMindから提案されたのが「NeRF-VAE」である。

Neural Radiance Fieldの登場

 近年、「Neural Radiance Field (NeRF)」と呼ばれる技術が3Dコンピュータービジョンの領域で非常に注目を集めている。NeRFとは、一言でいうと、深層ニューラルネットワーク(DNN)を用いて3Dシーンを表現する技術である。構造は非常にシンプルで、まず3次元空間上の座標とその点をどの向きから見るか(視線方向)を入力として、その点の色(RGB)と密度(どのくらい光を通すか)を出力するDNNを用意する。このDNNを用いると、あるシーンを任意の視点から見たときの画像をレンダリングすることができる。学習は、実際の3Dシーンで得られた実画像とDNNでレンダリングした画像との誤差を測って最小化する形で行われる。NeRFの詳しい詳細については、第18回の記事を参照されたい。

 複数の視点からの画像を手がかりに、新たな別の視点の画像を合成する技術は「Novel View Synthesis」と呼ばれ、様々な応用が期待されている。例えば、スポーツ観戦において、スタジアムを様々な角度から撮った映像をもとに、別の視点からの映像を合成できるようになれば、スタジアム中を自由に移動しながら観戦しているような体験を疑似的に作り出すことができる。

 従来、3Dシーンを表現する方法としては、「ボクセル」や「点群」などがあったが、これらの方法ではシーンの細かい特徴を十分に捉えることができなかった。例えば、ボクセルのようなグリッド状の3次元表現では、グリッドを非常に細かくしない限り、レンダリング結果にギザギザとした形が残ってしまう。一方で、NeRFのようなDNNを用いた表現は、複雑なシーンを非常に高精細にレンダリングできるため、3D表現として画期的であった。

NeRFによるレンダリングのイメージ
NeRFによるレンダリングのイメージ
[画像のクリックで拡大表示]

NeRFの課題

 新しい3Dシーンの表現方法として注目を集めるNeRFだが、一方で課題も多く存在する。1つは学習に非常に時間がかかるという点だ。NeRFでは、1つのシーンを学習するのに(計算機環境にもよるが)1~2日かかることも多い。また、1つのDNNで表現できるのは学習したシーン1つのみなので、新しく別のシーンの表現を得るためには全く別のもう1つのDNNを用意して、再び長い時間をかけて学習する必要がある。これは明らかに非効率的だ。解決する方法はいくつか提案されているが、生成モデルに基づくアプローチとしてGoogle DeepMindから提案されたのが、この後に紹介するNeRF-VAEである。

この記事は会員限定(無料)です。