複数の視点の画像から、新たな視点の画像を合成して作り出す「Novel View Synthesis」というタスクがある。VRやスポーツの自由視点映像などには不可欠な技術だ。この領域で驚異的な性能を発揮したのが「NeRF」(ナーフ)。果たしてどんなアルゴリズムで、美しい合成画像を作り出せるのか。世界中の研究者や技術者に衝撃を与えたその技術を、論文からひもといていく。
まずは下の3枚の画像を見ていただきたい(図1)。左の2枚の写真を基に、一番右の画像のような新たな視点の画像を生成する技術を、今回は紹介していく。コンピュータービジョン分野やコンピューターグラフィックス分野の主要な研究課題の1つであり、応用先にはVR(仮想現実)やスポーツの自由視点映像など、様々な分野が挙げられる。
これは「Novel View Synthesis」という、複数の視点の画像を手がかりに新たな視点の画像を合成する技術だ(本記事で紹介する研究では、実際は2枚ではなく数十枚から数百枚必要になる)。本記事では、このNovel View Synthesisのタスクで圧倒的なパフォーマンスを発揮した手法を提案した"NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis"[1] という論文を紹介する。なお、本論文は2020年8月に開催された 16th European Conference on Computer Vision (ECCV) においてBest Paper Honorable Mentionを受賞した。
ちなみに、「世界モデル 世界の構造を理解して予測・想像するAI」で紹介したGQN(Generative Query Network)は、モデルの学習をNovel View Synthesisのタスクを通じて行っている。
このNovel View Synthesisで驚異的な性能を達成したのが、本記事で紹介する「NeRF」という手法である。NeRFは合成する画像の圧倒的な美しさもさることながら、アルゴリズムもこれまでの研究とは全く異なる独創的なものになっており、非常に見どころの多い研究である。本記事ではその面白さを少しでも伝えることができればうれしい限りである。
ニューラルネットワークでシーンを「場」として表現する
アルゴリズムを説明する前に、まずはNeRFによるNovel View Synthesisの結果をご覧いただきたい。次のURLのYouTube動画の2分12秒あたりから、NeRFを用いて現実のシーンにおける様々な視点の画像を合成した結果を確認することができる。高精細な画像を合成できていることに加え、視点の変化に伴う金属面等の光の反射具合の変化や、ガラス等の透明な物体の後ろの景色の見え方の変化なども、現実に近い形で再現できていることが見て取れる。これほどまでに写実的に画像を合成できる手法は当時存在せず、この映像は非常にインパクトの大きいものであった。
この記事は会員限定(無料)です。