人工知能

ニューラルレンダリング：入力はどこまで低減できるか？

Published May 13, 2021

Updated March 21, 2026

Martin Anderson

昨日、ニューラル画像合成における驚くべき新たな研究がインターネットの注目と想像を集めた。インテルの研究者が、合成画像のリアリズムを高める新手法を発表したのだ。このシステムは、インテルが公開した動画で実演されているように、『Grand Theft Auto V』ビデオゲームの画像パイプラインに直接介入し、Mapillaryデータセットの実世界画像を用いて畳み込みニューラルネットワーク（CNN）で訓練された画像合成アルゴリズムを通じて画像を自動的に強化し、GTAゲームエンジンのリアリティに欠ける照明とテクスチャを置き換える。 RedditやHacker Newsなどのコミュニティで様々な反応を示したコメンテーターたちは、この種のニューラルレンダリングが従来のゲームエンジンやVFXレベルのCGIの写実性に劣る出力を効果的に置き換えられるだけでなく、このプロセスがインテルのGTA5デモで示されたものよりもはるかに基本的な入力で達成可能かもしれないと推測している。つまり、非常にリアルな出力を生み出す「操り人形」的なプロキシ入力を実質的に作成できるというのだ。

ペアデータセット

この原理は、過去3年間でNVIDIAのGauGANのような、新世代のGANやエンコーダー/デコーダーシステムによって例示されてきた。GauGANは、粗い落書きから写実的な風景画像を生成する。この原理は実質的に、コンピュータビジョンにおけるセマンティックセグメンテーションの従来の用途を逆転させる。つまり、機械システムが観測対象を識別・分離するための受動的な方法から、ユーザーが疑似セマンティックセグメンテーションマップを「描き」、システムが風景などの特定領域を既に分類・セグメント化したことで理解した関係性に基づいて一貫性のある画像を生成する、創造的な入力へと変えるのである。

機械学習フレームワークが様々な外部シーンにセマンティックセグメンテーションを適用し、ユーザーがセマンティックセグメンテーションブロックを描画し、システムがインテルのGTA5ニューラルレンダリングデモで使用されたドイツのMapillaryストリートビューセットなどのドメイン固有データセットから適切な画像でブロックを埋めるインタラクティブシステムの開発を可能にするアーキテクチャのパラダイムを提供する。出典: http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf

ペアデータセット画像合成システムは、2つのデータセット上のセマンティックラベルを関連付けて動作する。一方は、実世界画像（昨日のインテルデモでGTA5を強化するために使用されたMapillaryセットのように）から生成された、あるいはCGI画像のような合成画像から生成された、豊かで本格的な画像セットである。

不器用なスケッチからニューラルレンダリングされたキャラクターを作成するために設計された画像合成システムのためのペアデータセット例。左：CGIデータセットからのサンプル。中央：対応する「スケッチ」データセットからのサンプル。右：スケッチを高品質画像に変換したニューラルレンダリング結果。出典: この種のペアデータセット変換を作成する際、外部環境は比較的困難ではない。なぜなら、突起物は通常かなり限られており、地形の変化の範囲も限られており、データセットで包括的に捕捉でき、人工的な人物を作成したり不気味の谷を交渉したりする必要がないからだ（まだ）。

セグメンテーションマップの反転

Googleは、GauGANスキーマのアニメーション版であるInfinite Natureを開発した。これは、偽のセマンティックマップをNVIDIAのSPADE埋め込みシステムを通じて写実的な画像に変換することで、意図的に連続的で終わりのない架空の風景を「幻覚」させる能力を持つ。 [caption id="attachment_175556" align="alignnone" width="662"] 出典: 出典: しかし、Infinite Natureは単一の画像を出発点として使用し、SPADEは連続するフレームの欠落部分を埋めるためだけに使用する。一方、SPADE自体はセグメンテーションマップから直接画像変換を作成する。 [caption id="attachment_175557" align="alignnone" width="900"] 出典: https://nvlabs.github.io/SPADE/

この能力こそが、インテル画像強調システムの支持者たちの関心をかき立てたようだ。つまり、非常に粗い入力から、非常に高品質な写実的画像を（最終的には）リアルタイムでさえも導出できる可能性である。

ニューラルレンダリングによるテクスチャと照明の置き換え

GTA5の入力に関して、将来的なニューラルレンダリングシステムにおいて、ゲームエンジン出力からの計算コストの高いプロシージャルおよびビットマップテクスチャリングと照明が本当に必要になるのか、あるいは低解像度のワイヤーフレームレベルの入力を、ゲームエンジンのシェーディング、テクスチャリング、照明能力を上回る写実的なビデオに変換し、「プレースホルダー」プロキシ入力から超リアルなシーンを作り出すことが可能なのか、疑問に思う人もいる。反射、テクスチャ、その他の環境詳細などのゲーム生成要素は、インテルが実演したタイプのニューラルレンダリングシステムにとって不可欠な情報源であるように思えるかもしれない。しかし、NVIDIAのUNIT（教師なし画像間変換ネットワーク）が、重要なのはドメインのみであり、「夜か昼か」のような広範な側面さえも本質的にはスタイル転送によって処理される問題であることを実証してから数年が経っている。必要な入力という点では、これはゲームエンジンが基本的なジオメトリと物理シミュレーションを生成するだけで済む可能性を残している。なぜなら、ニューラルレンダリングエンジンは、セマンティックマップを解釈層として使用して、捕捉したデータセットから望ましい画像を合成することで、他のすべての側面を上塗りできるからだ。

インテルのシステムは、GTA5から完全に完成・レンダリングされたフレームを強化し、セグメンテーションと評価された深度マップを追加する。これら2つの側面は、切り詰められたゲームエンジンから直接供給される可能性がある。出典: インテルのニューラルレンダリングアプローチは、GTA5のバッファから完全にレンダリングされたフレームの分析を含み、ニューラルシステムは深度マップとセグメンテーションマップの両方を作成するという追加の負担を負っている。深度マップは従来の3Dパイプラインで暗黙的に利用可能であり（テクスチャリング、レイトレーシング、グローバルイルミネーションよりも生成負荷が低い）、ゲームエンジンにそれらを処理させる方がリソースのより良い使い方かもしれない。

ニューラルレンダリングエンジンのための切り詰められた入力

したがって、インテル画像強調ネットワークの現在の実装では、ゲームエンジンが計算コストの高いテクスチャリングと照明を生成するため、多くの冗長な計算サイクルが含まれている可能性がある。ニューラルレンダリングエンジンはそれを本当に必要としないからだ。このシステムがこのように設計されているのは、これが必ずしも最適なアプローチだからではなく、ニューラルレンダリングエンジンを既存のパイプラインに適合させる方が、ニューラルレンダリングアプローチに最適化された新しいゲームエンジンを作成するよりも簡単だからである。この性質のゲームシステムにおける最も経済的なリソースの使用法は、ニューラルレンダリングシステムによるGPUの完全な専有であり、切り詰められたプロキシ入力はCPUによって処理されることだろう。さらに、ゲームエンジンは、出力のすべてのシェーディングと照明をオフにすることで、代表的なセグメンテーションマップを容易に生成できる。加えて、ビデオは通常要求されるよりもはるかに低い解像度で供給できる。なぜなら、ビデオは内容を大まかに代表するだけでよく、高解像度の詳細はニューラルエンジンによって処理されるため、ローカルの計算リソースをさらに解放できるからだ。

Intel ISLのセグメンテーション＞画像に関する以前の研究

セグメンテーションから写実的なビデオへの直接変換は、仮定的なものからは程遠い。2017年、昨日の騒動の生みの親であるIntel ISLは、セマンティックセグメンテーションから直接都市ビデオ合成を実行できる初期の研究を発表した。 [caption id="attachment_175582" align="alignnone" width="1661"] Intel ISL - セグメンテーションから画像へ Intel ISLの2017年のセグメンテーションから画像への研究。 出典: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

実質的に、その2017年のオリジナルパイプラインは、GTA5の完全にレンダリングされた出力に適合するように拡張されたに過ぎない。

VFXにおけるニューラルレンダリング

人工的なセグメンテーションマップからのニューラルレンダリングは、VFXにとっても有望な技術のようだ。モデルまたは合成（CGI）画像から取得したドメイン固有のデータセットを生成することで、非常に基本的なビデオグラムを直接完成した視覚効果映像に変換する可能性がある。

仮説的なニューラルレンダリングシステム。各ターゲットオブジェクトの広範なカバレッジが寄与データセットに抽象化され、人工的に生成されたセグメンテーションマップがフル解像度の写実的出力の基礎として使用される。出典: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

このようなシステムの開発と採用は、芸術的努力の焦点を解釈的なワークフローから代表的なワークフローへと移行させ、ドメイン駆動型データ収集を視覚芸術における支援的役割から中心的役割へと引き上げるだろう。

記事は午後4時55分に更新され、Intel ISLの2017年の研究に関する資料が追加されました。