Artificial Intelligence

敵対的生成ネットワークによる運転シミュレーションのフォトリアリズムの向上

更新中 on 2022 年 12 月 9 日

米国と中国の間の新しい研究イニシアチブでは、運転シミュレーターの現実性を高めるために敵対的生成ネットワーク (GAN) を使用することが提案されています。

フォトリアリスティックな POV 運転シナリオを作成するという新たな挑戦において、研究者らは、CycleGAN ベースのシステムのよりフォトリアリスティックな出力と、より従来的に生成された要素を混合することにより、さまざまなアプローチの長所を活かすハイブリッド手法を開発しました。道路標識やドライバーの視点から観察される実際の車両など、より詳細なレベルと一貫性が向上します。

ハイブリッドジェネレーティブニューラルグラフィックス (HGNG) は、重要な要素 (道路標識や車両など) の 3D モデルの精度を維持しながら、興味深い非反復的な背景とアンビエントを生成するという GAN の長所を活かしたドライビングシミュレーションの新しい方向性を提供します。詳細。ソース

ハイブリッドジェネレーティブニューラルグラフィックス (HGNG) は、重要な要素 (道路標識や車両など) の 3D モデルの精度を維持しながら、興味深い非反復的な背景とアンビエントの生成において GAN の長所を発揮する、ドライビングシミュレーションの新しい方向性を提供します。詳細。ソース

ハイブリッドジェネレーティブニューラルグラフィックス (HGNG) と呼ばれるこのシステムは、従来の CGI ベースの運転シミュレーターからの高度に制限された出力を GAN パイプラインに注入します。スペードフレームワークは環境生成の作業を引き継ぎます。

著者らによれば、その利点は、運転環境が潜在的により多様になり、より没入型の体験が生み出されることだという。このままでも、変換 CGI 出力からフォトリアルニューラルレンダリング出力への反復の問題は解決できません。これは、ニューラルパイプラインに入る元の映像がモデル環境の制限と、テクスチャとメッシュを繰り返す傾向によって制約されるためです。

出典: https://www.youtube.com/watch?v=0fhUJT21-bs

2021 年の映像を変換紙「フォトリアリズムの強化」は、背景や一般的な周囲の詳細を含む CGI でレンダリングされた映像に依存したままであり、シミュレートされたエクスペリエンスにおける環境の多様性を制限します。出典: https://www.youtube.com/watch?v=P1IcaBn3ej0

論文には次のように書かれています*:

従来のドライビングシミュレータの忠実度は、3D モデル、テクスチャ、レンダリングエンジンで構成されるコンピュータグラフィックスパイプラインの品質に依存します。高品質の 3D モデルとテクスチャには職人の技が必要ですが、レンダリングエンジンは現実的な表現のために複雑な物理計算を実行する必要があります。ライティングとシェーディング.'

　新しい紙というタイトルです ドライビングシミュレーションにおけるフォトリアリズム: 敵対的生成画像合成とレンダリングのブレンドこの研究者は、オハイオ州立大学の電気・コンピュータ工学部と中国重慶の重慶長安汽車有限公司の研究者から来ています。

背景素材

HGNG は、部分的にレンダリングされた前景マテリアルと GAN で生成された環境を混合することにより、入力 CGI で生成されたシーンのセマンティックレイアウトを変換します。研究者らはモデルをトレーニングするためにさまざまなデータセットを実験しましたが、最も効果的であることが判明しました。キティ Vision Benchmark Suite は、主にドイツのカールスルーエの町でのドライバーの POV 素材のキャプチャを特徴としています。

HGNG は、CGI でレンダリングされた出力からセマンティックセグメンテーションレイアウトを生成し、さまざまなスタイルエンコーディングを使用して SPADE を挿入して、都市シーンの近くのオブジェクトを含む、ランダムで多様なフォトリアリスティックな背景画像を作成します。新しい論文では、リソースに制約のある CGI パイプラインによくある反復パターンが、シミュレーターを使用する人間のドライバーの「没入感を妨げる」ものであり、GAN が提供できるより多彩な背景によってこの問題が軽減される可能性があると述べています。

研究者たちは両方を実験しました条件付き GAN (cGAN) とサイクガン (CyGAN) を生成ネットワークとして使用し、最終的にはそれぞれに長所と短所があることがわかりました。cGAN には次の要件が必要です。ペアになったデータセット、CyGANはそうではありません。ただし、CyGAN は現時点では従来のシミュレータの最先端のパフォーマンスを超えることはできず、さらなる改善が待たれます。ドメイン適応そしてサイクルの一貫性。したがって、追加のペアデータ要件を備えた cGAN は、現時点で最良の結果を取得します。

HGNG の概念アーキテクチャ。

HGNG ニューラルグラフィックスパイプラインでは、CGI 合成シーンから 2D 表現が形成されます。 CGI レンダリングから GAN フローに渡されるオブジェクトは、道路標示や車両などの「必須」要素に限定されていますが、現時点では GAN 自体がドライビングシミュレータに適切な時間的一貫性と完全性を持ってレンダリングすることができません。 cGAN で合成された画像は、部分的な物理ベースのレンダリングとブレンドされます。

テスト

システムをテストするために、研究者らは SPADE を使用し、次のトレーニングを受けました。街並み、シーンのセマンティックレイアウトをフォトリアリスティックな出力に変換します。 CGI ソースはオープンソースのドライビングシミュレーターから取得しました CARLA、Unreal Engine 4 (UE4) を活用します。

オープンソースドライビングシミュレーター CARLA からの出力。 出典：https://arxiv.org/pdf/1711.03938.pdf

UE4 のシェーディングおよびライティングエンジンは、セマンティックレイアウトと部分的にレンダリングされたイメージを提供し、車両と車線区分線のみを出力しました。ブレンドは、 GP-GAN でトレーニングされたインスタンス一時的な属性データベース、すべての実験は NVIDIA 上で実行されます。 RTX 2080 8 GBのGDDR6 VRAMを搭載。

SIGGRAPH 2014 - 屋外シーンの高レベルの理解と編集のための一時属性

SIGGRAPH 2014 - Transient Attributes for High-Level Understanding and Editing of Outdoor Scenes

Watch this video on YouTube

研究者らは次のことをテストした 意味保持 – シーンのテンプレートとして意図された初期セマンティックセグメンテーションマスクに対応する出力画像の機能。

上のテストイメージでは、「レンダリングのみ」イメージ (左下) では、完全なレンダリングでは妥当なシャドウが得られないことがわかります。研究者らは、ここ（黄色の円）で歩道に落ちた木の影が誤って分類されたことに注目しています。 DeepLabV3 （これらの実験に使用されたセマンティックセグメンテーションフレームワーク）を「道路」コンテンツとして。

中央のカラムフローでは、cGAN で作成された車両には、運転シミュレーターで使用できるほど十分な一貫した定義がないことがわかります (赤い円)。一番右の列のフローでは、ブレンドされた画像は元のセマンティック定義に準拠しながら、重要な CGI ベースの要素を保持しています。

リアリズムを評価するために、研究者たちは次のことを使用しました。フレシェ開始距離 (FID) は、ペアになったデータまたはペアになっていないデータを操作できるため、パフォーマンスメトリックとして使用されます。

XNUMX つのデータセットがグラウンドトゥルースとして使用されました: Cityscapes、KITTI、 ADE20K.

出力画像は、FID スコアを使用して相互に比較され、物理ベース (つまり CGI) パイプラインに対して比較され、セマンティック保持も評価されました。

セマンティック保持に関する上記の結果では、スコアが高いほど優れており、CGAN ピラミッドベースのアプローチ (研究者によってテストされたいくつかのパイプラインの XNUMX つ) のスコアが最高でした。

すぐ上の写真の結果は FID スコアに関するもので、KITTI データセットの使用による HGNG スコアが最も高くなっています。

「レンダリングのみ」メソッド (次のように表記) 【23]) は、フォトリアリスティックであることが期待されていない CGI フローである CARLA からの出力に関係します。

従来のレンダリングエンジンでの定性的な結果 (真上の画像の「c」) では、樹木や植生などの非現実的な遠くの背景情報が表示されますが、詳細なモデルやジャストインタイムのメッシュ読み込み、その他のプロセッサ集中型の手順が必要です。中央 (b) では、cGAN が重要な要素、車、道路標示の適切な定義を取得できていないことがわかります。提案された混合出力 (a) では、車両と道路の定義は良好ですが、周囲環境は多様で写真のようにリアルです。

この論文は、大規模な都市データセットを使用することで、レンダリングパイプラインの GAN 生成セクションの時間的一貫性を向上させることができ、将来的にはこの方向の研究が、コストのかかる CGI ベースのニューラル変換に代わる真の代替手段を提供できる可能性があることを示唆して締めくくっています。よりリアルで多様性のあるストリームを提供します。

* 著者のインライン引用をハイパーリンクに変換しました。

初版は23年2022月XNUMX日。