スタブ 敵対的生成ネットワークによる運転シミュレーションのフォトリアリズムの向上 - Unite.AI
私達と接続

Artificial Intelligence

敵対的生成ネットワークによる運転シミュレーションのフォトリアリズムの向上

mm
更新中 on

米国と中国の間の新しい研究イニシアチブでは、運転シミュレーターの現実性を高めるために敵対的生成ネットワーク (GAN) を使用することが提案されています。

フォトリアリスティックな POV 運転シナリオを作成するという新たな挑戦において、研究者らは、CycleGAN ベースのシステムのよりフォトリアリスティックな出力と、より従来的に生成された要素を混合することにより、さまざまなアプローチの長所を活かすハイブリッド手法を開発しました。道路標識やドライバーの視点から観察される実際の車両など、より詳細なレベルと一貫性が向上します。

ハイブリッド ジェネレーティブ ニューラル グラフィックス (HGNG) は、重要な要素 (道路標識や車両など) の 3D モデルの精度を維持しながら、興味深い非反復的な背景とアンビエントを生成するという GAN の長所を活かしたドライビング シミュレーションの新しい方向性を提供します。詳細。 ソース

ハイブリッド ジェネレーティブ ニューラル グラフィックス (HGNG) は、重要な要素 (道路標識や車両など) の 3D モデルの精度を維持しながら、興味深い非反復的な背景とアンビエントの生成において GAN の長所を発揮する、ドライビング シミュレーションの新しい方向性を提供します。詳細。 ソース

ハイブリッド ジェネレーティブ ニューラル グラフィックス (HGNG) と呼ばれるこのシステムは、従来の CGI ベースの運転シミュレーターからの高度に制限された出力を GAN パイプラインに注入します。 スペード フレームワークは環境生成の作業を引き継ぎます。

著者らによれば、その利点は、運転環境が潜在的により多様になり、より没入型の体験が生み出されることだという。 このままでも、 変換 CGI 出力からフォトリアル ニューラル レンダリング出力への反復の問題は解決できません。これは、ニューラル パイプラインに入る元の映像がモデル環境の制限と、テクスチャとメッシュを繰り返す傾向によって制約されるためです。

出典: https://www.youtube.com/watch?v=0fhUJT21-bs

2021 年の映像を変換 「フォトリアリズムの強化」は、背景や一般的な周囲の詳細を含む CGI でレンダリングされた映像に依存したままであり、シミュレートされたエクスペリエンスにおける環境の多様性を制限します。 出典: https://www.youtube.com/watch?v=P1IcaBn3ej0

論文には次のように書かれています*:

従来のドライビング シミュレータの忠実度は、3D モデル、テクスチャ、レンダリング エンジンで構成されるコンピュータ グラフィックス パイプラインの品質に依存します。 高品質の 3D モデルとテクスチャには職人の技が必要ですが、レンダリング エンジンは現実的な表現のために複雑な物理計算を実行する必要があります。 ライティングとシェーディング.'

  新しい紙 というタイトルです ドライビング シミュレーションにおけるフォトリアリズム: 敵対的生成画像合成とレンダリングのブレンドこの研究者は、オハイオ州立大学の電気・コンピュータ工学部と中国重慶の重慶長安汽車有限公司の研究者から来ています。

背景素材

HGNG は、部分的にレンダリングされた前景マテリアルと GAN で生成された環境を混合することにより、入力 CGI で生成されたシーンのセマンティック レイアウトを変換します。 研究者らはモデルをトレーニングするためにさまざまなデータセットを実験しましたが、最も効果的であることが判明しました。 キティ Vision Benchmark Suite は、主にドイツのカールスルーエの町でのドライバーの POV 素材のキャプチャを特徴としています。

HGNG は、CGI でレンダリングされた出力からセマンティック セグメンテーション レイアウトを生成し、さまざまなスタイル エンコーディングを使用して SPADE を挿入して、都市シーンの近くのオブジェクトを含む、ランダムで多様なフォトリアリスティックな背景画像を作成します。 新しい論文では、リソースに制約のある CGI パイプラインによくある反復パターンが、シミュレーターを使用する人間のドライバーの「没入感を妨げる」ものであり、GAN が提供できるより多彩な背景によってこの問題が軽減されると述べています。

HGNG は、CGI でレンダリングされた出力からセマンティック セグメンテーション レイアウトを生成し、さまざまなスタイル エンコーディングを使用して SPADE を挿入して、都市シーンの近くのオブジェクトを含む、ランダムで多様なフォトリアリスティックな背景画像を作成します。 新しい論文では、リソースに制約のある CGI パイプラインによくある反復パターンが、シミュレーターを使用する人間のドライバーの「没入感を妨げる」ものであり、GAN が提供できるより多彩な背景によってこの問題が軽減される可能性があると述べています。

研究者たちは両方を実験しました  条件付き GAN (cGAN) と サイクガン (CyGAN) を生成ネットワークとして使用し、最終的にはそれぞれに長所と短所があることがわかりました。cGAN には次の要件が必要です。 ペアになったデータセット、CyGANはそうではありません。 ただし、CyGAN は現時点では従来のシミュレータの最先端のパフォーマンスを超えることはできず、さらなる改善が待たれます。 ドメイン適応 そしてサイクルの一貫性。 したがって、追加のペアデータ要件を備えた cGAN は、現時点で最良の結果を取得します。

HGNG の概念アーキテクチャ。

HGNG の概念アーキテクチャ。

HGNG ニューラル グラフィックス パイプラインでは、CGI 合成シーンから 2D 表現が形成されます。 CGI レンダリングから GAN フローに渡されるオブジェクトは、道路標示や車両などの「必須」要素に限定されていますが、現時点では GAN 自体がドライビング シミュレータに適切な時間的一貫性と完全性を持ってレンダリングすることができません。 cGAN で合成された画像は、部分的な物理ベースのレンダリングとブレンドされます。

テスト

システムをテストするために、研究者らは SPADE を使用し、次のトレーニングを受けました。 街並み、シーンのセマンティック レイアウトをフォトリアリスティックな出力に変換します。 CGI ソースはオープンソースのドライビング シミュレーターから取得しました CARLA、Unreal Engine 4 (UE4) を活用します。

オープンソース ドライビング シミュレーター CARLA からの出力。 出典: https://arxiv.org/pdf/1711.03938.pdf

オープンソース ドライビング シミュレーター CARLA からの出力。 出典:https://arxiv.org/pdf/1711.03938.pdf

UE4 のシェーディングおよびライティング エンジンは、セマンティック レイアウトと部分的にレンダリングされたイメージを提供し、車両と車線区分線のみを出力しました。 ブレンドは、 GP-GAN でトレーニングされたインスタンス 一時的な属性データベース、すべての実験は NVIDIA 上で実行されます。 RTX 2080 8 GBのGDDR6 VRAMを搭載。

SIGGRAPH 2014 - 屋外シーンの高レベルの理解と編集のための一時属性

研究者らは次のことをテストした 意味保持 – シーンのテンプレートとして意図された初期セマンティック セグメンテーション マスクに対応する出力画像の機能。

上のテスト イメージでは、「レンダリングのみ」イメージ (左下) では、完全なレンダリングでは妥当なシャドウが得られないことがわかります。 研究者らは、ここ(黄色の円)で歩道に落ちた木の影が誤って分類されたことに注目しています。 DeepLabV3 (これらの実験に使用されたセマンティック セグメンテーション フレームワーク)を「道路」コンテンツとして。

中央のカラムフローでは、cGAN で作成された車両には、運転シミュレーターで使用できるほど十分な一貫した定義がないことがわかります (赤い円)。 一番右の列のフローでは、ブレンドされた画像は元のセマンティック定義に準拠しながら、重要な CGI ベースの要素を保持しています。

リアリズムを評価するために、研究者たちは次のことを使用しました。 フレシェ開始距離 (FID) は、ペアになったデータまたはペアになっていないデータを操作できるため、パフォーマンス メトリックとして使用されます。

XNUMX つのデータセットがグラウンド トゥルースとして使用されました: Cityscapes、KITTI、 ADE20K.

出力画像は、FID スコアを使用して相互に比較され、物理ベース (つまり CGI) パイプラインに対して比較され、セマンティック保持も評価されました。

セマンティック保持に関する上記の結果では、スコアが高いほど優れており、CGAN ピラミッドベースのアプローチ (研究者によってテストされたいくつかのパイプラインの XNUMX つ) のスコアが最高でした。

すぐ上の写真の結果は FID スコアに関するもので、KITTI データセットの使用による HGNG スコアが最も高くなっています。

「レンダリングのみ」メソッド (次のように表記) 【23]) は、フォトリアリスティックであることが期待されていない CGI フローである CARLA からの出力に関係します。

従来のレンダリング エンジンでの定性的な結果 (真上の画像の「c」) では、樹木や植生などの非現実的な遠くの背景情報が表示されますが、詳細なモデルやジャストインタイムのメッシュ読み込み、その他のプロセッサ集中型の手順が必要です。 中央 (b) では、cGAN が重要な要素、車、道路標示の適切な定義を取得できていないことがわかります。 提案された混合出力 (a) では、車両と道路の定義は良好ですが、周囲環境は多様で写真のようにリアルです。

この論文は、大規模な都市データセットを使用することで、レンダリング パイプラインの GAN 生成セクションの時間的一貫性を向上させることができ、将来的にはこの方向の研究が、コストのかかる CGI ベースのニューラル変換に代わる真の代替手段を提供できる可能性があることを示唆して締めくくっています。よりリアルで多様性のあるストリームを提供します。

 

* 著者のインライン引用をハイパーリンクに変換しました。

初版は23年2022月XNUMX日。