Connect with us

人工知能

AppleのHDR拡張現実環境は、Neural Renderingの反射を解決できるか?

mm

Appleは、長期にわたる拡張現実技術への投資を今年加速させ、新しい開発者ツールを実世界のオブジェクトをARの要素にキャプチャして変換するために、そして専用のAR眼鏡がイマーシブな体験をサポートするために来ているという業界の確信が高まっている。

Appleの拡張現実への取り組みに関する新しい情報の中で、新しい論文は、360度パノラマの高動的レンジ(HDR)画像を使用して、ARシーンに重ね合わせたオブジェクトのシーン固有の反射と照明を提供する方法を明らかにしている。

HDR Environment Map Estimation for Real-Time Augmented Reality』というタイトルのこの論文は、Appleのコンピュータビジョン研究エンジニアGowri SomanathとシニアマシンラーニングマネージャDaniel Kurzによって、モバイル処理環境で動作する畳み込みニューラルネットワーク(CNN)を使用して、リアルタイムのHDR環境を動的に作成する方法を提案している。結果として、反射オブジェクトは、実際に新しい、見られていない環境を要求に応じてミラーすることができる。

Appleの新しいARオブジェクト生成ワークフローでは、圧力鍋はフォトグラメトリによってインスタンス化され、周囲の環境が含まれており、信憑性のある反射が得られる。

Appleの新しいARオブジェクト生成ワークフローでは、圧力鍋はフォトグラメトリによってインスタンス化され、周囲の環境が含まれており、信憑性のある反射が得られる。 ソース: https://docs-assets.developer.apple.com/

この方法は、CVPR 2021で発表され、シーン全体のスナップショットを撮り、EnvMapNet CNNを使用して、視覚的に完全なパノラマHDR画像(「ライトプローブ」とも呼ばれる)を推定する。

生成されたマップは、強い光源(上のアニメーションの最後にアウトラインされている)を特定し、仮想オブジェクトのレンダリングにそれらを考慮する。

EnvMapNetのアーキテクチャは、制限された画像をフルシーンのHDRライトプローブに処理する。

EnvMapNetのアーキテクチャは、制限された画像をフルシーンのHDRライトプローブに処理する。 ソース: https://arxiv.org/pdf/2011.10687.pdf

このアルゴリズムは、iPhone XSで9ミリ秒未満で実行でき、反射を認識したオブジェクトをリアルタイムでレンダリングでき、以前のアプローチと比較して方向エラーが50%減少する。

ライトプローブ

HDR照明環境は、視覚効果において重要な要素であり、1986年に発明された高動的レンジ画像が1990年代にコンピュータ技術の進歩によって注目されるようになった。誰でも、Behind-the-scenesの映像を見て、技術者がミラーボールを持ちながらシーンの環境要素として組み込まれる映像を見たことがあるだろう。

ソース: https://beforesandafters.com/

ソース: https://beforesandafters.com/

しかし、反射マッピングのテクスチャとしてクロームボールを使用することは、1990年代以前の1983年のSIGGRAPH論文『Pyramidal Parametrics』まで遡ることができ、そこでは反射的なCGIロボットの静止画像が紹介されていた。

Neural RenderingにおけるHDR環境

Neural Renderingは、粗いセグメンテーションマップを含む非常にスパースな入力から写真レベルのビデオを生成する可能性を提供する。

画像のNeural Rendering(2017)。” width=”738″ height=”395″ /> Intel ISLのセグメンテーション>画像のNeural Rendering(2017)。 ソース: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

5月、Intelの研究者は、新しいイニシアチブを発表し、Grand Theft Auto Vの映像を使用して、ドイツのストリートイメージのデータセットに基づいて写真レベルの出力が生成された。

ソース: https://www.youtube.com/watch?v=0fhUJT21-bs

ソース: https://www.youtube.com/watch?v=0fhUJT21-bs

Neural Rendering環境を開発する上での課題は、オブジェクトのコンテンツを環境要因から分離することである。

現状、反射や異方性効果は、元のデータセットの映像(これにより柔軟性が失われる)または、Intelの研究者が使用した同じスキーマ(セミ写真レベルの出力を生成する)の関数である。

GTA Vの映像(左)から得られたNeural Renderingでは、前の車両は信憑性のあるグレアを示し、仮想カメラのセンサーを太陽の反射で飽和させる。しかし、この照明の側面は、元のゲーム映像の照明エンジンから得られるものであり、シーンのニューラル要素には、変更可能な自律的な照明構造がない。

GTA Vの映像(左)から得られたNeural Renderingでは、前の車両は信憑性のあるグレアを示し、仮想カメラのセンサーを太陽の反射で飽和させる。しかし、この照明の側面は、元のゲーム映像の照光エンジンから得られるものであり、シーンのニューラル要素には、変更可能な自律的な照明構造がない。

NeRFにおける反射

Neural Radiance Fields(NeRF)から得られる画像も、同様の課題に直面している。

MITとGoogleのNeRFactorアプローチでは、法線、可視性(影)、テクスチャ、局所アルベドが分離されるが、環境を反映していない。

MITとGoogleのNeRFactorアプローチでは、法線、可視性(影)、テクスチャ、局所アルベドが分離されるが、環境を反映していない。 ソース: https://arxiv.org/pdf/2106.01970.pdf

NeRFは、Appleが使用しているのと同じHDRマッピングを使用することで、この問題を解決できる。Neural Radiance Fieldの各ピクセルは、仮想カメラから「レイ」が到達できない点までの軌道で計算される。HDR入力をその「レイ」の計算に追加することは、実際の環境反射を達成するための潜在的な方法であり、従来のCGIの「グローバルイルミネーション」または放射率レンダリング方法に相当する。

NeRFは、HDRマトリックスを採用することで、動的反射を表現する必要がある移動オブジェクトを処理することはできない。たとえば、前の車両に自分の車両が反射されるのを見たい場合、前の車両にはアニメーション化されたHDRライトプローブが必要であり、その解像度は、ユーザーの視点から遠ざかるにつれて低解像度になり、遠く離れたときには低解像度で表現される。

AppleのHDR照明と反射マップに関する研究の本当の潜在的なブレークスルーは、革新的なものではない。むしろ、厳しいローカルコンピューティングの制約とAppleのMシリーズマシンラーニングハードウェアの革新が組み合わさって、低遅延のHDRマッピングを実現したことにある。

この問題が経済的に解決されれば、セマンティックセグメンテーション>写真レベルのビデオシンセシスの到来は、重要なステップを踏み出すことになる。

ソース: https://docs-assets.developer.apple.com/

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。