Andersonの視点
拡散モデルの鏡と反射に対する限定的な理解を修正する

生成AIが一般の関心を集め始めて以来、コンピュータビジョン研究分野は、物理法則を理解し再現できるAIモデルの開発に対する関心を深めてきた。しかし、重力や液体力学のような現象を機械学習システムに模倣させることは、少なくとも過去5年間にわたり、研究努力の重要な焦点となってきた。 潜在拡散モデル(LDM)が2022年に生成AIシーンを支配するようになって以来、研究者たちはLDMアーキテクチャが物理現象を理解し再現する能力に限界があることにますます焦点を当てている。現在、この問題は、OpenAIの生成ビデオモデルSoraの画期的な開発、そして(議論の余地はあるが)より影響力のある最近のオープンソースビデオモデルHunyuan VideoとWan 2.1のリリースにより、さらに注目を集めている。
反射の失敗
LDMの物理理解を改善することを目的とした研究のほとんどは、歩行シミュレーション、粒子物理学、その他のニュートン力学の側面などに焦点を当ててきた。これらの分野が注目されるのは、基本的な物理的挙動の不正確さが、AI生成ビデオの信憑性を直ちに損なうからである。 しかし、小さくとも成長している研究の一分野は、LDMの最大の弱点の一つ、正確な反射を生成する相対的な無能力に集中している。

2025年1月の論文『Reflecting Reality: Enabling Diffusion Models to Produce Faithful Mirror Reflections』より、「反射の失敗」の例と研究者自身のアプローチ。 出典: https://arxiv.org/pdf/2409.14677
この問題はCGI時代にも課題であり、ビデオゲームの分野でも同様で、レイトレーシングアルゴリズムが光が表面と相互作用する経路をシミュレートしている。レイトレーシングは、仮想光線が物体で跳ね返ったり通過したりして、リアルな反射、屈折、影を作り出す方法を計算する。 しかし、追加の跳ね返りごとに計算コストが大幅に増加するため、リアルタイムアプリケーションは、許容される光線の跳ね返り回数を制限することで、遅延と精度のトレードオフをしなければならない。
![従来の3Dベース(すなわちCGI)シナリオにおける仮想計算された光線の表現。1960年代に最初に開発され、1982年から93年(『トロン』[1982]から『ジュラシック・パーク』[1993]の間)に頂点に達した技術と原理を使用。出典: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing](https://www.unite.ai/wp-content/uploads/2025/04/ray-tracing.jpg)
従来の3Dベース(すなわちCGI)シナリオにおける仮想計算された光線の表現。1960年代に最初に開発され、1982年から93年(『トロン』[1982]から『ジュラシック・パーク』[1993]の間)に頂点に達した技術と原理を使用。 出典: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing
例えば、鏡の前のクローム製のティーポットを描写する場合、光線が反射面の間で繰り返し跳ね返るレイトレーシングプロセスが関与し、最終画像にほとんど実用的な利益をもたらさないほぼ無限のループを作り出す可能性がある。ほとんどの場合、2〜3回の跳ね返りの反射深度は、視聴者が知覚できるものをすでに超えている。単一の跳ね返りでは、光が少なくとも2回の経路を完了して可視反射を形成する必要があるため、黒い鏡になってしまう。 追加の跳ね返りごとに計算コストが急激に増加し、多くの場合レンダリング時間が倍増するため、反射のより高速な処理は、レイトレーシングレンダリング品質を向上させる最も重要な機会の一つとなっている。 当然ながら、反射ははるかに明白でないシナリオでも発生し、写真写実性に不可欠である。例えば、雨後の都市の通りや戦場の反射面、ショーウィンドウやガラスのドアに映る向かい側の通りの反射、描写されたキャラクターの眼鏡の中に物体や環境が現れる必要がある場合などである。

『マトリックス』(1999年)の象徴的なシーンのために、従来の合成技術で達成されたシミュレートされた二重反射。
画像の問題
このため、拡散モデルが登場する前に人気のあったNeural Radiance Fields(NeRF)のようなフレームワークや、Gaussian Splattingのようなより最近の挑戦者たちは、反射を自然な方法で実現するために独自の苦闘を続けている。 REF2-NeRFプロジェクト(下図)は、ガラスケースを含むシーンのためのNeRFベースのモデリング手法を提案した。この手法では、屈折と反射が、視聴者の視点に依存する要素と独立した要素を使用してモデル化された。このアプローチにより、研究者は屈折が発生する表面、具体的にはガラス表面を推定し、直接光成分と反射光成分の分離とモデル化を可能にした。

Ref2Nerf論文からの例。 出典: https://arxiv.org/pdf/2311.17116
過去4〜5年間のその他のNeRF向け反射ソリューションには、NeRFReN、Reflecting Reality、そしてMetaの2024年のPlanar Reflection-Aware Neural Radiance Fields プロジェクトが含まれる。 GSplatについては、Mirror-3DGS、Reflective Gaussian Splatting、RefGaussianなどの論文が反射問題に関する解決策を提供しており、2023年のNeroプロジェクトは、反射特性をニューラル表現に組み込む独自の方法を提案した。
MirrorVerse
拡散モデルに反射の論理を尊重させることは、Gaussian SplattingやNeRFのような明示的で構造的、非意味論的アプローチよりも、おそらくより困難である。拡散モデルでは、この種のルールは、トレーニングデータに幅広いシナリオにわたる多様な例が多く含まれている場合にのみ、確実に埋め込まれる可能性があり、元のデータセットの分布と品質に大きく依存する。 伝統的に、この種の特定の挙動を追加することは、LoRAまたはベースモデルのファインチューニングの領域である。しかし、これらは理想的な解決策ではない。なぜなら、LoRAはプロンプトがなくても自身のトレーニングデータに出力を偏らせる傾向があり、一方ファインチューニングは、高価であることに加え、主要なモデルを主流から取り返しのつかないほど分岐させ、元のモデルを含む他の系統のモデルでは決して動作しない多くの関連カスタムツールを生み出す可能性があるからだ。 一般的に、拡散モデルを改善するには、トレーニングデータが反射の物理により注意を払う必要がある。しかし、多くの他の分野も同様の特別な注意を必要としている。カスタムキュレーションがコスト高で困難なハイパースケールデータセットの文脈では、この方法で単一の弱点すべてに対処することは非現実的である。 それにもかかわらず、LDMの反射問題に対する解決策は時折現れる。最近のそのような取り組みの一つが、インドからのMirrorVerseプロジェクトであり、拡散研究におけるこの特定の課題の最先端を改善できる改良されたデータセットとトレーニング方法を提供する。

右端、MirrorVerseの結果を2つの先行アプローチ(中央の2列)と対比。 出典: https://arxiv.org/pdf/2504.15397
上記の例(新しい研究のPDFの特徴画像)で見られるように、MirrorVerseは同じ問題に取り組む最近の提供物を改善しているが、完璧とは程遠い。 右上の画像では、陶器の瓶が本来あるべき位置よりやや右にあることが見て取れる。また、下の画像では、技術的にはカップの反射が全く映るべきではないのに、自然な反射角度の論理に反して、不正確な反射が右側の領域に無理やり押し込められている。 したがって、この新しい手法を見ていくのは、拡散ベースの反射における現在の最先端を代表するかもしれないからというよりも、反射性に必要なデータ例が特定の行動やシナリオと絡み合っている可能性が高いため、これが静的およびビデオの潜在拡散モデルにとって解決困難な問題である程度を示すためでもある。 したがって、LDMのこの特定の機能は、NeRF、GSplat、そして従来のCGIのような構造特化型アプローチに引き続き及ばない可能性がある。 新しい論文はMirrorVerse: Pushing Diffusion Models to Realistically Reflect the Worldと題され、Vision and AI Lab、IISc Bangalore、およびSamsung R&D Institute at Bangaloreに所属する3人の研究者によるものだ。この論文には関連プロジェクトページと、Hugging Faceのデータセットがあり、ソースコードはGitHubで公開されている。
手法
研究者たちは冒頭で、Stable DiffusionやFluxのようなモデルが反射ベースのプロンプトを尊重することの難しさを指摘し、この問題を巧みに説明している。

論文より:現在の最先端のテキストから画像へのモデル、SD3.5とFluxは、シーン内で反射を生成するようプロンプトされたとき、一貫性のある幾何学的に正確な反射を生成するのに重大な課題を示した。
研究者たちは、合成画像における鏡面反射の写真写実性と幾何学的正確性を改善することを目的とした、拡散ベースの生成モデルMirrorFusion 2.0を開発した。モデルのトレーニングは、研究者たち自身が新たにキュレートしたデータセットMirrorGen2に基づいており、以前のアプローチで観察された一般化の弱点に対処するように設計されている。 MirrorGen2は、ランダムなオブジェクト配置、ランダム化された回転、明示的なオブジェクト接地を導入することで、以前の方法論を拡張し、鏡面に対するより広範なオブジェクトの姿勢と配置において反射が妥当であることを保証することを目指している。 <img class=" wp-image-216477" src="https://www.unite.ai/wp-content/uploads/2025/04/schema-2.jpg" alt="MirrorVerseにおける合成データ生成のスキーマ:データセット生成パイプラインは、3D-Positionerを使用してシーン内でオブジェクトをランダムに配置、回転、接地させることで主要な拡張を適用。オブジェクトは意味的に一貫した組み合わせでペアリングされ、複雑な空間的関係とオクルージョンをシミュレートし、データセットがマルチオブジェクトシーンにおけるより現実的な相互作用を捉える












