人工知能
ガウシアン・スプラッティングを用いた画像編集

ポーランドとイギリスの研究者による新しい共同研究では、ガウシアン・スプラッティングを用いて画像を編集する可能性を提案している。画像の選択された部分を一時的に3D空間に解釈し、ユーザーが3D表現を変更および操作できるようにし、そして変換を適用する。

猫の頭の向きを変更するために、関連するセクションをガウシアン・スプラッティングを用いて3D空間に移動し、ユーザーが操作する。変更はその後適用される。プロセスは、Adobeのソフトウェアにおける様々なモーダル・テクニックと同様で、現在の複雑なプロセスが完了するまでインターフェースをロックする。 Source: https://github.com/waczjoan/MiraGe/
ガウシアン・スプラッティング要素は一時的に三角形のメッシュで表現され、瞬間的に「CGI状態」に入るため、プロセスに統合された物理エンジンは、静的な状態の変更またはアニメーションの生成のために、自然な動きを解釈することができる。

新しいMiraGeシステムに統合された物理エンジンは、画像の静的な変更またはアニメーションの生成のために、自然な物理的動きを解釈することができる。
このプロセスには、生成的なAIは関与しておらず、潜在的拡散モデル(LDMs)は使用されていない。つまり、AdobeのFireflyシステムとは異なり、Adobe Stock(旧Fotolia)でトレーニングされたものではない。
システム – MiraGeと呼ばれる – 選択された部分を3D空間に解釈し、ミラー・イメージを作成し、3D座標を近似してスプラットに体現することで、幾何学を推論する。
再生するためにクリックしてください。 MiraGeシステムで変更された要素または物理ベースの変形に従った要素のさらなる例。
著者は、MiraGeシステムを以前のアプローチと比較し、ターゲット・タスクで最先端のパフォーマンスを達成していることを発見した。
zBrushモデリング・システムのユーザーは、このプロセスに慣れているだろう。zBrushでは、ユーザーが基本的に3Dモデルを「平坦化」し、2Dの詳細を追加しながら、基礎となるメッシュを保存し、新しい詳細を解釈することができる – MiraGeメソッドとは逆の「フリーズ」である。

パラメータ化されたガウシアン・スプラッティングにより、MiraGeは2D画像の選択された領域の高品質な再構成を作成し、暫定的に3D化された選択に対してソフトボディ物理を適用することができる。
論文では次のように述べられている。
‘私たちは、2D画像を人間の解釈をシミュレートすることによって符号化するモデルを導入します。具体的には、私たちのモデルは、写真や紙のシートとして扱われる2D画像を、人間が見るように、平らな物体として3D空間に扱います。
‘このアプローチにより、直感的で柔軟な画像編集が可能になり、人間の認識のニュアンスを捉えながら、複雑な変換を可能にします。 ‘
新しい論文は、MiraGe: ガウシアン・スプラッティングを用いた編集可能な2D画像と題され、クラコフのヤギェウォ大学とケンブリッジ大学の4人の著者によって執筆された。システムの完全なコードは、GitHubで公開されている。
研究者が課題に取り組む方法を見てみましょう。
方法
MiraGeアプローチでは、ガウシアン・メッシュ・スプラッティング(GaMeS)パラメータ化を使用する。GaMeSにより、ガウシアン・スプラッティングが従来のCGIメッシュとして解釈され、標準的な歪みや変更のテクニックが適用できるようになる。
MiraGeは、2D空間内の「平坦な」ガウシアンを解釈し、GaMeSを使用してコンテンツをGSplat有効な3D空間に一時的に「引っ張り出す」。

各平坦なガウシアンは、三角形の「スープ」に3つの点として表現され、推論された画像を操作可能にする。 Source: https://arxiv.org/pdf/2410.01521
上記の画像の左下隅で、MiraGeが編集対象の画像のセクションの「ミラー・イメージ」を作成していることがわかる。
著者は次のように述べている。
‘私たちは、2つの対向するカメラを使用する新しいアプローチを採用しています。カメラはY軸に沿って対称的に配置され、原点を中心に互いに向けられている。最初のカメラは元の画像の再構成に使用され、2番目のカメラはミラー・リフレクションをモデル化する。
‘写真は、3D空間に埋め込まれた半透明のトレーシング・ペーパーのシートとして概念化される。リフレクションは、画像を水平に反転することで効果的に表現できる。このミラー・カメラ・セットアップにより、視覚要素を正確に捉えるための信頼性の高い解決策が提供される。 ‘
論文では、一度この抽出が達成されると、通常は困難な視点の調整が、3Dでの直接編集によりアクセス可能になることも記載されている。
例えば、女性の腕のみを含む画像のセクションが選択されている場合、ユーザーは手の向きを下に向けることができるが、これは単にピクセルを移動するだけで実現するのは困難なタスクである。

MiraGe編集テクニックの例。
PhotoshopのFirefly生成ツールを使用してこれを試みる場合、通常、手は合成された、拡散イメージ化された手によって置き換えられ、編集の信憑性が損なわれる。
データとテスト
MiraGeのテストで使用された画像品質評価には、信号対雑音比(SNR)とMS-SIMメトリクスが使用された。
使用されたデータセットは、Kodak Lossless True Color Image Suiteと、DIV2K バリデーションセットであった。これらのデータセットの解像度は、最も近い以前の研究であるGaussian Imageとの比較に適していた。試験された他のライバル・フレームワークは、SIREN、WIRE、NVIDIAのInstant Neural Graphics Primitives(I-NGP)、およびNeuRBFであった。
実験は、NVIDIA GEFORCE RTX 4070ラップトップとNVIDIA RTX 2080で実行された。

MiraGeは、選択された以前のフレームワークに対して最先端の結果を提供する。
これらの結果について、著者は次のように述べている。
‘私たちは、両方のデータセットで以前の解決策を上回ることを確認しました。両方のメトリクスで測定された品質は、以前のアプローチすべてに対して著しい改善を示しています。 ‘
結論
MiraGeの2Dガウシアン・スプラッティングの採用は、画像の変更に拡散モデルを使用することの曖昧さや気まぐれさの代替として、非常に興味深い可能性がある。
画像の一部を一時的に3D空間に引き出し、操作し、画像に戻す能力は、生成的なAIや、FireflyやFluxなどのAPIベースの拡散モデルを使用する必要がないため、ガウシアン・スプラッティングに適しているように思われる。
* 論文にはある程度の混乱があり、最も効果的で能力のある方法として「Amorphous-Mirage」を引用しているにもかかわらず、それが不要なガウシアン(アーティファクト)を生成する傾向があることを示唆している。同時に、「Graphite-Mirage」はより柔軟であると主張している。Amorphous-Mirageが最も詳細なものを取得し、Graphite-Mirageが最も柔軟性の高いものを取得するように見える。両方の方法が論文に提示されているため、著者の好みは現在はっきりしていない。












