Andersonの視点

AIによる画像編集の精度の向上

Published February 28, 2025

Updated April 26, 2026

Martin Anderson

Images from the paper ' Tight Inversion: Image-Conditioned Inversion for Real Image Editing'

AdobeのFirefly潜在拡散モデル（LDM）は、現在利用可能なものの中で最も優れたものの一つであると主張できるが、Photoshopユーザーがその生成機能を試した場合、既存の画像を簡単に編集できないことがわかる－代わりに、ユーザーが選択した領域をテキストプロンプトに基づいて生成された画像で完全に置き換える（Fireflyは、生成されたセクションを画像のコンテキストに統合することがうまくできることは認める）。

現在のベータ版では、Photoshopは少なくとも参照画像を部分的な画像プロンプトとして組み込むことができるが、これはStable Diffusionユーザーが2年以上前から享受しているような機能性に、Adobeのフラッグシップ製品を一致させる：

現在のAdobe Photoshopのベータ版では、選択範囲内で新しいコンテンツを生成する際に参照画像を使用できるが、現在はヒットアンドミスである。

これは、画像合成研究における未解決問題を示している－ユーザーが示した選択範囲を編集する際に、拡散モデルがフルスケールの「再想像」を実装せずに既存の画像を編集することの難しさ：

拡散ベースのインペイントはユーザーのプロンプトに従うが、環境とブレンドすることを除いて、元の画像を考慮せずにソースの主題を完全に再構成する。ソース：https://arxiv.org/pdf/2502.20376

この問題は、LDMが画像を生成する際に反復的なノイズ除去を使用するため発生する。各ステージは、ユーザーが提供したテキストプロンプトに条件付けられる。テキストプロンプトの内容が埋め込みトークンに変換され、Stable DiffusionやFluxのようなハイパースケールモデルには、プロンプトに関連する数百万の近似埋め込みが含まれるため、プロセスには、各ステップが「条件付き分布ターゲット」に向かうように計算された条件付き分布がある。

したがって、これはテキストから画像へのシナリオであり、ユーザーは「最善を尽くす」しかないので、生成されるものがどうなるかはわからない。

代わりに、多くの人がLDMの強力な生成能力を利用して既存の画像を編集しようとしたが、これには忠実性と柔軟性のバランスをとることが必要である。

画像がDDIM逆変換などの方法でモデルの潜在空間へ投影されると、元の画像を可能な限り近く再現しながら、有意義な編集を許可することが目標となる。問題は、画像がより正確に再構築されるほど、モデルはその元の構造に固執し、大幅な変更が困難になることである。

最近の年間に提案された他の多くの拡散ベースの画像編集フレームワークと同様に、Renoiseアーキテクチャは画像の外見を実際に変更するのに苦労しており、猫の首の付け根にネクタイが現れるだけである。

一方、プロセスが編集可能性を優先すると、モデルは元の画像から距離を置き、変更を容易にするが、全体的な一貫性を犠牲にして：

ミッションは達成されたが、ほとんどのAIベースの画像編集フレームワークにとって、これは調整ではなく変換である。

これは、Adobeの膨大なリソースでも解決しようとしている問題であるため、問題は注目に値し、簡単な解決策がないかもしれません。

タイトインバージョン

したがって、この分野における現在の最先端の技術を改善する、先週リリースされた新しい論文の例が私の注意を引いた。彼らの仕事は、潜在空間内の画像に繊細で洗練された編集を適用できることを実証しており、編集は元の画像のコンテンツを上書きするのではなく、変更する：

既存の逆変換方法にタイトインバージョンを適用すると、ソースの選択範囲はより細かく考慮され、変換は生成物を上書きするのではなく、元の素材に従う。

LDMの趣味家や実践者は、この種の結果を認識するかもしれない。これは、ControlnetやIP-Adapterのような外部システムを使用した複雑なワークフローで作成できるからである。

実際、新しい方法－タイトインバージョンと呼ばれる－は、人間の描写に対してIP-Adapterと専用の顔ベースモデルを利用している。

2023年のIP-Adapterの元の論文からの、ソース素材に適切な編集を加える例。 ソース：https://arxiv.org/pdf/2308.06721

タイトインバージョンの重要な成果は、複雑な技術を単一のドロップインプラグインモダリティに体系化し、人気のあるLDM配布の多くに適用できることである。

当然、これは、タイトインバージョン（TI）が、IP-Adapterと同様に、ソース画像をその編集バージョンの条件付け要因として使用することを意味する：

タイトインバージョンの、ソース素材に真正にブレンドされた編集を適用する能力のさらなる例。

これは、テキストプロンプトのみに頼るのではなく、ソース画像を条件付け要因として使用するためである。

著者らは次のように述べている：

‘タイトインバージョンは、既存の逆変換方法（例：Edit Friendly DDPM、ReNoise）と容易に統合できる。[ネイティブの拡散コアをIP-Adapter変更モデルに切り替える]、[そして]タイトインバージョンは、再構築と編集可能性の両方でこれらの方法を一貫して改善する。 ‘

方法

最初に、大規模言語モデル（LLM）を使用して、画像を生成するためのさまざまなテキストプロンプトのセットが生成される。次に、上記のDDIM逆変換が、各画像に適用される：画像を生成するために使用されたテキストプロンプト；同じプロンプトの短縮版；およびnull（空）プロンプト。

これらのプロセスから返される逆変換ノイズで、画像は再び同じ条件で、クラスフリーガイダンス（CFG）なしで再生成される。

さまざまなプロンプト設定でのDDIM逆変換スコア。

上記のグラフから、スコアがテキストの長さの増加とともに改善されることがわかる。使用されたメトリックは、ピーク信号対ノイズ比（PSNR）；L2距離；構造類似性指数（SSIM）；および学習された感覚画像パッチ類似性（LPIPS）であった。

画像認識

実質的に、タイトインバージョンは、画像そのものを条件付け要因として使用することで、ホスト拡散モデルが実画像を編集する方法を変更する。

通常、拡散モデルのノイズ空間への画像の逆変換には、入力の再構築に使用される開始ノイズの推定が必要である。標準的な方法は、プロセスを導くためにテキストプロンプトを使用するが、不完全なプロンプトはエラーを引き起こし、詳細を失ったり構造を変更したりする可能性がある。

タイトインバージョンは代わりに、IP-Adapterを使用して視覚情報をモデルに提供するため、画像をより正確に再構築する。ソース画像を条件付けトークンに変換し、逆変換パイプラインに投影する。

これらのパラメータは編集可能である：ソース画像の影響を増やすと、再構築がほぼ完璧になり、減らすと、より創造的な変更が可能になる。これにより、タイトインバージョンは、シャツの色を変更するような繊細な変更や、オブジェクトを交換するようなより重要な編集の両方に役立つ。

著者らは次のように述べている：

‘私たちは、タイトインバージョンが以前の逆変換方法（例：Edit Friendly DDPM、ReNoise）と容易に統合できることを認識する。[ネイティブの拡散コアをIP-Adapter変更モデルに切り替える]、[そして]タイトインバージョンは、再構築と編集可能性の両方でこれらの方法を一貫して改善する。 ‘

データとテスト

研究者らは、TIの実世界のソース画像を再構築および編集する能力を評価した。すべての実験では、Stable Diffusion XLと、Stable Diffusionの元の論文に概説されているDDIMスケジューラが使用された。また、すべてのテストでは、50のノイズ除去ステップと、デフォルトのガイダンススケール7.5が使用された。

画像の条件付けのために、IP-Adapter-plus sdxl vit-hが使用された。

テストでは、SDXL-Turboと、FLUX.1-devが使用された。後者の場合、モデルはPuLID-Fluxで条件付けられ、RF-Inversionが28ステップで使用された。

PulIDは、人間の顔の場合のみ使用された。これは、PulIDが対処するドメインだからである。

再構築テストは、定性的および定量的な評価のために実行された。

DDIM逆変換の定性的結果。各行は、詳細な画像とその再構築バージョンを示し、各ステップでは逆変換とノイズ除去の際に条件がより正確になる。条件がより正確になるにつれて、再構築の品質が向上する。右端の列は、元の画像自体が条件として使用された場合の最も優れた結果を示し、最高の忠実度を達成する。CFGはどこでも使用されなかった。詳細と解像度のためのソースドキュメントを参照してください。

論文では次のように述べられている：

‘これらの例は、画像を条件付けることで、詳細な領域での再構築が大幅に改善されることを強調している。 ‘

‘特に、[下の画像の]3番目の例では、私たちの方法は、右のボクサーの背中のタトゥーを成功裏に再構築し、ボクサーのレッグポーズがより正確に保存され、レッグのタトゥーが見えるようになる。 ‘

DDIM逆変換のさらなる定性的結果。記述的な条件がDDIM逆変換を改善し、画像の条件付けがテキストを上回り、特に複雑な画像で。

著者らはまた、タイトインバージョンを既存のシステムのドロップインモジュールとしてテストし、変更されたバージョンをベースラインパフォーマンスと比較した。

テストされた3つのシステムは、上記のDDIM逆変換とRF-Inversion；およびReNoiseであった。後者は、論文の著者と共通の著者を持つ。

左、SDXLでのタイトインバージョンの定性的再構築結果。右、Fluxでの再構築。結果のレイアウトは、ここで再現するのが難しいため、ソースPDFを参照してください。

ここで、著者らは次のように述べている：

‘図から、タイトインバージョンを既存の方法と統合することで再構築が一貫して改善されることがわかる。[例えば]私たちの方法は、左端の例のハンドレールと右端の例の青いシャツの男性を正確に再構築する。 ‘

著者らはまた、システムを定量的にテストした。先行研究に従って、検証セットのMS-COCOを使用し、結果（以下に示す）は、すべてのメソッドで再構築を改善した。

タイトインバージョンを使用したシステムのパフォーマンスメトリックの比較。

次に、著者らはシステムの写真を編集する能力をテストし、prompt2prompt；Edit Friendly DDPM；LED-ITS++；およびRF-Inversionのベースラインバージョンと比較した。

SDXLとFluxの定性的結果の選択。論文の元のレイアウトは、ここで再現するのが難しいため、ソースPDFを参照してください。

著者らは、タイトインバージョンは再構築と編集可能性のバランスをとることで、既存の逆変換技術を一貫して上回ると主張している。

標準的な方法であるDDIM逆変換やReNoiseは画像をうまく再構築できるが、編集が適用されると、細かい詳細を保持するのに苦労することが多い。

一方、タイトインバージョンは画像の条件付けを利用して、モデルの出力を元の画像に密接に結び付けるため、望ましくない歪みや構造上の不一致を防ぐ。

最終的に、MagicBrushベンチマークを使用して、定量的な結果が得られ、DDIM逆変換とLEDITS++が測定され、CLIP Simが使用された。

タイトインバージョンとMagicBrushベンチマークの定量的な比較。

著者らは次のように結論付けている：

‘グラフでは、画像の保存と編集のターゲットへの準拠のトレードオフが明らかである。タイトインバージョンはこのトレードオフに対するより良い制御を提供し、入力画像を保存しながら編集に準拠する。 ‘

‘注目すべきは、画像とテキストプロンプトの間のCLIP類似度が0.3を超えることは、画像とプロンプトの間の妥当な準拠を示す。 ‘

結論

タイトインバージョンは、LDMベースの画像合成における最も困難な課題の一つに対する「ブレークスルー」ではないが、複雑な補助的なアプローチを統一されたAIベースの画像編集方法に体系化している。

編集可能性と忠実性の間の緊張は完全にはなくならないが、結果からすると著しく軽減されている。タイトインバージョンは、LDMアーキテクチャ以外の将来のシステムを見て、問題に対処する別のアプローチを検討することなく、中央の課題に対処しようとしている場合、最終的には解決できないかもしれないことを考えると、歓迎されるインクリメンタルな改善である。

初めて出版：2025年2月28日金曜日