人工知能

HD-Painter: 高解像度テキストガイド画像補間法と拡散モデル

Published February 13, 2024

Updated April 4, 2026

Kunal Kejriwal

HD-Painter : High Resolution Text-Guided Image Inpainting with Diffusion Models

拡散モデルは、AIとML業界を確実に革命し、現実時間での応用が私たちの日常生活の一部となっています。テキストから画像モデルの驚くべき能力が披露された後、可制御な生成、専門化および個人化された画像合成、オブジェクトレベルの画像編集、プロンプト条件付きのバリエーションおよび編集などの拡散ベースの画像操作技術が、コンピュータビジョン業界での応用により、ホットな研究テーマとして登場しました。

しかし、テキストから画像フレームワーク、特にテキストから画像補間フレームワークは、依然として開発の余地があります。例えば、特に画像を高拡散タイムステップでデノイズする際に、グローバルシーンを理解する能力が挙げられます。この問題に対処するために、研究者はHD-Painterを導入しました。HD-Painterは、完全にトレーニング不要のフレームワークで、正確にプロンプト指示に従い、高解像度画像補間を一貫して拡大します。 HD-Painterフレームワークは、プロンプト認識内向型注意（PAIntA）層を使用します。この層は、プロンプト情報を使用して自己注意スコアを強化し、結果としてテキストの整列生成が向上します。

プロンプトの整合性をさらに向上させるために、HD-Painterモデルは、Reweighting Attention Score Guidance（RASG）アプローチを導入します。このアプローチは、一般的なDDIMコンポーネントにポストホックサンプリング戦略をシームレスに統合し、分布外の潜在的なシフトを防ぎます。さらに、HD-Painterフレームワークには、補間用に特化したスーパーリゾリューションテクニックが備わっており、大規模なスケールに拡大し、画像の解像度が最大2Kまでの欠落している領域を補間できます。

HD-Painter: テキストガイド画像補間

テキストから画像の拡散モデルは、実際にはAIとML業界で重要なトピックとなっています。モデルは、さまざまな実用的なアプリケーションで印象的なリアルタイム機能を実証しています。事前トレーニング済みのテキストから画像生成モデル、例えばDALL-E、Imagen、Stable Diffusionは、後方拡散プロセス中にノイズされた（生成された）未知の領域を拡散した既知の領域と結合することで、画像の補間に対する適合性を示しています。視覚的に魅力的な出力と調和のとれた出力を生み出すにもかかわらず、既存のモデルは、特に高拡散タイムステップのデノイズプロセスにおいて、グローバルシーンを理解するのに苦労しています。事前トレーニング済みのテキストから画像拡散モデルを追加のコンテキスト情報を組み込むことで修正することで、テキストガイド画像補間のためにファインチューニングできます。

さらに、拡散モデル内では、テキストガイド画像補間とテキストガイド画像補間は、研究者にとって重要な分野です。これは、テキストガイド画像補間モデルが、入力テキストプロンプトに基づいて、入力画像の特定の領域にコンテンツを生成できるため、特定の画像領域のリタッチ、主題の属性（色や服など）の変更、またはオブジェクトの追加または置き換えなどの潜在的なアプリケーションが存在するためです。まとめると、テキストから画像の拡散モデルは、最近、例外的にリアルで視覚的に魅力的な生成能力を実現しました。

しかし、大多数の既存のフレームワークは、2つのシナリオでプロンプトの無視を示しています。最初は 背景優位性 です。ここで、モデルは背景でプロンプトを無視して未知の領域を補間します。2番目のシナリオは 近くのオブジェクト優位性 です。ここで、モデルは視覚的なコンテキストの可能性を使用して、既知の領域のオブジェクトを未知の領域に伝播します。入力プロンプトではなく、視覚的なコンテキストの可能性を使用して、既知の領域のオブジェクトを未知の領域に伝播します。両方の問題は、バニラ画像補間拡散のテキストプロンプトを正確に解釈したり、コンテキスト情報と組み合わせたりする能力の欠如によるものかもしれません。

これらの障害に対処するために、HD-Painterフレームワークは、プロンプト認識内向型注意（PAIntA）層を導入します。この層は、プロンプト情報を使用して自己注意スコアを強化し、結果としてテキストの整列生成が向上します。 PAIntAは、与えられたテキスト条件付けを使用して、自己注意スコアを強化します。目標は、画像領域からの非プロンプト関連情報の影響を減らし、プロンプトと一致する既知のピクセルの貢献を増やすことです。生成された結果のテキスト整列をさらに向上させるために、HD-Painterフレームワークは、クロス注意スコアを利用するポストホックガイダンス方法を実装します。ただし、バニラポストホックガイダンスメカニズムの実装は、拡散方程式の追加の勾配項の結果として、分布外のシフトを引き起こす可能性があります。分布外のシフトは、最終的に生成された出力の品質の低下につながります。この障害に対処するために、HD-Painterフレームワークは、Reweighting Attention Score Guidance（RASG）メカニズムを実装します。このメカニズムは、ポストホックサンプリング戦略を一般的なDDIMコンポーネントにシームレスに統合し、潜在的なドメインの保存を可能にします。

RASHとPAIntAの両方のコンポーネントをアーキテクチャに配置することで、HD-Painterフレームワークは、既存の、特に最先端の、画像補間およびテキストから画像の拡散モデルよりも、重要な優位性を持ちます。なぜなら、プロンプトの無視の既存の問題を解決するからです。さらに、RASHとPAIntAの両方のコンポーネントは、プラグアンドプレイ機能を提供し、画像補間の課題に対処するために拡散ベースの画像補間モデルと互換性があります。さらに、時間反復ブレンドテクノロジーを実装し、高解像度拡散モデルの機能を活用することで、HD-Painterパイプラインは最大2K解像度の画像補間で効果的に機能できます。

要約すると、HD-Painterは、以下の点でフィールドに貢献することを目指しています：

プロンプト認識内向型注意（PAIntA）層をアーキテクチャに実装することで、背景優位性と近くのオブジェクト優位性のプロンプト無視問題を解決します。
Reweighting Attention Score Guidance（RASG）層をアーキテクチャに実装することで、出力のテキスト整列を向上させます。出力のテキスト整列を向上させるために、ポストホックガイダンスサンプリングを実行し、分布外のシフトを防ぎます。
シンプルで効果的な画像補間専用のスーパーリゾリューションフレームワークを使用して、テキストガイド画像補間を最大2K解像度で実行できる、効果的なトレーニング不要のテキストガイド画像補間パイプラインを設計します。

HD-Painter: 方法とアーキテクチャ

アーキテクチャを見てみる前に、HD-Painterフレームワークの基礎となる3つの基本概念を理解することが重要です： 画像補間、拡散フレームワークのポストホックガイダンス、 および 画像補間専用アーキテクチャブロック。

画像補間は、視覚的な魅力を保ったまま、画像内の欠落している領域を埋めることを目的としたアプローチです。従来のディープラーニングフレームワークは、既知の領域から深層特徴を伝播する方法を実装しました。ただし、拡散モデルの導入により、画像補間モデル、特にテキストガイド画像補間フレームワークが進化しました。従来的には、事前トレーニング済みのテキストから画像拡散モデルは、サンプリングプロセス中に、ノイズされたバージョンの既知の領域を使用して、潜在的な未知の領域を置き換えます。ただし、このアプローチは、デノイズネットワークが既知の領域のノイズバージョンのみを参照するため、生成された出力の品質が低下します。

このハードルに対処するために、いくつかのアプローチは、事前トレーニング済みのテキストから画像モデルをファインチューニングして、テキストガイド画像補間を実現することを目指しました。

さらに、伝統的なディープラーニングモデルは、画像補間のための特別な設計層を実装しました。いくつかのフレームワークは、特別な畳み込み層を導入することで、既知の領域の情報を効果的に抽出して、視覚的に魅力的な画像を生成しました。いくつかのフレームワークは、高品質の画像補間のためのすべての自己注意の不要な重い計算要件を減らすために、コンテキスト注意層を導入しました。

最後に、ポストホックガイダンス方法は、特定の関数最小化目標の向かう次のステップの潜在的な予測を導く、後方拡散サンプリング方法です。ポストホックガイダンス方法は、特に追加の制約の存在下で、視覚的なコンテンツを生成する場合に役立ちます。ただし、ポストホックガイダンス方法には、潜在的な生成プロセスを勾配項でシフトさせるため、画像の品質が低下するという重大な欠点があります。

HD-Painterのアーキテクチャについては、フレームワークは最初にテキストガイド画像補間問題を定式化し、Stable InpaintingとStable Diffusionの2つの拡散モデルを導入します。 HD-Painterモデルは次に、PAIntAとRASGブロックを導入し、最後に画像補間専用のスーパーリゾリューションテクニックに到達します。

Stable DiffusionとStable Inpainting

Stable Diffusionは、オートエンコーダーの潜在的な空間内で動作する拡散モデルです。テキストから画像の合成の場合、Stable Diffusionフレームワークは、プロセスを導くテキストプロンプトを実装します。導入関数には、UNetアーキテクチャに似た構造があり、クロス注意層はテキストプロンプトに基づいて条件付けられます。さらに、Stable Diffusionモデルは、いくつかの変更とファインチューニングを加えることで、画像補間を実行できます。

上の図は、2つのステージを持つHD-Painterフレームワークの概要を示しています。最初のステージでは、HD-Painterフレームワークはテキストガイド画像ペイントを実装し、2番目のステージでは、モデルは特定のスーパーリゾリューションを実装して、出力の画像を補間します。入力プロンプトと一致して、欠落している領域を埋めるために、モデルは事前トレーニング済みの画像補間拡散モデルを取り込み、自己注意層をPAIntA層に置き換え、RASGメカニズムを実装して、後方拡散プロセスを実行します。モデルは、最終的な推定潜在的な結果をデコードして、補間された画像を生成します。 HD-Painterは次に、Stable Diffusionモデルを使用して、元のサイズの画像を補間します。Stable Diffusionフレームワークの後方拡散プロセスを、低解像度の入力画像に基づいて条件付けます。モデルは、各ステップ後に既知の領域のエンコードとデノイズ予測をブレンドし、次の潜在的な結果を導きます。最後に、モデルは潜在的な結果をデコードし、エッジアーティファクトを避けるためにポアソンブレンドを実装します。

プロンプト認識内向型注意（PAIntA）

既存の画像補間モデル、例えばStable Inpaintingは、視覚的なコンテキストをより重視し、入力ユーザープロンプトを無視する傾向があります。ユーザーエクスペリエンスに基づいて、この問題は2つのクラスに分類できます。近くのオブジェクト優位性と背景優位性。視覚的なコンテキストが入力プロンプトを優先する問題は、自己注意層の空間的でプロンプトのない性質の結果である可能性があります。

この問題に対処するために、HD-Painterフレームワークは、プロンプト認識内向型注意（PAIntA）を導入します。PAIntAは、クロス注意マトリックスと画像補間マスクを使用して、未知の領域の自己注意層の出力を制御します。

プロンプト認識内向型注意コンポーネントは、最初にキー、値、およびクエリの投影層を適用して、類似性マトリックスを取得します。モデルは、既知のピクセルの注意スコアを調整して、既知の領域の強い影響を軽減し、テキストプロンプトを利用して新しい類似性マトリックスを定義します。

Reweighting Attention Score Guidance（RASG）

HD-Painterフレームワークは、テキストの整列をさらに強化するために、ポストホックサンプリングガイダンス方法を採用します。目的関数とともに、ポストホックサンプリングガイダンスアプローチは、クロス注意層のオープンボキャブラリー分割特性を利用することを目指しています。ただし、バニラポストホックガイダンスアプローチには、潜在的なドメインのシフトを引き起こす可能性があり、生成された画像の品質が低下します。

HD-Painter : 実験と結果

パフォーマンスを分析するために、HD-Painterフレームワークは、Stable Inpainting、GLIDE、BLD（Blended Latent Diffusion）などの現在の最先端モデルと比較され、10000個のランダムサンプルでプロンプトが選択されます。

観察すると、HD-Painterフレームワークは、3つの異なるメトリックで既存のフレームワークを大幅に上回り、特にCLIPメトリックの1.5ポイントの改善と、他の最先端方法からの生成精度スコアの10％の差が見られます。

さらに、次の図は、HD-Painterフレームワークと他の画像補間フレームワークの定性的比較を示しています。観察すると、他のベースラインモデルは、プロンプトを無視して既知の領域のオブジェクトを継続して再構築するか、背景を生成します。一方、HD-Painterフレームワークは、PAIntAとRASGコンポーネントをアーキテクチャに実装することで、ターゲットオブジェクトを成功的に生成できます。

最終的な考え

この記事では、HD-Painterについて説明しました。HD-Painterは、プロンプトの無視や近くのオブジェクト優位性などの既存の画像補間フレームワークの課題に対処する、高解像度テキストガイド画像補間アプローチです。

HD-Painterフレームワークは、プロンプト認識内向型注意（PAIntA）層を実装します。この層は、プロンプト情報を使用して自己注意スコアを強化し、結果としてテキストの整列生成が向上します。さらに、HD-Painterモデルは、出力の整列をさらに向上させるために、Reweighting Attention Score Guidance（RASG）アプローチを導入します。このアプローチは、ポストホックサンプリング戦略を一般的なDDIMコンポーネントにシームレスに統合し、潜在的なドメインの保存を可能にします。最後に、HD-Painterフレームワークは、画像補間専用のスーパーリゾリューションテクニックを導入し、大規模なスケールに拡大し、最大2K解像度の画像の欠落している領域を補間できます。

Related Topics:HD-Painter inpainting PAIntA