Artificial Intelligence

Instant-Style: テキストから画像への生成におけるスタイルの保持

公開済み

3週間前

2024 年 4 月 19 日

過去数年間にわたり、チューニングベースの拡散モデルは、画像のパーソナライゼーションとカスタマイズの幅広いタスクにわたって目覚ましい進歩を遂げてきました。しかし、その可能性にもかかわらず、現在のチューニングベースの拡散モデルは、スタイルの一貫した画像を作成および生成する際に多くの複雑な課題に直面し続けており、その背後には 3 つの理由がある可能性があります。まず、スタイルという概念は未だに定義も定まっていない部分も多く、雰囲気、構造、デザイン、素材、色などの要素の組み合わせで構成されています。 2 番目の反転ベースの方法はスタイルが劣化する傾向があり、その結果、きめの細かい詳細が頻繁に失われます。最後に、アダプターベースのアプローチでは、テキストの制御性とスタイルの強さのバランスを維持するために、各参照画像の重みを頻繁に調整する必要があります。

さらに、大部分のスタイル転送アプローチまたはスタイルイメージ生成の主な目的は、参照イメージを使用し、特定のスタイルを特定のサブセットまたは参照イメージからターゲットコンテンツイメージに適用することです。ただし、スタイルの属性が多数あるため、研究者がスタイル化されたデータセットを収集し、スタイルを正しく表現し、転送の成功を評価するという作業が困難になります。以前は、微調整ベースの拡散プロセスを扱うモデルやフレームワークは、共通のスタイルを共有する画像のデータセットを微調整していましたが、このプロセスは時間がかかり、現実世界のタスクでは一般化が困難なため限られていました。同じまたはほぼ同じスタイルを共有する画像のサブセットを収集します。

この記事では、画像生成とカスタマイズのための現在のチューニングベースの普及モデルが直面する問題に取り組むことを目的として設計されたフレームワークである InstantStyle について説明します。 InstantStyle フレームワークによって実装される 2 つの主要な戦略について説明します。

特徴空間内の参照画像からスタイルとコンテンツを分離するためのシンプルかつ効果的なアプローチ。同じ特徴空間内の特徴は互いに追加または減算できるという前提で予測されます。
参照画像の特徴をスタイル固有のブロックのみに注入することでスタイルのリークを防ぎ、パラメータを多用するデザインの特徴となる、微調整に面倒な重みを使用する必要性を意図的に回避します。

この記事は、InstantStyle フレームワークについて詳しく説明することを目的としており、最先端のフレームワークとの比較とともに、フレームワークのメカニズム、方法論、アーキテクチャを探ります。また、InstantStyle フレームワークがどのようにして視覚的なスタイル化の優れた結果を示し、テキスト要素の制御可能性とスタイルの強さの間で最適なバランスをとっているかについても説明します。それでは始めましょう。

InstantStyle : テキストから画像への生成におけるスタイルの保持

拡散ベースのテキストから画像への生成 AI フレームワークは、幅広いカスタマイズおよびパーソナライゼーションタスク、特にオブジェクトのカスタマイズ、画像の保存、スタイルの転送などの一貫した画像生成タスクにおいて顕著な成功を収めています。しかし、最近の成功とパフォーマンスの向上にもかかわらず、スタイルの転送は研究者にとって依然として困難な課題です。これは、スタイルには雰囲気、構造、デザイン、素材、色などのさまざまな要素が含まれることが多く、不定かつ未定義であるためです。そうは言っても、様式化された画像の生成またはスタイル転送の主な目的は、特定の参照画像または画像の参照サブセットから特定のスタイルを適用することです。ターゲットのコンテンツ画像に。ただし、スタイルの属性が多数あるため、研究者がスタイル化されたデータセットを収集し、スタイルを正しく表現し、転送の成功を評価するという作業が困難になります。以前は、微調整ベースの拡散プロセスを扱うモデルやフレームワークは、共通のスタイルを共有する画像のデータセットを微調整していましたが、このプロセスは時間がかかり、現実世界のタスクでは一般化が困難なため限られていました。同じまたはほぼ同じスタイルを共有する画像のサブセットを収集します。

現在のアプローチでは課題が発生しているため、研究者はスタイルの転送や、様式化された画像の生成これらのフレームワークは 2 つの異なるグループに分けることができます。

アダプター不要のアプローチ: アダプターフリーのアプローチとフレームワークは、拡散プロセス内で自己注意の力を活用し、共有注意操作を実装することにより、これらのモデルは、指定された参照スタイルの画像からキーや値を含む重要な特徴を直接抽出できます。

アダプターベースのアプローチ: 一方、アダプターベースのアプローチとフレームワークには、参照スタイルの画像から詳細な画像表現を抽出するように設計された軽量モデルが組み込まれています。次に、フレームワークは、クロスアテンションメカニズムを巧みに使用して、これらの表現を拡散プロセスに統合します。統合プロセスの主な目的は、生成プロセスをガイドし、結果の画像が参照画像の望ましいスタイルのニュアンスと確実に一致するようにすることです。

ただし、その約束にもかかわらず、チューニング不要の方法では、多くの場合、いくつかの課題に直面します。まず、アダプターを使用しないアプローチでは、セルフアテンションレイヤー内でキーと値を交換する必要があり、参照スタイルイメージから派生したキーと値のマトリックスを事前に取得します。自然画像に実装する場合、アダプターを使用しないアプローチでは、DDIM やノイズ除去拡散暗黙的モデル反転などの技術を使用して、画像を潜在ノイズに反転する必要があります。ただし、DDIM またはその他の反転アプローチを使用すると、色やテクスチャなどのきめの細かい詳細が失われる可能性があり、その結果、生成された画像内のスタイル情報が減少します。さらに、これらのアプローチによって導入される追加のステップは時間のかかるプロセスであり、実際のアプリケーションでは重大な欠点を引き起こす可能性があります。一方、アダプターベースのメソッドの主な課題は、コンテキストの漏洩とスタイルの強度の間で適切なバランスを取ることにあります。コンテンツの漏洩は、スタイルの強度が増加した結果、生成された出力内の参照画像からスタイル以外の要素が出現した場合に発生します。主な問題点は、参照画像内のコンテンツからスタイルを効果的に分離することです。この問題に対処するために、一部のフレームワークは、同じオブジェクトを異なるスタイルで表すペアのデータセットを構築し、コンテンツ表現の抽出とスタイルのもつれの解消を容易にします。ただし、スタイルの表現は本質的に未決定であるため、大規模なペアデータセットを作成するタスクは、キャプチャできるスタイルの多様性という点で制限されており、リソースを大量に消費するプロセスでもあります。

これらの制限に対処するために、InstantStyle フレームワークが導入されています。これは、他のアテンションベースの注入方法とシームレスに統合し、コンテンツとスタイルの効果的な分離を実現する機能を備えた、既存のアダプターベースの方法に基づく新しい調整不要のメカニズムです。さらに、InstantStyle フレームワークは、スタイルとコンテンツの分離を完了するための 1 つではなく 2 つの効果的な方法を導入しており、分離やペアのデータセットの構築を実現するための追加の方法を導入することなく、より適切なスタイルの移行を実現します。

さらに、以前のアダプターベースのフレームワークは、画像特徴抽出器として CLIP ベースの方法で広く使用されており、いくつかのフレームワークは特徴空間内で特徴分離を実装する可能性を検討しており、スタイルの不確定性と比較すると、より簡単です。内容をテキストで説明します。 CLIP ベースの方法では画像とテキストが特徴空間を共有するため、コンテキストテキストの特徴と画像の特徴の単純な減算演算により、コンテンツの漏洩を大幅に削減できます。さらに、大多数では、拡散モデルのアーキテクチャには、スタイル情報を注入する特定の層があり、特定のスタイルブロックにのみ画像の特徴を注入することでコンテンツとスタイルの分離を実現します。これら 2 つの単純な戦略を実装することにより、InstantStyle フレームワークは、スタイルの強度を維持しながら、既存のフレームワークの大部分が遭遇するコンテンツ漏洩の問題を解決できます。

要約すると、InstantStyle フレームワークは 2 つのシンプルで単純かつ効果的なメカニズムを採用して、参照画像からコンテンツとスタイルを効果的に分離します。 Instant-Style フレームワークは、モデルに依存せず、調整不要のアプローチであり、下流タスクで大きな可能性を秘めたスタイル転送タスクで顕著なパフォーマンスを示します。

インスタントスタイル: 方法論とアーキテクチャ

これまでのアプローチで実証されているように、チューニング不要の拡散モデルではスタイル条件の注入にはバランスが取れています。画像条件の強度が高すぎると、内容が漏れる可能性があります。一方、画像条件の強度が低すぎると、スタイルが十分に明白に見えない可能性があります。この観察の背後にある主な理由は、画像ではスタイルとコンテンツが相互結合されており、固有の未決定のスタイル属性のため、スタイルと意図を分離することが難しいということです。その結果、テキストの制御性とスタイルの強さのバランスを図るために、参照画像ごとに細心の注意を払って重みが調整されることがよくあります。さらに、反転ベースの方法における特定の入力参照画像とそれに対応するテキスト記述に対して、DDIM などの反転アプローチが画像に対して採用され、反転拡散軌跡が得られます。これは、画像を潜在画像に変換する反転方程式を近似するプロセスです。ノイズ表現。これらのメソッドは、同じものを基にして、新しいプロンプトのセットとともに逆拡散軌道から開始して、入力と一致するスタイルを持つ新しいコンテンツを生成します。ただし、次の図に示すように、実際の画像に対する DDIM 逆変換アプローチは、局所的な線形化の仮定に依存しているため不安定であることが多く、その結果、エラーが伝播し、コンテンツの損失や不正確な画像の再構成につながります。

方法論に関して言えば、Instant-Style フレームワークは、画像からコンテンツとスタイルを分離するために複雑な戦略を採用する代わりに、同様のパフォーマンスを達成するために最も単純なアプローチを採用しています。不十分に決定されたスタイル属性と比較すると、コンテンツは自然テキストで表現できるため、Instant-Style フレームワークが CLIP のテキストエンコーダーを使用して、コンテンツテキストの特徴をコンテキスト表現として抽出できます。同時に、Instant-Style フレームワークは、参照画像の特徴を抽出するための CLIP 画像エンコーダーを実装します。 CLIP グローバル機能の特徴付けを利用し、画像機能からコンテンツテキスト機能を差し引いた後、Instant-Style フレームワークはスタイルとコンテンツを明示的に分離できます。これは単純な戦略ですが、インスタントスタイルフレームワークがコンテンツの漏洩を最小限に抑えるのに非常に効果的です。

さらに、深いネットワーク内の各層は、異なるセマンティック情報を取得する責任を負い、以前のモデルからの重要な観察は、スタイルの処理を担当する 0 つの注意層が存在するということです。具体的には、blocks.1.attentions.2 レイヤーと down Blocks.1.attention.XNUMX レイヤーが色、素材、雰囲気などのスタイルをキャプチャーし、空間レイアウトレイヤーがそれぞれ構造と構成をキャプチャーします。 Instant-Style フレームワークは、これらのレイヤーを暗黙的に使用してスタイル情報を抽出し、スタイルの強度を失うことなくコンテンツの漏洩を防ぎます。モデルには画像の特徴をこれらのブロックに注入してシームレスなスタイル転送を実現できるスタイルブロックが配置されているため、この戦略はシンプルですが効果的です。さらに、このモデルはアダプターのパラメーターの数を大幅に削減するため、フレームワークのテキスト制御能力が強化され、このメカニズムは編集やその他のタスクのための他のアテンションベースの機能注入モデルにも適用できます。

インスタントスタイル : 実験と結果

Instant-Style フレームワークは Stable Diffusion XL フレームワーク上に実装されており、一般的に採用されている事前トレーニング済み IR アダプターをその方法論を検証するためのサンプルとして使用し、画像特徴のスタイルブロックを除くすべてのブロックをミュートします。また、インスタントスタイルモデルは、4 万の大規模なテキストと画像のペアデータセットで IR アダプターを最初からトレーニングし、すべてのブロックをトレーニングするのではなく、スタイルブロックのみを更新します。

一般化機能と堅牢性を実現するために、Instant-Style フレームワークは、さまざまなコンテンツにわたってさまざまなスタイルを使用して多数のスタイル転送実験を実施します。その結果は次の画像で確認できます。単一のスタイル参照画像とさまざまなプロンプトを指定すると、Instant-Style フレームワークは高品質で一貫したスタイルを提供します。画像生成.

さらに、モデルはスタイルブロックにのみ画像情報を挿入するため、コンテンツ漏洩の問題を大幅に軽減でき、したがって重み調整を実行する必要がありません。

さらに、Instant-Style フレームワークは ControlNet アーキテクチャも採用して、空間制御による画像ベースの様式化を実現します。その結果を次の図に示します。

StyleAlign、B-LoRA、スワッピングセルフアテンション、IP アダプターなどのこれまでの最先端の方法と比較した場合、インスタントスタイルフレームワークは最高の視覚効果を示します。

最終的な考え

この記事では、参照画像からコンテンツとスタイルを効果的に分離するための 2 つのシンプルかつ効果的な戦略を採用する一般的なフレームワークであるインスタントスタイルについて説明しました。 InstantStyle フレームワークは、画像生成とカスタマイズのための現在のチューニングベースの拡散モデルが直面している問題に取り組むことを目的として設計されています。 Instant-Style フレームワークは 2 つの重要な戦略を実装しています。 1 つは、特徴空間内の参照画像からスタイルとコンテンツを分離するためのシンプルかつ効果的なアプローチです。同じ特徴空間内の特徴は互いに追加または減算できるという前提で予測されます。 2 つ目は、参照画像の特徴をスタイル固有のブロックのみに注入することでスタイルのリークを防ぎ、パラメーターを多用するデザインの特徴となる、微調整に面倒な重みを使用する必要性を意図的に回避することです。