Refresh

This website www.unite.ai/ja/diffseg-unsupervised-zero-shot-segmentation-using-stable-diffusion/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

スタブ DiffSeg : 安定拡散を使用した教師なしゼロショット セグメンテーション - Unite.AI
私達と接続

人工知能

DiffSeg : 安定拡散を使用した教師なしゼロショット セグメンテーション

mm

公開済み

 on

DiffSeg : 安定拡散を使用した教師なしゼロショット セグメンテーション

中核的な課題の XNUMX つは、 コンピュータビジョンベースのモデルは、高品質のセグメンテーション マスクを生成します。大規模な教師ありトレーニングの最近の進歩により、さまざまな画像スタイルにわたるゼロショット セグメンテーションが可能になりました。さらに、教師なしトレーニングにより、広範な注釈を必要とせずにセグメンテーションが簡素化されました。こうした発展にもかかわらず、注釈なしでゼロショット設定であらゆるものをセグメント化できるコンピューター ビジョン フレームワークを構築することは依然として複雑な作業です。コンピュータ ビジョン モデルの基本概念であるセマンティック セグメンテーションには、画像を均一なセマンティクスを持つ小さな領域に分割することが含まれます。この技術は、医療画像処理、画像編集、自動運転など、数多くの下流タスクの基礎を築きます。

コンピューター ビジョン モデルの開発を進めるには、画像のセグメンテーションがカテゴリが限定された固定データセットに限定されないことが重要です。代わりに、他のさまざまなアプリケーションの汎用性の高い基本タスクとして機能する必要があります。ただし、ピクセル単位でラベルを収集するコストが高いため、注釈を必要とせず、ターゲットへの事前アクセスができないゼロショットおよび教師付きセグメンテーション手法の進歩が制限されるという大きな課題があります。この記事では、自己注意がどのように階層化されるかについて説明します。 安定拡散モデル 適切な注釈がなくても、ゼロショット設定で入力をセグメント化できるモデルの作成を容易にできます。これらの自己注意層は、事前にトレーニングされた安定した拡散モデルによって学習されたオブジェクトの概念を本質的に理解します。

DiffSeg : 強化されたゼロショット セグメンテーション アルゴリズム

セマンティック セグメンテーションは、画像をさまざまなセクションに分割し、各セクションが同様のセマンティクスを共有するプロセスです。この技術は、多数の下流タスクの基礎を形成します。従来、ゼロショット コンピューター ビジョン タスクは、注釈付きでラベル付けされたカテゴリを持つ大規模なデータセットを利用する、教師ありセマンティック セグメンテーションに依存していました。ただし、ゼロショット設定で教師なしセマンティック セグメンテーションを実装することは依然として課題です。従来の教師あり手法は効果的ですが、ピクセルごとのラベル付けコストが法外なことが多く、モデルが注釈付きデータもデータの事前知識も必要としない、より制限の少ないゼロショット設定で教師なしセグメンテーション手法を開発する必要性が浮き彫りになっています。

この制限に対処するために、DiffSeg は新しい後処理戦略を導入し、Stable Diffusion フレームワークの機能を活用して、あらゆる画像でゼロショット転送が可能な汎用セグメンテーション モデルを構築します。 Stable Diffusion フレームワークは、即時の条件に基づいて高解像度の画像を生成する際の有効性が証明されています。生成された画像の場合、これらのフレームワークは、対応するテキスト プロンプトを使用して、通常、主要な前景オブジェクトのみを含むセグメンテーション マスクを生成できます。

対照的に、DiffSeg は、拡散モデルのセルフ アテンション レイヤーからのアテンション テンソルを利用してセグメンテーション マスクを作成する革新的な後処理方法です。 DiffSeg アルゴリズムは、次の図に示すように、反復アテンション マージ、アテンション集約、および非最大抑制という XNUMX つの主要なコンポーネントで構成されています。

DiffSeg アルゴリズムは、4D アテンション テンソルを空間的一貫性を持って集約し、アンカー ポイントをサンプリングすることによる反復結合プロセスを利用することにより、複数の解像度にわたって視覚情報を保存します。これらのアンカーは、最終的に同じオブジェクト アンカーが吸収されるアテンション マスクをマージするための発射台として機能します。 DiffSeg フレームワークは、次の助けを借りてマージ プロセスを制御します。 KL発散法 XNUMX つのアテンション マップ間の類似性を測定します。 

クラスタリングベースの教師なしセグメンテーション手法と比較すると、開発者は DiffSeg アルゴリズムで事前にクラスターの数を指定する必要がなく、事前知識がなくても、DiffSeg アルゴリズムは追加のリソースを利用することなくセグメンテーションを生成できます。全体として、DiffSeg アルゴリズムは次のとおりです。事前トレーニングされた安定拡散モデルを利用する新しい教師なしゼロショット セグメンテーション手法で、追加のリソースや事前知識なしで画像をセグメント化できます。  

DiffSeg : 基本概念

DiffSeg は、拡散モデル、教師なしセグメンテーション、およびゼロショット セグメンテーションの学習に基づいて構築された新しいアルゴリズムです。 

拡散モデル

DiffSeg アルゴリズムは、事前トレーニングされた拡散モデルからの学習に基づいて構築されています。拡散モデルは、コンピューター ビジョン モデルの最も一般的な生成フレームワークの XNUMX つであり、サンプリングされた等方性ガウス ノイズ イメージから順拡散プロセスと逆拡散プロセスを学習して画像を生成します。安定拡散は拡散モデルの最も一般的なバリアントであり、教師ありセグメンテーション、ゼロショット分類、意味対応マッチング、ラベル効率の良いセグメンテーション、オープン語彙セグメンテーションなどの幅広いタスクを実行するために使用されます。ただし、拡散モデルの唯一の問題は、これらのタスクを実行するために高次元の視覚的特徴に依存しており、これらの特徴を完全に活用するには追加のトレーニングが必要になることが多いことです。 

教師なしセグメンテーション

DiffSeg アルゴリズムは、注釈を使用せずに高密度のセグメンテーション マスクを生成することを目的とした最新の AI 手法である教師なしセグメンテーションと密接に関連しています。ただし、良好なパフォーマンスを実現するには、教師なしセグメンテーション モデルでターゲット データセットに対する事前の教師なしトレーニングが必要です。教師なしセグメンテーション ベースの AI フレームワークは、事前トレーニングされたモデルを使用したクラスタリングと不変性に基づくクラスタリングの XNUMX つのカテゴリに特徴付けることができます。最初のカテゴリでは、フレームワークは、事前トレーニングされたモデルによって学習された識別機能を利用してセグメンテーション マスクを生成します。一方、XNUMX 番目のカテゴリに属する​​フレームワークは、XNUMX つの画像間の相互情報を最適化して画像をセマンティック クラスタにセグメント化する汎用クラスタリング アルゴリズムを使用します。縮退セグメンテーションを回避します。 

ゼロショットセグメンテーション

DiffSeg アルゴリズムは、ゼロショット セグメンテーション フレームワークと密接に関連しています。ゼロショット セグメンテーション フレームワークは、事前のトレーニングやデータの知識がなくても、あらゆるものをセグメント化できる機能を備えた方法です。ゼロショット セグメンテーション モデルは、いくつかのテキスト入力とプロンプトを必要としますが、最近では優れたゼロショット転送機能を実証しています。対照的に、DiffSeg アルゴリズムは拡散モデルを使用して、複数の画像のクエリや合成を行わず、またオブジェクトの内容を知ることなくセグメンテーションを生成します。 

DiffSeg : メソッドとアーキテクチャ

DiffSeg アルゴリズムは、事前トレーニングされた安定した拡散モデルのセルフ アテンション レイヤーを利用して、高品質のセグメンテーション タスクを生成します。 

安定拡散モデル

安定拡散は、DiffSeg フレームワークの基本概念の XNUMX つです。 Stable Diffusion は生成 AI フレームワークであり、最も人気のある拡散モデルの XNUMX つです。拡散モデルの主な特徴の XNUMX つは、順方向パスと逆方向パスです。順方向パスでは、画像が等方性ガウス ノイズ イメージになるまで、タイム ステップごとに少量のガウス ノイズが繰り返し画像に追加されます。一方、逆パスでは、拡散モデルは等方性ガウス ノイズ画像のノイズを繰り返し除去して、ガウス ノイズのない元の画像を復元します。 

Stable Diffusion フレームワークは、エンコーダ デコーダと、エンコーダを使用して最初に画像を空間次元の小さい潜在空間に圧縮し、デコーダを利用して画像を解凍するアテンション レイヤーを備えた U-Net 設計を採用しています。 U-Net アーキテクチャはモジュール式ブロックのスタックで構成され、各ブロックは Transformer Layer と ResNet Layer の XNUMX つのコンポーネントのいずれかで構成されます。 

コンポーネントとアーキテクチャ

拡散モデルのセルフ アテンション レイヤーは、固有のオブジェクトの情報を空間アテンション マップの形でグループ化します。DiffSeg は、アテンション テンソルを有効なセグメンテーション マスクにマージするための新しい後処理方法です。このパイプラインは、アテンション アグリゲーション、アテンション アグリゲーション、非最大抑制、および反復的な注意。

アテンションの集約

U-Net レイヤーとエンコーダーを通過する入力イメージの場合、安定拡散モデルは、各次元に 16 つのテンソルを含む、合計 5 のアテンション テンソルを生成します。 16 個のテンソルを生成する主な目的は、さまざまな解像度を持つこれらのアテンション テンソルを可能な限り最高の解像度を持つ 4 つのテンソルに集約することです。これを実現するために、DiffSeg アルゴリズムは XNUMX つの次元を互いに異なる方法で処理します。 

2 つの次元のうち、アテンション センサーの最後の 2 次元は解像度が異なりますが、DiffSeg フレームワークの 64D 空間マップが位置と空間的位置の間の相関関係に対応しているため、空間的に一貫しています。その結果、DiffSeg フレームワークは、すべてのアテンション マップのこれら 64 つの次元を、すべての中で最も高い解像度である 2 x XNUMX にサンプリングします。一方、次の図に示すように、最初の XNUMX つの次元はアテンション マップの位置参照を示します。 

これらのディメンションはアテンション マップの位置を参照するため、アテンション マップはそれに応じて集約される必要があります。さらに、集約されたアテンション マップが有効な分布を持つことを保証するために、フレームワークは、すべてのアテンション マップにその解像度に比例した重みを割り当てて、集約後に分布を正規化します。 

反復的なアテンションのマージ

アテンション集約の主な目的はアテンション テンソルを計算することでしたが、主な目的は、テンソル内のアテンション マップをオブジェクト提案のスタックにマージすることであり、個々の提案にはスタッフ カテゴリまたは単一オブジェクトのアクティベーションが含まれます。これを達成するために提案された解決策は、テンソルの有効な分布に K-Means アルゴリズムを実装して、オブジェクトのクラスターを見つけることです。ただし、K-Means クラスタリングではユーザーが事前にクラスターの数を指定する必要があるため、K-Means の使用は最適な解決策ではありません。さらに、K-Means アルゴリズムを実装すると、初期化に確率的に依存するため、同じ画像に対して異なる結果が生じる可能性があります。このハードルを克服するために、DiffSeg フレームワークは、アテンション マップを繰り返しマージすることで提案を作成するためのサンプリング グリッドを生成することを提案しています。 

非最大抑制

反復的なアテンションのマージの前のステップでは、各オブジェクトの提案にオブジェクトのアクティベーションが含まれる、確率とアテンションのマップの形式でオブジェクトの提案のリストが生成されます。このフレームワークは、非最大抑制を利用してオブジェクト提案のリストを有効なセグメンテーション マスクに変換します。リスト内の各要素はすでに確率分布のマップであるため、このプロセスは効果的なアプローチです。すべてのマップにわたるすべての空間位置について、アルゴリズムは最大の確率のインデックスを取得し、対応するマップのインデックスに基づいてメンバーシップを割り当てます。 

DiffSeg : 実験と結果

教師なしセグメンテーションに取り組むフレームワークは、Cityscapes と COCO-stuff-27 という 27 つのセグメンテーション ベンチマークを利用します。 Cityscapes ベンチマークは 27 の中レベル カテゴリを含む自動運転データセットであるのに対し、COCO-stuff-80 ベンチマークは、91 の物と 27 のカテゴリを XNUMX のカテゴリにマージしたオリジナルの COCO-stuff データセットの厳選バージョンです。さらに、セグメンテーションのパフォーマンスを分析するために、DiffSeg フレームワークは和集合または mIoU とピクセル精度または ACC の平均交差を使用します。また、DiffSeg アルゴリズムはセマンティック ラベルを提供できないため、ハンガリーのマッチング アルゴリズムを使用してグラウンド トゥルース マスクを割り当てます。それぞれの予測マスク。予測マスクの数がグランド トゥルース マスクの数を超える場合、フレームワークは一致しない予測タスクを偽陰性として考慮します。 

さらに、DiffSeg フレームワークは、干渉を実行するための XNUMX つの作業、つまり言語依存性 (LD)、教師なし適応 (UA)、および補助画像 (AX) にも重点を置いています。言語依存性は、画像のセグメンテーションを容易にするためにメソッドに説明的なテキスト入力が必要であることを意味します。教師なし適応は、ターゲット データセットで教師なしトレーニングを使用するためのメソッドの要件を指します。一方、補助画像は、メソッドが合成画像として追加の入力を必要とすることを指します。または参照画像のプールとして。 

結果

COCO ベンチマークの DiffSeg フレームワークには、K-Means-S と K-Means-C という 6 つの K-means ベースラインが含まれています。 K-Means-C ベンチマークには、評価する画像内のオブジェクトの数を平均することによって計算された XNUMX つのクラスターが含まれますが、K-Means-S ベンチマークは、存在するオブジェクトの数に基づいて画像ごとに特定の数のクラスターを使用します。これらの両方のベンチマークの結果を次の画像に示します。 

ご覧のとおり、K-Means ベースラインは既存の方法よりも優れており、セルフ アテンション テンソルを使用する利点が実証されています。興味深いのは、K-Means-S ベンチマークが K-Means-C ベンチマークよりも優れていることです。これは、クラスター数が基本的なハイパーパラメーターであり、その調整がすべての画像にとって重要であることを示しています。さらに、同じアテンション テンソルに依存する場合でも、DiffSeg フレームワークは K-Means ベースラインよりも優れたパフォーマンスを発揮します。これは、DiffSeg フレームワークがより優れたセグメンテーションを提供するだけでなく、K-Means ベースラインの使用によってもたらされる欠点を回避できることを証明しています。 

Cityscapes データセットでは、DiffSeg フレームワークは、精度と mIoU の両方で、より低い 320 解像度の入力を使用するフレームワークよりも優れたパフォーマンスを示しながら、より低い 512 解像度の入力を使用するフレームワークと同様の結果を提供します。 

前述したように、DiffSeg フレームワークは、次の図に示すように、いくつかのハイパーパラメータを使用します。 

アテンション集約は、DiffSeg フレームワークで採用されている基本概念の XNUMX つであり、さまざまな集約重みを使用した効果を、画像の解像度を一定にして次の画像で示します。 

ご覧のとおり、図 (b) の 64 x 64 マップを使用した高解像度マップでは、最も詳細なセグメンテーションが得られますが、セグメンテーションには目に見える亀裂がいくつかありますが、低解像度の 32 x 32 マップでは、詳細が過度にセグメント化される傾向がありますが、一貫性のあるセグメンテーションが強化されました。図 (d) では、画像全体が既存のハイパーパラメータ設定を使用して単一のオブジェクトにマージされるため、低解像度マップはセグメンテーションを生成できません。最後に、比例集計戦略を利用した図 (a) では、詳細が強化され、バランスの取れた一貫性が得られます。 

最終的な考え

ゼロショットの教師なしセグメンテーションは依然としてコンピューター ビジョン フレームワークにとって最大のハードルの XNUMX つであり、既存のモデルは非ゼロショットの教師なし適応または外部リソースに依存しています。このハードルを克服するために、安定した拡散モデルのセルフ アテンション レイヤーが、適切なアノテーションなしでゼロショット設定で入力をセグメント化できるモデルの構築をどのように可能にするかについて説明しました。これらのセルフ アテンション レイヤーは、固有の概念を保持しているためです。事前トレーニングされた安定拡散モデルが学習するオブジェクト。また、新しいポストプレス戦略である DiffSeg についても説明しました。この戦略は、Stable Diffusion フレームワークの可能性を活用して、あらゆる画像にゼロショット転送を実装できる汎用セグメンテーション モデルを構築することを目的としています。このアルゴリズムは、注意間類似性と注意内類似性を利用して、注意マップを有効なセグメンテーション マスクに繰り返しマージし、一般的なベンチマークで最先端のパフォーマンスを実現します。 

「職業はエンジニア、心は作家」。 Kunal は、AI と ML に対する深い愛情と理解を備えたテクニカル ライターであり、魅力的で有益なドキュメントを通じてこれらの分野の複雑な概念を簡素化することに専念しています。