人工知能
DiffSeg : 安定拡散を用いた教師なしゼロショットセグメンテーション

コンピュータビジョンベースのモデルにおける中核的な課題の一つは、高品質なセグメンテーションマスクの生成です。大規模な教師あり学習の最近の進歩により、様々な画像スタイルにわたるゼロショットセグメンテーションが可能になりました。さらに、教師なし学習により、広範なアノテーションを必要とせずにセグメンテーションが簡素化されています。これらの進展にもかかわらず、アノテーションなしでゼロショット設定においてあらゆるものをセグメント化できるコンピュータビジョンフレームワークを構築することは、依然として複雑な課題です。セマンティックセグメンテーションは、コンピュータビジョンモデルの基本的な概念であり、画像を均一なセマンティクスを持つ小さな領域に分割することを含みます。この技術は、医療画像処理、画像編集、自動運転など、数多くの下流タスクの基礎を築きます。
DiffSeg : 強化されたゼロショットセグメンテーションアルゴリズム
セマンティックセグメンテーションは、画像を様々なセクションに分割するプロセスであり、各セクションは類似したセマンティクスを共有します。この技術は、数多くの下流タスクの基礎を形成します。伝統的に、ゼロショットコンピュータビジョンタスクは、アノテーションとラベル付けされたカテゴリを持つ大規模なデータセットを利用した教師ありセマンティックセグメンテーションに依存してきました。しかし、ゼロショット設定での教師なしセマンティックセグメンテーションの実装は、依然として課題です。従来の教師あり手法は効果的ですが、ピクセル単位のラベル付けコストがしばしば法外であり、モデルがアノテーションデータもデータの事前知識も必要としない、制限の少ないゼロショット設定での教師なしセグメンテーション手法の開発の必要性を強調しています。 この制限に対処するため、DiffSegは、安定拡散フレームワークの能力を活用して、あらゆる画像に対してゼロショット転送が可能な汎用セグメンテーションモデルを構築する、新しい後処理戦略を導入します。安定拡散フレームワークは、プロンプト条件に基づいて高解像度画像を生成する有効性を証明しています。生成された画像に対して、これらのフレームワークは対応するテキストプロンプトを使用してセグメンテーションマスクを生成でき、通常は主要な前景オブジェクトのみを含みます。 対照的に、DiffSegは、拡散モデルの自己注意層からの注意テンソルを利用してセグメンテーションマスクを作成する革新的な後処理手法です。DiffSegアルゴリズムは、以下の画像に示すように、反復的注意マージ、注意集約、および非最大抑制という3つの主要コンポーネントで構成されています。 
DiffSeg : 基礎概念
DiffSegは、拡散モデル、教師なしセグメンテーション、およびゼロショットセグメンテーションの学習に基づいて構築された新しいアルゴリズムです。
拡散モデル
DiffSegアルゴリズムは、事前学習された拡散モデルからの学習に基づいています。拡散モデルはコンピュータビジョンモデルにおいて最も人気のある生成フレームワークの一つであり、サンプリングされた等方性ガウスノイズ画像から画像を生成するための順拡散および逆拡散プロセスを学習します。安定拡散は拡散モデルの最も人気のある変種であり、教師ありセグメンテーション、ゼロショット分類、セマンティック対応マッチング、ラベル効率的セグメンテーション、オープン語彙セグメンテーションなど、幅広いタスクを実行するために使用されます。しかし、拡散モデルの唯一の問題点は、これらのタスクを実行するために高次元の視覚的特徴に依存し、これらの特徴を完全に活用するためには追加の学習を必要とすることが多いことです。
教師なしセグメンテーション
DiffSegアルゴリズムは、教師なしセグメンテーション、すなわちアノテーションを一切使用せずに高密度なセグメンテーションマスクを生成することを目指す現代のAI手法と密接に関連しています。しかし、良好な性能を提供するためには、教師なしセグメンテーションモデルはターゲットデータセットでの何らかの事前教師なし学習を必要とします。教師なしセグメンテーションベースのAIフレームワークは、事前学習モデルを用いたクラスタリングと、不変性に基づくクラスタリングという2つのカテゴリに特徴付けることができます。最初のカテゴリでは、フレームワークは事前学習モデルによって学習された識別的特徴を利用してセグメンテーションマスクを生成しますが、2番目のカテゴリに属するフレームワークは、画像をセマンティッククラスタにセグメント化し、縮退したセグメンテーションを回避するために、2つの画像間の相互情報を最適化する汎用クラスタリングアルゴリズムを使用します。
ゼロショットセグメンテーション
DiffSegアルゴリズムは、事前学習やデータの知識なしで何でもセグメント化する能力を持つゼロショットセグメンテーションフレームワークと密接に関連しています。ゼロショットセグメンテーションモデルは近年、優れたゼロショット転送能力を示していますが、いくつかのテキスト入力とプロンプトを必要とします。対照的に、DiffSegアルゴリズムは、複数の画像をクエリしたり合成したりすることなく、またオブジェクトの内容を知ることなく、拡散モデルを用いてセグメンテーションを生成します。
DiffSeg : 手法とアーキテクチャ
DiffSegアルゴリズムは、事前学習された安定拡散モデルの自己注意層を利用して、高品質なセグメンテーションタスクを生成します。
安定拡散モデル
安定拡散は、DiffSegフレームワークにおける基本的な概念の一つです。安定拡散は生成AIフレームワークであり、最も人気のある拡散モデルの一つです。拡散モデルの主な特徴の一つは、順方向パスと逆方向パスです。順方向パスでは、画像が等方性ガウスノイズ画像になるまで、すべてのタイムステップで少量のガウスノイズが画像に繰り返し追加されます。一方、逆方向パスでは、拡散モデルは等方性ガウスノイズ画像のノイズを繰り返し除去して、ガウスノイズのない元の画像を復元します。 安定拡散フレームワークは、エンコーダ-デコーダと注意層を持つU-Net設計を採用しており、エンコーダを使用してまず画像をより小さな空間次元の潜在空間に圧縮し、デコーダを使用して画像を解凍します。U-Netアーキテクチャはモジュラーブロックのスタックで構成され、各ブロックは以下の2つのコンポーネントのいずれかで構成されています:トランスフォーマーレイヤーとResNetレイヤーです。
コンポーネントとアーキテクチャ
拡散モデルの自己注意層は、空間的注意マップの形で固有のオブジェクトの情報をグループ化し、DiffSegは注意テンソルを有効なセグメンテーションマスクにマージする新しい後処理手法であり、パイプラインは注意集約、非最大抑制、反復的注意という3つの主要コンポーネントで構成されています。
注意集約
U-Net層とエンコーダを通過する入力画像に対して、安定拡散モデルは合計16個の注意テンソルを生成し、各次元に対して5つのテンソルを生成します。16個のテンソルを生成する主な目的は、異なる解像度を持つこれらの注意テンソルを、可能な限り最高の解像度を持つテンソルに集約することです。これを達成するために、DiffSegアルゴリズムは4つの次元を互いに異なるものとして扱います。 4つの次元のうち、注意センサーの最後の2次元は異なる解像度を持ちますが、それらは空間的に一貫しています。なぜなら、DiffSegフレームワークの2D空間マップは、位置と空間位置の間の相関に対応するからです。その結果、DiffSegフレームワークは、すべての注意マップのこれら2次元を、それらすべての中で最高の解像度である64 x 64にサンプリングします。一方、最初の2次元は、以下の画像に示すように、注意マップの位置参照を示します。 
反復的注意マージ
注意集約の主な目的は注意テンソルを計算することでしたが、主な目的は、テンソル内の注意マップをオブジェクト提案のスタックにマージすることであり、各提案にはスタッフカテゴリまたは単一オブジェクトの活性化が含まれます。これを達成するための提案された解決策は、オブジェクトのクラスタを見つけるために、テンソルの有効な分布に対してK-Meansアルゴリズムを実装することです。しかし、K-Meansを使用することは最適な解決策ではありません。なぜなら、K-Meansクラスタリングはユーザーが事前にクラスタ数を指定する必要があり、さらに、K-Meansアルゴリズムを実装すると、初期化に確率的に依存するため、同じ画像に対して異なる結果が生じる可能性があるからです。この障害を克服するために、DiffSegフレームワークは、注意マップを反復的にマージすることによって提案を生成するサンプリンググリッドを生成することを提案します。
非最大抑制
前のステップである反復的注意マージにより、確率または注意マップの形でオブジェクト提案のリストが得られます。各オブジェクト提案にはオブジェクトの活性化が含まれています。フレームワークは、オブジェクト提案のリストを有効なセグメンテーションマスクに変換するために非最大抑制を利用し、このプロセスは効果的なアプローチです。なぜなら、リスト内の各要素はすでに確率分布のマップだからです。すべてのマップにわたるすべての空間位置に対して、アルゴリズムは最大確率のインデックスを取り、対応するマップのインデックスに基づいてメンバーシップを割り当てます。
DiffSeg : 実験と結果
教師なしセグメンテーションに取り組むフレームワークは、CityscapesとCOCO-stuff-27という2つのセグメンテーションベンチマークを利用します。Cityscapesベンチマークは27の中間レベルカテゴリを持つ自動運転データセットであり、COCO-stuff-27ベンチマークは、80の「もの」と91のカテゴリを27のカテゴリに統合した、元のCOCO-stuffデータセットの精選版です。さらに、セグメンテーション性能を分析するために、DiffSegフレームワークは平均交差和集合(mIoU)とピクセル精度(ACC)を使用し、DiffSegアルゴリズムはセマンティックラベルを提供できないため、ハンガリアンマッチングアルゴリズムを使用して、各予測マスクにグラウンドトゥルースマスクを割り当てます。予測マスクの数がグラウンドトゥルースマスクの数を超える場合、フレームワークは一致しない予測タスクを偽陰性として考慮します。 さらに、DiffSegフレームワークは、推論を実行するために以下の3つの作業にも重点を置いています:言語依存性(LD)、教師なし適応(UA)、および補助画像(AX)。言語依存性とは、メソッドが画像のセグメンテーションを促進するために記述的なテキスト入力を必要とすることを意味し、教師なし適応とは、メソッドがターゲットデータセットで教師なし学習を使用する必要があることを指し、補助画像とは、メソッドが合成画像または参照画像のプールとして追加の入力を必要とすることを








