Connect with us

SAM 2 を公開: Meta の新しいオープンソース フォンダメンタル モデルによるリアルタイム オブジェクト セグメンテーション for 動画と画像

人工知能

SAM 2 を公開: Meta の新しいオープンソース フォンダメンタル モデルによるリアルタイム オブジェクト セグメンテーション for 動画と画像

mm

過去数年間、AI の世界では、テキスト処理の基礎 AI における驚異的な進歩が見られ、カスタマー サービスから法的分析まで、業界全体が変革されました。ただし、画像処理の分野では、まだ表面を掘り返す程度です。視覚データの複雑さと、モデルを正確に解釈および分析するためのトレーニングの課題は、重大な障害を提示しています。画像および動画の基礎 AI を探求し続ける研究者は、AI の画像処理の未来が、ヘルスケア、自動運転車、さらにはその先の分野での革新に潜在的に貢献することを示唆しています。

オブジェクト セグメンテーションは、画像内の関心のあるオブジェクトに該当する正確なピクセルを特定することを含むため、コンピュータ ビジョンの重要なタスクです。従来、このタスクには、専用の AI モデルを作成する必要がありましたが、これには広範なインフラストラクチャと大量の注釈付きデータが必要でした。昨年、Meta は、Segment Anything Model (SAM) を導入しました。これは、基礎 AI モデルであり、シンプルなプロンプトで画像をセグメント化できるようにすることで、このプロセスを簡素化しました。この革新により、専門的な専門知識と広範なコンピューティング リソースの必要性が減り、画像セグメンテーションがよりアクセスしやすくなりました。

現在、Meta はこれをさらに進めて、SAM 2 を発表しました。この新しいイテレーションは、SAM の既存の画像セグメンテーション機能を強化するだけでなく、動画処理にも拡張しています。SAM 2 は、画像と動画の両方で、以前見たことがないオブジェクトを含む、任意のオブジェクトをセグメント化できます。この進歩は、コンピュータ ビジョンと画像処理の分野で大きな飛躍であり、視覚コンテンツを分析するためのより多機能で強力なツールを提供します。以下では、SAM 2 の興奮する進歩と、コンピュータ ビジョンの分野を再定義する可能性について説明します。

セグメント アNYシング モデル (SAM) の紹介

従来のセグメンテーション方法は、手動での改良 (インタラクティブ セグメンテーション) または、事前に定義されたカテゴリへの自動セグメンテーションのための大量の注釈付きデータを必要とします。SAM は、クリック、ボックス、またはテキスト入力などの多様なプロンプトを使用したインタラクティブ セグメンテーションをサポートする基礎 AI モデルです。また、最小限のデータとコンピューティング リソースで自動セグメンテーションのためのファインチューニングも可能です。10 億を超える多様な画像注釈でトレーニングされた SAM は、カスタム データ収集やファインチューニングを必要とせずに、新しいオブジェクトや画像を処理できます。

SAM には、画像を処理する画像エンコーダと、クリックやテキストなどの入力を処理するプロンプト エンコーダの 2 つの主要コンポーネントがあります。これらのコンポーネントは、軽量のデコーダーと組み合わせてセグメンテーション マスクを予測します。画像が処理されると、SAM はウェブ ブラウザでわずか 50 ミリ秒でセグメントを作成できます。これにより、リアルタイムのインタラクティブ タスクに強力なツールになります。SAM を構築するために、研究者は、モデル支援注釈、自動および支援注釈の混合、完全自動マスク作成の 3 ステップのデータ収集プロセスを開発しました。このプロセスにより、SA-1B データセット が作成され、11 百万件のライセンス済みプライバシー保護画像に 1.1 億を超えるマスクが含まれています。これは、既存のデータセットよりも 400 倍大きく、SAM の印象的なパフォーマンスは、この広範で多様なデータセットから生じ、地理的な地域全体での表現が向上しています。

SAM 2: 画像から動画へのセグメンテーションの飛躍

SAM の基礎を構築しながら、SAM 2 は、画像と動画の両方でのリアルタイム、プロンプト可能なオブジェクト セグメンテーション用に設計されています。SAM と異なり、静的な画像のみに焦点を当てているのではなく、SAM 2 は各フレームを連続するシーケンスの一部として処理することで動画を処理します。これにより、SAM 2 はダイナミックなシーンや変更されたコンテンツをより効果的に処理できます。画像セグメンテーションの場合、SAM 2 は SAM の機能を改善するだけでなく、インタラクティブ タスクで 3 倍速くなります。

SAM 2 は、SAM と同じアーキテクチャを保持しながら、動画処理用のメモリ メカニズムを導入します。この機能により、SAM 2 は前のフレームからの情報を保持できるため、動き、照明、またはオクルージョンの変更にかかわらず、一貫したオブジェクト セグメンテーションを実現できます。過去のフレームを参照することで、SAM 2 は動画全体でマスク予測を改良できます。

モデルは、新しく開発された SA-V データセット でトレーニングされています。これには、47 カ国からの 51,000 本の動画に 60 万を超えるマスクレット注釈が含まれています。この多様なデータセットには、オブジェクト全体とその部分が含まれており、SAM 2 のリアルワールド動画セグメンテーションの精度が向上します。

SAM 2 は、Apache 2.0 ライセンスの下でオープンソース モデルとして利用可能であり、さまざまな用途にアクセスできます。Meta は、SAM 2 で使用されるデータセットも CC BY 4.0 ライセンスの下で共有しています。また、モデルを実行してそのパフォーマンスを確認できる Web ベースのデモもあります。

潜在的なユースケース

SAM 2 の画像と動画のリアルタイム、プロンプト可能なオブジェクト セグメンテーションの機能により、さまざまな分野で数多くの革新的なアプリケーションが可能になります。たとえば、以下のようなアプリケーションがあります:

  • ヘルスケア診断: SAM 2 は、手術中のリアルタイム手術支援を、解剖学的構造をセグメンテーションし、手術室のライブ ビデオ フィードで異常を特定することで、大幅に改善できます。また、医療画像分析を改善することで、医療スキャンでの臓器または腫瘍の精密なセグメンテーションを提供できます。
  • 自動運転車: SAM 2 は、連続的な動画 フレーム全体での歩行者、車両、道路標識などのオブジェクトの検出精度を向上させることで、自動運転車システムを強化できます。ダイナミックなシーンを処理する能力も、環境の変化にリアルタイムで認識して対応することで、適応型ナビゲーションと衝突回避システムをサポートします。
  • インタラクティブ メディアとエンターテインメント: SAM 2 は、オブジェクトをリアルタイムで正確にセグメンテーションすることで、拡張現実 (AR) アプリケーションを強化できます。これにより、仮想要素をより簡単に実世界と統合できます。また、動画編集では、動画内のオブジェクトのセグメンテーションを自動化することで、背景除去やオブジェクト置換などのプロセスを簡素化します。
  • 環境モニタリング: SAM 2 は、動画 フィードで動物をセグメンテーションおよび追跡することで、野生生物追跡を支援し、種の研究と生息地の研究を支援できます。災害対応では、影響を受けた地域やオブジェクトを動画 フィードで正確にセグメンテーションすることで、被害の評価と対応を支援できます。
  • 小売と電子商取引: SAM 2 は、画像と動画のインタラクティブなセグメンテーションを可能にすることで、電子商取引での製品の視覚化を強化できます。顧客は、アイテムをさまざまな角度や状況で表示できます。また、在庫管理では、リアルタイムで棚上の製品をセグメンテーションすることで、小売業者が在庫を追跡および管理するのを支援し、在庫管理全体を合理化します。

SAM 2 の限界を克服: 実用的な解決策と将来の強化

SAM 2 は、画像や短い動画では優れたパフォーマンスを発揮しますが、実用的な使用にはいくつかの限界があります。重大な視点の変更、長時間のオクルージョン、または混雑したシーン、特に長い動画では、オブジェクトを追跡するのに苦労する可能性があります。インタラクティブ クリックによる手動修正は、これらの問題を解決するのに役立ちます。

混雑した環境では、SAM 2 は時々、似たような見た目のオブジェクトを誤って識別する可能性がありますが、後のフレームでの追加のプロンプトはこの問題を解決できます。SAM 2 は複数のオブジェクトをセグメンテーションできますが、各オブジェクトを個別に処理するため、効率が低下します。将来の更新では、共有されたコンテキスト情報を統合してパフォーマンスを向上させることができます。

SAM 2 は、高速に移動するオブジェクトの細部を欠落させ、フレーム間で予測が不安定になる可能性があります。ただし、追加のトレーニングにより、この限界を解決できます。自動注釈の生成は改善されていますが、品質チェックとフレームの選択には、人間の注釈者が依然として必要であり、自動化のさらなる強化により、効率が向上します。

結論

SAM 2 は、画像と動画の両方でのリアルタイム オブジェクト セグメンテーションにおいて、大きな飛躍を表しています。これは、SAM によって築かれた基礎を構築しながら、機能を動画コンテンツに拡張しています。SAM 2 は、ヘルスケア、自動運転車、インタラクティブ メディア、 小売業など、さまざまな分野を変革する可能性を秘めています。複雑で混雑したシーンを処理する課題があるものの、SAM 2 のオープンソース性は、継続的な改善と適応を促進します。強力なパフォーマンスとアクセス性により、SAM 2 は、コンピュータ ビジョンとその先の分野で革新を推進し、可能性を拡大する可能性があります。

Dr. Tehseen ZiaはCOMSATS University Islamabadの正教授であり、オーストリアのVienna University of TechnologyでAIのPh.D.を取得しています。人工知能、機械学習、データサイエンス、コンピュータビジョンを専門とし、信頼性の高い科学雑誌に掲載された出版物で著しい貢献をしています。Dr. Tehseenは、主な調査員としてさまざまな産業プロジェクトを率い、AIコンサルタントとしても務めています。