人工知能

Vision Transformersが新しい「パッチ・ツー・クラスター注意」方法で課題を克服

Published June 5, 2023

Updated April 4, 2026

Alex McFarland

人工知能（AI）技術、特にVision Transformers（ViTs）は、画像内のオブジェクトを識別および分類する能力で大きな潜在性を示しています。ただし、その実用的な応用は、2つの大きな課題によって制限されてきました。高計算能力の要件と、意思決定の透明性の欠如です。現在、研究者グループは、画期的な解決策を開発しました。新しい方法論「パッチ・ツー・クラスター注意」（PaCa）と呼ばれます。PaCaは、ViTsの画像オブジェクト識別、分類、セグメンテーションの能力を向上させることを目的とし、同時に、計算要件と意思決定の透明性の長年の問題を解決します。

ViTsの課題に対処する：新しい解決策の概要

Transformersは、優れた能力を持つため、AIの世界で最も影響力のあるモデルの一つです。Transformerの力は、ViTsを通じて視覚データに拡張されました。ViTsは、画像を解釈し理解する能力で大きな潜在性を提供していますが、2つの大きな問題によって制限されてきました。

まず、画像には膨大な量のデータが含まれているため、ViTsは大量の計算能力とメモリを必要とします。この複雑さは、特に高解像度の画像を扱う場合、多くのシステムにとって圧倒的なものになる可能性があります。2番目に、ViTs内の意思決定プロセスは、しばしば複雑で不透明です。ユーザーは、ViTsが画像内のさまざまなオブジェクトまたは機能をどのように区別するかを理解することが困難です。これは、多くのアプリケーションにとって非常に重要です。

しかし、革新的なPaCa方法論は、これらの課題に対する解決策を提供します。計算能力とメモリの要求に関する課題に対処するために、クラスタリング技術を使用します。Transformerアーキテクチャが画像内のオブジェクトをよりよく識別し、焦点を当てることができるようにします」と、Tianfu Wu氏は説明しています。Wu氏は、ノースカロライナ州立大学の電気・コンピューターエンジニアリング学科の准教授であり、研究論文の筆頭著者です。

PaCaにおけるクラスタリング技術の使用により、計算要件が大幅に削減され、問題は二次的なプロセスから管理可能な線形プロセスに変わります。Wu氏はさらに、プロセスについて説明しています。「クラスタリングによって、このプロセスを線形化することができます。各小さなユニットは、事前に決定された数のクラスターのみと比較する必要があるためです。」

クラスタリングはまた、ViTsの意思決定プロセスを明確化するのに役立ちます。クラスターを形成するプロセスにより、ViTが画像データのセクションをグループ化する上でどの機能が重要であるかを判断する方法が明らかになります。AIが限定された数のクラスターのみを作成するため、ユーザーは意思決定プロセスを簡単に理解し、調査することができ、モデルの解釈可能性が大幅に向上します。

PaCa方法論が他の最先端のViTsを上回る

包括的なテストを通じて、研究者は、PaCa方法論が他のViTsを上回ることを発見しました。Wu氏は、「PaCaは、SWinとPVTをすべての点で上回った」と述べています。テストプロセスにより、PaCaは、画像内のオブジェクトの分類と識別、セグメンテーションで優れており、画像内のオブジェクトの境界を効率的にアウトライン化していることがわかりました。また、他のViTsよりもタスクを迅速に実行することができたため、時間効率も優れていたことがわかりました。

PaCaの成功に勇気づけられた研究チームは、より大きな基礎データセットでPaCaをトレーニングすることで、開発をさらに進めることを目指しています。そうすることで、画像ベースのAIで現在可能なことの限界を押し広げることを希望しています。

研究論文「PaCa-ViT: Vision Transformersにおけるパッチ・ツー・クラスター注意の学習」は、近日開催されるIEEE/CVF Conference on Computer Vision and Pattern Recognitionで発表される予定です。これは、より効率的、透明性のある、そしてアクセスしやすいAIシステムの道を切り開く重要なマイルストーンとなる可能性があります。