Intelligence artificielle

Les Vision Transformers surmontent les défis avec la nouvelle méthode d’attention « Patch-to-Cluster »

Published June 5, 2023

Updated April 28, 2026

Alex McFarland

Les technologies d’intelligence artificielle (IA), en particulier les Vision Transformers (ViTs), ont montré un immense potentiel dans leur capacité à identifier et à catégoriser les objets dans les images. Cependant, leur application pratique a été limitée par deux défis importants : les exigences élevées en puissance de calcul et le manque de transparence dans la prise de décision. Maintenant, un groupe de chercheurs a développé une solution innovante : une méthodologie novatrice appelée « Patch-to-Cluster attention » (PaCa). PaCa vise à améliorer les capacités des ViTs dans l’identification, la classification et la segmentation des objets d’images, tout en résolvant les problèmes persistants de demande de calcul et de clarté de la prise de décision.

Adresse aux défis des ViTs : Un aperçu de la nouvelle solution

Les Transformers, en raison de leurs capacités supérieures, sont parmi les modèles les plus influents dans le monde de l’IA. Le pouvoir de ces modèles a été étendu aux données visuelles grâce aux ViTs, une classe de Transformers formés avec des entrées visuelles. Malgré le potentiel énorme offert par les ViTs dans l’interprétation et la compréhension des images, ils ont été freinés par deux problèmes majeurs.

Premièrement, en raison de la nature des images qui contiennent de vastes quantités de données, les ViTs nécessitent une puissance de calcul et une mémoire considérables. Cette complexité peut être accablante pour de nombreux systèmes, en particulier lors de la manipulation d’images à haute résolution. Deuxièmement, le processus de prise de décision au sein des ViTs est souvent confus et opaque. Les utilisateurs ont du mal à comprendre comment les ViTs différencient entre les différents objets ou caractéristiques d’une image, ce qui est crucial pour de nombreuses applications.

Cependant, la méthodologie innovante PaCa offre une solution à ces deux défis. « Nous abordons le défi lié aux exigences de calcul et de mémoire en utilisant des techniques de regroupement, qui permettent à l’architecture de Transformer de mieux identifier et de se concentrer sur les objets dans une image », explique Tianfu Wu, auteur principal d’un article sur le travail et professeur agrégé de génie électrique et informatique à l’Université d’État de Caroline du Nord.

L’utilisation de techniques de regroupement dans PaCa réduit considérablement les exigences de calcul, transformant le problème d’un processus quadratique en un processus linéaire gérable. Wu explique davantage le processus : « En regroupant, nous rendons ce processus linéaire, où chaque unité plus petite n’a besoin d’être comparée qu’à un nombre prédéterminé de regroupements ».

Le regroupement sert également à clarifier le processus de prise de décision dans les ViTs. Le processus de formation de regroupements révèle comment le ViT décide quelles caractéristiques sont importantes pour regrouper les sections des données d’image. Comme l’IA ne crée qu’un nombre limité de regroupements, les utilisateurs peuvent facilement comprendre et examiner le processus de prise de décision, améliorant considérablement l’interprétabilité du modèle.

Méthodologie PaCa surpasse les autres ViTs de pointe

Grâce à des tests exhaustifs, les chercheurs ont constaté que la méthodologie PaCa surpasse les autres ViTs sur plusieurs fronts. Wu précise : « Nous avons constaté que PaCa surpasse SWin et PVT à tous égards ». Le processus de test a révélé que PaCa excellait dans la classification et l’identification des objets dans les images et la segmentation, délimitant efficacement les contours des objets dans les images. De plus, il a été constaté qu’il était plus efficient en termes de temps, effectuant des tâches plus rapidement que les autres ViTs.

Encouragés par le succès de PaCa, l’équipe de recherche vise à poursuivre son développement en la formant sur des ensembles de données plus importants. En faisant cela, ils espèrent pousser les limites de ce qui est actuellement possible avec l’IA basée sur les images.

L’article de recherche, “PaCa-ViT : Apprentissage de l’attention Patch-to-Cluster dans les Vision Transformers“, sera présenté à la prochaine conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes. Il s’agit d’un jalon important qui pourrait ouvrir la voie à des systèmes d’IA plus efficaces, plus transparents et plus accessibles.

Alex McFarland

Alex McFarland est un journaliste et écrivain en intelligence artificielle qui explore les derniers développements en intelligence artificielle. Il a collaboré avec de nombreuses startups et publications en intelligence artificielle dans le monde entier.