Intelligenza artificiale

I Vision Transformer superano le sfide con il nuovo metodo ‘Patch-to-Cluster Attention’

Published June 5, 2023

Updated April 28, 2026

Alex McFarland

Le tecnologie di intelligenza artificiale (AI), in particolare i Vision Transformer (ViT), hanno mostrato immense promesse nella loro capacità di identificare e categorizzare oggetti nelle immagini. Tuttavia, la loro applicazione pratica è stata limitata da due sfide significative: i requisiti di potenza computazionale elevata e la mancanza di trasparenza nel processo decisionale. Ora, un gruppo di ricercatori ha sviluppato una soluzione innovativa: una nuova metodologia nota come “Patch-to-Cluster attention” (PaCa). PaCa mira a migliorare le capacità dei ViT nell’identificazione, classificazione e segmentazione degli oggetti nelle immagini, risolvendo allo stesso tempo i problemi di lunga data dei requisiti computazionali e della chiarezza del processo decisionale.

Addressing the Challenges of ViT: Un’occhiata alla nuova soluzione

I Transformer, grazie alle loro capacità superiori, sono tra i modelli più influenti nel mondo dell’AI. Il potere di questi modelli è stato esteso ai dati visivi attraverso i ViT, una classe di transformer addestrati con input visivi. Nonostante il potenziale enorme offerto dai ViT nell’interpretazione e comprensione delle immagini, essi sono stati frenati da un paio di problemi importanti.

Innanzitutto, a causa della natura delle immagini che contengono grandi quantità di dati, i ViT richiedono una notevole potenza computazionale e memoria. Questa complessità può essere schiacciante per molti sistemi, specialmente quando si gestiscono immagini ad alta risoluzione. In secondo luogo, il processo decisionale all’interno dei ViT è spesso convoluto e opaco. Gli utenti trovano difficile comprendere come i ViT distinguano tra vari oggetti o caratteristiche in un’immagine, il che è cruciale per numerose applicazioni.

Tuttavia, la metodologia innovativa PaCa offre una soluzione a entrambe queste sfide. “Affrontiamo la sfida legata ai requisiti computazionali e di memoria utilizzando tecniche di clustering, che consentono all’architettura del transformer di identificare e concentrarsi meglio sugli oggetti in un’immagine”, spiega Tianfu Wu, autore corrispondente di un articolo sul lavoro e professore associato di Ingegneria elettrica e informatica alla North Carolina State University.

L’utilizzo di tecniche di clustering in PaCa riduce drasticamente i requisiti computazionali, trasformando il problema da un processo quadratico in uno lineare gestibile. Wu spiega ulteriormente il processo, “Attraverso il clustering, siamo in grado di rendere questo un processo lineare, in cui ogni unità più piccola deve essere confrontata solo con un numero predeterminato di cluster”.

Il clustering serve anche a chiarire il processo decisionale nei ViT. Il processo di formazione dei cluster rivela come il ViT decida quali caratteristiche sono importanti per raggruppare sezioni dei dati dell’immagine. Poiché l’AI crea solo un numero limitato di cluster, gli utenti possono facilmente comprendere e esaminare il processo decisionale, migliorando notevolmente l’interpretazione del modello.

La metodologia PaCa supera gli altri ViT all’avanguardia

Attraverso test approfonditi, i ricercatori hanno scoperto che la metodologia PaCa supera gli altri ViT su diversi fronti. Wu spiega, “Abbiamo scoperto che PaCa supera SWin e PVT in ogni modo”. Il processo di testing ha rivelato che PaCa eccelle nella classificazione e identificazione degli oggetti all’interno delle immagini e nella segmentazione, delineando efficientemente i confini degli oggetti nelle immagini. Inoltre, è stato trovato che è più efficiente in termini di tempo, eseguendo compiti più velocemente degli altri ViT.

Incoraggiati dal successo di PaCa, il team di ricerca mira a svilupparlo ulteriormente addestrandolo su dataset fondamentali più grandi. Facendo ciò, sperano di spingere i confini di ciò che è attualmente possibile con l’AI basata su immagini.

L’articolo di ricerca, “PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers“, sarà presentato alla prossima IEEE/CVF Conference on Computer Vision and Pattern Recognition. È un importante traguardo che potrebbe aprire la strada a sistemi AI più efficienti, trasparenti e accessibili.

Alex McFarland

Alex McFarland è un giornalista e scrittore di intelligenza artificiale che esplora gli ultimi sviluppi nel campo dell'intelligenza artificiale. Ha collaborato con numerose startup di intelligenza artificiale e pubblicazioni in tutto il mondo.