Kunstmatige intelligentie

Vision Transformers overwinnen uitdagingen met nieuwe ‘Patch-to-Cluster Attention’-methode

Published June 5, 2023

Updated April 4, 2026

Alex McFarland

Kunstmatige intelligentie (AI)-technologieën, in het bijzonder Vision Transformers (ViTs), hebben een enorm potentieel getoond in hun vermogen om objecten in afbeeldingen te identificeren en categoriseren. Hun praktische toepassing is echter beperkt door twee significante uitdagingen: de hoge computatievereisten en het gebrek aan transparantie in besluitvorming. Nu heeft een groep onderzoekers een doorbraakoplossing ontwikkeld: een novate methodologie bekend als “Patch-to-Cluster attention” (PaCa). PaCa heeft als doel de mogelijkheden van ViTs te verbeteren in het identificeren, categoriseren en segmenteren van objecten in afbeeldingen, en tegelijkertijd de langdurige problemen van computatievereisten en besluitvormingstransparantie op te lossen.

De uitdagingen van ViTs aanpakken: een blik op de nieuwe oplossing

Transformers, vanwege hun superieure capaciteiten, zijn onder de meest invloedrijke modellen in de AI-wereld. De kracht van deze modellen is uitgebreid naar visuele gegevens via ViTs, een klasse van transformers die getraind zijn met visuele invoer. Ondanks het enorme potentieel dat ViTs bieden in het interpreteren en begrijpen van afbeeldingen, zijn ze beperkt door een paar grote problemen.

Ten eerste vereisen ViTs, vanwege de aard van afbeeldingen met enorme hoeveelheden gegevens, aanzienlijke computatievereisten en geheugen. Deze complexiteit kan overweldigend zijn voor veel systemen, vooral bij het verwerken van hoge-resolutieafbeeldingen. Ten tweede is het besluitvormingsproces binnen ViTs vaak verward en ondoorzichtig. Gebruikers vinden het moeilijk om te begrijpen hoe ViTs onderscheid maken tussen verschillende objecten of kenmerken in een afbeelding, wat cruciaal is voor talloze toepassingen.

De innovatieve PaCa-methodologie biedt echter een oplossing voor beide uitdagingen. “We adresseren de uitdaging gerelateerd aan computatie- en geheugeneisen door clusteringtechnieken te gebruiken, waardoor de transformerarchitectuur beter in staat is om objecten in een afbeelding te identificeren en te focussen”, legt Tianfu Wu, corresponderend auteur van een paper over het onderzoek en associate professor in Elektrotechniek en Informatica aan de North Carolina State University, uit.

Het gebruik van clusteringtechnieken in PaCa vermindert de computatievereisten aanzienlijk, waardoor het probleem van een kwadratische proces naar een beheersbaar lineair proces wordt. Wu legt het proces verder uit, “Door clustering kunnen we dit een lineair proces maken, waarbij elke kleinere eenheid alleen maar vergeleken hoeft te worden met een vooraf bepaald aantal clusters.”

Clustering dient ook om het besluitvormingsproces in ViTs te verduidelijken. Het proces van clusteren onthult hoe de ViT besluit welke kenmerken belangrijk zijn bij het groeperen van secties van de afbeeldingsgegevens. Aangezien de AI alleen een beperkt aantal clusters creëert, kunnen gebruikers het besluitvormingsproces gemakkelijk begrijpen en onderzoeken, waardoor de interpretatie van het model aanzienlijk verbetert.

PaCa-methodologie presteert beter dan andere state-of-the-art ViTs

Door uitgebreide tests vonden onderzoekers dat de PaCa-methodologie andere ViTs op verschillende fronten overtreft. Wu legt uit, “We vonden dat PaCa beter presteerde dan SWin en PVT op alle fronten.” Het testproces onthulde dat PaCa uitblonk in het categoriseren en identificeren van objecten in afbeeldingen en segmentatie, en efficiënt de grenzen van objecten in afbeeldingen aangaf. Bovendien bleek het sneller te zijn, taken sneller uitvoerend dan andere ViTs.

Aangemoedigd door het succes van PaCa, heeft het onderzoeksteam als doel om de ontwikkeling verder te zetten door het te trainen op grotere basisdatasets. Door dit te doen, hopen ze de grenzen van wat momenteel mogelijk is met op afbeeldingen gebaseerde AI te verleggen.

Het onderzoeksrapport, “PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers“, zal worden gepresenteerd op de aanstaande IEEE/CVF Conference on Computer Vision and Pattern Recognition. Het is een belangrijke mijlpaal die de weg kan vrijmaken voor efficiëntere, transparantere en toegankelijkere AI-systemen.