Kunstig intelligens

Vision Transformers overvinder udfordringer med ny ‘Patch-to-Cluster Attention’-metode

Published June 5, 2023

Updated April 4, 2026

Alex McFarland

Kunstig intelligens (AI)-teknologier, særligt Vision Transformers (ViTs), har vist stor potentiale i deres evne til at identificere og kategorisere objekter i billeder. however, deres praktiske anvendelse har været begrænset af to betydelige udfordringer: de høje krav til beregningskraft og mangel på gennemsigtighed i beslutningstagningen. Nu har en gruppe forskere udviklet en gennembrudsløsning: en ny metode kendt som “Patch-to-Cluster attention” (PaCa). PaCa har til formål at forbedre ViTs’ evner i billedgenkendelse, klassifikation og segmentering, samtidig med at løse de langvarige problemer med beregningskrav og beslutningstagelsesklarhed.

At løse ViTs udfordringer: Et glimt af den nye løsning

Transformers, på grund af deres overlegne evner, er blandt de mest indflydelsesrige modeller i AI-verdenen. Kraften fra disse modeller er blevet udvidet til visuelle data gennem ViTs, en klasse af transformers, der er trænet med visuelle input. Trods det enorme potentiale, der tilbydes af ViTs i fortolkning og forståelse af billeder, er de blevet holdt tilbage af et par store problemer.

Først kræver ViTs, på grund af billedernes natur, der indeholder enorme mængder af data, betydelig beregningskraft og hukommelse. Denne kompleksitet kan være overvældende for mange systemer, især når det handler om højopløsningsbilleder. Anden, beslutningstagelsesprocessen i ViTs er ofte indviklet og uigennemsigtig. Brugere finder det svært at forstå, hvordan ViTs differentierer mellem forskellige objekter eller funktioner i et billede, hvilket er afgørende for mange anvendelser.

Men den innovative PaCa-metode tilbyder en løsning på begge disse udfordringer. “Vi løser udfordringen relateret til beregnings- og hukommelseskrav ved at bruge kluster-teknikker, der giver transformer-arkitekturen mulighed for bedre at identificere og fokusere på objekter i et billede,” forklarer Tianfu Wu, korresponderende forfatter af en artikel om arbejdet og en associeret professor i elektro- og datateknik ved North Carolina State University.

Brugen af kluster-teknikker i PaCa reducerer dramatisk beregningskravene, hvilket omdanner problemet fra en kvadratisk proces til en håndterbar lineær en. Wu forklarer processen yderligere, “Ved at klustre, kan vi gøre dette til en lineær proces, hvor hver mindre enhed kun behøver at sammenlignes med et forudbestemt antal kluster.”

Kluster-teknikker tjener også til at klargøre beslutningstagelsesprocessen i ViTs. Processen med at danne kluster afslører, hvordan ViT beslutter, hvilke funktioner der er vigtige i at gruppere dele af billeddata sammen. Da AI kun opretter et begrænset antal kluster, kan brugere let forstå og undersøge beslutningstagelsesprocessen, hvilket betydeligt forbedrer modellens fortolkning.

PaCa-metoden overgår andre state-of-the-art ViTs

Gennem omfattende testning fandt forskerne, at PaCa-metoden overgår andre ViTs på flere punkter. Wu uddyber, “Vi fandt, at PaCa overgik SWin og PVT på alle måder.” Testprocessen afslørede, at PaCa udmærkede sig i at klassificere og identificere objekter i billeder og segmentering, effektivt afgrænsende objekters grænser i billeder. Desuden blev det fundet at være mere tids-effektivt, udførende opgaver hurtigere end andre ViTs.

Opfordret af PaCas succes har forskerholdet til hensigt at udvikle det yderligere ved at træne det på større grundlæggende datasæt. Ved at gøre dette håber de at kunne udvide grænserne for, hvad der i øjeblikket er muligt med billedbaseret AI.

Forskningsartiklen, “PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers“, vil blive præsenteret på den kommende IEEE/CVF Conference on Computer Vision and Pattern Recognition. Det er en vigtig milepæl, der kan bana vejen for mere effektive, gennemsigtige og tilgængelige AI-systemer.