Kunstig intelligens
Vision Transformers overvinder udfordringer med ny 'Patch-to-Cluster Attention'-metode

Kunstig intelligens (AI) teknologier, især Vision Transformers (ViT'er), har vist enormt lovende i deres evne til at identificere og kategorisere objekter i billeder. Imidlertid har deres praktiske anvendelse været begrænset af to væsentlige udfordringer: de høje krav til beregningskraft og den manglende gennemsigtighed i beslutningstagningen. Nu har en gruppe forskere udviklet en banebrydende løsning: en ny metode kendt som "Patch-to-Cluster attention" (PaCa). PaCa sigter mod at forbedre ViT'ernes muligheder inden for billedobjektidentifikation, klassificering og segmentering, samtidig med at de langvarige problemer med beregningskrav og klarhed i beslutningstagning løses.
Løsning af udfordringerne ved ViTs: Et glimt af den nye løsning
Transformere er på grund af deres overlegne evner blandt de mest indflydelsesrige modeller i AI-verdenen. Kraften af disse modeller er blevet udvidet til visuelle data gennem ViTs, en klasse af transformere, der er trænet med visuelle input. På trods af det enorme potentiale, som ViTs tilbyder i fortolkning og forståelse af billeder, er de blevet holdt tilbage af et par store problemer.
For det første, på grund af naturen af billeder, der indeholder enorme mængder data, kræver ViT'er betydelig regnekraft og hukommelse. Denne kompleksitet kan være overvældende for mange systemer, især ved håndtering af billeder i høj opløsning. For det andet er beslutningsprocessen inden for ViTs ofte indviklet og uigennemsigtig. Brugere har svært ved at forstå, hvordan ViTs skelner mellem forskellige objekter eller funktioner i et billede, hvilket er afgørende for adskillige applikationer.
Den innovative PaCa-metode tilbyder dog en løsning på begge disse udfordringer. "Vi løser udfordringen relateret til beregnings- og hukommelseskrav ved at bruge klyngeteknikker, som gør det muligt for transformatorarkitekturen bedre at identificere og fokusere på objekter i et billede," forklarer Tianfu Wu, tilsvarende forfatter til et papir om arbejdet og lektor i Elektro- og computerteknik ved North Carolina State University.
Brugen af klyngeteknikker i PaCa reducerer de beregningsmæssige krav drastisk, hvilket gør problemet fra en kvadratisk proces til en håndterbar lineær proces. Wu forklarer yderligere processen, "Ved at klynge, er vi i stand til at gøre dette til en lineær proces, hvor hver mindre enhed kun skal sammenlignes med et forudbestemt antal klynger."
Clustering tjener også til at tydeliggøre beslutningsprocessen i ViTs. Processen med at danne klynger afslører, hvordan ViT beslutter, hvilke funktioner der er vigtige i gruppering af dele af billeddataene. Da AI'en kun opretter et begrænset antal klynger, kan brugerne nemt forstå og undersøge beslutningsprocessen, hvilket væsentligt forbedrer modellens fortolkbarhed.
PaCa-metoden udkonkurrerer andre state-of-the-art ViTs
Gennem omfattende tests fandt forskerne ud af, at PaCa-metoden overgår andre ViT'er på flere fronter. Wu uddyber: "Vi fandt ud af, at PaCa klarede sig bedre end SWin og PVT på alle måder." Testprocessen afslørede, at PaCa udmærkede sig ved at klassificere og identificere objekter inden for billeder og segmentering, og effektivt skitsere grænserne for objekter i billeder. Desuden viste det sig at være mere tidseffektivt og udføre opgaver hurtigere end andre ViT'er.
Opmuntret af succesen med PaCa sigter forskerholdet mod at fremme udviklingen ved at træne det på større grundlæggende datasæt. Ved at gøre det håber de at skubbe grænserne for, hvad der i øjeblikket er muligt med billedbaseret AI.
Forskningspapiret, "PaCa-ViT: At lære patch-to-cluster opmærksomhed i Vision Transformers, vil blive præsenteret ved det kommende IEEE/CVF-konference om computersyn og mønstergenkendelse. Det er en vigtig milepæl, der kan bane vejen for mere effektive, gennemsigtige og tilgængelige AI-systemer.