Kunstig intelligens

Visjon Transformatorer Overvinner Utfordringer med Ny ‘Patch-to-Cluster Attention’ Metode

Published June 5, 2023

Updated April 4, 2026

Alex McFarland

Kunstig intelligens (AI) teknologier, spesielt Visjon Transformatorer (ViTs), har vist enormt potensial i deres evne til å identifisere og kategorisere objekter i bilder. Men deres praktiske anvendelse har vært begrenset av to betydelige utfordringer: de høye kravene til beregningskraft og mangelen på transparens i beslutningsprosessen. Nå har en gruppe forskere utviklet en gjennombruddsløsning: en ny metode kjent som “Patch-to-Cluster attention” (PaCa). PaCa har som mål å forbedre ViTs’ evner i bildeobjektidentifikasjon, klassifisering og segmentering, samtidig som den løser de langvarige problemene med beregningskrav og beslutningsklarhet.

Å løse utfordringene med ViTs: En glimt inn i den nye løsningen

Transformatorer, på grunn av deres overlegne evner, er blant de mest innflytelsesrike modellene i AI-verdenen. Kraften til disse modellene har blitt utvidet til visuell data gjennom ViTs, en klasse av transformatorer som er trent med visuelle innputt. Til tross for det enorme potensialet som ViTs tilbyr i tolkning og forståelse av bilder, har de blitt hindret av to større problemer.

Først, på grunn av at bildene inneholder store mengder data, krever ViTs betydelig beregningskraft og minne. Denne kompleksiteten kan være overveldende for mange systemer, spesielt når de håndterer høyoppløselige bilder. For det andre er beslutningsprosessen innen ViTs ofte sammenfiltret og uklar. Brukerne finner det vanskelig å forstå hvordan ViTs skille mellom ulike objekter eller trekk i et bilde, noe som er avgjørende for mange anvendelser.

Men den innovative PaCa-metoden tilbyr en løsning på begge disse utfordringene. “Vi løser utfordringen relatert til beregnings- og minnekrev ved å bruke klaster-teknikker, som gjør at transformator-arkitekturen bedre kan identifisere og fokusere på objekter i et bilde,” forklarer Tianfu Wu, hovedforfatter av en artikkel om arbeidet og en assosiert professor i elektroteknikk og datateknikk ved North Carolina State University.

Bruken av klaster-teknikker i PaCa reduserer dramatisk beregningskravene, og gjør problemet fra en kvadratisk prosess til en håndterbar lineær en. Wu forklarer videre prosessen, “Ved å klustre, kan vi gjøre denne prosessen lineær, hvor hver mindre enhet bare trenger å sammenlignes med et forhåndsbestemt antall kluster.”

Klustering tjener også til å klargjøre beslutningsprosessen i ViTs. Prosessen med å danne kluster avslører hvordan ViT bestemmer hvilke trekk som er viktige i gruppering av deler av bilde-data sammen. Ettersom AI kun skaper et begrenset antall kluster, kan brukerne enkelt forstå og undersøke beslutningsprosessen, noe som betydelig forbedrer modellens tolkbarhet.

PaCa-metoden overgår andre State-of-the-Art ViTs

Gjennom omfattende testing fant forskerne at PaCa-metoden overgår andre ViTs på flere områder. Wu utdyper, “Vi fant at PaCa overgikk SWin og PVT på alle måter.” Testprosessen avslørte at PaCa utmerket seg i klassifisering og identifisering av objekter i bilder og segmentering, effektivt tegnet grensene for objekter i bilder. I tillegg ble det funnet å være mer tidseffektivt, og utførte oppgaver raskere enn andre ViTs.

Oppmuntret av PaCas suksess, har forskningsteamet som mål å videreutvikle det ved å trene det på større grunnleggende datasett. Ved å gjøre dette, håper de å utvide grensene for hva som for tiden er mulig med bilde-basert AI.

Forskningsartikkelen, “PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers“, skal presenteres på den kommende IEEE/CVF Conference on Computer Vision and Pattern Recognition. Det er en viktig milepæl som kan bana vei for mer effektive, transparente og tilgjengelige AI-systemer.