stub Vision Transformers saavad väljakutsetest üle uue paigast klastrisse tähelepanu pööramise meetodiga – Unite.AI
Ühenda meile

Tehisintellekt

Nägemismuundurid saavad väljakutsetest üle uue nn paigast klastrisse tähelepanu pööramise meetodiga

avaldatud

 on

Tehisintellekti (AI) tehnoloogiad, eriti Vision Transformers (ViTs), on näidanud tohutut lubadust oma võimes piltidel objekte tuvastada ja kategoriseerida. Nende praktilist rakendamist on aga piiranud kaks olulist väljakutset: kõrged arvutusvõimsuse nõuded ja läbipaistvuse puudumine otsuste tegemisel. Nüüd on teadlaste rühm välja töötanud läbimurdelise lahenduse: uudse metoodika, mida tuntakse kui "PaCa-tähelepanu paigast klastrisse". PaCa eesmärk on suurendada ViT-de võimalusi pildiobjektide tuvastamisel, klassifitseerimisel ja segmenteerimisel, lahendades samal ajal arvutusnõuete ja otsuste tegemise selguse pikaajalised probleemid.

ViT-de väljakutsetega tegelemine: pilguheit uuele lahendusele

Transformerid on tänu oma suurepärastele võimalustele üks mõjukamaid mudeleid tehisintellekti maailmas. Nende mudelite võimsust on laiendatud visuaalsetele andmetele ViT-ide kaudu, mis on visuaalsete sisenditega koolitatud trafode klass. Hoolimata ViTide pakutavast tohutust potentsiaalist piltide tõlgendamisel ja mõistmisel, on neid takistanud paar suurt probleemi.

Esiteks, tohutul hulgal andmemahtu sisaldavate piltide olemuse tõttu vajavad ViT-d märkimisväärset arvutusvõimsust ja mälu. See keerukus võib paljude süsteemide jaoks olla tohutu, eriti kui käsitlete kõrge eraldusvõimega pilte. Teiseks on otsustusprotsess ViT-ides sageli keeruline ja läbipaistmatu. Kasutajatel on raske mõista, kuidas ViT-id eristavad pildil olevaid erinevaid objekte või funktsioone, mis on paljude rakenduste jaoks ülioluline.

Kuid uuenduslik PaCa metoodika pakub lahendust mõlemale probleemile. "Me tegeleme arvutus- ja mälunõuetega seotud väljakutsetega, kasutades klastrite moodustamise tehnikaid, mis võimaldavad trafo arhitektuuril pildil olevaid objekte paremini tuvastada ja neile keskenduda, " selgitab Tianfu Wu, töö vastav autor ja osakonna dotsent. Põhja-Carolina osariigi ülikooli elektri- ja arvutitehnika.

Klasterdamistehnikate kasutamine PaCa-s vähendab drastiliselt arvutusnõudeid, muutes probleemi ruutprotsessist juhitavaks lineaarseks. Wu selgitab protsessi veelgi: "Klastrite moodustamise abil saame muuta selle lineaarseks protsessiks, kus iga väiksemat üksust tuleb võrrelda ainult etteantud arvu klastritega."

Klasterdamine aitab selgitada ka otsustusprotsessi ViTs. Klastrite moodustamise protsess näitab, kuidas ViT otsustab, millised funktsioonid on pildiandmete osade rühmitamisel olulised. Kuna tehisintellekt loob vaid piiratud arvu klastreid, saavad kasutajad hõlpsasti mõista ja uurida otsustusprotsessi, parandades oluliselt mudeli tõlgendatavust.

PaCa metoodika ületab teisi tipptasemel ViT-e

Põhjaliku testimise käigus leidsid teadlased, et PaCa metoodika ületab mitmel rindel teisi ViT-e. Wu täpsustab: "Leidsime, et PaCa ületas SWini ja PVT-d igas mõttes." Testimisprotsess näitas, et PaCa paistis silma objektide klassifitseerimisel ja tuvastamisel piltidel ning segmenteerimisel, kirjeldades tõhusalt piltidel olevate objektide piire. Lisaks leiti, et see on ajasäästlikum, täites ülesandeid kiiremini kui teised ViT-id.

PaCa edust innustununa soovib uurimisrühm selle arendamist edasi arendada, koolitades seda suuremate alusandmekogumitega. Seda tehes loodavad nad nihutada piire sellele, mis on praegu pildipõhise AI-ga võimalik.

Uurimistöö "PaCa-ViT: plaastrist klastrisse tähelepanu pööramise õppimine nägemistransformaatorites”, esitletakse eelseisval IEEE/CVF konverents arvutinägemise ja mustrite tuvastamise teemal. See on oluline verstapost, mis võib sillutada teed tõhusamatele, läbipaistvamatele ja juurdepääsetavamatele tehisintellektisüsteemidele.

Alex McFarland on AI ajakirjanik ja kirjanik, kes uurib tehisintellekti uusimaid arenguid. Ta on teinud koostööd paljude AI idufirmade ja väljaannetega üle maailma.