škrbina Vision Transformers svladavaju izazove novom metodom 'Patch-to-Cluster Attention' - Unite.AI
Povežite se s nama

Umjetna inteligencija

Vision Transformers svladavaju izazove novom metodom 'Patch-to-Cluster Attention'

Objavljeno

 on

Tehnologije umjetne inteligencije (AI), posebice Vision Transformers (ViTs), pokazale su golemo obećanje u svojoj sposobnosti identificiranja i kategoriziranja objekata na slikama. Međutim, njihova praktična primjena ograničena je dvama značajnim izazovima: visokim zahtjevima za računalnom snagom i nedostatkom transparentnosti u donošenju odluka. Sada je skupina istraživača razvila revolucionarno rješenje: novu metodologiju poznatu kao "Patch-to-Cluster attention" (PaCa). PaCa ima za cilj poboljšati mogućnosti ViT-a u identifikaciji, klasifikaciji i segmentaciji slikovnih objekata, dok istovremeno rješava dugotrajne probleme računalnih zahtjeva i jasnoće donošenja odluka.

Suočavanje s izazovima ViT-a: pogled u novo rješenje

Transformeri su zbog svojih vrhunskih mogućnosti među najutjecajnijim modelima u svijetu umjetne inteligencije. Snaga ovih modela proširena je na vizualne podatke putem ViT-a, klase transformatora koji su obučeni s vizualnim ulazima. Unatoč ogromnom potencijalu koji nudi ViTs u tumačenju i razumijevanju slika, koči ih nekoliko velikih problema.

Prvo, zbog prirode slika koje sadrže ogromne količine podataka, ViT-ovi zahtijevaju znatnu računalnu snagu i memoriju. Ova složenost može biti ogromna za mnoge sustave, posebno pri rukovanju slikama visoke razlučivosti. Drugo, proces donošenja odluka unutar ViT-ova često je zamršen i neproziran. Korisnicima je teško razumjeti kako ViT-ovi razlikuju različite objekte ili značajke na slici, što je ključno za brojne primjene.

Međutim, inovativna PaCa metodologija nudi rješenje za oba ova izazova. "Rješavamo izazov povezan s računalnim i memorijskim zahtjevima korištenjem tehnika klasteriranja, koje omogućuju arhitekturi transformatora da bolje identificira i fokusira objekte na slici", objašnjava Tianfu Wu, odgovarajući autor rada o radu i izvanredni profesor Elektrotehničko i računalno inženjerstvo na Državnom sveučilištu Sjeverne Karoline.

Korištenje tehnika klasteriranja u PaCa drastično smanjuje zahtjeve za računanjem, pretvarajući problem iz kvadratnog procesa u linearni proces kojim se može upravljati. Wu dalje objašnjava proces: "Grupiranjem u klastere možemo ovo učiniti linearnim procesom, gdje se svaka manja jedinica samo treba usporediti s unaprijed određenim brojem klastera."

Grupiranje također služi za pojašnjavanje procesa donošenja odluka u ViT-ovima. Proces formiranja klastera otkriva kako ViT odlučuje koje su značajke važne u grupiranju dijelova slikovnih podataka zajedno. Budući da AI stvara samo ograničen broj klastera, korisnici mogu lako razumjeti i ispitati proces donošenja odluka, značajno poboljšavajući interpretabilnost modela.

PaCa metodologija nadmašuje druge najsuvremenije ViT-ove

Kroz sveobuhvatno testiranje, istraživači su otkrili da PaCa metodologija nadmašuje druge ViT-ove na nekoliko fronti. Wu objašnjava: "Otkrili smo da je PaCa nadmašio SWin i PVT u svakom pogledu." Proces testiranja otkrio je da je PaCa briljirao u klasificiranju i identificiranju objekata unutar slika i segmentaciji, učinkovito ocrtavajući granice objekata na slikama. Štoviše, pokazalo se da je vremenski učinkovitiji, izvršavajući zadatke brže od drugih ViT-ova.

Potaknut uspjehom PaCa, istraživački tim ima za cilj daljnji razvoj obučavajući ga na većim temeljnim skupovima podataka. Radeći to, nadaju se pomaknuti granice onoga što je trenutno moguće s umjetnom inteligencijom temeljenom na slikama.

Istraživački rad, "PaCa-ViT: Učenje Patch-to-Cluster Attention u Vision Transformers,” bit će predstavljen na nadolazećem IEEE/CVF konferencija o računalnom vidu i prepoznavanju uzoraka. To je važna prekretnica koja bi mogla otvoriti put za učinkovitije, transparentnije i pristupačnije AI sustave.

Alex McFarland je AI novinar i pisac koji istražuje najnovija dostignuća u umjetnoj inteligenciji. Surađivao je s brojnim AI startupovima i publikacijama diljem svijeta.