Umetna inteligenca

Vision Transformers premagujejo izzive z novo metodo 'Patch-to-Cluster Attention'

objavljeno

Pred 11 meseci

Junij 5, 2023

Tehnologije umetne inteligence (AI), zlasti Vision Transformers (ViTs), so pokazale izjemno obetavno sposobnost prepoznavanja in kategoriziranja predmetov na slikah. Vendar sta njihovo praktično uporabo omejila dva pomembna izziva: visoke zahteve po računalniški moči in pomanjkanje preglednosti pri odločanju. Zdaj je skupina raziskovalcev razvila prelomno rešitev: novo metodologijo, znano kot »Patch-to-Cluster pozornost« (PaCa). PaCa želi izboljšati zmogljivosti ViT-jev pri identifikaciji, klasifikaciji in segmentaciji slikovnih objektov, hkrati pa rešiti dolgotrajna vprašanja računalniških zahtev in jasnosti odločanja.

Reševanje izzivov ViTs: vpogled v novo rešitev

Transformerji so zaradi svojih vrhunskih zmogljivosti med najvplivnejšimi modeli v svetu umetne inteligence. Moč teh modelov je bila razširjena na vizualne podatke prek ViTs, razreda transformatorjev, ki so usposobljeni z vizualnimi vhodi. Kljub izjemnemu potencialu, ki ga ponujajo ViT-ji pri interpretaciji in razumevanju slik, jih je zadrževalo nekaj večjih težav.

Prvič, zaradi narave slik, ki vsebujejo ogromne količine podatkov, ViT zahtevajo precejšnjo računsko moč in pomnilnik. Ta kompleksnost je lahko velika za številne sisteme, zlasti pri obdelavi slik visoke ločljivosti. Drugič, postopek odločanja znotraj ViT je pogosto zapleten in nepregleden. Uporabniki težko razumejo, kako ViT-ji razlikujejo med različnimi predmeti ali značilnostmi na sliki, kar je ključnega pomena za številne aplikacije.

Vendar pa inovativna metodologija PaCa ponuja rešitev za oba izziva. »Izziv, povezan z računalniškimi in pomnilniškimi zahtevami, obravnavamo z uporabo tehnik združevanja v gruče, ki omogočajo arhitekturi transformatorja, da bolje prepozna in se osredotoči na predmete na sliki,« pojasnjuje Tianfu Wu, ustrezni avtor prispevka o delu in izredni profesor za Elektrotehnika in računalništvo na Državni univerzi Severne Karoline.

Uporaba tehnik združevanja v gruče v PaCa drastično zmanjša računalniške zahteve, tako da se problem spremeni iz kvadratnega procesa v obvladljivega linearnega. Wu nadalje pojasnjuje postopek: "Z združevanjem v gruče lahko to naredimo za linearni proces, kjer je treba vsako manjšo enoto primerjati samo z vnaprej določenim številom gruč."

Grozdenje služi tudi za pojasnitev procesa odločanja v ViT. Postopek oblikovanja grozdov razkrije, kako se ViT odloči, katere funkcije so pomembne pri združevanju odsekov slikovnih podatkov skupaj. Ker umetna inteligenca ustvari le omejeno število gruč, lahko uporabniki zlahka razumejo in preučijo postopek odločanja, kar bistveno izboljša interpretabilnost modela.

Metodologija PaCa prekaša druge najsodobnejše ViT-je

Z obsežnim testiranjem so raziskovalci ugotovili, da metodologija PaCa prekaša druge ViT na več področjih. Wu pojasnjuje: "Ugotovili smo, da je PaCa v vseh pogledih prekašala SWin in PVT." Postopek testiranja je pokazal, da se je PaCa izkazal pri razvrščanju in prepoznavanju predmetov na slikah ter segmentaciji, pri čemer je učinkovito zarisal meje predmetov na slikah. Poleg tega je bilo ugotovljeno, da je bolj časovno učinkovit, saj opravlja naloge hitreje kot drugi ViT.

Raziskovalna skupina, opogumljena z uspehom PaCa, namerava nadaljevati njegov razvoj z usposabljanjem na večjih temeljnih zbirkah podatkov. S tem upajo, da bodo premaknili meje tega, kar je trenutno mogoče z umetno inteligenco, ki temelji na slikah.

Raziskovalna naloga, "PaCa-ViT: Učenje Patch-to-Cluster Attention v Vision Transformers,« bo predstavljen na prihajajočem Konferenca IEEE/CVF o računalniškem vidu in prepoznavanju vzorcev. To je pomemben mejnik, ki bi lahko utrl pot učinkovitejšim, preglednejšim in dostopnejšim sistemom umetne inteligence.

Sorodne teme:Računalniška vizija

Up Next

AutoGPT: Vse, kar morate vedeti o tem avtonomnem agentu AI, ki temelji na NLP

Ne zamudite

Tehnični voditelji poudarjajo tveganja umetne inteligence in nujnost stroge regulacije umetne inteligence

Alex McFarland

Alex McFarland je novinar in pisec AI, ki raziskuje najnovejši razvoj umetnih inteligenc. Sodeloval je s številnimi startupi in publikacijami na področju umetne inteligence po vsem svetu.