քոթուկ Vision Transformers-ը հաղթահարում է մարտահրավերները «Patch-to-Cluster Attention» նոր մեթոդով - Unite.AI
Միացեք մեզ

Արհեստական ​​բանականություն

Vision Transformers-ը հաղթահարում է մարտահրավերները «Patch-to-Cluster Attention» նոր մեթոդով

Հրատարակված է

 on

Արհեստական ​​ինտելեկտի (AI) տեխնոլոգիաները, մասնավորապես Vision Transformers (ViTs), հսկայական խոստումնալից են իրենց կարողությամբ՝ բացահայտելու և դասակարգելու առարկաները պատկերներում: Այնուամենայնիվ, դրանց գործնական կիրառումը սահմանափակվել է երկու էական մարտահրավերներով՝ հաշվողական հզորության բարձր պահանջներով և որոշումների կայացման թափանցիկության բացակայությամբ: Այժմ մի խումբ հետազոտողներ մշակել են բեկումնային լուծում՝ նոր մեթոդաբանություն, որը հայտնի է որպես «Patch-to-Cluster-ի ուշադրություն» (PaCa): PaCa-ն նպատակ ունի ընդլայնել ViT-ների հնարավորությունները պատկերի օբյեկտների նույնականացման, դասակարգման և սեգմենտավորման մեջ՝ միաժամանակ լուծելով հաշվողական պահանջների և որոշումների կայացման հստակության վաղեմի խնդիրները:

Անդրադառնալով ViT-ների մարտահրավերներին. հայացք դեպի նոր լուծում

Տրանսֆորմատորներն իրենց գերազանց հնարավորությունների շնորհիվ AI աշխարհում ամենաազդեցիկ մոդելներից են: Այս մոդելների հզորությունը տարածվել է տեսողական տվյալների վրա ViT-ների միջոցով՝ տրանսֆորմատորների դասի, որոնք պատրաստված են տեսողական մուտքերով: Չնայած ViT-ների կողմից ներկայացված պատկերները մեկնաբանելու և հասկանալու հսկայական ներուժին, դրանք հետ են մնացել մի քանի հիմնական խնդիրների պատճառով:

Նախ, հսկայական քանակությամբ տվյալներ պարունակող պատկերների բնույթի պատճառով ViT-ները պահանջում են զգալի հաշվողական հզորություն և հիշողություն: Այս բարդությունը կարող է ճնշող լինել շատ համակարգերի համար, հատկապես բարձր լուծաչափով պատկերների հետ աշխատելիս: Երկրորդ, ViT-ների շրջանակներում որոշումների կայացման գործընթացը հաճախ խճճված և անթափանց է: Օգտատերերը դժվարանում են հասկանալ, թե ինչպես են ViT-ները տարբերակում պատկերի տարբեր օբյեկտները կամ առանձնահատկությունները, ինչը շատ կարևոր է բազմաթիվ հավելվածների համար:

Այնուամենայնիվ, PaCa-ի նորարարական մեթոդոլոգիան լուծում է այս երկու մարտահրավերներին: «Մենք լուծում ենք հաշվողական և հիշողության պահանջներին առնչվող մարտահրավերները՝ օգտագործելով կլաստերավորման տեխնիկան, որը թույլ է տալիս տրանսֆորմատորի ճարտարապետությանը ավելի լավ բացահայտել և կենտրոնանալ պատկերի օբյեկտների վրա», - բացատրում է Տյանֆու Վուն՝ աշխատանքի վերաբերյալ հոդվածի համապատասխան հեղինակ և դոցենտ: Էլեկտրական և համակարգչային ճարտարագիտություն Հյուսիսային Կարոլինայի պետական ​​համալսարանում:

PaCa-ում կլաստերավորման տեխնիկայի օգտագործումը կտրուկ նվազեցնում է հաշվողական պահանջները՝ խնդիրը քառակուսի գործընթացից վերածելով կառավարելի գծայինի: Վուն հետագայում բացատրում է գործընթացը. «Կլաստերավորման միջոցով մենք կարող ենք դա դարձնել գծային գործընթաց, որտեղ յուրաքանչյուր փոքր միավոր միայն պետք է համեմատվի կլաստերների կանխորոշված ​​քանակի հետ»:

Կլաստերավորումը նաև ծառայում է ViT-ներում որոշումների կայացման գործընթացի հստակեցմանը: Կլաստերների ձևավորման գործընթացը ցույց է տալիս, թե ինչպես է ViT-ն որոշում, թե որ հատկանիշներն են կարևոր պատկերի տվյալների բաժինները միասին խմբավորելու համար: Քանի որ AI-ն ստեղծում է միայն սահմանափակ թվով կլաստերներ, օգտվողները կարող են հեշտությամբ հասկանալ և ուսումնասիրել որոշումների կայացման գործընթացը՝ զգալիորեն բարելավելով մոդելի մեկնաբանելիությունը:

PaCa մեթոդաբանությունը գերազանցում է այլ ժամանակակից ViT-ներին

Համապարփակ փորձարկման միջոցով հետազոտողները պարզել են, որ PaCa մեթոդոլոգիան մի քանի առումներով գերազանցում է այլ ViT-ներին: Վուն մանրամասնում է. «Մենք պարզեցինք, որ PaCa-ն ամեն կերպ գերազանցում է SWin-ին և PVT-ին»: Փորձարկման գործընթացը ցույց տվեց, որ PaCa-ն գերազանցում էր պատկերների մեջ առարկաները դասակարգելու և նույնականացնելու և սեգմենտավորման մեջ՝ արդյունավետորեն ուրվագծելով պատկերներում գտնվող օբյեկտների սահմանները: Ավելին, պարզվել է, որ այն ավելի արդյունավետ է ժամանակի առումով՝ կատարելով առաջադրանքները ավելի արագ, քան մյուս ViT-ները:

Ոգեշնչված PaCa-ի հաջողությունից՝ հետազոտական ​​թիմը նպատակ ունի շարունակել զարգացումը՝ վերապատրաստելով այն ավելի մեծ տվյալների բազայի վրա: Դրանով նրանք հույս ունեն անցնել պատկերների վրա հիմնված AI-ի միջոցով ներկայումս հնարավորի սահմանները:

Հետազոտական ​​փաստաթուղթը, «PaCa-ViT. Ուսուցում Patch-to-Cluster ուշադրություն Vision Transformers-ում», կներկայացվի առաջիկայում IEEE/CVF կոնֆերանս՝ նվիրված համակարգչային տեսողության և ձևանմուշների ճանաչմանը. Սա կարևոր հանգրվան է, որը կարող է ճանապարհ հարթել ավելի արդյունավետ, թափանցիկ և մատչելի AI համակարգերի համար:

Ալեքս Մաքֆարլանդը արհեստական ​​ինտելեկտի լրագրող և գրող է, ով ուսումնասիրում է արհեստական ​​բանականության վերջին զարգացումները: Նա համագործակցել է արհեստական ​​ինտելեկտի բազմաթիվ ստարտափների և հրատարակությունների հետ ամբողջ աշխարհում: