քոթուկ Տեսողական ավտոռեգեսիվ մոդելավորում. մասշտաբային պատկերների ստեղծում հաջորդ մասշտաբի կանխատեսման միջոցով - Unite.AI
Միացեք մեզ

Արհեստական ​​բանականություն

Տեսողական ավտոռեգեսիվ մոդելավորում. ընդլայնվող պատկերների ստեղծում հաջորդ մասշտաբի կանխատեսման միջոցով

mm

Հրատարակված է

 on

Տեսողական ավտոռեգեսիվ մոդելավորում. ընդլայնվող պատկերների ստեղծում հաջորդ մասշտաբի կանխատեսման միջոցով

GPT մոդելների ի հայտ գալը, ավտոռեգեսիվ կամ AR լայնալեզու այլ մոդելների հետ միասին, նոր դարաշրջան բացեց մեքենայական ուսուցման և արհեստական ​​ինտելեկտի ոլորտում: GPT և ավտոռեգեսիվ մոդելները հաճախ ցուցադրում են ընդհանուր ինտելեկտ և բազմակողմանիություն, որոնք համարվում են զգալի քայլ դեպի ընդհանուր արհեստական ​​ինտելեկտ կամ AGI՝ չնայած որոշ խնդիրներ, ինչպիսիք են հալյուցինացիաները: Այնուամենայնիվ, այս մեծ մոդելների հետ շփոթեցնող խնդիրը ինքնուրույն վերահսկվող ուսուցման ռազմավարությունն է, որը թույլ է տալիս մոդելին հաջորդականությամբ կանխատեսել հաջորդ նշանը՝ պարզ, բայց արդյունավետ ռազմավարություն: Վերջին աշխատանքները ցույց են տվել այս խոշոր ավտոռեգեսիվ մոդելների հաջողությունը՝ ընդգծելով դրանց ընդհանրացման և մասշտաբայնության հնարավորությունը: Scalability-ը գոյություն ունեցող մասշտաբային օրենքների տիպիկ օրինակ է, որը թույլ է տալիս հետազոտողներին կանխատեսել մեծ մոդելի կատարումը փոքր մոդելների կատարումից, ինչը հանգեցնում է ռեսուրսների ավելի լավ բաշխմանը: Մյուս կողմից, ընդհանրականությունը հաճախ ապացուցվում է ուսուցման ռազմավարություններով, ինչպիսիք են զրոյական կրակոցով, մեկ կրակոցով և մի քանի կրակոցով ուսուցումը՝ ընդգծելով չվերահսկվող, բայց վարժեցված մոդելների կարողությունը՝ հարմարվելու տարբեր և չտեսնված առաջադրանքներին: Միասին ընդհանրացումն ու մասշտաբայնությունը բացահայտում են ավտոռեգեսիվ մոդելների ներուժը՝ սովորելու հսկայական քանակությամբ չպիտակավորված տվյալներից: 

Հիմնվելով նույնի վրա՝ այս հոդվածում մենք կխոսենք Visual AutoRegressive-ի կամ VAR շրջանակի մասին՝ նոր սերնդի օրինաչափություն, որը վերասահմանում է ինքնառեգեսիվ ուսուցումը պատկերների վրա՝ որպես կոպիտից նուրբ «հաջորդ լուծաչափի կանխատեսում» կամ «հաջորդ մասշտաբի կանխատեսում»: . Չնայած պարզ, մոտեցումը արդյունավետ է և թույլ է տալիս ավտոռեգեսիվ տրանսֆորմատորներին ավելի լավ սովորել տեսողական բաշխումները և ընդհանրացման ուժեղացում: Ավելին, Visual AutoRegressive մոդելները հնարավորություն են տալիս GPT ոճի ավտոռեգեսիվ մոդելներին առաջին անգամ գերազանցել դիֆուզիոն փոխանցումները պատկերների ստեղծման մեջ: Փորձերը նաև ցույց են տալիս, որ VAR շրջանակը զգալիորեն բարելավում է ինքնագրեսիվ բազային գծերը և գերազանցում է Diffusion Transformer կամ DiT շրջանակը բազմաթիվ չափումներով, ներառյալ տվյալների արդյունավետությունը, պատկերի որակը, մասշտաբայնությունը և եզրակացության արագությունը: Ավելին, Visual AutoRegressive մոդելների ընդլայնումը ցույց է տալիս ուժային օրենքի մասշտաբման օրենքները, որոնք նման են լեզվական մեծ մոդելների դեպքում, ինչպես նաև ցուցադրում է զրոյական ընդհանրացման կարողություն ներքևում գտնվող առաջադրանքներում, ներառյալ խմբագրում, ներկում և արտաքին նկարում: 

Այս հոդվածը նպատակ ունի մանրամասնորեն լուսաբանել Visual AutoRegressive շրջանակը, և մենք ուսումնասիրում ենք շրջանակի մեխանիզմը, մեթոդաբանությունը, ճարտարապետությունը, ինչպես նաև դրա համեմատությունը նորագույն շրջանակների հետ: Մենք նաև կխոսենք այն մասին, թե ինչպես է Visual AutoRegressive շրջանակը ցուցադրում LLM-ների երկու կարևոր հատկություններ՝ մասշտաբային օրենքներ և զրոյական ընդհանրացում: Այսպիսով, եկեք սկսենք:

Տեսողական ավտոմատ ռեգրեսիվ մոդելավորում. պատկերների ստեղծման մասշտաբավորում

Վերջին խոշոր լեզուների մոդելների մեջ տարածված օրինաչափություն է ինքնավերահսկվող ուսուցման ռազմավարության իրականացումը, պարզ, բայց արդյունավետ մոտեցում, որը կանխատեսում է հաջորդ նշանը հաջորդականությամբ: Մոտեցման շնորհիվ այսօր ավտոռեգեսիվ և մեծ լեզվական մոդելները ցուցադրել են զգալի մասշտաբայնություն, ինչպես նաև ընդհանրականություն, հատկություններ, որոնք բացահայտում են ավտոռեգեսիվ մոդելների ներուժը՝ սովորելու չպիտակավորված տվյալների մեծ ֆոնդից, հետևաբար, ամփոփելով Ընդհանուր արհեստական ​​ինտելեկտի էությունը: Ավելին, համակարգչային տեսողության ոլորտի հետազոտողները զուգահեռաբար աշխատել են մեծ ավտոռեգեսիվ կամ համաշխարհային մոդելներ մշակելու ուղղությամբ՝ նպատակ ունենալով համապատասխանեցնել կամ գերազանցել դրանց տպավորիչ մասշտաբայնությունն ու ընդհանրացումը, ընդ որում DALL-E-ի և VQGAN-ի նման մոդելներն արդեն ցուցադրում են ոլորտում ավտոռեգեսիվ մոդելների ներուժը։ պատկերի գեներացման. Այս մոդելները հաճախ կիրառում են տեսողական ցուցիչ, որը ներկայացնում կամ մոտավոր պատկերներ է ներկայացնում 2D նշանների ցանցի մեջ, որոնք այնուհետև հարթվում են 1D հաջորդականության մեջ՝ ավտոռեգեսիվ ուսուցման համար՝ այդպիսով արտացոլելով լեզվի հաջորդական մոդելավորման գործընթացը: 

Այնուամենայնիվ, հետազոտողները դեռ պետք է ուսումնասիրեն այս մոդելների մասշտաբային օրենքները, և ավելի զայրացնողն այն է, որ այս մոդելների կատարումը հաճախ զգալի տարբերությամբ հետ է մնում դիֆուզիոն մոդելներից, ինչպես ցույց է տրված հետևյալ նկարում: Կատարման բացը ցույց է տալիս, որ երբ համեմատվում են մեծ լեզվական մոդելների հետ, համակարգչային տեսողության մեջ ավտոռեգեսիվ մոդելների հնարավորությունները թերուսումնասիրված են: 

Մի կողմից, ավանդական ավտոռեգեսիվ մոդելները պահանջում են տվյալների որոշակի կարգ, մինչդեռ մյուս կողմից, Visual AutoRegressive կամ VAR մոդելը վերանայում է, թե ինչպես պատվիրել պատկերը, և դա այն է, ինչը տարբերում է VAR-ը գոյություն ունեցող AR մեթոդներից: Սովորաբար, մարդիկ ստեղծում կամ ընկալում են պատկերը հիերարխիկ ձևով, ֆիքսելով գլոբալ կառուցվածքը, որին հաջորդում են տեղական մանրամասները, բազմամասշտաբ, կոպիտից նուրբ մոտեցում, որն առաջարկում է պատկերի բնական կարգը: Ավելին, ոգեշնչվելով բազմամասշտաբ ձևավորումներից, VAR շրջանակը սահմանում է պատկերների համար ավտոռեգեսիվ ուսուցումը որպես հաջորդ մասշտաբի կանխատեսում, ի տարբերություն սովորական մոտեցումների, որոնք ուսուցումը սահմանում են որպես հաջորդ նշանային կանխատեսում: VAR շրջանակի կողմից իրականացվող մոտեցումը վեր է ածվում պատկերը կոդավորելով բազմամասշտաբ նշանների քարտեզներում: Այնուհետև շրջանակը սկսում է ավտոռեգեսիվ գործընթացը 1×1 նշանի քարտեզից և աստիճանաբար ընդլայնվում է լուծաչափով: Ամեն քայլափոխի տրանսֆորմատորը կանխագուշակում է հաջորդ ավելի բարձր լուծաչափի նշանային քարտեզը, որը պայմանավորված է բոլոր նախորդներից, մեթոդոլոգիա, որը VAR շրջանակը վերաբերում է որպես VAR մոդելավորում: 

VAR շրջանակը փորձում է օգտագործել GPT-2-ի տրանսֆորմատորային ճարտարապետությունը վիզուալ ավտոռեգեսիվ ուսուցման համար, և արդյունքներն ակնհայտ են ImageNet հենանիշի վրա, որտեղ VAR մոդելը զգալիորեն բարելավում է իր AR ելակետը՝ հասնելով 1.80-ի FID-ի և 356-ի սկզբնական գնահատականի: եզրակացության արագության 20 անգամ բարելավմամբ: Առավել հետաքրքիրն այն է, որ VAR շրջանակը կարողանում է գերազանցել DiT կամ Diffusion Transformer շրջանակի կատարումը՝ FID & IS միավորների, մասշտաբայնության, եզրակացության արագության և տվյալների արդյունավետության առումով: Ավելին, Visual AutoRegressive մոդելը ցուցադրում է ուժեղ սանդղակի օրենքներ, որոնք նման են մեծ լեզվական մոդելների օրինակներին: 

Ամփոփելու համար VAR շրջանակը փորձում է կատարել հետևյալ ներդրումը. 

  1. Այն առաջարկում է նոր տեսողական գեներատիվ շրջանակ, որն օգտագործում է բազմամասշտաբ ավտոռեգեսիվ մոտեցում հաջորդ մասշտաբի կանխատեսմամբ, հակառակ ավանդական հաջորդական կանխատեսման, ինչը հանգեցնում է համակարգչային տեսողության առաջադրանքների համար ավտոռեգեսիվ ալգորիթմի նախագծմանը: 
  2. Այն փորձում է վավերացնել ավտոռեգեսիվ մոդելների մասշտաբային օրենքները և զրոյական ընդհանրացման ներուժը, որը նմանակում է LLM-ների գրավիչ հատկությունները: 
  3. Այն առաջարկում է առաջընթաց վիզուալ ավտոռեգեսիվ մոդելների կատարման մեջ՝ հնարավորություն տալով GPT ոճի ավտոռեգեսիվ շրջանակներին գերազանցել գոյություն ունեցող դիֆուզիոն մոդելներ պատկերների սինթեզի առաջադրանքներում առաջին անգամ: 

Ավելին, կարևոր է նաև քննարկել ուժային իրավունքի մասշտաբավորման գոյություն ունեցող օրենքները, որոնք մաթեմատիկորեն նկարագրում են կապը տվյալների բազայի չափերի, մոդելի պարամետրերի, կատարողականի բարելավման և մեքենայական ուսուցման մոդելների հաշվողական ռեսուրսների միջև: Նախ, ուժային օրենքի մասշտաբավորման այս օրենքները հեշտացնում են ավելի մեծ մոդելի կատարողականի կիրառումը` մեծացնելով մոդելի չափը, հաշվողական արժեքը և տվյալների չափը, խնայելով ավելորդ ծախսերը և բաշխելով վերապատրաստման բյուջեն` տրամադրելով սկզբունքներ: Երկրորդ, մասշտաբային օրենքները ցույց են տվել կատարողականի հետևողական և չհագեցնող աճ: Առաջ շարժվելով նեյրոնային լեզվի մոդելներում մասշտաբային օրենքների սկզբունքներով, մի քանի LLM-ներ մարմնավորում են այն սկզբունքը, որ մոդելների մասշտաբի մեծացումը հակված է ավելի բարձր կատարողականի արդյունքների: Մյուս կողմից, զրոյական ընդհանրացումը վերաբերում է մոդելի, մասնավորապես LLM-ի կարողությանը, որը կատարում է առաջադրանքներ, որոնց վերաբերյալ հստակորեն չի վերապատրաստվել: Համակարգչային տեսլականի տիրույթում հետաքրքրությունը հիմքերի մոդելների զրոյական և համատեքստային ուսուցման կարողությունների ձևավորման նկատմամբ: 

Լեզուների մոդելները հիմնվում են WordPiece ալգորիթմների կամ բայթ զույգ կոդավորման մոտեցման վրա՝ տեքստի նշանավորման համար: Լեզուների մոդելների վրա հիմնված վիզուալ սերնդի մոդելները նույնպես մեծապես հիմնված են 2D պատկերները 1D նշանների հաջորդականությունների մեջ կոդավորելու վրա: VQVAE-ի նման վաղ աշխատությունները ցույց տվեցին պատկերները որպես դիսկրետ նշաններ ներկայացնելու ունակություն՝ չափավոր վերակառուցման որակով: VQVAE-ի իրավահաջորդը՝ VQGAN շրջանակը ներառում էր ընկալման և հակառակորդի կորուստներ՝ պատկերի հավատարմությունը բարելավելու համար, ինչպես նաև օգտագործեց միայն ապակոդավորող տրանսֆորմատոր՝ ստանդարտ ռաստերային սկան ավտոռեգեսիվ եղանակով պատկերի նշաններ ստեղծելու համար: Մյուս կողմից, դիֆուզիոն մոդելները վաղուց համարվում էին տեսողական սինթեզի առաջադրանքների առաջատարը, քանի որ դրանց բազմազանությունը և արտադրության բարձր որակը: Դիֆուզիոն մոդելների առաջընթացը կենտրոնացած է նմուշառման տեխնիկայի բարելավման, ճարտարապետական ​​բարելավումների և ավելի արագ նմուշառման շուրջ: Լատենտ դիֆուզիոն մոդելները կիրառում են դիֆուզիոն թաքնված տարածության մեջ, որը բարելավում է ուսուցման արդյունավետությունը և եզրակացությունը: Դիֆուզիոն տրանսֆորմատորների մոդելները փոխարինում են ավանդական U-Net ճարտարապետությունը տրանսֆորմատորի վրա հիմնված ճարտարապետությամբ, և այն կիրառվել է վերջին պատկերների կամ տեսանյութերի սինթեզի մոդելներում, ինչպիսիք են SORA-ն և Կայուն դիֆուզիոն

Visual AutoRegressive: Մեթոդաբանություն և ճարտարապետություն

Իր հիմքում VAR շրջանակն ունի ուսուցման երկու առանձին փուլ: Առաջին փուլում բազմամասշտաբ քվանտացված ինքնակոդավորիչը կամ VQVAE-ը պատկերը կոդավորում է խորհրդանշական քարտեզներում, և բարդ վերակառուցման կորուստն իրականացվում է ուսումնական նպատակներով: Վերոնշյալ նկարում ներկառուցումը բառ է, որն օգտագործվում է դիսկրետ նշանները շարունակական ներկառուցվող վեկտորների վերածելու համար: Երկրորդ փուլում VAR մոդելի տրանսֆորմատորը վերապատրաստվում է կամ նվազագույնի հասցնելով խաչաձև էնտրոպիայի կորուստը կամ առավելագույնի հասցնելով հավանականությունը՝ օգտագործելով հաջորդ մասշտաբի կանխատեսման մոտեցումը: Այնուհետև վարժեցված VQVAE-ն արտադրում է VAR-ի շրջանակի խորհրդանշական քարտեզի հիմքի ճշմարտությունը: 

Autoregressive Modeling միջոցով Next-Token Prediction

Դիսկրետ նշանների տրված հաջորդականության համար, որտեղ յուրաքանչյուր նշան V չափի բառապաշարի ամբողջ թիվ է, հաջորդ նշանի ավտոռեգեսիվ մոդելը առաջարկում է, որ ընթացիկ նշանը դիտարկելու հավանականությունը կախված է միայն դրա նախածանցից: Ենթադրելով, որ միակողմանի նշանային կախվածությունը թույլ է տալիս VAR շրջանակին բաժանել հաջորդականության հնարավորությունները պայմանական հավանականությունների արտադրյալի: Ավտոռեգեսիվ մոդելի ուսուցումը ներառում է մոդելի օպտիմիզացում տվյալների բազայում, և այս օպտիմալացման գործընթացը հայտնի է որպես հաջորդ նշանային կանխատեսումև թույլ է տալիս վարժեցված մոդելին ստեղծել նոր հաջորդականություններ: Ավելին, պատկերները ժառանգաբար 2D շարունակական ազդանշաններ են, և հաջորդ նշանի կանխատեսման օպտիմալացման գործընթացի միջոցով պատկերների վրա ավտոռեգեսիվ մոդելավորման մոտեցումը կիրառելը մի քանի նախադրյալներ ունի: Նախ, պատկերը պետք է խորհրդանշականացվի մի քանի դիսկրետ նշանների: Սովորաբար, քվանտացված ինքնակոդավորիչ է ներդրվում՝ պատկերի առանձնահատկությունների քարտեզը դիսկրետ նշանների փոխակերպելու համար: Երկրորդ, միակողմանի մոդելավորման համար պետք է սահմանվի նշանների 1D կարգ: 

Դիսկրետ նշաններում պատկերի նշանները դասավորված են 2D ցանցով, և ի տարբերություն բնական լեզվով նախադասությունների, որոնք ի սկզբանե ունեն ձախից աջ դասավորություն, պատկերի նշանների կարգը պետք է հստակորեն սահմանվի միակողմանի ավտոռեգեսիվ ուսուցման համար: Նախկին ավտոռեգեսիվ մոտեցումները հարթեցրեցին դիսկրետ նշանների 2D ցանցը 1D հաջորդականության մեջ՝ օգտագործելով այնպիսի մեթոդներ, ինչպիսիք են տողերի հիմնական ռաստերային սկանավորումը, z-կորը կամ պարուրաձև կարգը: Հենց որ դիսկրետ նշանները հարթեցվեցին, AR մոդելները տվյալների հավաքածուից արդյունահանեցին մի շարք հաջորդականություններ, այնուհետև վարժեցրին ավտոռեգեսիվ մոդել՝ առավելագույնի հասցնելու հավանականությունը T պայմանական հավանականությունների արտադրյալի մեջ՝ օգտագործելով հաջորդ նշանի կանխատեսումը: 

Visual-AutoRegressive Modeling միջոցով Next-Scale Prediction

VAR շրջանակը վերաիմաստավորում է պատկերների վրա ավտոռեգեսիվ մոդելավորումը` հաջորդ նշանի կանխատեսումից անցնելով հաջորդ մասշտաբի կանխատեսման մոտեցմանը, մի գործընթաց, որի համաձայն մեկ նշան լինելու փոխարեն, ավտոռեգեսիվ միավորը մի ամբողջ նշանային քարտեզ է: Մոդելը սկզբում քվանտացնում է առանձնահատկությունների քարտեզը բազմամասշտաբ նշանային քարտեզների, որոնցից յուրաքանչյուրը նախորդից ավելի բարձր լուծաչափով է, և ավարտվում է՝ համապատասխանեցնելով բնօրինակ առանձնահատկությունների քարտեզների լուծումը: Ավելին, VAR շրջանակը մշակում է նոր բազմամասշտաբ քվանտացման կոդավորիչ՝ պատկերը կոդավորելու բազմամասշտաբ դիսկրետ նշանների քարտեզներում, որոնք անհրաժեշտ են VAR ուսուցման համար: VAR շրջանակն օգտագործում է նույն ճարտարապետությունը, ինչ VQGAN-ը, բայց փոփոխված բազմամասշտաբ քվանտացման շերտով, հետևյալ պատկերում ցուցադրված ալգորիթմներով: 

Visual AutoRegressive: Արդյունքներ և փորձեր

VAR շրջանակն օգտագործում է վանիլային VQVAE ճարտարապետությունը բազմամասշտաբ քվանտացման սխեմայով K լրացուցիչ կոնվուլյացիայով և օգտագործում է ընդհանուր ծածկագիրք բոլոր մասշտաբների համար և թաքնված 32 մթություն։ պահվում է պարզ, բայց արդյունավետ: Շրջանակն ընդունում է միայն ապակոդավորող տրանսֆորմատորի ստանդարտ տրանսֆորմատորի կառուցվածքը, որը նման է GPT-2 մոդելների վրա կիրառվողներին, ընդ որում միակ փոփոխությունը ավանդական շերտի նորմալացման փոխարինումն է հարմարվողական նորմալացման կամ AdaLN-ով: Դասի պայմանական սինթեզի համար VAR շրջանակն իրականացնում է դասի ներկառուցումները որպես մեկնարկային նշան, ինչպես նաև հարմարվողական նորմալացման շերտի վիճակը։ 

Նորագույն պատկերների ստեղծման արդյունքները

Երբ զուգակցվում է գոյություն ունեցող գեներատիվ շրջանակների հետ, ներառյալ GANs կամ Generative Adversarial Networks, BERT-ի ոճով դիմակավորված կանխատեսման մոդելներ, դիֆուզիոն մոդելներ և GPT ոճի ավտոռեգեսիվ մոդելներ, Visual AutoRegressive շրջանակը ցույց է տալիս խոստումնալից արդյունքներ՝ ամփոփված հետևյալ աղյուսակում: 

Ինչպես կարելի է նկատել, Visual AutoRegressive շրջանակը ոչ միայն ի վիճակի է լավագույնս FID և IS գնահատականները, այլ նաև ցույց է տալիս պատկերների ստեղծման ուշագրավ արագություն՝ համեմատելի ժամանակակից մոդելների հետ: Ավելին, VAR շրջանակը նաև պահպանում է բավարար ճշգրտություն և հետկանչման միավորներ, ինչը հաստատում է դրա իմաստային հետևողականությունը: Բայց իրական անակնկալը VAR շրջանակի կողմից տրված ուշագրավ կատարումն է ավանդական AR հնարավորությունների առաջադրանքների վրա՝ դարձնելով այն առաջին ավտոռեգեսիվ մոդելը, որը գերազանցեց դիֆուզիոն տրանսֆորմատորի մոդելին, ինչպես ցույց է տրված հետևյալ աղյուսակում: 

Zero-Shot առաջադրանքի ընդհանրացման արդյունքը

Ներքին և դուրս նկարչական առաջադրանքների համար VAR շրջանակի ուսուցիչը ստիպում է գետնին ճշմարտության նշանները դիմակից դուրս և թույլ է տալիս մոդելին ստեղծել միայն դիմակի ներսում առկա նշանները, առանց դասի պիտակի մասին տեղեկատվության ներարկվում մոդելի մեջ: Արդյունքները ցուցադրված են հետևյալ պատկերում, և ինչպես երևում է, VAR մոդելը հասնում է ընդունելի արդյունքների ներքևում գտնվող առաջադրանքների վրա՝ առանց պարամետրերի կարգավորելու կամ ցանցի ճարտարապետությունը փոփոխելու՝ ցույց տալով VAR շրջանակի ընդհանրացման հնարավորությունը: 

Վերջնական Մտքեր

Այս հոդվածում մենք խոսեցինք նոր տեսողական գեներատիվ շրջանակի մասին, որը կոչվում է Visual AutoRegressive modeling (VAR), որը 1) տեսականորեն լուծում է որոշ խնդիրներ, որոնք բնորոշ են ստանդարտ պատկերի ավտոռեգեսիվ (AR) մոդելներին, և 2) ստիպում է, որ լեզվական մոդելների վրա հիմնված AR մոդելները գերազանցեն: ուժեղ դիֆուզիոն մոդելներ՝ պատկերի որակի, բազմազանության, տվյալների արդյունավետության և եզրակացության արագության առումով: Մի կողմից, ավանդական ավտոռեգեսիվ մոդելները պահանջում են տվյալների որոշակի կարգ, մինչդեռ մյուս կողմից, Visual AutoRegressive կամ VAR մոդելը վերանայում է, թե ինչպես պատվիրել պատկերը, և դա այն է, ինչը տարբերում է VAR-ը գոյություն ունեցող AR մեթոդներից: VAR-ը մինչև 2 միլիարդ պարամետրի չափելիս, VAR շրջանակի մշակողները նկատել են հստակ ուժ-օրենք հարաբերություն թեստի կատարման և մոդելի պարամետրերի կամ ուսուցման հաշվարկի միջև՝ Pearson-ի գործակիցներով մոտ -0.998-ին, ինչը ցույց է տալիս արդյունավետության կանխատեսման ամուր շրջանակ: Այս մասշտաբային օրենքները և զրոյական առաջադրանքների ընդհանրացման հնարավորությունը, որպես LLM-ների բնորոշ նշաններ, այժմ ի սկզբանե ստուգվել են մեր VAR տրանսֆորմատորների մոդելներում: 

«Մասնագիտությամբ ինժեներ, անգիր գրող». Կունալը տեխնիկական գրող է, որն ունի AI և ML-ի խորը սեր և հասկացողություն, որը նվիրված է այս ոլորտներում բարդ հասկացությունների պարզեցմանը իր գրավիչ և տեղեկատվական փաստաթղթերի միջոցով: