cung Modelimi Autoregresiv vizual: Gjenerimi i imazhit të shkallëzuar përmes parashikimit të shkallës tjetër - Unite.AI
Lidhu me ne

Inteligjenca artificiale

Modelimi Autoregresiv vizual: Gjenerimi i imazhit të shkallëzuar përmes parashikimit në shkallën tjetër

mm

Publikuar

 on

Modelimi Autoregresiv vizual: Gjenerimi i imazhit të shkallëzuar përmes parashikimit në shkallën tjetër

Ardhja e modeleve GPT, së bashku me modelet e tjera të gjuhëve të mëdha autoregresive ose AR shpalosën një epokë të re në fushën e mësimit të makinerive dhe inteligjencës artificiale. Modelet GPT dhe autoregresive shpesh shfaqin inteligjencë të përgjithshme dhe shkathtësi që konsiderohen të jenë një hap i rëndësishëm drejt inteligjencës artificiale të përgjithshme ose AGI pavarësisht se kanë disa probleme si halucinacionet. Megjithatë, problemi i çuditshëm me këto modele të mëdha është një strategji e të mësuarit e vetë-mbikëqyrur që lejon modelin të parashikojë shenjën tjetër në një sekuencë, një strategji e thjeshtë por efektive. Punimet e fundit kanë demonstruar suksesin e këtyre modeleve të mëdha autoregresive, duke theksuar përgjithësimin dhe shkallëzueshmërinë e tyre. Shkallueshmëria është një shembull tipik i ligjeve ekzistuese të shkallëzimit që i lejon studiuesit të parashikojnë performancën e modelit të madh nga performanca e modeleve më të vogla, duke rezultuar në shpërndarje më të mirë të burimeve. Nga ana tjetër, përgjithësueshmëria shpesh evidentohet nga strategjitë e të mësuarit si mësimi me goditje zero, me një goditje dhe me disa goditje, duke theksuar aftësinë e modeleve të pambikëqyrura por të trajnuara për t'u përshtatur me detyra të ndryshme dhe të padukshme. Së bashku, përgjithësimi dhe shkallëzueshmëria zbulojnë potencialin e modeleve autoregresive për të mësuar nga një sasi e madhe të dhënash të paetiketuara. 

Duke u mbështetur në të njëjtën gjë, në këtë artikull, ne do të flasim për Visual AutoRegressive ose kornizën VAR, një model i gjeneratës së re që ripërcakton të mësuarit autoregresiv në imazhe si "parashikim i rezolucionit të ardhshëm" ose "parashikim në shkallën tjetër". . Edhe pse e thjeshtë, qasja është efektive dhe lejon transformatorët autoregresivë të mësojnë më mirë shpërndarjet vizuale dhe përgjithësimin e zgjeruar. Për më tepër, modelet Visual AutoRegressive mundësojnë që modelet autoregresive të stilit GPT të tejkalojnë transferimet e difuzionit në gjenerimin e imazheve për herë të parë. Eksperimentet tregojnë gjithashtu se korniza VAR përmirëson ndjeshëm linjat bazë autoregresive dhe tejkalon kuadrin e Transformuesit të Difuzionit ose DiT në dimensione të shumta duke përfshirë efikasitetin e të dhënave, cilësinë e imazhit, shkallëzueshmërinë dhe shpejtësinë e përfundimit. Më tej, përshkallëzimi i modeleve Visual AutoRegressive demonstron ligje të shkallëzimit të ligjit të fuqisë të ngjashme me ato të vëzhguara me modelet e mëdha të gjuhës, dhe gjithashtu shfaq aftësinë e përgjithësimit me zero në detyrat e rrjedhës së poshtme, duke përfshirë redaktim, pikturë brenda dhe pikturë jashtë. 

Ky artikull synon të mbulojë në thellësi kuadrin Visual AutoRegressive, dhe ne eksplorojmë mekanizmin, metodologjinë, arkitekturën e kornizës së bashku me krahasimin e tij me kornizat më moderne. Ne gjithashtu do të flasim për mënyrën sesi korniza Visual AutoRegressive demonstron dy veti të rëndësishme të LLM-ve: Ligjet e shkallëzimit dhe përgjithësimi me pikë zero. Pra, le të fillojmë.

Modelimi vizual Autoregresiv: Shkallëzimi i Gjenerimit të Imazheve

Një model i zakonshëm midis modeleve të fundit të gjuhëve të mëdha është zbatimi i një strategjie mësimore të vetë-mbikëqyrur, një qasje e thjeshtë por efektive që parashikon shenjën e radhës në sekuencë. Falë qasjes, modelet autoregresive dhe të mëdha gjuhësore sot kanë demonstruar shkallëzim të jashtëzakonshëm si dhe përgjithësim, veti që zbulojnë potencialin e modeleve autoregresive për të mësuar nga një grup i madh të dhënash të paetiketuara, duke përmbledhur kështu thelbin e Inteligjencës Artificiale të Përgjithshme. Për më tepër, studiuesit në fushën e vizionit kompjuterik kanë punuar paralelisht për të zhvilluar modele të mëdha autoregresive ose botërore me qëllim që të përputhen ose tejkalojnë shkallëzueshmërinë dhe përgjithësimin e tyre mbresëlënës, me modele si DALL-E dhe VQGAN që tashmë demonstrojnë potencialin e modeleve autoregresive në këtë fushë. të gjenerimit të imazhit. Këto modele shpesh zbatojnë një tokenizues vizual që përfaqëson ose përafrojë imazhet e vazhdueshme në një rrjet shenjash 2D, të cilat më pas rrafshohen në një sekuencë 1D për të mësuarit autoregresiv, duke pasqyruar kështu procesin e modelimit vijues të gjuhës. 

Megjithatë, studiuesit ende nuk kanë eksploruar ligjet e shkallëzimit të këtyre modeleve, dhe ajo që është më frustruese është fakti se performanca e këtyre modeleve shpesh bie prapa modeleve të difuzionit me një diferencë të konsiderueshme, siç tregohet në imazhin e mëposhtëm. Hendeku në performancë tregon se kur krahasohet me modelet e mëdha gjuhësore, aftësitë e modeleve autoregresive në vizionin kompjuterik janë të nëneksploruara. 

Nga njëra anë, modelet tradicionale autoregresive kërkojnë një renditje të përcaktuar të të dhënave, ndërsa nga ana tjetër, modeli Visual AutoRegressive ose VAR rishqyrton mënyrën e renditjes së një imazhi, dhe kjo është ajo që e dallon VAR-in nga metodat ekzistuese AR. Në mënyrë tipike, njerëzit krijojnë ose perceptojnë një imazh në një mënyrë hierarkike, duke kapur strukturën globale të ndjekur nga detajet lokale, një qasje në shumë shkallë, e trashë deri në imtësi që sugjeron një renditje për imazhin në mënyrë natyrale. Për më tepër, duke u frymëzuar nga dizajnet me shumë shkallë, korniza VAR përcakton të mësuarit autoregresiv për imazhet si parashikimin e shkallës së ardhshme, në krahasim me qasjet konvencionale që përcaktojnë të mësuarin si parashikimin e mëparshëm. Qasja e zbatuar nga korniza VAR fillon duke koduar një imazh në hartat e shenjave në shumë shkallë. Korniza më pas fillon procesin autoregresiv nga harta e shenjave 1×1 dhe zgjerohet në rezolucion në mënyrë progresive. Në çdo hap, transformatori parashikon hartën tjetër të shenjës me rezolucion më të lartë të kushtëzuar nga të gjitha ato të mëparshme, një metodologji që korniza VAR i referohet si modelim VAR. 

Korniza VAR përpiqet të përdorë arkitekturën e transformatorit të GPT-2 për të mësuarit vizual autoregresiv, dhe rezultatet janë të dukshme në standardin ImageNet ku modeli VAR përmirëson ndjeshëm bazën e tij AR, duke arritur një FID prej 1.80 dhe një rezultat fillestar prej 356 së bashku. me një përmirësim 20x në shpejtësinë e konkluzionit. Ajo që është më interesante është se korniza VAR arrin të tejkalojë performancën e kornizës DiT ose Diffusion Transformer për sa i përket rezultateve FID & IS, shkallëzueshmërisë, shpejtësisë së konkluzionit dhe efikasitetit të të dhënave. Për më tepër, modeli Visual AutoRegressive shfaq ligje të forta shkallëzimi të ngjashme me ato të dëshmuara në modelet e gjuhëve të mëdha. 

Për ta përmbledhur, korniza VAR përpiqet të japë kontributet e mëposhtme. 

  1. Ai propozon një kornizë të re gjeneruese vizuale që përdor një qasje autoregresive në shumë shkallë me parashikimin e shkallës tjetër, në kundërshtim me parashikimin tradicional të shenjës tjetër, duke rezultuar në hartimin e algoritmit autoregresiv për detyrat e vizionit kompjuterik. 
  2. Ai përpiqet të vërtetojë ligjet e shkallëzimit për modelet autoregresive së bashku me potencialin e gjeneralizimit me zero që imiton vetitë tërheqëse të LLM-ve. 
  3. Ai ofron një përparim në performancën e modeleve autoregresive vizuale, duke mundësuar që kornizat autoregresive të stilit GPT të tejkalojnë ekzistuesit modelet e difuzionit në detyrat e sintezës së imazhit për herë të parë ndonjëherë. 

Për më tepër, është gjithashtu thelbësore të diskutohen ligjet ekzistuese të shkallëzimit të ligjit të fuqisë që përshkruajnë matematikisht marrëdhënien midis madhësive të të dhënave, parametrave të modelit, përmirësimeve të performancës dhe burimeve llogaritëse të modeleve të mësimit të makinerive. Së pari, këto ligje të shkallëzimit të ligjit të fuqisë lehtësojnë aplikimin e performancës së një modeli më të madh duke rritur madhësinë e modelit, koston llogaritëse dhe madhësinë e të dhënave, duke kursyer kostot e panevojshme dhe duke shpërndarë buxhetin e trajnimit duke ofruar parime. Së dyti, ligjet e shkallëzimit kanë demonstruar një rritje të qëndrueshme dhe jo të ngopjes në performancë. Duke ecur përpara me parimet e ligjeve të shkallëzimit në modelet e gjuhës nervore, disa LLM mishërojnë parimin që rritja e shkallës së modeleve tenton të japë rezultate të përmirësuara të performancës. Përgjithësimi me pikë zero nga ana tjetër i referohet aftësisë së një modeli, veçanërisht një LLM që kryen detyra për të cilat nuk është trajnuar në mënyrë eksplicite. Brenda fushës së vizionit kompjuterik, interesi për të ndërtuar aftësitë e të mësuarit në zero-shot dhe në kontekst të modeleve të themelit. 

Modelet e gjuhëve mbështeten në algoritmet WordPiece ose në qasjen e kodimit të çiftit byte për shënjimin e tekstit. Modelet e gjenerimit vizual të bazuar në modelet gjuhësore gjithashtu mbështeten shumë në kodimin e imazheve 2D në sekuencat e shenjave 1D. Punimet e hershme si VQVAE demonstruan aftësinë për të përfaqësuar imazhet si shenja diskrete me cilësi të moderuar rindërtimi. Pasardhësi i VQVAE, korniza VQGAN inkorporoi humbje perceptuese dhe kundërshtare për të përmirësuar besnikërinë e imazhit, dhe gjithashtu përdori një transformator vetëm me dekoder për të gjeneruar shenja imazhi në një mënyrë standarde autoregresive të skanimit të rasterit. Modelet e difuzionit nga ana tjetër janë konsideruar prej kohësh si kryesuesit për detyrat e sintezës vizuale me kusht diversitetin e tyre dhe cilësinë superiore të gjenerimit. Përparimi i modeleve të difuzionit është përqendruar rreth përmirësimit të teknikave të marrjes së mostrave, përmirësimeve arkitekturore dhe kampionimit më të shpejtë. Modelet e difuzionit latent aplikojnë difuzionin në hapësirën latente që përmirëson efikasitetin e trajnimit dhe përfundimin. Modelet e Transformerit të Difuzionit zëvendësojnë arkitekturën tradicionale U-Net me një arkitekturë të bazuar në transformator, dhe ajo është vendosur në modelet e fundit të sintezës së imazheve ose videove si SORA, dhe Difuzion i qëndrueshëm

Visual AutoRegressive: Metodologjia dhe Arkitektura

Në thelbin e tij, korniza VAR ka dy faza të veçanta të trajnimit. Në fazën e parë, një autoenkoder i kuantizuar në shumë shkallë ose VQVAE kodon një imazh në hartat e shenjave dhe humbja e rindërtimit të kompleksit zbatohet për qëllime trajnimi. Në figurën e mësipërme, embedding është një fjalë e përdorur për të përcaktuar konvertimin e shenjave diskrete në vektorë të integruar të vazhdueshëm. Në fazën e dytë, transformatori në modelin VAR trajnohet ose duke minimizuar humbjen e entropisë së kryqëzuar ose duke maksimizuar gjasat duke përdorur metodën e parashikimit të shkallës tjetër. VQVAE e trajnuar më pas prodhon të vërtetën bazë të hartës së shenjës për kornizën VAR. 

Modelimi Autoregresiv nëpërmjet Parashikimit Next-Token

Për një sekuencë të caktuar të shenjave diskrete, ku çdo shenjë është një numër i plotë nga një fjalor me madhësi V, modeli autoregresiv i shenjës tjetër parashtron se probabiliteti i vëzhgimit të tokenit aktual varet vetëm nga parashtesa e tij. Supozimi i varësisë së shenjës së njëanshme lejon kornizën VAR të zbërthejë shanset e sekuencës në produktin e probabiliteteve të kushtëzuara. Trajnimi i një modeli autoregresiv përfshin optimizimin e modelit në një grup të dhënash, dhe ky proces optimizimi njihet si parashikimi i shenjës tjetër, dhe lejon modelin e trajnuar të gjenerojë sekuenca të reja. Për më tepër, imazhet janë sinjale të vazhdueshme 2D sipas trashëgimisë, dhe për të aplikuar qasjen e modelimit autoregresiv ndaj imazheve nëpërmjet procesit të optimizimit të parashikimit të shenjës tjetër ka disa parakushte. Së pari, imazhi duhet të shënohet në disa shenja diskrete. Zakonisht, një kodues automatik i kuantizuar zbatohet për të kthyer hartën e veçorive të imazhit në shenja diskrete. Së dyti, një renditje 1D e shenjave duhet të përcaktohet për modelimin me një drejtim. 

Shenjat e imazhit në shenjat diskrete janë rregulluar në një rrjet 2D dhe ndryshe nga fjalitë e gjuhës natyrore që në thelb kanë një renditje nga e majta në të djathtë, rendi i shenjave të imazhit duhet të përcaktohet në mënyrë eksplicite për mësimin autoregresiv me një drejtim. Qasjet e mëparshme autoregresive e rrafshuan rrjetin 2D të shenjave diskrete në një sekuencë 1D duke përdorur metoda si skanimi raster me rreshta madhor, kurba z ose renditja spirale. Pasi shenjat diskrete u rrafshuan, modelet AR nxorrën një grup sekuencash nga grupi i të dhënave dhe më pas trajnuan një model autoregresiv për të maksimizuar gjasat në produktin e probabiliteteve të kushtëzuara T duke përdorur parashikimin e shenjës tjetër. 

Modelimi Vizual-AutoRegresiv nëpërmjet parashikimit në shkallën tjetër

Korniza VAR rikoncepton modelimin autoregresiv në imazhe duke kaluar nga parashikimi i shenjës tjetër në qasjen e parashikimit të shkallës tjetër, një proces sipas të cilit në vend që të jetë një shenjë e vetme, njësia autoregresive është një hartë e tërë token. Modeli së pari e quantizon hartën e veçorive në harta shenjash me shumë shkallë, secila me një rezolucion më të lartë se e mëparshmja, dhe arrin kulmin duke përputhur rezolucionin e hartave origjinale të veçorive. Për më tepër, korniza VAR zhvillon një kodues të ri kuantizimi me shumë shkallë për të koduar një imazh në hartat diskrete me shumë shkallë, të nevojshme për mësimin e VAR. Korniza VAR përdor të njëjtën arkitekturë si VQGAN, por me një shtresë kuantizimi të modifikuar në shumë shkallë, me algoritmet e demonstruara në imazhin e mëposhtëm. 

Visual AutoRegressive: Rezultatet dhe Eksperimentet

Korniza VAR përdor arkitekturën VQVAE të vaniljes me një skemë kuantizimi me shumë shkallë me konvolucion shtesë K, dhe përdor një libër kodesh të përbashkët për të gjitha shkallët dhe një zbehje latente prej 32. Fokusi kryesor qëndron në algoritmin VAR për shkak të të cilit dizajni i arkitekturës së modelit mbahet i thjeshtë por efektiv. Kuadri miraton arkitekturën e një transformatori standard vetëm me dekoder të ngjashëm me ato të zbatuara në modelet GPT-2, me modifikimin e vetëm që është zëvendësimi i normalizimit të shtresave tradicionale për normalizimin adaptiv ose AdaLN. Për sintezën e kushtëzuar të klasës, korniza VAR zbaton futjet e klasës si shenjë fillestare, dhe gjithashtu gjendjen e shtresës së normalizimit adaptiv. 

Rezultatet më të fundit të gjenerimit të imazheve

Kur çiftohet kundrejt kornizave ekzistuese gjeneruese duke përfshirë GANs ose Rrjetet Gjenerative Adversariale, modelet e parashikimit të maskuar të stilit BERT, modelet e difuzionit dhe modelet autoregresive të stilit GPT, kuadri Visual AutoRegressive tregon rezultate premtuese të përmbledhura në tabelën e mëposhtme. 

Siç mund të vërehet, korniza Visual AutoRegressive nuk është vetëm në gjendje të arrijë rezultatet më të mira të FID dhe IS, por gjithashtu demonstron shpejtësi të jashtëzakonshme të gjenerimit të imazheve, të krahasueshme me modelet më të fundit të artit. Për më tepër, korniza VAR gjithashtu ruan rezultate të kënaqshme saktësie dhe kujtese, gjë që konfirmon qëndrueshmërinë e saj semantike. Por befasia e vërtetë është performanca e jashtëzakonshme e ofruar nga korniza VAR në detyrat tradicionale të aftësive AR, duke e bërë atë modelin e parë autoregresiv që ia kalonte një modeli të transformatorit të difuzionit, siç tregohet në tabelën e mëposhtme. 

Rezultati i Përgjithësimit të Detyrës Zero-Shot

Për detyrat brenda dhe jashtë pikturës, mësuesi i kornizës VAR detyron shenjat e së vërtetës tokësore jashtë maskës dhe e lejon modelin të gjenerojë vetëm shenjat brenda maskës, pa asnjë informacion mbi etiketën e klasës që injektohet në model. Rezultatet janë demonstruar në imazhin e mëposhtëm dhe siç mund të shihet, modeli VAR arrin rezultate të pranueshme në detyrat e rrjedhës së poshtme pa akorduar parametrat ose modifikuar arkitekturën e rrjetit, duke demonstruar përgjithësimin e kornizës VAR. 

Mendime përfundimtare

Në këtë artikull, ne kemi folur për një kornizë të re gjeneruese vizuale të quajtur Modelimi Visual AutoRegressive (VAR) që 1) trajton teorikisht disa çështje të qenësishme në modelet standarde autoregresive të imazhit (AR) dhe 2) bën që modelet AR të bazuara në modele gjuhësore të tejkalojnë fillimisht modele të forta difuzioni për sa i përket cilësisë së imazhit, diversitetit, efikasitetit të të dhënave dhe shpejtësisë së përfundimit. Nga njëra anë, modelet tradicionale autoregresive kërkojnë një renditje të përcaktuar të të dhënave, ndërsa nga ana tjetër, modeli Visual AutoRegressive ose VAR rishqyrton mënyrën e renditjes së një imazhi, dhe kjo është ajo që e dallon VAR-in nga metodat ekzistuese AR. Pas shkallëzimit të VAR-it në 2 miliardë parametra, zhvilluesit e kornizës VAR vëzhguan një marrëdhënie të qartë fuqie-ligj ndërmjet performancës së testit dhe parametrave të modelit ose llogaritjes së trajnimit, me koeficientët Pearson afër -0.998, duke treguar një kornizë të fortë për parashikimin e performancës. Këto ligje të shkallëzimit dhe mundësia për përgjithësimin e detyrave me goditje zero, si shenja dalluese të LLM-ve, tani janë verifikuar fillimisht në modelet tona të transformatorëve VAR. 

“Me profesion inxhinier, me zemër shkrimtar”. Kunal është një shkrimtar teknik me një dashuri dhe kuptim të thellë të AI dhe ML, i përkushtuar ndaj thjeshtimit të koncepteve komplekse në këto fusha përmes dokumentacionit të tij tërheqës dhe informues.