stuacach Samhaltú Uathchéimnitheach Amhairc: Giniúint Íomhá Inscálaithe trí Thuar don Chéad Scála Eile - Unite.AI
Ceangail le linn

Faisnéise Saorga

Samhaltú Uathchéimnitheach Amharc: Giniúint Íomhá Inscálaithe trí Thuar don Chéad Scála Eile

mm

foilsithe

 on

Samhaltú Uathchéimnitheach Amharc: Giniúint Íomhá Inscálaithe trí Thuar don Chéad Scála Eile

Tháinig ré nua i réimse na meaisínfhoghlama agus na hintleachta saorga le teacht na samhlacha GPT, mar aon le samhlacha uath-aischéimnitheacha eile nó le mórtheangacha AR. Is minic a léiríonn samhlacha GPT agus uathchéimnitheacha faisnéis ghinearálta agus ilghnéitheacht a mheastar a bheith ina gcéim shuntasach i dtreo na hintleachta saorga ginearálta nó AGI in ainneoin go bhfuil roinnt saincheisteanna acu ar nós siabhránachtaí. Mar sin féin, is straitéis foghlama féinmhaoirsithe í an fhadhb dhochrach leis na múnlaí móra seo a ligeann don mhúnla an chéad chomhartha eile i seicheamh a thuar, straitéis atá simplí ach éifeachtach. Thaispeáin saothair le déanaí an rath a bhí ar na samhlacha uath-aischéimnitheacha móra seo, rud a léiríonn a n-ghinearáltacht agus a hinscálaitheacht. Is sampla tipiciúil é scalability de na dlíthe scálaithe atá ann cheana féin a ligeann do thaighdeoirí feidhmíocht an mhúnla mór a thuar ó fheidhmíocht samhlacha níos lú, rud a fhágann go ndéantar acmhainní a leithdháileadh níos fearr. Ar an taobh eile de, is minic a léirítear ginearálú trí straitéisí foghlama cosúil le foghlaim náid, foghlaim aon-shot agus cúpla seat, a leagann béim ar chumas samhlacha neamh-mhaoirsithe ach oilte iad a chur in oiriúint do thascanna éagsúla nach bhfacthas riamh cheana. I dteannta a chéile, taispeánann inghinearálú agus inscálaithe an acmhainneacht atá ag samhlacha uath-aischéimnitheacha chun foghlaim ó mhórchuid sonraí neamhlipéadaithe. 

Ag tógáil ar an gcéanna, san Airteagal seo, beimid ag caint faoi Visual AutoRegressive nó an creat VAR, patrún giniúna nua a athsainmhíníonn foghlaim uathchéimnitheach ar íomhánna mar “thuar an chéad rúin eile” nó “tuartha ar an gcéad scála eile” idir garbh agus fíneáil. . Cé go bhfuil sé simplí, tá an cur chuige éifeachtach agus ligeann sé do chlaochladáin uathchéimnitheacha dáileadh amhairc a fhoghlaim níos fearr, agus ginearálú feabhsaithe. Ina theannta sin, cuireann na samhlacha Visual AutoRegressive ar chumas samhlacha uath-aischéimnitheacha ar stíl GPT dul thar aistrithe idirleata i nginiúint íomhá den chéad uair. Léiríonn turgnaimh freisin go bhfeabhsaítear na bunlínte uath-aischéimnitheacha go suntasach le creat VAR, agus go sáraíonn sé an creat Trasfhoirmeoir Idirleata nó DiT i toisí éagsúla lena n-áirítear éifeachtúlacht sonraí, cáilíocht íomhá, inscálaitheacht, agus luas tátail. Ina theannta sin, léiríonn méadú ar na samhlacha Amharc-Athchéimnitheacha Amhairc dlíthe scálaithe dlí cumhachta cosúil leis na cinn a breathnaíodh le samhlacha móra teanga, agus taispeánann sé cumas ginearálú nialasach i dtascanna iartheachtacha lena n-áirítear eagarthóireacht, inphéinteáil agus péintéireacht. 

Tá sé mar aidhm ag an alt seo an creat Uath-aischéimnitheach Amharc a chlúdach go domhain, agus déanaimid iniúchadh ar an meicníocht, ar an modheolaíocht, ar ailtireacht an chreata mar aon lena chomparáid leis na creataí úrscothacha. Labhróimid freisin faoi conas a léiríonn an creat AutoRegressive Amhairc dhá airí thábhachtacha de LLManna: Dlíthe Scálú agus ginearálú náid. Mar sin a ligean ar tús a chur leis.

Samhaltú Uath-aischéimnitheach Amhairc: Giniúint Íomhá a Scálú

Patrún comónta i measc na múnlaí móra teanga le déanaí is ea cur i bhfeidhm straitéis foghlama féinmhaoirsithe, cur chuige simplí ach éifeachtach a thuarann ​​an chéad comhartha eile sa seicheamh. A bhuí leis an gcur chuige, léirigh samhlacha uath-aischéimnitheacha agus móra teanga inniu inscálaitheacht iontach chomh maith le ginearálú, airíonna a léiríonn an acmhainneacht atá ag samhlacha uath-aischéimnitheacha chun foghlaim ó chomhthiomsú mór sonraí neamhlipéadaithe, rud a thugann achoimre ar bhunbhrí na hIntleachta Saorga Ginearálta. Ina theannta sin, tá taighdeoirí i réimse radhairc an ríomhaire ag obair go comhthreomhar chun samhlacha uath-aischéimnitheacha móra nó domhanda a fhorbairt leis an aidhm a n-inscálaitheacht agus ginearálú mórthaibhseach a mheaitseáil nó a shárú, le samhlacha cosúil le DALL-E agus VQGAN ag léiriú acmhainneacht na samhlacha uath-aischéimnitheacha sa réimse cheana féin. de ghiniúint íomhá. Is minic a chuireann na samhlacha seo i bhfeidhm comharthaíocht amhairc a léiríonn nó a chomhfhogasú íomhánna leanúnacha isteach i ngreille de chomharthaí 2T, a leathnaítear ansin i seicheamh 1T d'fhoghlaim uathchéimnitheach, rud a léiríonn an próiseas samhaltaithe teanga seicheamhach. 

Mar sin féin, níl taighdeoirí fós le dlíthe scálaithe na múnlaí seo a fhiosrú, agus is mó an t-ábhar frustrachais ná go dtiteann feidhmíocht na múnlaí seo go minic taobh thiar de shamhlacha idirleata de bheagán suntasach, mar a léirítear san íomhá seo a leanas. Léiríonn an bhearna san fheidhmíocht, nuair a chuirtear i gcomparáid le múnlaí móra teanga, nach ndéantar dóthain taighde ar chumais mhúnlaí uathchéimnitheacha i bhfís ríomhaire. 

Ar thaobh amháin, éilíonn samhlacha uath-aischéimnitheacha traidisiúnta ord sainithe sonraí, ach ar an taobh eile, déanann an tsamhail AutoRegressive nó VAR athmhachnamh ar conas íomhá a ordú, agus is é seo a dhéanann idirdhealú idir an VAR agus modhanna AR atá ann cheana féin. Go hiondúil, cruthaíonn nó feiceann daoine íomhá ar bhealach ordlathach, ag gabháil leis an struchtúr domhanda agus na sonraí áitiúla ina dhiaidh sin, cur chuige ilscála, garbh go mín a mholann ord don íomhá go nádúrtha. Ina theannta sin, ag tarraingt inspioráid ó dhearaí ilscála, sainmhíníonn an creat VAR foghlaim uathchéimnitheach d’íomhánna mar thuar ar an gcéad scála eile seachas cur chuige traidisiúnta a shainíonn an fhoghlaim mar an chéad tuar comhartha eile. Éiríonn leis an gcur chuige atá curtha i bhfeidhm ag an gcreat VAR trí íomhá a ionchódú i léarscáileanna ilscála comharthaí. Ansin cuireann an creat tús leis an bpróiseas uath-aischéimnitheach ón léarscáil chomhartha 1×1, agus leathnaítear an réiteach de réir a chéile. Ag gach céim, déanann an claochladán réamh-mheas ar an gcéad léarscáil comharthaíochta réitigh níos airde eile arna choinníoll ar na cinn go léir roimhe seo, modheolaíocht a dtagraíonn an creat VAR di mar shamhaltú VAR. 

Déanann an creat VAR iarracht ailtireacht chlaochladáin GPT-2 a ghiaráil le haghaidh foghlama uath-aischéimnitheach amhairc, agus tá na torthaí le feiceáil ar thagarmharc ImageNet nuair a fheabhsaíonn an tsamhail VAR a bhonnlíne AR go suntasach, ag baint amach FID de 1.80, agus scór tosaigh de 356 ar feadh. le feabhas 20x ar an luas tátail. Rud atá níos suimiúla ná go n-éiríonn leis an gcreat VAR feidhmíocht an chreata DiT nó Trasfhoirmeoir Idirleata a shárú i dtéarmaí scóir FID & IS, inscálaitheacht, luas tátail, agus éifeachtúlacht sonraí. Ina theannta sin, taispeánann an tsamhail Visual AutoRegressive dlíthe scálaithe láidre cosúil leis na cinn a fheictear i múnlaí móra teanga. 

Mar achoimre, déanann an creat VAR iarracht na ranníocaíochtaí seo a leanas a dhéanamh. 

  1. Molann sé creat giniúna amhairc nua a úsáideann cur chuige uathchéimnitheach ilscála le tuar ar an gcéad scála eile, contrártha leis an tuar traidisiúnta ar an gcéad chomhartha eile, agus mar thoradh air sin dearadh an t-algartam uathchéimnitheach do thascanna fís ríomhaire. 
  2. Déanann sé iarracht dlíthe scálaithe a bhailíochtú do mhúnlaí uath-aischéimnitheacha mar aon le hacmhainn ginearálú nialasach a dhéanann aithris ar airíonna tarraingteacha LLManna. 
  3. Cuireann sé cinn chun cinn i bhfeidhmiú samhlacha uathchéimnitheacha amhairc, rud a chuireann ar chumas na gcreataí uath-aischéimnitheacha ar nós GPT dul thar samhlacha idirleathadh i dtascanna sintéise íomhá don chéad uair riamh. 

Ina theannta sin, tá sé ríthábhachtach freisin na dlíthe scálaithe dlí cumhachta atá ann cheana a phlé a chuireann síos go matamaiticiúil ar an ngaol idir méideanna tacar sonraí, paraiméadair samhlacha, feabhsuithe feidhmíochta, agus acmhainní ríomhaireachtúla na samhlacha meaisínfhoghlama. Gcéad dul síos, éascaíonn na dlíthe scálaithe dlí cumhachta seo feidhmiú múnla níos mó a chur i bhfeidhm trí mhéid an mhúnla, an costas ríomhaireachtúil, agus méid na sonraí a mhéadú, rud a shábhálann costais neamhriachtanach agus an buiséad oiliúna a leithdháileadh trí phrionsabail a sholáthar. Ar an dara dul síos, tá méadú comhsheasmhach agus neamhsháithitheach ar fheidhmíocht léirithe ag dlíthe scálaithe. Ag bogadh ar aghaidh le prionsabail na ndlíthe scálaithe i múnlaí néartheanga, cuimsíonn go leor LLM an prionsabal go n-eascródh torthaí feidhmíochta feabhsaithe trí scála na múnlaí a mhéadú. Ar an taobh eile den scéal tagraíonn ginearálú nialais do chumas samhla, go háirithe LLM a dhéanann tascanna nach bhfuil oiliúint sainráite air. Laistigh den fhearann ​​fís ríomhaire, an spéis a bhaineann le tógáil i gcumais foghlama nialasacha, agus in-chomhthéacs na mbunmhúnlaí. 

Braitheann samhlacha teanga ar halgartaim WordPiece nó ar chur chuige Ionchódú Péire Beart le haghaidh comharthaíocht téacs. Bíonn samhlacha giniúna amhairc bunaithe ar mhúnlaí teanga ag brath go mór freisin ar íomhánna 2T a ionchódú i seichimh chomharthaí 1T. Léirigh saothair luatha ar nós VQVAE an cumas íomhánna a léiriú mar chomharthaí scoite le caighdeán measartha atógála. Mar chomharba ar VQVAE, chuimsigh creat VQGAN caillteanais aireachtála agus sáraíochta chun dílseacht íomhá a fheabhsú, agus fostaíodh claochladán díchódóra amháin chun comharthaí íomhá a ghiniúint ar mhodh caighdeánach uathchéimnitheach raster-scanadh. Ar an láimh eile, measadh le fada gurb iad samhlacha idirleata na cinn tosaigh do thascanna sintéise amhairc ar choinníoll go bhfuil éagsúlacht agus cáilíocht giniúna níos fearr acu. Tá cur chun cinn na samhlacha idirleata dírithe ar theicnící samplála a fheabhsú, feabhsuithe ailtireachta, agus sampláil níos tapúla. Cuireann samhlacha idirleata folaigh idirleathadh i bhfeidhm sa spás folaigh a fheabhsaíonn an éifeachtúlacht oiliúna agus an tátal. Cuirtear ailtireacht atá bunaithe ar chlaochladán in ionad na samhlacha Trasfhoirmeora Idirleata na hailtireachta traidisiúnta U-Net, agus tá sé imlonnaithe i múnlaí sintéise íomhá nó físe le déanaí mar SORA, agus Idirleathadh Cobhsaí

AutoRegressive Amharc: Modheolaíocht agus Ailtireacht

Ag a chroílár, tá dhá chéim oiliúna scoite ag an gcreat VAR. Sa chéad chéim, ionchódaíonn uathchódóir cainníochtaithe ilscála nó VQVAE íomhá isteach i léarscáileanna comharthaí, agus cuirtear caillteanas atógáil cumaisc i bhfeidhm chun críocha oiliúna. San fhigiúr thuas, is focal é leabú a úsáidtear chun comharthaí scoite a thiontú ina veicteoirí leabaithe leanúnacha. Sa dara céim, déantar an claochladán sa tsamhail VAR a oiliúint tríd an gcaillteanas tras-eantrópachta a íoslaghdú nó tríd an dóchúlacht a uasmhéadú trí úsáid a bhaint as an gcur chuige réamh-mheastacháin den chéad scála eile. Táirgeann an VQVAE oilte ansin an fhírinne chomharthaíochta don chreat VAR. 

Samhaltú Uathchéimnitheach trí Thuar Next-Token

Maidir le seicheamh áirithe de chomharthaí scoite, nuair is slánuimhir é gach comhartha ó stór focal méid V, cuireann an tsamhail uathchúlchéimneach eile chun cinn go mbraitheann an dóchúlacht go bhféachfar ar an comhartha reatha ar a réimír amháin. Má ghlactar leis go bhfuil spleáchas aontreoch ar chomharthaí ceadaítear don chreat VAR an seans go ndéanfar seicheamh a dhianscaoileadh i dtáirge na dóchúlachta coinníollach. Is éard atá i gceist le hoiliúint a chur ar shamhail uath-aischéimnitheach ná an tsamhail a bharrfheabhsú trasna tacar sonraí, agus tugtar an próiseas leas iomlán a bhaint as seo tuar céadchomhartha eile, agus ligeann sé don mhúnla oilte seichimh nua a ghiniúint. Ina theannta sin, is comharthaí leanúnacha 2T de réir oidhreachta iad íomhánna, agus tá roinnt réamhriachtanas ag baint le cur chuige samhaltaithe uath-aischéimnithí a chur i bhfeidhm ar íomhánna tríd an bpróiseas barrfheabhsaithe tuar eile. Ar dtús, ní mór an íomhá a chur in ionad roinnt comharthaí scoite. De ghnáth, cuirtear uathchódóir cainníochtaithe i bhfeidhm chun an léarscáil gné íomhá a thiontú go comharthaí scoite. Ar an dara dul síos, ní mór ord comharthaí 1D a shainiú le haghaidh samhaltú aontreoch. 

Eagraítear na comharthaí íomhá i gcomharthaí scoite i ngreille 2T, agus murab ionann agus abairtí teanga nádúrtha a bhfuil ordú ó chlé go deas acu go bunúsach, ní mór ord na ndearcadh íomhá a shainiú go sainráite d'fhoghlaim uathchéimnitheach aontreoch. Le cur chuige uath-aischéimnitheach a bhí ann roimhe seo, leathnaíodh an eangach 2D de chomharthaí scoite isteach i seicheamh 1T ag baint úsáide as modhanna cosúil le scanadh raster mór rónna, z-cuar, nó ord bíseach. Chomh luath agus a bhí na comharthaí scoite cothromaithe, bhain na samhlacha AR sraith seicheamh as an tacar sonraí, agus ansin chuir siad oiliúint ar shamhail uath-aischéimnitheach chun an dóchúlacht go dtarlódh dóchúlachtaí coinníollach T a uasmhéadú trí úsáid a bhaint as an gcéad tuar eile. 

Samhaltú Amharc-Athchéimnitheach trí Thuar don Chéad Scála Eile

Déanann an creat VAR athchoincheapú ar an samhaltú uath-aischéimnitheach ar íomhánna trí aistriú ó thuar an chéad chomhartha eile go dtí cur chuige tuartha ar an gcéad scála eile, próiseas faoinar a bhfuil an t-aonad uath-aischéimnitheach ina léarscáil chomharthaí iomlán in ionad é a bheith ina chomhartha aonair. Déanann an tsamhail an léarscáil gné a chainníochtú ar dtús ina léarscáileanna comharthaí ilscála, gach ceann acu le taifeach níos airde ná mar a bhí roimhe, agus críochnaíonn sé trí thaifeach na ngné-léarscáileanna bunaidh a mheaitseáil. Ina theannta sin, forbraíonn an creat VAR ionchódóir cainníochtaithe ilscála nua chun íomhá a ionchódú chuig léarscáileanna comharthaí scoite ilscála, atá riachtanach don fhoghlaim VAR. Úsáideann an creat VAR an ailtireacht chéanna le VQGAN, ach le ciseal cainníochtaithe ilscála modhnaithe, agus na halgartaim léirithe san íomhá seo a leanas. 

Visual AutoRegressive : Torthaí agus Turgnaimh

Úsáideann an creat VAR an ailtireacht fanaile VQVAE le scéim chainníochtaithe ilscála le K breise convolution, agus úsáideann códleabhar roinnte do gach scála agus dim folaigh de 32. Tá an príomhfhócas ar an algartam VAR mar gheall ar an dearadh ailtireachta samhail. coinnithe simplí fós éifeachtach. Glacann an creat le hailtireacht claochladán caighdeánach díchódóra amháin atá cosúil leis na cinn a chuirtear i bhfeidhm ar mhúnlaí GPT-2, agus is é an t-aon mhodhnú atá ann ná normalú ciseal traidisiúnta a chur in ionad normalú oiriúnaitheach nó AdaLN. Le haghaidh sintéise coinníollach ranga, cuireann an creat VAR na leabaithe ranga i bhfeidhm mar an comhartha tosaigh, agus freisin coinníoll na ciseal normalaithe oiriúnaitheach. 

Torthaí Giniúint Íomhá den Scoth

Nuair a péireáiltear iad i gcoinne creataí giniúna atá ann cheana féin lena n-áirítear GAN nó Líonraí Sáraíochta Ginideacha, samhlacha tuartha chumhdaigh i stíl BERT, samhlacha idirleata, agus samhlacha uath-aischéimnitheacha i stíl GPT, taispeánann an creat AutoRegressive Visual torthaí gealltanais a bhfuil achoimre orthu sa tábla seo a leanas. 

Mar is féidir a thabhairt faoi deara, ní hamháin go bhfuil an creat AutoRegressive Amharc in ann na scóir FID agus IS is fearr, ach léiríonn sé freisin luas giniúna íomhá iontach, atá inchomparáide leis na samhlacha úrscothacha. Ina theannta sin, coinníonn an creat VAR scóir shásúla beachtas agus aisghairme, rud a dhearbhaíonn a chomhsheasmhacht shéimeantach. Ach is é an t-iontas fíor an fheidhmíocht iontach a sholáthraíonn an creat VAR ar thascanna cumais AR traidisiúnta, rud a fhágann gurb é an chéad mhúnla uath-aischéimnitheach a d'fheidhmigh níos fearr ná samhail Trasfhoirmeora Idirleata, mar a léirítear sa tábla seo a leanas. 

Toradh Ginearálú Tasc Zero-Shot

Le haghaidh tascanna péintéireachta isteach agus amach, cuireann an múinteoir creat VAR na comharthaí fírinne talún i bhfeidhm lasmuigh den masc, agus ní ligeann sé don mhúnla ach na comharthaí laistigh den masc a ghiniúint, gan aon fhaisnéis lipéad ranga a instealladh isteach sa mhúnla. Léirítear na torthaí san íomhá seo a leanas, agus mar is léir, baineann an tsamhail VAR torthaí inghlactha amach ar thascanna iartheachtacha gan paraiméadair a choigeartú nó ailtireacht an líonra a mhodhnú, rud a léiríonn ginearáltacht an chreata VAR. 

Smaointe Deiridh

San Airteagal seo, labhair muid faoi chreat giniúna amhairc nua darb ainm samhaltú Visual AutoRegressive (VAR) a thugann aghaidh go teoiriciúil ar roinnt saincheisteanna a bhaineann le samhlacha caighdeánacha autoregressive íomhá (AR), agus 1) a sháraíonn samhlacha AR teanga-bhunaithe den chéad uair. samhlacha láidre idirleata i dtéarmaí cáilíochta íomhá, éagsúlacht, éifeachtúlacht sonraí, agus luas tátail. Ar thaobh amháin, éilíonn samhlacha uath-aischéimnitheacha traidisiúnta ord sainithe sonraí, ach ar an taobh eile, déanann an tsamhail AutoRegressive nó VAR athmhachnamh ar conas íomhá a ordú, agus is é seo a dhéanann idirdhealú idir an VAR agus modhanna AR atá ann cheana féin. Tar éis VAR a scálú go 2 billiún paraiméadair, thug forbróirí an chreata VAR faoi deara gaolmhaireacht dlí cumhachta soiléir idir feidhmíocht tástála agus paraiméadair mhúnla nó ríomh oiliúna, agus comhéifeachtaí Pearson gar do −2, rud a léiríonn creat láidir chun feidhmíocht a thuar. Tá na dlíthe scálaithe seo agus an fhéidearthacht maidir le ginearálú tascanna nialasacha, mar shainmharcanna LLManna, fíoraithe ar dtús inár múnlaí claochladán VAR. 

"Innealtóir de réir gairme, scríbhneoir ó chroí". Is scríbhneoir teicniúil é Kunal a bhfuil grá agus tuiscint dhomhain aige ar AI agus ar ML, atá tiomanta do choincheapa casta sna réimsí seo a shimpliú trína dhoiciméadú mealltach agus faisnéiseach.