stuacach Zero123++: Íomhá Aonair go Múnla Bunsamhail Idirleata Il-amhairc Chomhsheasmhach - Unite.AI
Ceangail le linn

Faisnéise Saorga

Zero123++: Íomhá Aonair go Múnla Bunsamhail Idirleata Il-amhairc Chomhsheasmhach

mm

foilsithe

 on

Le blianta beaga anuas tá dul chun cinn tapa tagtha ar fheidhmíocht, ar éifeachtúlacht agus ar chumais ghiniúna na n-úrscéalta atá ag teacht chun cinn Samhlacha giniúna AI a ghiaráil tacair shonraí fairsinge, agus cleachtais giniúna idirleata 2T. Sa lá atá inniu ann, tá samhlacha giniúna AI thar a bheith in ann foirmeacha éagsúla 2D a ghiniúint, agus go pointe áirithe, ábhar meán 3D lena n-áirítear téacs, íomhánna, físeáin, GIFanna, agus níos mó. 

San Airteagal seo, beimid ag caint faoi chreat Zero123 ++, samhail AI ginte idirleata íomhá-choinníollach leis an aidhm íomhánna il-amharc comhsheasmhach 3D a ghiniúint ag baint úsáide as ionchur aon-amhairc. Chun an leas is fearr a bhaint as samhlacha giniúna réamhoilte, cuireann an creat Zero123++ go leor scéimeanna oiliúna agus riochtaithe i bhfeidhm chun an méid iarracht a thógann sé mionchoigeartú a dhéanamh ar shamhlacha íomhánna idirleata as an tseilf a íoslaghdú. Beimid ag déanamh tumadh níos doimhne ar ailtireacht, oibriú, agus torthaí an chreata Zero123++, agus déanfaimid anailís ar a chumais chun íomhánna comhsheasmhacha ilamhairc ardchaighdeáin a ghiniúint ó aon íomhá amháin. Mar sin a ligean ar tús a chur leis. 

Zero123 agus Zero123++: Réamhrá

Is samhail AI giniúna idirleata íomhá-choinníollach é an creat Zero123++ a bhfuil sé mar aidhm aige íomhánna ilamhairc 3D-chomhsheasmhacha a ghiniúint ag baint úsáide as ionchur aon-amhairc. Is é atá sa chreat Zero123++ ná leanúint den chreat Zero123 nó Zero-1-to-3 a ghiarálann teicníc sintéise íomhá núíosaigh lámhaigh náid chun tiontuithe foinse oscailte aon-íomhá-go-3D a cheannródú. Cé go seachadann creat Zero123++ feidhmíocht tuar dóchais inti, tá neamhréireachtaí geoiméadracha infheicthe ag na híomhánna a ghineann an creat, agus is é an phríomhchúis go bhfuil an bhearna idir radhairc 3D, agus íomhánna ilamhairc fós ann. 

Feidhmíonn an creat Zero-1-to-3 mar bhunús do roinnt creataí eile lena n-áirítear SyncDreamer, One-2-3-45, Consistent123, agus níos mó a chuireann sraitheanna breise le creat Zero123 chun torthaí níos comhsheasmhaí a fháil agus íomhánna 3D á nginiúint. Leanann creataí eile cosúil le ProlificDreamer, DreamFusion, DreamGaussian, agus níos mó cur chuige bunaithe ar bharrfheabhsú chun íomhánna 3D a fháil trí íomhá 3D a dhriogadh ó mhúnlaí éagsúla neamhréireacha. Cé go bhfuil na teicníochtaí seo éifeachtach, agus gineann siad íomhánna 3D sásúla, d'fhéadfaí na torthaí a fheabhsú le cur i bhfeidhm samhail idirleata bonn atá in ann íomhánna il-amharc a ghiniúint go comhsheasmhach. Dá réir sin, tógann creat Zero123++ an Zero-1 go-3, agus déanann miontiúin múnla nua idirleata bonn il-amhairc ó Idirleathadh Cobhsaí. 

Sa chreat nialas-1 go 3, gintear gach radharc úrnua go neamhspleách, agus mar thoradh ar an gcur chuige seo tá neamhréireachtaí idir na tuairimí a ghintear toisc go bhfuil nádúr samplála ag samhlacha idirleata. Chun dul i ngleic leis an tsaincheist seo, glacann creat Zero123++ cur chuige leagan amach tílithe, agus an réad timpeallaithe ag sé radharc in aon íomhá amháin, agus cinntíonn sé an samhaltú ceart chun íomhánna ilamhairc réad a chomhdháileadh. 

Dúshlán mór eile atá roimh fhorbróirí atá ag obair ar an gcreat Zero-1-go-3 is ea nach mbaineann sé mórán úsáide as na cumais a thairgeann sé. Idirleathadh Cobhsaí as a dtagann neamhéifeachtúlacht ar deireadh, agus costais bhreise. Tá dhá mhórchúis ann nach féidir leis an gcreat Zero-1-go-3 na cumais a chuireann Idirleathadh Cobhsaí a uasmhéadú

  1. Nuair a bhíonn oiliúint le coinníollacha íomhá, ní ionchorpraíonn an creat Zero-1-go-3 meicníochtaí riochtaithe áitiúla nó domhanda a thairgeann Idirleathadh Cobhsaí go héifeachtach. 
  2. Le linn na hoiliúna, úsáideann an creat Zero-1-go-3 réiteach laghdaithe, cur chuige ina laghdaítear an taifeach aschuir faoi bhun an réitigh oiliúna ar féidir leis caighdeán giniúna íomhá do mhúnlaí Idirleata Cobhsaí a laghdú. 

Chun dul i ngleic leis na saincheisteanna seo, cuireann an creat Zero123++ raon de theicnící aeroiriúnaithe i bhfeidhm a uasmhéadaíonn úsáid na n-acmhainní a chuireann Idirleathadh Cobhsaí ar fáil, agus a chothaíonn cáilíocht giniúna íomhá do mhúnlaí Idirleata Cobhsaí. 

Coinníollacha agus Comhsheasmhachtaí a Fheabhsú

Mar iarracht feabhas a chur ar riochtú íomhá, agus ar chomhsheasmhacht íomhá il-amhairc, chuir creat Zero123++ teicnící éagsúla i bhfeidhm, agus é mar phríomhchuspóir úsáid a bhaint as teicnící a tháinig roimhe seo ón tsamhail Idirleata Cobhsaí réamhoilte. 

Giniúint Il-Amharc

Is é an cháilíocht fhíor-riachtanach a bhaineann le híomhánna comhsheasmhacha il-amhairc a ghiniúint ná comhdháileadh na n-íomhánna iolracha a shamhaltú i gceart. Sa chreat Zero-1-go-3, ní thugtar aird ar an gcomhghaol idir íomhánna ilamhairc mar, i gcás gach íomhá, múnlaíonn an creat dáileadh imeallach coinníollach go neamhspleách agus go leithleach. Mar sin féin, i gcreat Zero123++, roghnaigh forbróirí cur chuige leagan amach tíl a chuireann 6 íomhá isteach in aon fhráma/íomhá amháin le haghaidh giniúna comhsheasmhach ilamhairc, agus léirítear an próiseas san íomhá seo a leanas. 

Ina theannta sin, tá sé tugtha faoi deara go mbíonn claonadh ag treoshuímh oibiachta a dhíbhrí nuair a bhíonn an tsamhail á oiliúint ar chásanna ceamara, agus chun an dí-athbhrí seo a chosc, cuireann an creat Zero-1-go-3 oiliúint ar sheastáin ceamara le huillinneacha ingearchló agus azimuth coibhneasta leis an ionchur. Chun an cur chuige seo a chur i bhfeidhm, ní mór a bheith eolach ar uillinn ingearchló radharc an ionchuir a úsáidtear ansin chun an staidear coibhneasta idir radharcanna ionchuir núíosacha a chinneadh. In iarracht an uillinn ardaithe seo a fhios, is minic a chuireann creataí modúl meastacháin ardaithe, agus is minic a thagann an cur chuige seo ar chostas earráidí breise sa phíblíne. 

Sceideal Torainn

Sceideal scála-líneach, díríonn an sceideal torainn bunaidh le haghaidh Idirleathadh Cobhsaí go príomha ar shonraí áitiúla, ach mar atá le feiceáil san íomhá seo a leanas, níl mórán céimeanna aige le SNR níos ísle nó Comhartha le Cóimheas Torainn. 

Tarlaíonn na céimeanna seo de Chóimheas Comhartha le Torainn íseal go luath le linn na céime séanta, céim atá ríthábhachtach chun an struchtúr domhanda ísealmhinicíochta a chinneadh. Is minic go mbíonn éagsúlacht struchtúrach níos mó mar thoradh ar líon na gcéimeanna a laghdú le linn na céime denoisithe, le linn cur isteach nó oiliúna. Cé go bhfuil an socrú seo oiriúnach do ghiniúint aoníomhá, cuireann sé teorainn le cumas an chreata comhsheasmhacht domhanda idir tuairimí éagsúla a chinntiú. Chun an chonstaic seo a shárú, déanann creat Zero123++ miontiúin a dhéanamh ar shamhail LoRA ar chreat v-tuartha Cobhsaí Idirleata 2 chun tasc bréagán a dhéanamh, agus léirítear na torthaí thíos. 

Leis an sceideal scála-líneach torainn, ní dhéanann an tsamhail LoRA ró-fheistithe, ach ní ghlanann sé ach an íomhá beagán. Os a choinne sin, nuair atáthar ag obair leis an sceideal líneach torainn, gineann creat LóRA íomhá bán go rathúil beag beann ar an leid ionchuir, rud a léiríonn tionchar an sceidil torainn ar chumas an chreata oiriúnú do cheanglais nua ar fud an domhain. 

Tagairt Scála Aire do Dhálaí Áitiúla

Tá an t-ionchur radhairc aonair nó na híomhánna riochtaithe sa chreat Zero-1-go-3 comhtháite leis na hionchuir fhuaimiúla sa ghné gné atá le torann le haghaidh riochtú íomhá.

Is é an toradh a bhíonn ar an gcomhdhlúthú seo ná comhfhreagras spásúil mícheart idir an íomhá sprice agus an t-ionchur. Chun ionchur ceart riochtaithe áitiúil a sholáthar, baineann creat Zero123++ úsáid as Aird Tagartha scálaithe, cur chuige ina ndéantar tagairt do shamhail denoising UNet a rith ar íomhá tagartha bhreise, agus ina dhiaidh sin matrices luacha agus eochair féin-aire ón tagairt. íomhá chuig na sraitheanna aird faoi seach nuair a dhéantar ionchur an mhúnla a shéanadh, agus léirítear é san fhigiúr seo a leanas. 

Tá an cur chuige Aird Tagartha in ann an tsamhail idirleata a threorú chun íomhánna a chomhroinnt uigeachta atá cosúil leis an íomhá tagartha a ghiniúint, agus ábhar séimeantach gan aon mhionchoigeartú. Le mionchoigeartú, cuireann an cur chuige Tagartha Aird torthaí níos fearr ar fáil agus an scála folaigh á scála. 

Atmaisféar Domhanda : FlexDiffuse

Sa chur chuige bunaidh Idirleathadh Cobhsaí, is iad na leabaithe téacs an t-aon fhoinse le haghaidh leabaithe domhanda, agus úsáideann an cur chuige an creat CLIP mar ionchódóir téacs chun croscheisteanna a dhéanamh idir na leabaithe téacs, agus na folaigh mhúnla. Mar thoradh air sin, tá cead ag forbróirí an t-ailíniú idir na spásanna téacs, agus na híomhánna CLIP dá bharr a úsáid le haghaidh riochtú íomhá domhanda. 

Tá sé beartaithe i gcreat Zero123++ leas a bhaint as malairt inathraithe den mheicníocht treorach líneach chun riochtú íomhá dhomhanda a ionchorprú sa chreat le híosmhéid mionchoigeartú ag teastáil, agus tá na torthaí léirithe san íomhá seo a leanas. Mar is léir, gan riochtú íomhá domhanda a bheith ann, tá cáilíocht an ábhair a ghineann an creat sásúil do réigiúin infheicthe a fhreagraíonn don íomhá ionchuir. Mar sin féin, feiceann cáilíocht na híomhá a ghineann an creat do réigiúin nach bhfeictear meath suntasach, go príomha mar gheall ar neamhábaltacht an tsamhail tátal a bhaint as séimeantaic dhomhanda an ruda. 

Ailtireacht Mhúnla

Tá an creat Zero123++ traenáilte leis an tsamhail 2v idirleata cobhsaí mar bhunsraith ag baint úsáide as na cineálacha cur chuige agus na teicnící éagsúla a luaitear san alt. Tá an creat Zero123++ réamh-oilte ar an tacar sonraí Objaverse atá rindreáilte le soilsiú randamach HDRI. Glacann an creat freisin leis an gcur chuige céimnithe sceidil oiliúna a úsáidtear sa chreat Athruithe ar Íomhánna Idirleata Cobhsaí mar iarracht chun an méid mionchoigeartaithe a theastaíonn a laghdú tuilleadh, agus an oiread agus is féidir a chaomhnú san Idirleathadh Cobhsaí roimhe seo. 

Is féidir oibriú nó ailtireacht chreat Zero123++ a roinnt tuilleadh ina chéimeanna nó ina gcéimeanna seicheamhacha. Déanann an chéad chéim finnéithe ar an gcreat a mhionchoigeartú ar mhaitrísí KV na sraitheanna tras-aire, agus na sraitheanna féin-aird ar Idirleathadh Cobhsaí le AdamW mar a optamóir, 1000 céim téimh agus an sceideal ráta foghlama cosine ag uasmhéadú ag 7×10.-5. Sa dara céim, úsáideann an creat ráta leanúnach foghlama an-choimeádach le 2000 tacair téamh suas, agus úsáideann an cur chuige Min-SNR chun an éifeachtúlacht a uasmhéadú le linn na hoiliúna. 

Zero123++ : Torthaí agus Comparáid Feidhmíochta

Feidhmíocht Cháilíochtúil

Chun feidhmíocht chreat Zero123++ a mheasúnú ar bhonn a cháilíochta a ghintear, déantar é a chur i gcomparáid le SyncDreamer, agus Zero-1-to-3- XL, dhá cheann de na creataí úrscothacha is fearr chun ábhar a ghiniúint. Cuirtear na creataí i gcomparáid le ceithre íomhá ionchuir a bhfuil raon feidhme éagsúil acu. Is cat bréagán leictreach é an chéad íomhá, tógtha go díreach ó thacar sonraí Objaverse, agus tá neamhchinnteacht mhór ann ar chúl an ruda. Is é an dara ceann an íomhá de mhúchtóir dóiteáin, agus is é an tríú ceann íomhá madra ina suí ar roicéad, ginte ag an tsamhail SDXL. Is léiriú anime é an íomhá deiridh. Baintear amach na céimeanna ardaithe riachtanacha do na creataí trí úsáid a bhaint as modh meastacháin ardaithe an chreata One-2-3-4-5, agus baintear amach cúlra ag baint úsáide as an gcreat SAM. Mar is léir, gineann creat Zero123++ íomhánna ilamhairc ar ardchaighdeán go comhsheasmhach, agus tá sé in ann ginearálú go dtí léiriú 2D lasmuigh den fhearann, agus íomhánna a ghintear le AI chomh maith céanna. 

Anailís Chainníochtúil

Chun an creat Zero123++ a chur i gcomparáid go cainníochtúil le creataí nua-aimseartha Zero-1-go-3 agus Zero-1to-3 XL, déanann na forbróirí meastóireacht ar an scór Cosúlacht Paiste Íomhá Dearcadh Foghlama (LPIPS) de na samhlacha seo ar na sonraí scoilte bailíochtaithe, fo-thacar den tacar sonraí Objaverse. Chun feidhmíocht an mhúnla maidir le giniúint íomhá ilamhairc a mheas, cuireann na forbróirí na híomhánna tagartha fhírinneachta talún, agus 6 íomhá ginte faoi seach, le chéile, agus ansin ríomhann siad an scór Cosúlacht Paiste Íomhá Dearcadh Foghlama (LPIPS). Léirítear na torthaí thíos agus mar is féidir a fheiceáil go soiléir, baineann creat Zero123++ an fheidhmíocht is fearr amach ar an tacar scoilte bailíochtaithe. 

Téacs go Meastóireacht Il-Amharc

Chun cumas creata Zero123++ i nginiúint ábhair Téacs go Il-Amharc a mheas, úsáideann forbróirí an creat SDXL ar dtús le leideanna téacs chun íomhá a ghiniúint, agus ansin úsáideann siad creat Zero123++ don íomhá a ghintear. Léirítear na torthaí san íomhá seo a leanas, agus mar is léir, nuair a chuirtear i gcomparáid leis an gcreat Zero-1-go-3 nach féidir giniúint comhsheasmhach il-amhairc a ráthú, filleann an creat Zero123++ comhsheasmhach, réalaíoch agus an-mhionsonraithe il-amhairc. amharc ar íomhánna trí chur i bhfeidhm an téacs-go-íomhá-go-il-amharc cur chuige nó píblíne. 

Zero123++ Doimhneacht ControlNet

Chomh maith leis an gcreat Zero123++ bonn, tá an Doimhneacht ControlNet Zero123++ eisithe ag forbróirí freisin, leagan faoi rialú doimhneachta den chreat bunaidh a tógadh ag baint úsáide as an ailtireacht ControlNet. Déantar na híomhánna líneacha normalaithe a rindreáil i leith na n-íomhánna RGB ina dhiaidh sin, agus tá creat ControlNet oilte chun céimseata an chreata Zero123++ a rialú ag baint úsáide as dearcadh doimhneachta. 

Conclúid

San Airteagal seo, labhair muid faoi Zero123++, samhail AI ginte idirleata íomhá-choinníollach leis an aidhm íomhánna il-amharc comhsheasmhach 3D a ghiniúint ag baint úsáide as ionchur aon-amhairc. Chun an leas is fearr a bhaint as samhlacha giniúna réamhoilte, cuireann an creat Zero123++ go leor scéimeanna oiliúna agus riochtaithe i bhfeidhm chun an méid iarracht a thógann sé mionchoigeartú a dhéanamh ar shamhlacha íomhánna idirleata as an tseilf a íoslaghdú. Tá plé déanta againn freisin ar na cineálacha cur chuige agus na feabhsuithe éagsúla atá curtha i bhfeidhm ag an gcreat Zero123++ a chuidíonn leis torthaí a bhaint amach atá inchomparáide leis na creataí úrscothacha reatha agus fiú a sháraíonn iad. 

Mar sin féin, in ainneoin a éifeachtúlachta, agus a chumas íomhánna il-amhairc ardcháilíochta a ghiniúint go comhsheasmhach, tá spás le feabhsú fós ag an gcreat Zero123++, agus is réimsí féideartha taighde iad.

  • Múnla Scagaire Dhá Chéim a d'fhéadfadh neamhábaltacht Zero123++ a réiteach chun ceanglais dhomhanda maidir le comhsheasmhacht a chomhlíonadh. 
  • Scála Breise-Up chun cumas Zero123++ íomhánna a ghiniúint ar chaighdeán níos airde fós. 

"Innealtóir de réir gairme, scríbhneoir ó chroí". Is scríbhneoir teicniúil é Kunal a bhfuil grá agus tuiscint dhomhain aige ar AI agus ar ML, atá tiomanta do choincheapa casta sna réimsí seo a shimpliú trína dhoiciméadú mealltach agus faisnéiseach.