stub Tha Modail Sgaoileadh eDiffi NVIDIA a’ ceadachadh ‘Painting With Words’ agus Barrachd - Unite.AI
Ceangal leinn

Artificial Intelligence

Tha Modail Sgaoileadh eDiffi NVIDIA a’ ceadachadh ‘Painting With Words’ agus Barrachd

mm
Ùraichte on

A’ feuchainn ri sgrìobhaidhean mionaideach a dhèanamh le modalan ìomhaigh ginealachd sgaoilidh falaichte leithid Sgaoileadh seasmhach faodaidh e bhith coltach ri buachailleachd cait; tha na h-aon chumhachdan mac-meanmnach agus mìneachaidh a leigeas leis an t-siostam mion-fhiosrachadh iongantach a chruthachadh agus ìomhaighean iongantach a ghairm bho mholaidhean teacsa a tha an ìre mhath sìmplidh cuideachd duilich a chuir dheth nuair a tha thu a’ coimhead airson smachd aig ìre Photoshop air gineadh ìomhaigh.

A-nis, dòigh-obrach ùr bho rannsachadh NVIDIA, leis an tiotal measgachadh ensemble airson dealbhan (eDiffi), a’ cleachdadh measgachadh de dh’ ioma-mhodhan in-ghabhail agus mìneachaidh (seach an aon dòigh fad na slighe tron ​​loidhne-phìoban) gus ìre fada nas motha de smachd a cheadachadh air an t-susbaint a chaidh a chruthachadh. Anns an eisimpleir gu h-ìosal, chì sinn neach-cleachdaidh a’ peantadh eileamaidean far a bheil gach dath a’ riochdachadh aon fhacal bho bhrosnachadh teacsa:

Tha ‘peantadh le faclan’ mar aon den dà chomas ùr ann am modal sgaoilidh eDiffi NVIDIA. Tha gach dath dà-fhillte a’ riochdachadh facal bhon bhrobhsair (faic iad a’ nochdadh air an taobh chlì rè ginealach), agus cha bhi an dath sgìreil air a chleachdadh ach den eileamaid sin. Faic deireadh an artaigil airson bhidio oifigeil freumhaichte, le barrachd eisimpleirean agus fuasgladh nas fheàrr. Stòr: https://www.youtube.com/watch?v=k6cOx9YjHJc

Tha ‘peantadh le faclan’ mar aon den dà chomas ùr ann am modal sgaoilidh eDiffi NVIDIA. Tha gach dath dà-fhillte a’ riochdachadh facal bhon bhrobhsair (faic iad a’ nochdadh air an taobh chlì rè ginealach), agus cha bhi an dath sgìreil air a chleachdadh ach den eileamaid sin. Faic bhidio stòr (oifigeil) airson barrachd eisimpleirean agus fuasgladh nas fheàrr aig https://www.youtube.com/watch?v=k6cOx9YjHJc

Gu h-èifeachdach is e seo ‘peantadh le masgaichean’, agus a’ cur cùl ri iparadigm peantaidh ann an Stable Diffusion, a tha stèidhichte air a bhith a’ càradh ìomhaighean briste no neo-thaitneach, no a’ leudachadh ìomhaighean a dh’ fhaodadh a bhith cho math ris a’ mheud a bhathas ag iarraidh sa chiad àite.

An seo, an àite sin, tha oirean an daub peantaichte a’ riochdachadh na crìochan tuairmseach ceadaichte de dìreach aon eileamaid shònraichte bho aon bhun-bheachd, a’ leigeil leis an neach-cleachdaidh meud a’ chanabhas mu dheireadh a shuidheachadh bhon chiad dol a-mach, agus an uairsin eileamaidean a chur ris gu faiceallach.

Eisimpleirean bhon phàipear ùr. Stòr: https://arxiv.org/pdf/2211.01324.pdf

Eisimpleirean bhon phàipear ùr. Stòr: https://arxiv.org/pdf/2211.01324.pdf

Tha na dòighean eadar-dhealaichte a thathas a’ cleachdadh ann an eDiffi cuideachd a’ ciallachadh gu bheil an siostam a’ dèanamh obair fada nas fheàrr ann a bhith a’ toirt a-steach a h-uile eileamaid ann am molaidhean fada agus mionaideach, ach tha Stable Diffusion agus DALL-E 2 aig OpenAI buailteach prìomhachas a thoirt do phàirtean sònraichte den fhreagairt, a rèir an dàrna cuid dè cho tràth sa tha an iomairt. tha faclan targaid a’ nochdadh anns a’ ghoireas, no air nithean eile, leithid an duilgheadas a dh’ fhaodadh a bhith ann a bhith a’ dealachadh nan diofar eileamaidean a tha riatanach airson sgrìobhadh coileanta ach farsaing (a thaobh an teacsa-priobadh):

Bhon phàipear: tha eDiffi comasach air aithris nas mionaidiche a dhèanamh tron ​​​​luath gus an tèid an àireamh as motha de eileamaidean a thoirt seachad. Ged a tha na toraidhean leasaichte airson eDiffi (colbh air an làimh dheis) air an taghadh le cherry, mar sin tha na h-ìomhaighean coimeas bho Stable Diffusion agus DALL-E 2.

Bhon phàipear: tha eDiffi comasach air aithris nas mionaidiche a dhèanamh tron ​​​​luath gus an tèid an àireamh as motha de eileamaidean a thoirt seachad. Ged a tha na toraidhean leasaichte airson eDiffi (colbh air an làimh dheis) air an taghadh le cherry, mar sin tha na h-ìomhaighean coimeas bho Stable Diffusion agus DALL-E 2.

A bharrachd air an sin, thathas a’ cleachdadh inneal sònraichte T5 tha còdachadh teacsa-gu-teacsa a’ ciallachadh gu bheil eDiffi comasach air teacsa Beurla so-thuigsinn a thoirt seachad, an dàrna cuid air iarraidh gu h-annasach bho bhrosnachadh (i.e. Anns an dealbh tha teacsa de [x]) no air iarraidh gu soilleir (ie tha an lèine-t ag ràdh 'Nvidia Rocks'):

Tha giullachd teacsa-gu-teacsa sònraichte ann an eDiffi a’ ciallachadh gum faodar teacsa a thoirt seachad facal air an fhacal ann an ìomhaighean, an àite a bhith air a ruith a-mhàin tro shreath mìneachaidh teacsa-gu-ìomhaigh na bhith a’ làimhseachadh an toraidh.

Tha giullachd teacsa-gu-teacsa sònraichte ann an eDiffi a’ ciallachadh gum faodar teacsa a thoirt seachad facal air an fhacal ann an ìomhaighean, an àite a bhith air a ruith a-mhàin tro shreath mìneachaidh teacsa-gu-ìomhaigh na bhith a’ làimhseachadh an toraidh.

Is e lìonadh eile don fhrèam ùr gu bheil e comasach cuideachd aon ìomhaigh a thoirt seachad mar bhrosnachadh stoidhle, seach a bhith feumach air modal DreamBooth a thrèanadh no freumhachadh teacsa air grunn eisimpleirean de ghnè no an stoidhle.

Faodar gluasad stoidhle a chuir an sàs bho ìomhaigh iomraidh gu sgiobalta teacsa gu ìomhaigh, no eadhon brosnachadh ìomhaigh gu ìomhaigh.

Faodar gluasad stoidhle a chuir an sàs bho ìomhaigh iomraidh gu sgiobalta teacsa gu ìomhaigh, no eadhon brosnachadh ìomhaigh gu ìomhaigh.

Tha pàipear ùr leis an tiotal eDiffi: Modalan eadar-dhealaichte teacsa-gu-ìomhaigh le Co-chruinneachadh de eòlaichean denoisers, agus

An còdachadh teacsa T5

Tha cleachdadh Google TTransformer Gluasad Teacs ext-to-Text (T5) an eileamaid chudromach anns na toraidhean leasaichte a chithear ann an eDiffi. Tha an loidhne-phìoban sgaoilidh cuibheasach falaichte stèidhichte air a’ cheangal eadar ìomhaighean ionnsaichte agus na fo-thiotalan a bha nan cois nuair a chaidh an sgrìobadh far an eadar-lìn (no eile air an atharrachadh le làimh nas fhaide air adhart, ged a tha seo na eadar-theachd daor agus mar sin tearc).

Bho phàipear an Iuchair 2020 airson T5 - cruth-atharrachaidhean stèidhichte air teacsa, a chuidicheas sruth-obrach ìomhaigh ginealach ann an eDiffi (agus, is dòcha, modalan sgaoilidh falaichte eile). Stòr: https://arxiv.org/pdf/1910.10683.pdf

Bho phàipear an Iuchair 2020 airson T5 - cruth-atharrachaidhean stèidhichte air teacsa, a chuidicheas sruth-obrach ìomhaigh ginealach ann an eDiffi (agus, is dòcha, modalan sgaoilidh falaichte eile). Stòr: https://arxiv.org/pdf/1910.10683.pdf

Le bhith ag ath-sgrìobhadh an teacsa tùsail agus a’ ruith modal T5, gheibhear ceanglaichean agus riochdachaidhean nas mionaidiche na bha iad air an trèanadh sa mhodail bho thùs, cha mhòr coltach ri post fìrinn bileagan làimhe, le barrachd sònraichte agus iomchaidheachd a thaobh cumhachan an teacsa a chaidh iarraidh.

Tha na h-ùghdaran a’ mìneachadh:

“Anns a’ mhòr-chuid de dh ’obraichean a th’ ann mu thràth air modalan sgaoilidh, tha am modail denoising air a cho-roinn thar gach ìre fuaim, agus tha an daineamaigs ùineail air a riochdachadh le bhith a ’cleachdadh freumhachadh ùine sìmplidh a thèid a bhiadhadh don mhodail denoising tro lìonra MLP. Tha sinn ag argamaid gur dòcha nach bi daineamaigs ùineail iom-fhillte an sgaoilidh denoising air ionnsachadh bho dhàta gu h-èifeachdach a’ cleachdadh modal co-roinnte le comas cuibhrichte.

“An àite sin, tha sinn a’ moladh comas a’ mhodail denoising a mheudachadh le bhith a’ toirt a-steach cruinneachadh de dh’ eòlaichean denois; tha gach eòlaiche denoiser na mhodail denoising a tha speisealaichte airson raon sònraichte de fhuaim [ìrean]. San dòigh seo, is urrainn dhuinn comas a’ mhodail àrdachadh gun a bhith a’ slaodadh sìos samplachadh leis gu bheil iom-fhillteachd coimpiutaireachd luachadh [an eileamaid ghiullachd] aig gach ìre fuaim fhathast mar a bha e.'

Sruth-obrach bun-bheachdail airson eDiffi.

Sruth-obrach bun-bheachdail airson eDiffi.

An fheadhainn a th ’ann CLIP tha modalan còdaidh a tha air an gabhail a-steach ann an DALL-E 2 agus Stable Diffusion cuideachd comasach air mìneachaidhean ìomhaigh eile a lorg airson teacsa co-cheangailte ri cuir a-steach luchd-cleachdaidh. Ach tha iad air an trèanadh air fiosrachadh coltach ris a’ mhodail thùsail, agus chan eil iad air an cleachdadh mar shreath eadar-mhìneachaidh air leth san dòigh sa bheil T5 ann an eDiffi.

Tha na h-ùghdaran ag ràdh gur e eDiffi a’ chiad uair a chaidh gach cuid encoder T5 agus CLIP a thoirt a-steach do aon loidhne-phìoban:

“Leis gu bheil an dà chòdadair seo air an trèanadh le diofar amasan, tha an stèidheachadh aca airson cruthachadh diofar ìomhaighean leis an aon teacsa a-steach. Fhad ‘s a bhios in-ghabhail teacsa CLIP a’ cuideachadh le bhith a ’dearbhadh sealladh cruinneil nan ìomhaighean a chaidh a chruthachadh, tha na toraidhean buailteach a bhith ag ionndrainn mion-fhiosrachadh mionaideach san teacsa.

“An coimeas ri sin, tha ìomhaighean air an gineadh le in-ghabhail teacsa T5 leotha fhèin a’ nochdadh nas fheàrr na nithean fa leth a tha air am mìneachadh san teacsa, ach chan eil an coltas cruinne aca cho ceart. Le bhith gan cleachdadh còmhla bheir sin na toraidhean gineadh ìomhaighean as fheàrr nar modail.'

A 'cur bacadh air agus a' cur ris a 'phròiseas sgaoilte

Tha am pàipear a’ toirt fa-near gun tòisich modal sgaoilidh falaichte àbhaisteach air an t-slighe bho fhìor fhuaim gu ìomhaigh le bhith an urra ri teacsa a-mhàin anns na tràth ìrean den ghinealach.

Nuair a thig am fuaim a-steach gu cruth garbh de sheòrsa air choreigin a tha a’ riochdachadh an tuairisgeul anns an teacsa-brosnachaidh, bidh an taobh den phròiseas air a stiùireadh le teacsa a’ tuiteam air falbh, agus bidh an còrr den phròiseas a’ gluasad a dh’ionnsaigh cur ris na feartan lèirsinneach.

Tha seo a’ ciallachadh gu bheil e duilich eileamaid sam bith nach deach a rèiteach aig ìre nas ìsle de mhìneachadh fuaim air a stiùireadh le teacsa a chuir a-steach don ìomhaigh nas fhaide air adhart, leis gu bheil an dà phròiseas (teacsa-gu-cruth, agus cruth-gu-ìomhaigh) glè bheag de thar-tharraing. , agus tha an cruth bunaiteach gu math ceangailte nuair a ruigeas e pròiseas àrdachadh ìomhaigh.

Bhon phàipear: na mapaichean aire de dhiofar phàirtean den loidhne-phìoban mar a bhios am pròiseas fuaim> ìomhaigh a’ tighinn gu ìre. Chì sinn an lùghdachadh geur ann am buaidh CLIP air an ìomhaigh anns an t-sreath ìosal, fhad ‘s a tha T5 a’ leantainn air adhart a ’toirt buaidh air an ìomhaigh fada nas fhaide a-steach don phròiseas tairgse.

Bhon phàipear: na mapaichean aire de dhiofar phàirtean den loidhne-phìoban mar a bhios am pròiseas fuaim> ìomhaigh a’ tighinn gu ìre. Chì sinn an lùghdachadh geur ann am buaidh CLIP air an ìomhaigh anns an t-sreath ìosal, fhad ‘s a tha T5 a’ leantainn air adhart a ’toirt buaidh air an ìomhaigh fada nas fhaide a-steach don phròiseas tairgse.

Comas proifeasanta

Tha na h-eisimpleirean aig duilleag a’ phròiseict agus ionad bhidio YouTube air ginealach càirdeil PR de dhealbhan grinn meme-tastic. Mar as àbhaist, tha rannsachadh NVIDIA a’ lughdachadh comas na h-ùr-ghnàthachaidh as ùire aige gus sruthan-obrach photorealistic no VFX a leasachadh, a bharrachd air a’ chomas a th’ ann airson ìomhaighean domhainn agus bhidio a leasachadh.

Anns na h-eisimpleirean, bidh neach-cleachdaidh ùr no neach-cleachdaidh neo-dhreuchdail a’ sgrìobhadh geàrr-chunntasan de shuidheachadh airson an eileamaid shònraichte, ach ann an sruth-obrach VFX nas rianail, dh’ fhaodadh e a bhith comasach eDiffi a chleachdadh gus ioma frèamaichean de eileamaid bhidio a mhìneachadh a’ cleachdadh teacsa-gu-ìomhaigh, anns a bheil tha na geàrr-chunntasan gu math mionaideach, agus stèidhichte air, mar eisimpleir figearan far an deach an cùl-raon a leigeil a-mach tro sgrion uaine no dòighean algorithmach.

Tha Runway ML mu thràth a’ toirt seachad rotoscoping stèidhichte air AI. San eisimpleir seo, tha an ‘sgrion uaine’ timcheall air a’ chuspair a’ riochdachadh an ìre alpha, fhad ‘s a chaidh an às-tharraing a dhèanamh tro ionnsachadh inneal seach a bhith a’ toirt air falbh cùl-raon sgrion uaine san t-saoghal fhìor. Stòr: https://twitter.com/runwayml/status/1330978385028374529

Tha Runway ML mu thràth a’ toirt seachad rotoscoping stèidhichte air AI. San eisimpleir seo, tha an ‘sgrion uaine’ timcheall a’ chuspair a’ riochdachadh an ìre alpha, fhad ‘s a chaidh an às-tharraing a choileanadh tro ionnsachadh inneal seach a bhith a’ toirt air falbh cùl-raon sgrion uaine san t-saoghal fhìor. Stòr: https://twitter.com/runwayml/status/1330978385028374529

A 'cleachdadh inneal trèanaidh bruadar caractar agus loidhne-phìoban ìomhaigh-gu-ìomhaigh le eDiffi, dh’ fhaodadh gum bi e comasach tòiseachadh air aon de na bugbears aig sam bith modail sgaoilidh falaichte: seasmhachd ùineail. Ann an leithid de chùis, bhiodh an dà chuid iomall na h-ìomhaigh a chaidh a chuir an sàs agus susbaint na h-ìomhaigh ‘ro-fhlùraichte’ an aghaidh canabhas an neach-cleachdaidh, le leantainneachd ùineail den t-susbaint a chaidh a thoirt seachad (ie a’ tionndadh cleachdaiche Tai Chi san t-saoghal gu bhith na inneal-fuadain). ) air a thoirt seachad le bhith a’ cleachdadh modal DreamBooth glaiste a tha air ‘cuimhneachadh’ air an dàta trèanaidh aige - dona airson eadar-mhìneachadh, sgoinneil airson ath-riochdachadh, dìlseachd agus leantainneachd.

Dòigh, Dàta agus Deuchainnean

Tha am pàipear ag ràdh gun deach modal eDiffi a thrèanadh air ‘cruinneachadh de stòran-dàta poblach is seilbh’, air a shìoladh gu mòr le modal CLIP ro-thrèanadh, gus ìomhaighean a thoirt air falbh a tha dualtach sgòr bòidhchead coitcheann an toraidh a lughdachadh. Tha an seata dhealbhan sìoltaichte mu dheireadh a’ toirt a-steach ‘timcheall air billean’ paidhrichean teacsa-ìomhaigh. Thathas a’ toirt cunntas air meud nan dealbhan le trèanadh mar leis ‘an taobh as giorra nas motha na 64 piogsail’.

Chaidh grunn mhodalan a thrèanadh airson a’ phròiseis, le gach cuid na modalan bunaiteach agus sàr-rùn air an trèanadh AdhamhW optimizer aig ìre ionnsachaidh de 0.0001, le lughdachadh cuideam de 0.01, agus aig meud baidse làidir de 2048.

Chaidh am modal bunaiteach a thrèanadh air 256 NVIDIA A100 GPUs, agus an dà mhodail fìor-rùn air 128 NVIDIA A100 GPUs airson gach modail.

Bha an siostam stèidhichte air an fheadhainn aig NVIDIA fhèin Smaoinich Leabharlann PyTorch. Coco agus chaidh stòran-dàta Visual Genome a chleachdadh airson measadh, ged nach robh iad air an gabhail a-steach anns na modalan deireannach, le MS-COCO an dreach sònraichte a thathar a’ cleachdadh airson deuchainn. Chaidh siostaman farpaiseach a dhearbhadh GLIADHNA, Dèan-A-Sealladh, DALL-E2, Sgaoileadh seasmhach, agus dà shiostam synthesis ìomhaighean Google, Dealbh agus pàrtaidh.

Ann an co-rèir ri coltach ro-làimh obair, gun sealladh FID-30K air a chleachdadh mar mheatrach measaidh. Fo FID-30K, tha 30,000 fo-thiotalan air an toirt a-mach air thuaiream bhon t-seata dearbhaidh COCO (ie chan e na h-ìomhaighean no an teacsa a chaidh a chleachdadh ann an trèanadh), a chaidh an uairsin a chleachdadh mar bhrosnachadh teacsa airson ìomhaighean a cho-chur.

An t-astar tòiseachaidh Frechet (IN) eadar na h-ìomhaighean fìrinn a chaidh a chruthachadh agus an talamh an uairsin a thomhas, a bharrachd air a bhith a’ clàradh an sgòr CLIP airson na h-ìomhaighean a chaidh a chruthachadh.

Toraidhean bho na deuchainnean FID le peilear neoni an aghaidh dòighean-obrach ùr-nodha a thaobh dàta dearbhaidh COCO 2014, le toraidhean nas ìsle nas fheàrr.

Toraidhean bho na deuchainnean FID le peilear neoni an aghaidh dòighean-obrach ùr-nodha a thaobh dàta dearbhaidh COCO 2014, le toraidhean nas ìsle nas fheàrr.

Anns na toraidhean, bha e comasach dha eDiffi an sgòr as ìsle (as fheàrr) fhaighinn air FID le peilear neoni eadhon an aghaidh shiostaman le àireamh fada nas àirde de pharamadairean, leithid paramadairean 20 billean Parti, an coimeas ris na paramadairean 9.1 billean anns an ìre as àirde- modal eDiffi specced air a thrèanadh airson na deuchainnean.

Co-dhùnadh

Tha eDiffi NVIDIA a’ riochdachadh roghainn eile a tha a’ cur fàilte air dìreach a bhith a’ cur barrachd is barrachd dàta agus iom-fhillteachd ri siostaman a th’ ann mar-thà, an àite sin a’ cleachdadh dòigh-obrach nas tuigseach agus nas sreathach a thaobh cuid de na cnapan-starra as miosa co-cheangailte ri dol an sàs agus neo-dheasachadh ann an siostaman ìomhaighean ginealach sgaoilidh falaichte.

Tha deasbad ann mu thràth aig na subreddits Stable Diffusion agus Discords mu bhith a’ toirt a-steach còd sam bith a dh’ fhaodadh a bhith ri fhaighinn airson eDiffi, no mu bhith ag ath-shuidheachadh nam prionnsapalan air a chùlaibh ann am buileachadh air leth. Tha an loidhne-phìoban ùr, ge-tà, cho eadar-dhealaichte, is gum biodh e na dhreach àireamh iomlan de dh’ atharrachadh airson SD, a’ toirt beagan co-fhreagarrachd air ais, ged a bhiodh e a’ toirt cothrom air ìrean smachd nas fheàrr air na h-ìomhaighean deireannach synthesized, gun a bhith ag ìobradh na h-ìomhaighean tarraingeach. cumhachdan mac-meanmnach de sgaoileadh falaichte.

 

Air fhoillseachadh an toiseach air 3 Samhain 2022.