Artificial Intelligence

eDiffi Diffusion Model NVIDIA gerir kleift að „mála með orðum“ og fleira

Uppfært on Desember 9, 2022

Reynt er að gera nákvæmar samsetningar með duldum dreifingu myndlíkönum eins og Stöðugt dreifing getur verið eins og að smala köttum; sömu hugmynda- og túlkunarkrafturinn sem gerir kerfinu kleift að búa til óvenjuleg smáatriði og kalla fram ótrúlegar myndir úr tiltölulega einföldum textaboðum. erfitt að slökkva þegar þú ert að leita að Photoshop-stigi stjórnunar yfir myndsköpun.

Nú, ný nálgun frá NVIDIA rannsóknum, sem heitir ensemble diffusion fyrir myndir (eDiffi), notar blöndu af mörgum innfellingum og túlkunaraðferðum (frekar en sömu aðferð alla leið í gegnum leiðsluna) til að leyfa miklu meiri stjórn á efninu sem myndast. Í dæminu hér að neðan sjáum við notanda að mála þætti þar sem hver litur táknar eitt orð úr textakvaðningu:

'Að mála með orðum' er ein af tveimur nýjustu möguleikunum í eDiffi dreifingarlíkani NVIDIA. Hver dúkkaður litur táknar orð úr hvetjunni (sjá þau birtast til vinstri við myndun), og svæðisliturinn sem notaður er mun aðeins samanstanda af þeim þætti. Sjá heimild (opinber) myndband fyrir fleiri dæmi og betri upplausn á https://www.youtube.com/watch?v=k6cOx9YjHJc

Í raun er þetta að „mála með grímum“ og snýr við inmálverksfyrirmynd í Stable Diffusion, sem byggir á því að laga bilaðar eða ófullnægjandi myndir, eða lengja myndir sem hefðu allt eins getað verið í æskilegri stærð í upphafi.

Hér, í staðinn, tákna spássíur málaðra dúkkunnar leyfileg áætluð mörk aðeins eins einstaks þáttar úr einni hugmynd, sem gerir notandanum kleift að stilla endanlega strigastærð frá upphafi og bæta síðan þáttum á stakur hátt.

Dæmi úr nýja blaðinu. Heimild: https://arxiv.org/pdf/2211.01324.pdf

Mismunandi aðferðir sem notaðar eru í eDiffi þýða einnig að kerfið skilar miklu betur að innihalda alla þætti í löngum og nákvæmum leiðbeiningum, en Stable Diffusion og OpenAI's DALL-E 2 hafa tilhneigingu til að forgangsraða ákveðnum hlutum boðsins, hvort sem það fer eftir því hversu snemma markorð birtast í kvaðningunni, eða á öðrum þáttum, eins og hugsanlegum erfiðleikum við að greina hina ýmsu þætti sem eru nauðsynlegir fyrir fullkomna en yfirgripsmikla (með tilliti til textakvaðningarinnar) samsetningu:

Frá blaðinu: eDiffi er fær um að endurtaka ýtarlegri í gegnum hvetja þar til hámarks mögulegur fjöldi þátta hefur verið sýndur. Þó að bættar niðurstöður fyrir eDiffi (lengst til hægri) séu valdar í kirsuberjum, eru samanburðarmyndirnar frá Stable Diffusion og DALL-E 2 einnig.

Að auki, notkun hollur T5 texta-í-texta kóðari þýðir að eDiffi er fær um að skila skiljanlegum enskum texta, annaðhvort óhlutbundið beðið um frá hvetingu (þ.e. mynd inniheldur texta af [x]) eða beinlínis beðið um (þ.e á stuttermabolnum stendur „Nvidia Rocks“):

Sérstök texta-í-textavinnsla í eDiffi þýðir að hægt er að túlka texta orðrétt í myndum, í stað þess að vera aðeins keyrður í gegnum texta-í-mynd túlkunarlag heldur en að túlka úttakið.

Önnur viðbót við nýja rammann er að það er líka hægt að gefa eina mynd sem stílhvöt, frekar en að þurfa að þjálfa DreamBooth líkan eða innfellingu texta á mörg dæmi um tegund eða stíl.

Hægt er að beita stílflutningi frá tilvísunarmynd yfir í texta-í-mynd hvetja, eða jafnvel mynd-í-mynd hvetja.

The nýtt blað er titill eDiffi: Text-to-Image Diffusion Models með hópi sérfróðra denoisersog

T5 textakóðarinn

Notkun Google TExt-to-Text Transfer Transformer (T5) er lykilþátturinn í bættum árangri sem sýndur er í eDiffi. Meðal dulda dreifingarleiðsla miðast við tengslin milli þjálfaðra mynda og myndatexta sem fylgdu þeim þegar þær voru skafarnar af internetinu (eða annars handvirkt breytt síðar, þó þetta sé dýrt og því sjaldgæft inngrip).

Frá júlí 2020 blaðinu fyrir T5 – textatengdar umbreytingar, sem geta aðstoðað við skapandi myndvinnuflæði í eDiffi (og hugsanlega öðrum duldum dreifingarlíkönum). Heimild: https://arxiv.org/pdf/1910.10683.pdf

Með því að umorða frumtextann og keyra T5-eininguna er hægt að fá nákvæmari tengsl og framsetningu en var þjálfað inn í líkanið upphaflega, nánast í ætt við póst staðreynd handvirka merkingu, með meiri sérhæfingu og notagildi fyrir ákvæði umbeðinnar textatilkynningar.

Höfundar útskýra:

„Í flestum núverandi verkum á dreifingarlíkönum er næðislíkaninu deilt yfir öll hávaðastig og tímaleg hreyfing er táknuð með því að nota einfalda tímainnfellingu sem er sendur inn í næðingarlíkanið í gegnum MLP net. Við höldum því fram að ekki sé hægt að læra flókið tímabundið gangverki dreifingarinnar til að draga úr gögnum á áhrifaríkan hátt með því að nota sameiginlegt líkan með takmarkaða getu.

„Í staðinn leggjum við til að stækka getu nöfnunarlíkansins með því að kynna hóp sérfróðra nöfnunarsinna; hver sérfræðingur í hljóðneimara er afneitunarlíkan sérhæft fyrir tiltekið svið hávaða [stigs]. Þannig getum við aukið getu líkansins án þess að hægja á sýnatöku þar sem reiknifræðilega flókið mat á [unninni þáttinn] á hverju hávaðastigi er óbreytt.'

Hugmyndavinnuflæði fyrir eDiffi.

Núverandi KLIPPI Kóðunareiningar sem eru innifalin í DALL-E 2 og Stable Diffusion eru einnig færar um að finna aðrar myndtúlkanir fyrir texta sem tengist innslátt notanda. Hins vegar eru þeir þjálfaðir á svipaðar upplýsingar og upprunalega líkanið og eru ekki notaðar sem sérstakt túlkunarlag á þann hátt sem T5 er í eDiffi.

Höfundarnir fullyrða að eDiffi sé í fyrsta skipti sem bæði T5 og CLIP kóðara hafa verið felld inn í eina leiðslu:

„Þar sem þessir tveir kóðarar eru þjálfaðir með mismunandi markmið, stuðlar innfelling þeirra að gerð mismunandi mynda með sama innsláttartexta. Þó að CLIP-textainnfellingar hjálpi til við að ákvarða alþjóðlegt útlit mynduðu mynda, hafa úttakið tilhneigingu til að sakna fínkorna smáatriðin í textanum.

„Aftur á móti endurspegla myndir sem eru búnar til með T5-textainnfellingum einni og sér betur einstaka hluti sem lýst er í textanum, en alþjóðlegt útlit þeirra er minna nákvæmt. Notkun þeirra í sameiningu skilar bestu myndmyndunarárangri í líkaninu okkar.'

Að trufla og auka dreifingarferlið

Blaðið bendir á að dæmigert duldt dreifingarlíkan mun hefja ferðina frá hreinum hávaða yfir í mynd með því að treysta eingöngu á texta á fyrstu stigum kynslóðarinnar.

Þegar hávaðinn leysist upp í einhvers konar gróft útlit sem táknar lýsinguna í textaboðinu, fellur textastýrður flötur ferlisins í raun og veru og það sem eftir er af ferlinu færist í átt að því að auka sjónræna eiginleika.

Þetta þýðir að allir þættir sem ekki voru leystir á upphafsstigi textastýrðrar hávaðatúlkunar er erfitt að dæla inn í myndina síðar, vegna þess að ferlarnir tveir (texti-í-útlit og útlit-í-mynd) hafa tiltölulega litla skörun. , og grunnútlitið er ansi flækt þegar það kemur að myndstækkunarferlinu.

Úr blaðinu: athygliskortin af ýmsum hlutum leiðslunnar þegar hávaða>myndarferlið þroskast. Við getum séð skarpt fall í CLIP áhrifum myndarinnar í neðri röðinni, á meðan T5 heldur áfram að hafa áhrif á myndina mun lengra inn í flutningsferlið.

Faglegur möguleiki

Dæmin á verkefnasíðunni og YouTube myndbandinu miðast við PR-væna kynslóð af meme-bragðgóðum sætum myndum. Eins og venjulega eru NVIDIA rannsóknir að gera lítið úr möguleikum nýjustu nýjungarinnar til að bæta myndraunsæi eða VFX vinnuflæði, sem og möguleika þess til að bæta djúpfalsað myndefni og myndband.

Í dæmunum skrifar nýliði eða áhugamaður notandi grófar útlínur um staðsetningu fyrir tiltekna þáttinn, en í kerfisbundnara VFX verkflæði gæti verið mögulegt að nota eDiffi til að túlka marga ramma myndbandseiningar með texta-í-mynd, þar sem útlínurnar eru mjög nákvæmar og byggja td á myndum þar sem bakgrunnur hefur verið sleppt með grænum skjá eða reikniritaðferðum.

Flugbraut ML veitir nú þegar gervigreind sem byggir á rotoscoping. Í þessu dæmi táknar „græni skjárinn“ í kringum myndefnið alfalagið, á meðan útdrátturinn hefur verið náð með vélanámi frekar en reiknirit fjarlægingu á raunverulegum grænum skjábakgrunni. Heimild: https://twitter.com/runwayml/status/1330978385028374529

Flugbraut ML veitir nú þegar gervigreind byggða rotoscoping. Í þessu dæmi táknar „græni skjárinn“ í kringum myndefnið alfalagið, en útdrátturinn hefur verið náð með vélanámi frekar en reiknirit fjarlægingu á raunverulegum grænum skjábakgrunni. Heimild: https://twitter.com/runwayml/status/1330978385028374529

Að nota þjálfaðan draumaskála persóna og mynd-í-mynd leiðslu með eDiffi, það er hugsanlega mögulegt að byrja að negla niður einn af villuberunum í Allir duldt dreifingarlíkan: tímabundinn stöðugleiki. Í slíku tilviki myndu bæði spássíur myndarinnar og innihald myndarinnar vera „forfljótandi“ upp á striga notandans, með tímabundinni samfellu hins sýnda efnis (þ.e. að breyta raunverulegum Tai Chi iðkanda í vélmenni ) útvegað með því að nota læst DreamBooth líkan sem hefur „minnið“ þjálfunargögn sín – slæmt fyrir túlkanleika, frábært fyrir endurgerðanleika, tryggð og samfellu.

Aðferð, gögn og próf

Í blaðinu kemur fram að eDiffi líkanið hafi verið þjálfað á „safni opinberra og sértækra gagnasetta“, mikið síað af fyrirfram þjálfuðu CLIP líkani, til að fjarlægja myndir sem líklegar lækka almennt fagurfræðilegt stig úttaksins. Síðasta síaða myndasettið samanstendur af „um einum milljarði“ texta-myndapörum. Stærð þjálfaðra mynda er lýst sem „stytstu hlið stærri en 64 pixlar“.

Fjöldi líkana var þjálfaður fyrir ferlið, bæði grunn- og ofurupplausnarlíkönin voru þjálfuð á AdamW fínstillingu með lærdómshraða upp á 0.0001, með þyngdarrýrnun upp á 0.01, og með ægilegri lotustærð 2048.

Grunngerðin var þjálfuð á 256 NVIDIA A100 GPU og tvær ofurupplausnargerðirnar á 128 NVIDIA A100 GPU fyrir hverja gerð.

Kerfið var byggt á eigin NVIDIA Ímyndaður PyTorch bókasafn. COCO og Visual Genome gagnasöfn voru notuð til mats, þó ekki innifalin í lokalíkönunum, með MS-COCO tiltekna afbrigðið sem notað er til að prófa. Samkeppniskerfi prófuð voru SVÍÐI, Make-A-Scene, DALL-E2, Stöðugt dreifing, og tvö myndgerðarkerfi Google, Mynd og Partí.

Í samræmi við svipað áður vinna, núllskot FID-30K var notað sem matsmælikvarði. Undir FID-30K eru 30,000 myndatextar teknir af handahófi úr COCO staðfestingarsettinu (þ.e. ekki myndirnar eða textinn sem notaður er í þjálfun), sem síðan voru notaðir sem textaboð til að búa til myndir.

The Frechet Inception Distance (FID) milli myndaðra og grunnsannleiksmynda var síðan reiknað, auk þess að skrá CLIP stig fyrir mynduðu myndirnar.

Niðurstöður úr núllskots FID prófunum gegn núverandi nýjustu nálgunum á COCO 2014 staðfestingargagnagrunninum, með lægri niðurstöðum betri.

Í niðurstöðunum tókst eDiffi að fá lægstu (bestu) einkunnina á núllskotum FID jafnvel á móti kerfum með mun fleiri færibreytur, eins og 20 milljarða færibreytur Parti, samanborið við 9.1 milljarð breytur í hæsta- sérstakt eDiffi líkan þjálfað fyrir prófin.

Niðurstaða

eDiffi frá NVIDIA er kærkominn valkostur við einfaldlega að bæta sífellt meira magni af gögnum og flóknum kerfum við núverandi kerfi, í staðinn með því að nota snjallari og lagskiptari nálgun á sumum erfiðustu hindrunum sem tengjast flækju og óbreytanleika í myndkerfum sem mynda dulda dreifingu.

Það er nú þegar umræða á Stable Diffusion subreddits og Discords um annaðhvort að fella beint inn hvaða kóða sem gæti verið aðgengilegur fyrir eDiffi, eða að endurskipuleggja meginreglurnar á bak við það í sérstakri útfærslu. Nýja leiðslan er hins vegar svo gjörólík að hún myndi fela í sér heilt útgáfunúmer breytinga fyrir SD, sem eykur afturábak eindrægni, þó að hún bjóði upp á stóraukið stjórnstig yfir endanlegu samsettu myndunum, án þess að fórna grípandi myndunum. ímyndunarafl duldrar dreifingar.

Fyrst birt 3. nóvember 2022.

Upp næst

Hvert er besta tungumálið fyrir vélanám? (maí 2024)

Ekki missa af

Synthesis AI gefur út nýjar vörur fyrir mannmiðaða tölvusjónarlíkön

Martin Anderson

Rithöfundur um vélanám, gervigreind og stór gögn.
Persónuleg síða: martinanderson.ai
Hafðu: [netvarið]
Twitter: @manders_ai

Unite.AI

eDiffi Diffusion Model NVIDIA gerir kleift að „mála með orðum“ og fleira

Artificial Intelligence