Inteligenta Artificiala

Modelul eDiffi Diffusion de la NVIDIA permite „pictarea cu cuvinte” și multe altele

Actualizat on December 9, 2022

Încercarea de a realiza compoziții precise cu modele de imagine generatoare de difuzie latentă, cum ar fi Difuzie stabilă poate fi ca păstorirea pisicilor; Aceleași puteri imaginative și interpretative care permit sistemului să creeze detalii extraordinare și să evoce imagini extraordinare din mesaje de text relativ simple. greu de oprit atunci când căutați control la nivel de Photoshop asupra unei generații de imagini.

Acum, o nouă abordare din cercetarea NVIDIA, intitulată difuzia ansamblului pentru imagini (eDiffi), folosește un amestec de mai multe metode de încorporare și interpretare (mai degrabă decât aceeași metodă pe tot parcursul conductei) pentru a permite un nivel mult mai mare de control asupra conținutului generat. În exemplul de mai jos, vedem un utilizator pictând elemente în care fiecare culoare reprezintă un singur cuvânt dintr-un prompt text:

„Pictura cu cuvinte” este una dintre cele două capacități noi ale modelului de difuzie eDiffi de la NVIDIA. Fiecare culoare pătrată reprezintă un cuvânt din prompt (vezi-le apar în stânga în timpul generării), iar culoarea zonei aplicate va consta numai din acel element. Vedeți sursa video (oficial) pentru mai multe exemple și o rezoluție mai bună la https://www.youtube.com/watch?v=k6cOx9YjHJc

De fapt, aceasta este „pictura cu măști” și inversează iparadigma npainting în Stable Diffusion, care se bazează pe repararea imaginilor rupte sau nesatisfăcătoare sau extinderea imaginilor care ar fi putut la fel de bine să aibă dimensiunea dorită în primul rând.

Aici, în schimb, marginile tălpii pictate reprezintă limitele aproximative permise ale unui singur element unic dintr-un singur concept, permițând utilizatorului să stabilească dimensiunea finală a pânzei de la început și apoi să adauge discret elemente.

Exemple din noua lucrare. Sursa: https://arxiv.org/pdf/2211.01324.pdf

Exemple din noua lucrare. Sursă: https://arxiv.org/pdf/2211.01324.pdf

Metodele variate folosite în eDiffi înseamnă, de asemenea, că sistemul face o treabă mult mai bună de a include fiecare element în solicitări lungi și detaliate, în timp ce Stable Diffusion și DALL-E 2 de la OpenAI tind să prioritizeze anumite părți ale promptului, în funcție fie de cât de devreme cuvintele țintă apar în prompt sau pe alți factori, cum ar fi dificultatea potențială de a dezlega diferitele elemente necesare pentru o compoziție completă, dar cuprinzătoare (în ceea ce privește textul-prompt):

Din hârtie: eDiffi este capabil să itereze mai amănunțit prin prompt până când a fost redat numărul maxim posibil de elemente. Deși rezultatele îmbunătățite pentru eDiffi (coloana din dreapta) sunt selectate, la fel sunt și imaginile de comparație de la Stable Diffusion și DALL-E 2.

În plus, utilizarea unui dispozitiv dedicat T5 codificatorul text-to-text înseamnă că eDiffi este capabil să redea text în limba engleză inteligibil, fie solicitat în mod abstract dintr-un prompt (de ex. imaginea conține un text din [x]) sau solicitat în mod explicit (de ex pe tricoul scrie „Nvidia Rocks”):

Procesarea dedicată text-to-text în eDiffi înseamnă că textul poate fi redat textual în imagini, în loc să fie rulat doar printr-un strat de interpretare text-to-image decât să distrugă rezultatul.

O altă modificare a noului cadru este că este posibil să se furnizeze și o singură imagine ca un prompt de stil, în loc să fie nevoie să antreneze un model DreamBooth sau o încorporare textuală pe mai multe exemple de gen sau stil.

Transferul de stil poate fi aplicat de la o imagine de referință la un prompt text la imagine sau chiar la un prompt imagine la imagine.

hârtie nouă se intitulează eDiffi: Modele de difuzare text-to-imagine cu un ansamblu de denoiser experți, și

Codificatorul de text T5

Utilizarea programului Google TTransformator de transfer de la exterior la text (T5) este elementul esențial în rezultatele îmbunătățite demonstrate în eDiffi. Conducta medie de difuzie latentă se concentrează pe asocierea dintre imaginile antrenate și legendele care le însoțeau atunci când au fost răzuite de pe internet (sau altfel ajustate manual mai târziu, deși aceasta este o intervenție costisitoare și, prin urmare, rară).

Din lucrarea din iulie 2020 pentru T5 – transformări bazate pe text, care pot ajuta fluxul de lucru de imagine generativă în eDiffi (și, potențial, alte modele de difuzie latentă). Sursă: https://arxiv.org/pdf/1910.10683.pdf

Prin reformularea textului sursă și rularea modulului T5, pot fi obținute asocieri și reprezentări mai exacte decât au fost antrenate în modelul inițial, aproape asemănătoare cu post fapt etichetare manuală, cu o mai mare specificitate și aplicabilitate la prevederile textului-prompt solicitat.

Autorii explică:

„În majoritatea lucrărilor existente privind modelele de difuzie, modelul de dezgomot este partajat la toate nivelurile de zgomot, iar dinamica temporală este reprezentată folosind o încorporare simplă în timp care este alimentată modelului de dezgomot printr-o rețea MLP. Susținem că dinamica temporală complexă a difuziei dezgomotării poate să nu fie învățată din date în mod eficient folosind un model comun cu o capacitate limitată.

„În schimb, ne propunem să mărim capacitatea modelului de dezgomot prin introducerea unui ansamblu de dezgomozători experți; fiecare expert de dezgomot este un model de dezgomot specializat pentru o anumită gamă de zgomot [niveluri]. În acest fel, putem crește capacitatea modelului fără a încetini eșantionarea, deoarece complexitatea de calcul a evaluării [elementului procesat] la fiecare nivel de zgomot rămâne aceeași.

Flux de lucru conceptual pentru eDiffi.

Existenta CLIP Modulele de codificare incluse în DALL-E 2 și Stable Diffusion sunt, de asemenea, capabile să găsească interpretări alternative de imagine pentru textul legat de introducerea utilizatorului. Cu toate acestea, ei sunt instruiți pe informații similare cu modelul original și nu sunt utilizați ca un strat interpretativ separat, așa cum este T5 în eDiffi.

Autorii afirmă că eDiffi este prima dată când atât un codificator T5, cât și un codificator CLIP au fost încorporate într-o singură conductă:

„Deoarece acești doi codificatori sunt antrenați cu obiective diferite, încorporarea lor favorizează formațiuni de imagini diferite cu același text de intrare. În timp ce încorporarea textului CLIP ajută la determinarea aspectului global al imaginilor generate, ieșirile tind să lipsească detaliile cu granulație fină din text.

„În contrast, imaginile generate doar cu încorporarea textului T5 reflectă mai bine obiectele individuale descrise în text, dar aspectul lor global este mai puțin precis. Folosirea lor în comun produce cele mai bune rezultate de generare de imagini în modelul nostru.'

Întreruperea și creșterea procesului de difuzie

Lucrarea notează că un model tipic de difuzie latentă va începe călătoria de la zgomot pur la o imagine, bazându-se exclusiv pe text în primele etape ale generației.

Când zgomotul se rezolvă într-un fel de aspect brut reprezentând descrierea din promptul text, fața ghidată de text a procesului dispare în esență, iar restul procesului se îndreaptă spre creșterea caracteristicilor vizuale.

Aceasta înseamnă că orice element care nu a fost rezolvat în stadiul incipient al interpretării zgomotului ghidat de text este dificil de injectat în imagine mai târziu, deoarece cele două procese (text-to-layout și layout-to-image) se suprapun relativ puțin. , iar aspectul de bază este destul de încurcat în momentul în care ajunge la procesul de mărire a imaginii.

Din lucrare: hărțile de atenție ale diferitelor părți ale conductei pe măsură ce procesul de zgomot>imagine se maturizează. Putem vedea o scădere accentuată a influenței CLIP a imaginii din rândul inferior, în timp ce T5 continuă să influențeze imaginea mult mai departe în procesul de randare.

Potenţial profesional

Exemplele de pe pagina proiectului și videoclipurile de pe YouTube se concentrează pe generarea de imagini drăguțe și cu meme-tastic prietenoase cu PR. Ca de obicei, cercetarea NVIDIA minimizează potențialul celei mai recente sale inovații de a îmbunătăți fluxurile de lucru fotorealiste sau VFX, precum și potențialul său de îmbunătățire a imaginilor și videoclipurilor deepfake.

În exemple, un utilizator începător sau amator mâzgăleește contururi brute de plasare pentru elementul specific, în timp ce într-un flux de lucru VFX mai sistematic, ar putea fi posibil să se utilizeze eDiffi pentru a interpreta mai multe cadre ale unui element video folosind text-to-image, în care Contururile sunt foarte precise și se bazează, de exemplu, pe cifre în care fundalul a fost eliminat prin intermediul unui ecran verde sau prin metode algoritmice.

Runway ML oferă deja rotoscoping bazat pe AI. În acest exemplu, „ecranul verde” din jurul subiectului reprezintă stratul alfa, în timp ce extragerea a fost realizată prin învățarea automată, mai degrabă decât prin eliminarea algoritmică a unui fundal de ecran verde din lumea reală. Sursa: https://twitter.com/runwayml/status/1330978385028374529

Folosind un antrenat cabină de vis un personaj și o conductă imagine-la-imagine cu eDiffi, este posibil să începeți să găsiți unul dintre insectele Orice model de difuzie latentă: stabilitate temporală. Într-un astfel de caz, atât marginile imaginii impuse, cât și conținutul imaginii ar fi „pre-flotate” pe pânza utilizatorului, cu continuitate temporală a conținutului redat (adică transformarea unui practicant de Tai Chi din lumea reală într-un robot). ) furnizat prin utilizarea unui model DreamBooth blocat care și-a „memorat” datele de antrenament – rău pentru interpretabilitate, excelent pentru reproductibilitate, fidelitate și continuitate.

Metodă, date și teste

Lucrarea afirmă că modelul eDiffi a fost instruit pe „o colecție de seturi de date publice și proprietare”, puternic filtrate de un model CLIP pre-antrenat, pentru a elimina imaginile care ar putea scădea scorul estetic general al rezultatelor. Setul final de imagini filtrate cuprinde „aproximativ un miliard” de perechi text-imagine. Dimensiunea imaginilor antrenate este descrisă ca având „cea mai scurtă parte mai mare de 64 de pixeli”.

Un număr de modele au fost instruite pentru proces, atât modelele de bază, cât și cele de super-rezoluție AdamW optimizator la o rată de învățare de 0.0001, cu o scădere a greutății de 0.01 și la o dimensiune formidabilă a lotului de 2048.

Modelul de bază a fost antrenat pe 256 de GPU-uri NVIDIA A100, iar cele două modele super-rezoluție pe 128 NVIDIA A100 GPU-uri pentru fiecare model.

Sistemul a fost bazat pe propriul NVIDIA Imaginare Biblioteca PyTorch. NUCĂ DE COCOS și seturile de date ale genomului vizual au fost utilizate pentru evaluare, deși nu au fost incluse în modelele finale, cu MS-COCO varianta specifică utilizată pentru testare. Sistemele rivale testate au fost ALUNECARE, Face o scenă, DALL-E2, Difuzie stabilăși cele două sisteme de sinteză a imaginilor de la Google, Imagine și petrecere.

În conformitate cu similar anterior muncă, zero-shot FID-30K a fost folosită ca măsură de evaluare. Sub FID-30K, 30,000 de subtitrări sunt extrase aleatoriu din setul de validare COCO (adică nu imaginile sau textul folosit în antrenament), care au fost apoi folosite ca mesaje text pentru sintetizarea imaginilor.

Distanța de început Frechet (FID) între imaginile de adevăr generate și cele de la sol a fost apoi calculată, pe lângă înregistrarea scorului CLIP pentru imaginile generate.

Rezultatele testelor FID zero-shot față de abordările actuale de ultimă generație ale setului de date de validare COCO 2014, cu rezultate mai scăzute mai bune.

În rezultate, eDiffi a reușit să obțină cel mai mic (cel mai bun) scor la zero-shot FID chiar și împotriva sistemelor cu un număr mult mai mare de parametri, cum ar fi cei 20 de miliarde de parametri ai Parti, în comparație cu cei 9.1 miliarde de parametri din cel mai mare. Modelul eDiffi specificat, instruit pentru teste.

Concluzie

eDiffi de la NVIDIA reprezintă o alternativă binevenită la simpla adăugare a unor cantități din ce în ce mai mari de date și complexitate sistemelor existente, utilizând în schimb o abordare mai inteligentă și mai stratificată a unora dintre cele mai spinoase obstacole legate de încurcarea și needitabilitatea în sistemele de imagine generativă de difuzie latentă.

Există deja discuții la subreddit-urile și Discords Stable Diffusion fie despre încorporarea directă a oricărui cod care poate fi pus la dispoziție pentru eDiffi, fie repunerea în scenă a principiilor din spatele acestuia într-o implementare separată. Cu toate acestea, noua conductă este atât de radical diferită, încât ar constitui un număr întreg de modificare a versiunii pentru SD, renunțând la o anumită compatibilitate inversă, deși oferind posibilitatea unor niveluri mult îmbunătățite de control asupra imaginilor finale sintetizate, fără a sacrifica captivantul. puteri imaginative de difuzie latentă.

Publicat prima dată pe 3 noiembrie 2022.

Urmeaza

Care este cel mai bun limbaj pentru învățarea automată? (mai 2024)

Nu ratați

Synthesis AI lansează noi produse pentru modele de computer Vision centrate pe om

Martin Anderson

Scriitor despre învățare automată, inteligență artificială și date mari.
Site personal: martinanderson.ai
Contact: [e-mail protejat]
Twitter: @manders_ai

Unite.AI

Modelul eDiffi Diffusion de la NVIDIA permite „pictarea cu cuvinte” și multe altele

Inteligenta Artificiala