Connect with us

IA 101

Modele de difuziune în IA – Tot ce trebuie să știți

mm
A collage of human faces created using AI image generator

În ecosistemul IA, modelele de difuziune stabilesc direcția și ritmul progresului tehnologic. Ele revolutionează modul în care abordăm sarcinile complexe de IA generativă. Aceste modele se bazează pe matematica principiilor gaussiene, varianței, ecuațiilor diferențiale și secvențelor generative. (Vom explica jargonul tehnic mai jos)

Produsele și soluțiile moderne axate pe IA, dezvoltate de Nvidia, Google, Adobe și OpenAI, au pus modelele de difuziune în centrul atenției. DALL.E 2, Stable Diffusion și Midjourney sunt exemple proeminente de modele de difuziune care fac înconjurul internetului în ultima vreme. Utilizatorii furnizează un prompt de text simplu ca intrare, și aceste modele pot converti promptul în imagini realiste, cum ar fi cea arătată mai jos.

O imagine generată cu Midjourney v5 folosind promptul de intrare: maci californieni vibranti.

O imagine generată cu Midjourney v5 folosind promptul de intrare: maci californieni vibranti. Sursă: Midjourney

Să explorăm principiile de funcționare fundamentale ale modelelor de difuziune și modul în care ele schimbă direcțiile și normele lumii așa cum o vedem astăzi.

Ce sunt modelele de difuziune?

Conform publicației de cercetare “Modele probabilistice de difuziune pentru denoising“, modelele de difuziune sunt definite ca:

“Un model de difuziune sau model probabilistic de difuziune este o lanț Markov parametrizat, antrenat folosind inferență variatională pentru a produce mostre care se potrivesc cu datele după un timp finit”

În mod simplu, modelele de difuziune pot genera date asemănătoare cu cele pe care sunt antrenate. Dacă modelul este antrenat pe imagini de pisici, poate genera imagini realiste de pisici.

Acum, să încercăm să descompunem definiția tehnică menționată mai sus. Modelele de difuziune se inspiră din principiul de funcționare și fundația matematică a unui model probabilistic care poate analiza și prezice comportamentul unui sistem care variază în timp, cum ar fi predicția randamentului pieței bursiere sau răspândirea pandemiei.

Definiția afirmă că ele sunt lanțuri Markov parametrizate, antrenate cu inferență variatională. Lanțurile Markov sunt modele matematice care definesc un sistem care trece prin diferite stări în timp. Starea curentă a sistemului poate determina doar probabilitatea de a trece într-o anumită stare. Cu alte cuvinte, starea curentă a unui sistem deține stările posibile pe care sistemul le poate urma sau dobândi la un moment dat.

Antrenarea modelului folosind inferență variatională implică calcule complexe pentru distribuții de probabilitate. Scopul este de a găsi parametrii exacti ai lanțului Markov care se potrivesc cu datele observate (cunoscute sau reale) după un timp specific. Acest proces minimizează valoarea funcției de pierdere a modelului, care este diferența dintre starea prezisă (necunoscută) și starea observată (cunoscută).

Odată antrenat, modelul poate genera mostre care se potrivesc cu datele observate. Aceste mostre reprezintă traiectorii posibile sau stări pe care sistemul le poate urma sau dobândi în timp, și fiecare traiectorie are o probabilitate diferită de a se întâmpla. Prin urmare, modelul poate prezice comportamentul viitor al sistemului generând o gamă de mostre și găsind probabilitățile lor respective (probabilitatea ca aceste evenimente să se întâmple).

Cum să interpretați modelele de difuziune în IA?

Modelele de difuziune sunt modele generative profunde care funcționează prin adăugarea de zgomot (zgomot gaussian) la datele de antrenare disponibile (cunoscute și sub numele de proces de difuziune directă) și apoi inversarea procesului (cunoscut sub numele de denoising sau proces de difuziune inversă) pentru a recupera datele. Modelul învață treptat să elimine zgomotul. Acest proces de denoising învățat generează noi imagini de înaltă calitate din semințe aleatorii (imagini zgomotoase aleatorii), așa cum se arată în ilustrația de mai jos.

Proces de difuziune inversă: o imagine zgomotoasă este curățată pentru a recupera imaginea originală (sau pentru a genera variații ale acesteia) prin intermediul unui model de difuziune antrenat.

Proces de difuziune inversă: o imagine zgomotoasă este curățată pentru a recupera imaginea originală (sau pentru a genera variații ale acesteia) prin intermediul unui model de difuziune antrenat. Sursă: Modele probabilistice de difuziune pentru denoising

3 categorii de modele de difuziune

Există trei cadre matematice fundamentale care stau la baza științei din spatele modelelor de difuziune. Toate cele trei se bazează pe principiile de adăugare de zgomot și apoi de eliminare a zgomotului pentru a genera mostre noi. Să discutăm despre ele mai jos.

Un model de difuziune adaugă și elimină zgomot dintr-o imagine.

Un model de difuziune adaugă și elimină zgomot dintr-o imagine. Sursă: Modele de difuziune în viziune: o analiză

1. Modele probabilistice de difuziune pentru denoising (DDPMs)

Așa cum s-a explicat mai sus, DDPMs sunt modele generative utilizate în principal pentru a elimina zgomotul din datele vizuale sau audio. Ele au arătat rezultate impresionante în diverse sarcini de denoising de imagini și audio. De exemplu, industria cinematografică utilizează instrumente moderne de procesare a imaginilor și videourilor pentru a îmbunătăți calitatea producției.

2. Modele generative bazate pe scor și condiționate de zgomot (SGMs)

SGMs pot genera mostre noi dintr-o distribuție dată. Ele funcționează prin învățarea unei funcții de scor care poate estima densitatea log a distribuției țintă. Estimarea densității log face presupuneri pentru punctele de date disponibile care fac parte dintr-un set de date necunoscut (set de test). Această funcție de scor poate genera apoi noi puncte de date din distribuție.

De exemplu, deep fake-urile sunt notorii pentru producerea de videouri și audio fake ale unor personalități celebre. Dar ele sunt atribuite în principal Rețelelor Adversariale Generative (GANs). Cu toate acestea, SGMs au arătat capacități similare – și uneori le depășesc – în generarea de fețe de celebrități de înaltă calitate. De asemenea, SGMs pot ajuta la extinderea seturilor de date din domeniul sănătății, care nu sunt disponibile în cantități mari din cauza reglementărilor stricte și standardelor din industrie.

3. Ecuații diferențiale stocastice (SDEs)

SDEs descriu modificările în procese aleatorii în raport cu timpul. Ele sunt utilizate pe scară largă în fizică și în piețele financiare care implică factori aleatorii care au un impact semnificativ asupra rezultatelor pieței.

De exemplu, prețurile mărfurilor sunt foarte dinamice și sunt afectate de o gamă largă de factori aleatorii. SDEs calculează derivate financiare, cum ar fi contractele futures (cum ar fi contractele de petrol). Ele pot modela fluctuațiile și pot calcula prețuri favorabile cu exactitate pentru a oferi o senzație de securitate.

Aplicări majore ale modelelor de difuziune în IA

Să aruncăm o privire asupra unor practici și utilizări larg răspândite ale modelelor de difuziune în IA.

Generarea de videouri de înaltă calitate

Crearea de videouri de înaltă calitate utilizând învățarea profundă este o sarcină dificilă, deoarece necesită o continuitate ridicată a cadrului video. Aici intervin modelele de difuziune, deoarece pot genera un subset de cadre video pentru a umple cadrele lipsă, rezultând videouri de înaltă calitate și netede, fără întârziere.

Cercetătorii au dezvoltat Modelul de difuziune flexibil și difuzia reziduală a videourilor pentru a servi acestui scop. Aceste modele pot produce, de asemenea, videouri realiste prin adăugarea de cadre generate de IA între cadrele reale.

Aceste modele pot extinde cu ușurință FPS (cadre pe secundă) al unui video cu FPS scăzut prin adăugarea de cadre fictive după ce au învățat modelele din cadrele disponibile. Cu o pierdere minimă de cadre, aceste cadre pot asista, de asemenea, modelele bazate pe învățarea profundă pentru a genera videouri bazate pe IA de la zero, care arată ca niște imagini naturale realizate cu camere de înaltă calitate.

O gamă largă de generatoare de videouri IA este disponibilă în 2023 pentru a face producția și editarea de conținut video rapidă și ușoară.

Generarea de imagini din text

Modelele de text-la-imagini utilizează prompturi de intrare pentru a genera imagini de înaltă calitate. De exemplu, furnizarea promptului “măr roșu pe o farfurie” și producerea unei imagini fotorealiste a unui măr pe o farfurie. Difuzia amestecată și unCLIP sunt două exemple proeminente de astfel de modele care pot genera imagini foarte relevante și precise pe baza intrării utilizatorului.

De asemenea, GLIDE de la OpenAI este o altă soluție cunoscută pe scară largă, lansată în 2021, care produce imagini fotorealiste utilizând intrarea utilizatorului. Ulterior, OpenAI a lansat DALL.E-2, cel mai avansat model de generare de imagini de până acum.

Similar, Google a dezvoltat, de asemenea, un model de generare de imagini cunoscut sub numele de Imagen, care utilizează un model de limbaj mare pentru a dezvolta o înțelegere profundă a textului de intrare și apoi generează imagini fotorealiste.

Am menționat mai sus și alte unelte populare de generare de imagini, cum ar fi Midjourney și Stable Diffusion (DreamStudio). Aruncați o privire asupra unei imagini generate utilizând Stable Diffusion mai jos.

O imagine creată cu Stable Diffusion 1.5

O imagine creată cu Stable Diffusion 1.5 folosind promptul: „colaje, hiper-realiste, multe variații portret de Thom Yorke bătrân, variații de față, cântăreț-textier, (profil) lateral, diferite vârste, obiectiv macro, spațiu liminal, de Lee Bermejo, Alphonse Mucha și Greg Rutkowski, barbă cenușie, față netedă, oase ale obrajilor”

Modele de difuziune în IA – Ce să așteptați în viitor?

Modelele de difuziune au arătat un potențial promițător ca abordare robustă pentru generarea de mostre de înaltă calitate din seturi de date complexe de imagini și videouri. Prin îmbunătățirea capacității umane de a utiliza și manipula datele, modelele de difuziune pot revolutiona lumea așa cum o vedem astăzi. Ne putem aștepta să vedem și mai multe aplicații ale modelelor de difuziune devenind o parte integrantă a vieții noastre de zi cu zi.

Cu toate acestea, modelele de difuziune nu sunt singura tehnică de IA generativă. Cercetătorii utilizează, de asemenea, Rețele Adversariale Generative (GANs), Autoencodere Variationale și modele generative profunde bazate pe flux pentru a genera conținut IA. Înțelegerea caracteristicilor fundamentale care diferențiază modelele de difuziune de alte modele generative poate ajuta la producerea de soluții mai eficiente în zilele următoare.

Pentru a afla mai multe despre tehnologiile bazate pe IA, vizitați Unite.ai. Verificați resursele noastre selectate despre unelte de IA generativă mai jos.

Haziqa este un specialist în știința datelor cu o experiență vastă în scrierea de conținut tehnic pentru companii de inteligență artificială și SaaS.