IA 101

Modele de difuziune în IA – Tot ce trebuie să știți

mm
A collage of human faces created using AI image generator

În ecosistemul IA, modelele de difuziune stabilesc direcția și ritmul progresului tehnologic. Ele revolutionează modul în care abordăm sarcinile complexe de IA generativă. Aceste modele se bazează pe matematica principiilor gaussiene, a varianței, a ecuațiilor diferențiale și a secvențelor generative. (Vom explica jargonul tehnic mai jos)

Produsele și soluțiile moderne bazate pe IA, dezvoltate de Nvidia, Google, Adobe și OpenAI, au pus modelele de difuziune în centrul atenției. DALL.E 2, Stable Diffusion și Midjourney sunt exemple proeminente de modele de difuziune care fac valuri pe internet în ultima vreme. Utilizatorii furnizează un prompt de text simplu ca intrare, iar aceste modele pot converti promptul în imagini realiste, cum ar fi cea prezentată mai jos.

O imagine generată cu Midjourney v5 folosind promptul: maci californieni vibranti.

O imagine generată cu Midjourney v5 folosind promptul: maci californieni vibranti. Sursă: Midjourney

Să explorăm principiile fundamentale de funcționare ale modelelor de difuziune și modul în care ele schimbă direcțiile și normele lumii așa cum o vedem astăzi.

Ce sunt modelele de difuziune?

Conform publicației de cercetare “Modele de difuziune probabilistică de denoising“, modelele de difuziune sunt definite ca:

“Un model de difuziune sau un model de difuziune probabilistică este o lanț Markov parametrizat, antrenat folosind inferență variatională pentru a produce mostre care se potrivesc cu datele după un timp finit”

În mod simplu, modelele de difuziune pot genera date asemănătoare cu cele pe care sunt antrenate. Dacă modelul este antrenat pe imagini de pisici, poate genera imagini realiste de pisici.

Acum să încercăm să descompunem definiția tehnică menționată mai sus. Modelele de difuziune iau inspirație din principiul de funcționare și fundația matematică a unui model probabilistic care poate analiza și prezice comportamentul unui sistem care variază în timp, cum ar fi previziunea randamentului pieței bursiere sau răspândirea pandemiei.

Definiția afirmă că ele sunt lanțuri Markov parametrizate, antrenate cu inferență variatională. Lanțurile Markov sunt modele matematice care definesc un sistem care trece prin diferite stări în timp. Starea curentă a sistemului poate determina doar probabilitatea de a trece într-o anumită stare. Cu alte cuvinte, starea curentă a unui sistem deține stările posibile pe care sistemul le poate urma sau dobândi la un moment dat.

Antrenarea modelului folosind inferență variatională implică calcule complexe pentru distribuții de probabilitate. Scopul este de a găsi parametrii exacti ai lanțului Markov care se potrivesc cu datele observate (cunoscute sau reale) după un timp specific. Acest proces minimizează valoarea funcției de pierdere a modelului, care este diferența dintre starea prevăzută (necunoscută) și starea observată (cunoscută).

Odată antrenat, modelul poate genera mostre care se potrivesc cu datele observate. Aceste mostre reprezintă traiectorii posibile sau stări pe care sistemul le poate urma în timp, iar fiecare traiectorie are o probabilitate diferită de a se întâmpla. Prin urmare, modelul poate prezice comportamentul viitor al sistemului generând o serie de mostre și găsind probabilitățile respective (probabilitatea ca aceste evenimente să se întâmple).

Cum se interpretează modelele de difuziune în IA?

Modelele de difuziune sunt modele generative profunde care funcționează prin adăugarea de zgomot (zgomot gaussian) la datele de antrenare disponibile (cunoscute și sub numele de proces de difuziune directă) și apoi inversarea procesului (cunoscut sub numele de denoising sau proces de difuziune inversă) pentru a recupera datele. Modelul învață treptat să elimine zgomotul. Acest proces de denoising învățat generează imagini noi de înaltă calitate din semințe aleatorii (imagini zgomotoase aleatorii), așa cum se arată în ilustrația de mai jos.

Proces de difuziune inversă: o imagine zgomotoasă este curățată pentru a recupera imaginea originală (sau pentru a genera variații ale acesteia) prin intermediul unui model de difuziune antrenat.

Proces de difuziune inversă: o imagine zgomotoasă este curățată pentru a recupera imaginea originală (sau pentru a genera variații ale acesteia) prin intermediul unui model de difuziune antrenat. Sursă: Modele de difuziune probabilistică de denoizing

3 categorii de modele de difuziune

Există trei cadre matematice fundamentale care stau la baza științei din spatele modelelor de difuziune. Toate cele trei funcționează pe aceleași principii de adăugare de zgomot și apoi de eliminare a zgomotului pentru a genera mostre noi. Să discutăm despre ele mai jos.

Un model de difuziune adaugă și elimină zgomot dintr-o imagine.

Un model de difuziune adaugă și elimină zgomot dintr-o imagine. Sursă: Modele de difuziune în viziune: un studiu

1. Modele de difuziune probabilistică de denoising (DDPMs)

Așa cum s-a explicat mai sus, DDPMs sunt modele generative utilizate în principal pentru a elimina zgomotul din datele vizuale sau audio. Ele au arătat rezultate impresionante în diverse sarcini de denoising de imagini și audio. De exemplu, industria cinematografică utilizează instrumente moderne de procesare de imagini și video pentru a îmbunătăți calitatea producției.

2. Modele generative bazate pe scor condiționat de zgomot (SGMs)

SGMs pot genera mostre noi dintr-o distribuție dată. Ele funcționează prin învățarea unei funcții de estimare a scorului care poate estima densitatea logaritmică a distribuției țintă. Estimarea densității logaritmică face presupuneri pentru punctele de date disponibile care fac parte dintr-un set de date necunoscut (set de testare). Această funcție de scor poate genera apoi noi puncte de date din distribuție.

De exemplu, deep fake-urile sunt notorii pentru producerea de videouri și audio fake ale personalităților celebre. Dar ele sunt atribuite în mare parte Rețelelor Adversariale Generative (GANs). Cu toate acestea, SGMs au demonstrat capacități similare – uneori mai bune – în generarea de fețe de calitate superioară ale celebrităților. De asemenea, SGMs pot ajuta la extinderea seturilor de date din domeniul sănătății, care nu sunt disponibile în cantități mari din cauza reglementărilor și standardelor industriale stricte.

3. Ecuații diferențiale stocastice (SDEs)

SDEs descriu modificările în procese aleatorii în funcție de timp. Ele sunt utilizate pe scară largă în fizică și în piețele financiare care implică factori aleatorii care afectează semnificativ rezultatele.

De exemplu, prețurile materialelor prime sunt extrem de dinamice și afectate de o serie de factori aleatorii. SDEs calculează derivate financiare, cum ar fi contractele futures (cum ar fi contractele de petrol). Ele pot modela fluctuațiile și calcula prețuri avantajoase cu exactitate pentru a oferi o senzație de securitate.

Aplicații majore ale modelelor de difuziune în IA

Să examinăm unele practici și utilizări larg răspândite ale modelelor de difuziune în IA.

Generarea de videouri de înaltă calitate

Crearea de videouri de înaltă calitate utilizând învățarea profundă este dificilă, deoarece necesită o continuitate ridicată a cadrului video. Aici intervin modelele de difuziune, deoarece pot genera un subset de cadre video pentru a umple cadrele lipsă, rezultând videouri de înaltă calitate și netede, fără întârziere.

Cercetătorii au dezvoltat tehnici de difuziune flexibilă și de difuziune de video reziduală pentru a servi acest scop. Aceste modele pot produce, de asemenea, videouri realiste prin adăugarea de cadre generate de IA între cadrele reale.

Aceste modele pot extinde simplu frecvența de cadre pe secundă (FPS) a unui video cu FPS scăzut prin adăugarea de cadre fictive după ce au învățat modelele din cadrele disponibile. Cu aproape nicio pierdere de cadre, aceste cadre pot asista, de asemenea, modelele bazate pe învățarea profundă pentru a genera videouri bazate pe IA de la zero, care arată ca niște cadre naturale dintr-un setup de cameră de înaltă calitate.

Există o gamă largă de generatoare de videouri IA disponibile în 2023 pentru a face producția și editarea de conținut video rapidă și simplă.

Generarea de imagini din text

Modelele de imagine din text utilizează prompturi de intrare pentru a genera imagini de înaltă calitate. De exemplu, oferind promptul “măr roșu pe o farfurie” și producând o imagine fotorealistică a unui măr pe o farfurie. Difuziunea amestecată și unCLIP sunt două exemple proeminente de astfel de modele care pot genera imagini extrem de relevante și precise pe baza intrării utilizatorului.

De asemenea, GLIDE de la OpenAI este o altă soluție cunoscută lansată în 2021 care produce imagini fotorealiste utilizând intrarea utilizatorului. Ulterior, OpenAI a lansat DALL.E-2, cel mai avansat model de generare de imagini până în prezent.

La fel, Google a dezvoltat, de asemenea, un model de generare de imagini cunoscut sub numele de Imagen, care utilizează un model de limbaj mare pentru a dezvolta o înțelegere textuală profundă a textului de intrare și apoi generează imagini fotorealiste.

Am menționat și alte unelte populare de generare de imagini, cum ar fi Midjourney și Stable Diffusion (DreamStudio). Iată o imagine generată utilizând Stable Diffusion mai jos.

O imagine creată cu Stable Diffusion 1.5

O imagine creată cu Stable Diffusion 1.5 utilizând promptul: “colaje, hiper-realiste, multe variații portret de Thom Yorke bătrân, variații de față, cântăreț-compozitor, (profil) lateral, diferite vârste, obiectiv macro, spațiu liminal, de Lee Bermejo, Alphonse Mucha și Greg Rutkowski, barbă albă, față netedă, pomeți”

Modele de difuziune în IA – Ce putem aștepta în viitor?

Modelele de difuziune au arătat un potențial promițător ca abordare robustă pentru generarea de mostre de înaltă calitate din seturi de date complexe de imagini și video. Îmbunătățind capacitatea umană de a utiliza și manipula datele, modelele de difuziune pot revoluționa lumea așa cum o vedem astăzi. Ne putem aștepta să vedem și mai multe aplicații ale modelelor de difuziune care devin parte integrantă a vieții noastre de zi cu zi.

Spunând aceasta, modelele de difuziune nu sunt singura tehnică de IA generativă. Cercetătorii utilizează, de asemenea, Rețele Adversariale Generative (GANs), Autoencoderi Variational și modele generative profunde bazate pe flux pentru a genera conținut IA. Înțelegerea caracteristicilor fundamentale care diferențiază modelele de difuziune de alte modele generative poate ajuta la producerea de soluții mai eficiente în zilele următoare.

Pentru a învăța mai multe despre tehnologiile bazate pe IA, vizitați Unite.ai. Consultați resursele noastre selectate despre unelte de IA generativă mai jos.

Haziqa este un specialist în știința datelor cu o experiență vastă în scrierea de conținut tehnic pentru companii de inteligență artificială și SaaS.