Dirbtinis intelektas

DI difuzijos modeliai – viskas, ką reikia žinoti

paskelbta

prieš 1 metų

Kovo 31, 2023

Žmonių veidų koliažas, sukurtas naudojant AI vaizdo generatorių

AI ekosistemoje difuzijos modeliai nustato technologinės pažangos kryptį ir tempą. Jie keičia mūsų požiūrį į kompleksą generatyvinis AI užduotys. Šie modeliai yra pagrįsti Gauso principų, dispersijos, diferencialinių lygčių ir generatyvinių sekų matematika. (Toliau paaiškinsime techninį žargoną)

Šiuolaikiniai į dirbtinį intelektą orientuoti produktai ir sprendimai, kuriuos sukūrė „Nvidia“, „Google“, „Adobe“ ir „OpenAI“, akcentuoja difuzijos modelius. DALL.E 2, Stabili difuzijair Vidurinė kelionė yra ryškūs sklaidos modelių, kurie pastaruoju metu plečiasi internete, pavyzdžiai. Vartotojai pateikia paprastą teksto raginimą kaip įvestį, o šie modeliai gali juos paversti tikroviškais vaizdais, pvz., parodytu toliau.

Vaizdas, sukurtas naudojant „Midjourney v5“, naudojant įvesties raginimą: ryškios Kalifornijos aguonos. Šaltinis: Vidurinė kelionė

Panagrinėkime pagrindinius difuzijos modelių veikimo principus ir tai, kaip jie keičia šiandieninio pasaulio kryptis ir normas.

Kas yra difuzijos modeliai?

Remiantis tyrimo publikacija „Triukšmo slopinimo difuzijos tikimybiniai modeliai“, difuzijos modeliai apibrėžiami taip:

„Difuzijos modelis arba tikimybinis difuzijos modelis yra parametrizuota Markovo grandinė, išmokyta naudojant variacinę išvadą, kad po riboto laiko būtų gaunami mėginiai, atitinkantys duomenis“

Paprasčiau tariant, difuzijos modeliai gali generuoti duomenis, panašius į tuos, kuriais jie mokomi. Jei modelis treniruojasi remdamasis kačių vaizdais, jis gali sukurti panašius tikroviškus kačių vaizdus.

Dabar pabandykime suskaidyti aukščiau minėtą techninį apibrėžimą. Difuzijos modeliai įkvėpti tikimybinio modelio veikimo principo ir matematinio pagrindo, kuris gali analizuoti ir numatyti sistemos elgseną, kuri kinta laikui bėgant, pavyzdžiui, prognozuoti akcijų rinkos grąžą arba pandemijos plitimą.

Apibrėžimas teigia, kad tai yra parametrinės Markovo grandinės, išmokytos naudojant variacinę išvadą. Markovo grandinės yra matematiniai modeliai, apibrėžiantys sistemą, kuri laikui bėgant persijungia tarp skirtingų būsenų. Esama sistemos būsena gali nulemti tik perėjimo į konkrečią būseną tikimybę. Kitaip tariant, dabartinė sistemos būsena turi galimas būsenas, kurias sistema gali sekti arba įgyti bet kuriuo metu.

Modelio mokymas naudojant variacinę išvadą apima sudėtingus tikimybių skirstinių skaičiavimus. Juo siekiama rasti tikslius Markovo grandinės parametrus, kurie atitiktų stebimus (žinomus ar faktinius) duomenis po konkretaus laiko. Šis procesas sumažina modelio praradimo funkcijos reikšmę, kuri yra skirtumas tarp numatomos (nežinomos) ir stebimos (žinomos) būsenos.

Apmokytas modelis gali generuoti mėginius, atitinkančius stebimus duomenis. Šie pavyzdžiai atspindi galimas trajektorijas arba būseną, kurią sistema gali sekti arba įgyti laikui bėgant, ir kiekviena trajektorija turi skirtingą tikimybę, kad ji įvyks. Taigi modelis gali numatyti sistemos būsimą elgesį generuodamas pavyzdžių diapazoną ir nustatydamas atitinkamas jų tikimybes (šių įvykių tikimybę).

Kaip interpretuoti difuzijos modelius AI?

Difuzijos modeliai yra gilūs generaciniai modeliai, kurie veikia prie turimų mokymo duomenų pridedant triukšmą (Gauso triukšmą) (taip pat žinomas kaip tiesioginės difuzijos procesas), o tada apverčiant procesą (vadinamą triukšmo slopinimu arba atvirkštinės difuzijos procesu), kad būtų atkurti duomenys. Modelis palaipsniui išmoksta pašalinti triukšmą. Šis išmoktas triukšmo slopinimo procesas sukuria naujus aukštos kokybės vaizdus iš atsitiktinių sėklų (atsitiktinių triukšmingų vaizdų), kaip parodyta toliau pateiktoje iliustracijoje.

Atvirkštinės difuzijos procesas: Triukšmingas vaizdas panaikinamas, kad būtų atkurtas pradinis vaizdas (arba generuojami jo variantai) naudojant išmokytą difuzijos modelį. Šaltinis: Triukšmo slopinimo difuzijos tikimybiniai modeliai

3 difuzijos modelio kategorijos

yra trys pagrindinės matematinės sistemos kuriais grindžiamas difuzijos modelių mokslas. Visi trys veikia tais pačiais principais: pridėti triukšmą ir tada jį pašalinti, kad būtų sukurti nauji pavyzdžiai. Toliau aptarkime juos.

Difuzijos modelis prideda ir pašalina vaizdo triukšmą. Šaltinis: Difuzijos modeliai vizijoje: apklausa

1. Triukšmo slopinimo difuzijos tikimybiniai modeliai (DDPM)

Kaip paaiškinta pirmiau, DDPM yra generaciniai modeliai, daugiausia naudojami triukšmui iš vaizdo ar garso duomenų pašalinti. Jie parodė įspūdingus rezultatus atliekant įvairias vaizdo ir garso triukšmo slopinimo užduotis. Pavyzdžiui, filmų kūrimo pramonė naudoja modernias vaizdo ir vaizdo apdorojimo priemones, kad pagerintų gamybos kokybę.

2. Triukšmu pagrįsti balais pagrįsti generaciniai modeliai (SGM)

SGM gali generuoti naujus pavyzdžius iš tam tikro paskirstymo. Jie dirba mokydami įvertinimo balo funkciją, kuri gali įvertinti tikslinio skirstinio log tankį. Žurnalo tankio įvertinimas daro prielaidas turimiems duomenų taškams, kad tai yra nežinomo duomenų rinkinio (testo rinkinio) dalis. Tada ši balų funkcija gali generuoti naujus duomenų taškus iš paskirstymo.

Pavyzdžiui, gilios klastotės yra žinomi dėl netikrų vaizdo įrašų ir garsių asmenybių garso įrašų kūrimo. Tačiau dažniausiai jie priskiriami Generative Adversarial Networks (GAN). Tačiau SGM turi parodė panašias galimybes – kartais pranoksta – kuriant aukštos kokybės įžymybių veidus. Be to, SGM gali padėti išplėsti sveikatos priežiūros duomenų rinkinius, kurių dėl griežtų taisyklių ir pramonės standartų nėra lengva gauti dideliais kiekiais.

3. Stochastinės diferencialinės lygtys (SDE)

SDE aprašo atsitiktinių procesų pokyčius, susijusius su laiku. Jie plačiai naudojami fizikos ir finansų rinkose, apimančiose atsitiktinius veiksnius, kurie daro didelę įtaką rinkos rezultatams.

Pavyzdžiui, prekių kainos yra labai dinamiškos ir jas veikia įvairūs atsitiktiniai veiksniai. SDE apskaičiuoja išvestines finansines priemones, pavyzdžiui, ateities sandorius (pvz., žalios naftos sutartis). Jie gali modeliuoti svyravimus ir tiksliai apskaičiuoti palankias kainas, kad suteiktų saugumo jausmą.

Pagrindiniai difuzijos modelių pritaikymai dirbtiniam intelektui

Pažvelkime į kai kurias plačiai pritaikytas DI difuzijos modelių praktikas ir naudojimo būdus.

Aukštos kokybės vaizdo įrašų generavimas

Aukštos klasės vaizdo įrašų kūrimas naudojant gilus mokymasis yra sudėtinga, nes reikia didelio vaizdo kadrų tęstinumo. Čia praverčia sklaidos modeliai, nes jie gali sukurti vaizdo kadrų poaibį, užpildyti trūkstamus kadrus, todėl vaizdo įrašai yra aukštos kokybės ir sklandūs be delsos.

Tyrėjai sukūrė Lankstus difuzijos modelis ir liekamoji vaizdo difuzija technikos šiam tikslui tarnauti. Šie modeliai taip pat gali sukurti tikroviškus vaizdo įrašus, sklandžiai pridedant AI sukurtus kadrus tarp faktinių kadrų.

Šie modeliai gali tiesiog išplėsti mažo FPS vaizdo įrašo FPS (kadrus per sekundę), pridedant netikrų kadrų, išmokus šablonus iš turimų kadrų. Beveik neprarandant kadrų, šios sistemos gali toliau padėti giliu mokymusi pagrįstiems modeliams kurti AI pagrįstus vaizdo įrašus nuo nulio, kurie atrodo kaip natūralūs kadrai iš aukščiausios klasės kameros sąrankų.

Platus asortimentas nuostabių AI vaizdo generatoriai pasiekiama 2023 m., kad vaizdo įrašų turinio kūrimas ir redagavimas būtų greitas ir paprastas.

Teksto į vaizdą generavimas

Teksto į vaizdą modeliai naudoja įvesties raginimus, kad sukurtų aukštos kokybės vaizdus. Pavyzdžiui, įvedant „raudoną obuolį lėkštėje“ ir sukuriant fotorealistinį obuolio lėkštėje vaizdą. Mišri difuzija ir unCLIP yra du ryškūs tokių modelių pavyzdžiai, kurie gali generuoti labai svarbius ir tikslius vaizdus pagal vartotojo įvestį.

taip pat, OpenAI GLIDE yra dar vienas plačiai žinomas sprendimas, išleistas 2021 m., kuris sukuria fotorealistinius vaizdus naudojant vartotojo įvestį. Vėliau OpenAI išleido DALL.E-2, pažangiausią vaizdo generavimo modelį.

Panašiai „Google“ taip pat sukūrė vaizdų generavimo modelį, žinomą kaip Vaizdas, kuris naudoja didelį kalbos modelį, kad išplėtotų gilų tekstinį įvesties teksto supratimą, o tada generuoja fotorealistinius vaizdus.

Paminėjome kitus populiarius vaizdo generavimo įrankius, tokius kaip Midjourney ir Stable Diffusion (svajonių studija) aukščiau. Peržiūrėkite toliau pateiktą vaizdą, sukurtą naudojant stabilią difuziją.

Žmonių veidų koliažas, sukurtas naudojant Stable Diffusion 1.5

Vaizdas, sukurtas naudojant „Stable Diffusion 1.5“, naudojant šį raginimą: „koliažai, hiperrealistiškas, daug variantų labai seno Tomo Jorko portretas, veido variantai, dainininkas-dainų autorius, ( šoninis ) profilis, įvairus amžius, makro objektyvas, ribinė erdvė, Lee bermejo, Alphonse Manya ir greg Rutkowski, žilabarzdis, lygus veidas, skruostikauliai“

DI difuzijos modeliai – ko tikėtis ateityje?

Difuzijos modeliai atskleidė daug žadantį potencialą kaip patikimą būdą generuoti aukštos kokybės pavyzdžius iš sudėtingų vaizdo ir vaizdo duomenų rinkinių. Gerindami žmogaus gebėjimą naudoti ir manipuliuoti duomenimis, sklaidos modeliai gali sukelti revoliuciją šiandieniniame pasaulyje. Galime tikėtis, kad dar daugiau difuzijos modelių pritaikymų taps neatsiejama mūsų kasdienio gyvenimo dalimi.

Tai pasakius, difuzijos modeliai nėra vienintelė generacinė AI technika. Tyrėjai taip pat naudoja generatyvius priešpriešinius tinklus (GAN), variacinius Automatiniai kodavimo įrenginiaiir srautu pagrįstus giluminius generavimo modelius dirbtinio intelekto turiniui generuoti. Suprasdami pagrindines charakteristikas, išskiriančias difuzijos modelius nuo kitų generuojamųjų modelių, artimiausiomis dienomis galima sukurti veiksmingesnius sprendimus.

Norėdami sužinoti daugiau apie AI pagrįstas technologijas, apsilankykite Unite.ai. Peržiūrėkite mūsų kuruojamus išteklius apie generuojančius AI įrankius.