Mākslīgais intelekts

Difūzijas modeļi AI — viss, kas jums jāzina

Izdots

pirms 1 gads

Marts 31, 2023

Cilvēku seju kolāža, kas izveidota, izmantojot AI attēlu ģeneratoru

AI ekosistēmā difūzijas modeļi nosaka tehnoloģiskās attīstības virzienu un tempu. Tie maina mūsu pieeju kompleksajiem ģeneratīvais AI uzdevumus. Šie modeļi ir balstīti uz Gausa principu matemātiku, dispersiju, diferenciālvienādojumiem un ģeneratīvām secībām. (Tālāk mēs izskaidrosim tehnisko žargonu)

Mūsdienīgi uz mākslīgo intelektu orientēti produkti un risinājumi, ko izstrādājuši Nvidia, Google, Adobe un OpenAI, uzmanības centrā ir izvirzījuši difūzijas modeļus. DALL.E 2, Stabila difūzija, un Pusceļš ir izcili difūzijas modeļu piemēri, kas pēdējā laikā tiek izplatīti internetā. Lietotāji kā ievadi nodrošina vienkāršu teksta uzvedni, un šie modeļi var pārvērst tos reālistiskos attēlos, piemēram, tālāk redzamajos attēlos.

Attēls, kas ģenerēts ar Midjourney v5, izmantojot ievades uzvedni: dinamiskas Kalifornijas magones. Avots: Pusceļš

Izpētīsim difūzijas modeļu darbības pamatprincipus un to, kā tie maina pasaules virzienus un normas, kādu mēs to redzam šodien.

Kas ir difūzijas modeļi?

Saskaņā ar pētījumu publikāciju "Trokšņa slāpēšanas difūzijas varbūtības modeļi”, difūzijas modeļi ir definēti kā:

"Difūzijas modelis vai varbūtības difūzijas modelis ir parametrizēta Markova ķēde, kas apmācīta, izmantojot variācijas secinājumus, lai iegūtu paraugus, kas atbilst datiem pēc ierobežota laika."

Vienkārši izsakoties, difūzijas modeļi var ģenerēt datus, kas ir līdzīgi tiem, uz kuriem tie ir apmācīti. Ja modelis apmāca kaķu attēlus, tas var radīt līdzīgus reālistiskus kaķu attēlus.

Tagad mēģināsim izjaukt iepriekš minēto tehnisko definīciju. Difūzijas modeļi iedvesmoti no varbūtības modeļa darbības principa un matemātiskā pamata, kas var analizēt un prognozēt sistēmas uzvedību, kas laika gaitā mainās, piemēram, prognozējot akciju tirgus atdevi vai pandēmijas izplatību.

Definīcija nosaka, ka tās ir parametrizētas Markova ķēdes, kas apmācītas ar variācijas secinājumiem. Markova ķēdes ir matemātiski modeļi, kas definē sistēmu, kas laika gaitā pārslēdzas starp dažādiem stāvokļiem. Sistēmas esošais stāvoklis var noteikt tikai iespējamību pāriet uz noteiktu stāvokli. Citiem vārdiem sakot, pašreizējais sistēmas stāvoklis satur iespējamos stāvokļus, kuriem sistēma var sekot vai iegūt jebkurā laikā.

Modeļa apmācība, izmantojot variācijas secinājumus, ietver sarežģītus varbūtības sadalījumu aprēķinus. Tā mērķis ir atrast precīzus Markova ķēdes parametrus, kas atbilst novērotajiem (zināmajiem vai faktiskajiem) datiem pēc noteikta laika. Šis process samazina modeļa zuduma funkcijas vērtību, kas ir starpība starp prognozēto (nezināmo) un novēroto (zināmo) stāvokli.

Pēc apmācības modelis var ģenerēt paraugus, kas atbilst novērotajiem datiem. Šie paraugi atspoguļo iespējamās trajektorijas vai stāvokli, ko sistēma varētu sekot vai iegūt laika gaitā, un katrai trajektorijai ir atšķirīga iespējamība. Tādējādi modelis var paredzēt sistēmas turpmāko uzvedību, ģenerējot paraugu diapazonu un atrodot to attiecīgās varbūtības (šo notikumu iespējamību).

Kā interpretēt difūzijas modeļus AI?

Difūzijas modeļi ir dziļi ģeneratīvi modeļi, kas darbojas, pievienojot troksni (Gausa troksni) pieejamajiem apmācības datiem (pazīstams arī kā tiešās difūzijas process) un pēc tam apgriežot procesu (pazīstams kā trokšņa samazināšana vai reversās difūzijas process), lai atgūtu datus. Modelis pamazām iemācās noņemt troksni. Šis apgūtais trokšņu slāpēšanas process ģenerē jaunus augstas kvalitātes attēlus no nejaušām sēklām (nejauši trokšņu attēli), kā parādīts tālāk esošajā attēlā.

Reversās difūzijas process: trokšņains attēls tiek noņemts, lai atgūtu sākotnējo attēlu (vai radītu tā variācijas), izmantojot apmācītu difūzijas modeli. Avots: Trokšņa slāpēšanas difūzijas varbūtības modeļi

3 difūzijas modeļa kategorijas

Tur ir trīs pamata matemātiskās sistēmas kas ir difūzijas modeļu zinātnes pamatā. Visi trīs darbojas pēc tiem pašiem principiem, pievienojot troksni un pēc tam to noņemot, lai radītu jaunus paraugus. Apspriedīsim tos tālāk.

Difūzijas modelis attēlam pievieno un noņem troksni. Avots: Difūzijas modeļi redzējumā: aptauja

1. Denoizing difūzijas varbūtības modeļi (DDPM)

Kā paskaidrots iepriekš, DDPM ir ģeneratīvi modeļi, ko galvenokārt izmanto, lai noņemtu troksni no vizuālajiem vai audio datiem. Viņi ir uzrādījuši iespaidīgus rezultātus dažādos attēla un audio trokšņa samazināšanas uzdevumos. Piemēram, filmu ražošanas nozare izmanto modernus attēlu un video apstrādes rīkus, lai uzlabotu ražošanas kvalitāti.

2. Trokšņu nosacīti uz rezultātiem balstīti ģeneratīvie modeļi (SGM)

SGM var ģenerēt jaunus paraugus no noteiktā sadalījuma. Viņi strādā, apgūstot novērtējuma punktu funkciju, kas var novērtēt mērķa sadalījuma log blīvumu. Žurnāla blīvuma novērtējums par pieejamajiem datu punktiem izdara pieņēmumus, ka tā ir daļa no nezināmas datu kopas (testa kopas). Pēc tam šī punktu funkcija var ģenerēt jaunus datu punktus no sadalījuma.

Piemēram, dziļi viltojumi ir bēdīgi slaveni ar slavenu personību viltotu video un audio ierakstu veidošanu. Bet tie galvenokārt tiek attiecināti uz Ģeneratīvie pretrunīgie tīkli (GAN). Tomēr SGM ir uzrādīja līdzīgas spējas – reizēm pārspēj – augstas kvalitātes slavenību seju radīšanā. Turklāt SGM var palīdzēt paplašināt veselības aprūpes datu kopas, kuras nav viegli pieejamas lielos daudzumos stingru noteikumu un nozares standartu dēļ.

3. Stohastiskie diferenciālvienādojumi (SDE)

SDE apraksta izmaiņas nejaušos procesos attiecībā uz laiku. Tos plaši izmanto fizikā un finanšu tirgos, iesaistot nejaušus faktorus, kas būtiski ietekmē tirgus rezultātus.

Piemēram, preču cenas ir ļoti dinamiskas, un tās ietekmē dažādi nejauši faktori. SDE aprēķina atvasinātos finanšu instrumentus, piemēram, nākotnes līgumus (piemēram, jēlnaftas līgumus). Viņi var modelēt svārstības un precīzi aprēķināt izdevīgas cenas, lai radītu drošības sajūtu.

Galvenie difūzijas modeļu pielietojumi AI

Apskatīsim dažas plaši pielāgotas metodes un difūzijas modeļu lietojumus AI.

Augstas kvalitātes video ģenerēšana

Augstas klases videoklipu izveide, izmantojot dziļa mācīšanās ir izaicinājums, jo tam nepieciešama augsta video kadru nepārtrauktība. Šeit noder difūzijas modeļi, jo tie var ģenerēt video kadru apakškopu, lai aizpildītu trūkstošos kadrus, tādējādi nodrošinot augstas kvalitātes un vienmērīgus videoklipus bez latentuma.

Pētnieki ir izstrādājuši Elastīgs difūzijas modelis un atlikušā video difūzija metodes, kas kalpo šim mērķim. Šie modeļi var arī radīt reālistiskus videoklipus, starp faktiskajiem kadriem nemanāmi pievienojot AI ģenerētus kadrus.

Šie modeļi var vienkārši pagarināt FPS (kadri sekundē) zema FPS video, pievienojot fiktīvus kadrus pēc tam, kad ir iemācījušies modeļus no pieejamajiem kadriem. Gandrīz nezaudējot kadrus, šie ietvari var vēl vairāk palīdzēt uz dziļām mācībām balstītiem modeļiem, lai no jauna ģenerētu uz AI balstītus videoklipus, kas izskatās kā dabiski kadri no augstākās klases kameru iestatījumiem.

Plašs ievērojamo AI video ģeneratori ir pieejams 2023. gadā, lai padarītu video satura veidošanu un rediģēšanu ātru un vienkāršu.

Teksta pārveidošana attēlā

Teksta pārveides modeļi izmanto ievades uzvednes, lai ģenerētu augstas kvalitātes attēlus. Piemēram, ievadot “sarkans ābols uz šķīvja” un izveidojot fotoreālistisku ābola attēlu uz šķīvja. Jaukta difūzija un unCLIP ir divi izcili šādu modeļu piemēri, kas var ģenerēt ļoti atbilstošus un precīzus attēlus, pamatojoties uz lietotāja ievadi.

Arī OpenAI GLIDE ir vēl viens plaši pazīstams risinājums, kas tika izlaists 2021. gadā un kas rada fotoreālistiskus attēlus, izmantojot lietotāja ievadi. Vēlāk OpenAI izlaida DALL.E-2, savu līdz šim vismodernāko attēlu ģenerēšanas modeli.

Tāpat Google ir izstrādājis arī attēlu ģenerēšanas modeli, kas pazīstams kā Attēls, kas izmanto lielu valodas modeli, lai attīstītu dziļu teksta izpratni par ievades tekstu, un pēc tam ģenerē fotoreālistiskus attēlus.

Mēs esam minējuši citus populārus attēlu ģenerēšanas rīkus, piemēram, Midjourney un Stable Diffusion (sapņu studija) virs. Tālāk skatiet attēlu, kas ģenerēts, izmantojot Stable Diffusion.

Cilvēku seju kolāža, kas izveidota ar Stable Diffusion 1.5

Attēls, kas izveidots ar Stable Diffusion 1.5, izmantojot šādu uzvedni: “kolāžas, hiperreālistisks, daudzas variācijas ļoti veca Toma Jorka portrets, sejas variācijas, dziedātājs-dziesmu autors, ( sānu ) profils, dažādi vecumi, makro objektīvs, liminālā telpa, autors Lī Bermejo, Alfonss Manya un Gregs Rutkovskis, sirmā bārda, gluda seja, vaigu kauli”

Difūzijas modeļi AI — ko sagaidīt nākotnē?

Difūzijas modeļi ir atklājuši daudzsološu potenciālu kā stabilu pieeju augstas kvalitātes paraugu ģenerēšanai no sarežģītām attēlu un video datu kopām. Uzlabojot cilvēku spējas izmantot un manipulēt ar datiem, difūzijas modeļi var potenciāli mainīt pasauli, kādu mēs to redzam šodien. Mēs varam sagaidīt, ka vēl vairāk difūzijas modeļu lietojumu kļūs par mūsu ikdienas dzīves neatņemamu sastāvdaļu.

To sakot, difūzijas modeļi nav vienīgā ģeneratīvā AI tehnika. Pētnieki izmanto arī ģeneratīvos pretrunīgos tīklus (GAN), variācijas Autokodētājiun uz plūsmām balstīti dziļi ģeneratīvi modeļi AI satura ģenerēšanai. Izpratne par pamatīpašībām, kas atšķir difūzijas modeļus no citiem ģeneratīvajiem modeļiem, var palīdzēt izstrādāt efektīvākus risinājumus tuvākajās dienās.

Lai uzzinātu vairāk par tehnoloģijām, kuru pamatā ir AI, apmeklējiet vietni Unite.ai. Tālāk skatiet mūsu atlasītos resursus par ģeneratīvajiem AI rīkiem.