- Terminoloģija (A līdz D)
- AI iespēju kontrole
- AI Ops
- albumi
- Aktīvu veiktspēja
- Autoencoder
- Pavairošana atpakaļ
- Bayes teorēma
- Big Datu
- Chatbot: ceļvedis iesācējiem
- Skaitļošanas domāšana
- Datoru vīzija
- Apjukuma matrica
- Konvolūcijas neironu tīkli
- Kiberdrošība
- Datu audums
- Datu stāstīšana
- Datu Zinātne
- Datu glabāšana
- Lēmumu koks
- Deepfakes
- Dziļa mācīšanās
- Dziļa pastiprināšanas mācīšanās
- DevOps
- DevSecOps
- Difūzijas modeļi
- Digital Twin
- Dimensiju samazināšana
- Terminoloģija (no E līdz K)
- Edge AI
- Emociju AI
- Ansambļa mācības
- Ētiskā uzkrāšana
- ETL
- Izskaidrojams AI
- Federēta mācīšanās
- FinOps
- Ģeneratīvais AI
- Ģeneratīvs pretrunīgs tīkls
- Ģeneratīvs pret diskriminējošu
- Gradienta palielināšana
- Gradienta nolaišanās
- Dažu metienu mācības
- Attēlu klasifikācija
- IT operācijas (ITOps)
- Incidentu automatizācija
- Ietekmes inženierija
- K-Means klasterizācija
- K-Tuvākie kaimiņi
- Terminoloģija (L–Q)
- Terminoloģija (no R līdz Z)
- Pastiprināšanas mācības
- Atbildīgs AI
- RLHF
- Robotu procesu automatizācija
- Strukturēts pret nestrukturētu
- Sentimentu analīze
- Uzraudzīts pret neuzraudzīto
- Atbalsta vektora mašīnas
- Sintētiskie dati
- Sintētiskie mediji
- Teksta klasifikācija
- TinyML
- Pārneses mācības
- Transformatoru neironu tīkli
- Tjūringa tests
- Vektoru līdzības meklēšana
Mākslīgais intelekts
Difūzijas modeļi AI — viss, kas jums jāzina
Izdots
pirms 1 gadson
By
Hazika SajidSatura rādītājs
AI ekosistēmā difūzijas modeļi nosaka tehnoloģiskās attīstības virzienu un tempu. Tie maina mūsu pieeju kompleksajiem ģeneratīvais AI uzdevumus. Šie modeļi ir balstīti uz Gausa principu matemātiku, dispersiju, diferenciālvienādojumiem un ģeneratīvām secībām. (Tālāk mēs izskaidrosim tehnisko žargonu)
Mūsdienīgi uz mākslīgo intelektu orientēti produkti un risinājumi, ko izstrādājuši Nvidia, Google, Adobe un OpenAI, uzmanības centrā ir izvirzījuši difūzijas modeļus. DALL.E 2, Stabila difūzija, un Pusceļš ir izcili difūzijas modeļu piemēri, kas pēdējā laikā tiek izplatīti internetā. Lietotāji kā ievadi nodrošina vienkāršu teksta uzvedni, un šie modeļi var pārvērst tos reālistiskos attēlos, piemēram, tālāk redzamajos attēlos.
Izpētīsim difūzijas modeļu darbības pamatprincipus un to, kā tie maina pasaules virzienus un normas, kādu mēs to redzam šodien.
Kas ir difūzijas modeļi?
Saskaņā ar pētījumu publikāciju "Trokšņa slāpēšanas difūzijas varbūtības modeļi”, difūzijas modeļi ir definēti kā:
"Difūzijas modelis vai varbūtības difūzijas modelis ir parametrizēta Markova ķēde, kas apmācīta, izmantojot variācijas secinājumus, lai iegūtu paraugus, kas atbilst datiem pēc ierobežota laika."
Vienkārši izsakoties, difūzijas modeļi var ģenerēt datus, kas ir līdzīgi tiem, uz kuriem tie ir apmācīti. Ja modelis apmāca kaķu attēlus, tas var radīt līdzīgus reālistiskus kaķu attēlus.
Tagad mēģināsim izjaukt iepriekš minēto tehnisko definīciju. Difūzijas modeļi iedvesmoti no varbūtības modeļa darbības principa un matemātiskā pamata, kas var analizēt un prognozēt sistēmas uzvedību, kas laika gaitā mainās, piemēram, prognozējot akciju tirgus atdevi vai pandēmijas izplatību.
Definīcija nosaka, ka tās ir parametrizētas Markova ķēdes, kas apmācītas ar variācijas secinājumiem. Markova ķēdes ir matemātiski modeļi, kas definē sistēmu, kas laika gaitā pārslēdzas starp dažādiem stāvokļiem. Sistēmas esošais stāvoklis var noteikt tikai iespējamību pāriet uz noteiktu stāvokli. Citiem vārdiem sakot, pašreizējais sistēmas stāvoklis satur iespējamos stāvokļus, kuriem sistēma var sekot vai iegūt jebkurā laikā.
Modeļa apmācība, izmantojot variācijas secinājumus, ietver sarežģītus varbūtības sadalījumu aprēķinus. Tā mērķis ir atrast precīzus Markova ķēdes parametrus, kas atbilst novērotajiem (zināmajiem vai faktiskajiem) datiem pēc noteikta laika. Šis process samazina modeļa zuduma funkcijas vērtību, kas ir starpība starp prognozēto (nezināmo) un novēroto (zināmo) stāvokli.
Pēc apmācības modelis var ģenerēt paraugus, kas atbilst novērotajiem datiem. Šie paraugi atspoguļo iespējamās trajektorijas vai stāvokli, ko sistēma varētu sekot vai iegūt laika gaitā, un katrai trajektorijai ir atšķirīga iespējamība. Tādējādi modelis var paredzēt sistēmas turpmāko uzvedību, ģenerējot paraugu diapazonu un atrodot to attiecīgās varbūtības (šo notikumu iespējamību).
Kā interpretēt difūzijas modeļus AI?
Difūzijas modeļi ir dziļi ģeneratīvi modeļi, kas darbojas, pievienojot troksni (Gausa troksni) pieejamajiem apmācības datiem (pazīstams arī kā tiešās difūzijas process) un pēc tam apgriežot procesu (pazīstams kā trokšņa samazināšana vai reversās difūzijas process), lai atgūtu datus. Modelis pamazām iemācās noņemt troksni. Šis apgūtais trokšņu slāpēšanas process ģenerē jaunus augstas kvalitātes attēlus no nejaušām sēklām (nejauši trokšņu attēli), kā parādīts tālāk esošajā attēlā.
3 difūzijas modeļa kategorijas
Tur ir trīs pamata matemātiskās sistēmas kas ir difūzijas modeļu zinātnes pamatā. Visi trīs darbojas pēc tiem pašiem principiem, pievienojot troksni un pēc tam to noņemot, lai radītu jaunus paraugus. Apspriedīsim tos tālāk.
1. Denoizing difūzijas varbūtības modeļi (DDPM)
Kā paskaidrots iepriekš, DDPM ir ģeneratīvi modeļi, ko galvenokārt izmanto, lai noņemtu troksni no vizuālajiem vai audio datiem. Viņi ir uzrādījuši iespaidīgus rezultātus dažādos attēla un audio trokšņa samazināšanas uzdevumos. Piemēram, filmu ražošanas nozare izmanto modernus attēlu un video apstrādes rīkus, lai uzlabotu ražošanas kvalitāti.
2. Trokšņu nosacīti uz rezultātiem balstīti ģeneratīvie modeļi (SGM)
SGM var ģenerēt jaunus paraugus no noteiktā sadalījuma. Viņi strādā, apgūstot novērtējuma punktu funkciju, kas var novērtēt mērķa sadalījuma log blīvumu. Žurnāla blīvuma novērtējums par pieejamajiem datu punktiem izdara pieņēmumus, ka tā ir daļa no nezināmas datu kopas (testa kopas). Pēc tam šī punktu funkcija var ģenerēt jaunus datu punktus no sadalījuma.
Piemēram, dziļi viltojumi ir bēdīgi slaveni ar slavenu personību viltotu video un audio ierakstu veidošanu. Bet tie galvenokārt tiek attiecināti uz Ģeneratīvie pretrunīgie tīkli (GAN). Tomēr SGM ir uzrādīja līdzīgas spējas – reizēm pārspēj – augstas kvalitātes slavenību seju radīšanā. Turklāt SGM var palīdzēt paplašināt veselības aprūpes datu kopas, kuras nav viegli pieejamas lielos daudzumos stingru noteikumu un nozares standartu dēļ.
3. Stohastiskie diferenciālvienādojumi (SDE)
SDE apraksta izmaiņas nejaušos procesos attiecībā uz laiku. Tos plaši izmanto fizikā un finanšu tirgos, iesaistot nejaušus faktorus, kas būtiski ietekmē tirgus rezultātus.
Piemēram, preču cenas ir ļoti dinamiskas, un tās ietekmē dažādi nejauši faktori. SDE aprēķina atvasinātos finanšu instrumentus, piemēram, nākotnes līgumus (piemēram, jēlnaftas līgumus). Viņi var modelēt svārstības un precīzi aprēķināt izdevīgas cenas, lai radītu drošības sajūtu.
Galvenie difūzijas modeļu pielietojumi AI
Apskatīsim dažas plaši pielāgotas metodes un difūzijas modeļu lietojumus AI.
Augstas kvalitātes video ģenerēšana
Augstas klases videoklipu izveide, izmantojot dziļa mācīšanās ir izaicinājums, jo tam nepieciešama augsta video kadru nepārtrauktība. Šeit noder difūzijas modeļi, jo tie var ģenerēt video kadru apakškopu, lai aizpildītu trūkstošos kadrus, tādējādi nodrošinot augstas kvalitātes un vienmērīgus videoklipus bez latentuma.
Pētnieki ir izstrādājuši Elastīgs difūzijas modelis un atlikušā video difūzija metodes, kas kalpo šim mērķim. Šie modeļi var arī radīt reālistiskus videoklipus, starp faktiskajiem kadriem nemanāmi pievienojot AI ģenerētus kadrus.
Šie modeļi var vienkārši pagarināt FPS (kadri sekundē) zema FPS video, pievienojot fiktīvus kadrus pēc tam, kad ir iemācījušies modeļus no pieejamajiem kadriem. Gandrīz nezaudējot kadrus, šie ietvari var vēl vairāk palīdzēt uz dziļām mācībām balstītiem modeļiem, lai no jauna ģenerētu uz AI balstītus videoklipus, kas izskatās kā dabiski kadri no augstākās klases kameru iestatījumiem.
Plašs ievērojamo AI video ģeneratori ir pieejams 2023. gadā, lai padarītu video satura veidošanu un rediģēšanu ātru un vienkāršu.
Teksta pārveidošana attēlā
Teksta pārveides modeļi izmanto ievades uzvednes, lai ģenerētu augstas kvalitātes attēlus. Piemēram, ievadot “sarkans ābols uz šķīvja” un izveidojot fotoreālistisku ābola attēlu uz šķīvja. Jaukta difūzija un unCLIP ir divi izcili šādu modeļu piemēri, kas var ģenerēt ļoti atbilstošus un precīzus attēlus, pamatojoties uz lietotāja ievadi.
Arī OpenAI GLIDE ir vēl viens plaši pazīstams risinājums, kas tika izlaists 2021. gadā un kas rada fotoreālistiskus attēlus, izmantojot lietotāja ievadi. Vēlāk OpenAI izlaida DALL.E-2, savu līdz šim vismodernāko attēlu ģenerēšanas modeli.
Tāpat Google ir izstrādājis arī attēlu ģenerēšanas modeli, kas pazīstams kā Attēls, kas izmanto lielu valodas modeli, lai attīstītu dziļu teksta izpratni par ievades tekstu, un pēc tam ģenerē fotoreālistiskus attēlus.
Mēs esam minējuši citus populārus attēlu ģenerēšanas rīkus, piemēram, Midjourney un Stable Diffusion (sapņu studija) virs. Tālāk skatiet attēlu, kas ģenerēts, izmantojot Stable Diffusion.
Difūzijas modeļi AI — ko sagaidīt nākotnē?
Difūzijas modeļi ir atklājuši daudzsološu potenciālu kā stabilu pieeju augstas kvalitātes paraugu ģenerēšanai no sarežģītām attēlu un video datu kopām. Uzlabojot cilvēku spējas izmantot un manipulēt ar datiem, difūzijas modeļi var potenciāli mainīt pasauli, kādu mēs to redzam šodien. Mēs varam sagaidīt, ka vēl vairāk difūzijas modeļu lietojumu kļūs par mūsu ikdienas dzīves neatņemamu sastāvdaļu.
To sakot, difūzijas modeļi nav vienīgā ģeneratīvā AI tehnika. Pētnieki izmanto arī ģeneratīvos pretrunīgos tīklus (GAN), variācijas Autokodētājiun uz plūsmām balstīti dziļi ģeneratīvi modeļi AI satura ģenerēšanai. Izpratne par pamatīpašībām, kas atšķir difūzijas modeļus no citiem ģeneratīvajiem modeļiem, var palīdzēt izstrādāt efektīvākus risinājumus tuvākajās dienās.
Lai uzzinātu vairāk par tehnoloģijām, kuru pamatā ir AI, apmeklējiet vietni Unite.ai. Tālāk skatiet mūsu atlasītos resursus par ģeneratīvajiem AI rīkiem.
- 10 labākie AI attēla uzlabotāja un mērogošanas rīki
- 10 labākie AI mākslas ģeneratori
- 8 labākie AI mūzikas ģeneratori
- 9 labākie video uzlabotāja rīki un lietotnes
- 8 “labākie” AI video ģeneratori
- 10 labākie AI balss ģeneratori
- 9 “Labākie” AI rakstīšanas rīki un lietotnes
Haziqa ir datu zinātnieks ar lielu pieredzi tehniskā satura rakstīšanā AI un SaaS uzņēmumiem.
Jums varētu patikt
AniPortrait: fotoreālistiskas portreta animācijas audio vadīta sintēze
AI iekšējais dialogs: kā pašrefleksija uzlabo tērzēšanas robotus un virtuālos palīgus
Mini-Dvīņi: Multimodalitātes redzes valodu modeļu potenciāla ieguve
Tūlītējs stils: stila saglabāšana teksta pārveidošanā attēlā
LoReFT: Representation Finetuning for Language Models
Papildus meklētājprogrammām: LLM nodrošināto tīmekļa pārlūkošanas aģentu pieaugums