Kunstig intelligens

Diffusjonsmodeller i AI – Alt du trenger å vite

Publisert Mars 31, 2023

Haziqa Sajid

En collage av menneskelige ansikter laget ved hjelp av AI-bildegenerator

I AI-økosystemet setter diffusjonsmodeller opp retningen og tempoet for teknologiske fremskritt. De revolusjonerer måten vi nærmer oss komplekse på generativ AI oppgaver. Disse modellene er basert på matematikken til gaussiske prinsipper, varians, differensialligninger og generative sekvenser. (Vi forklarer den tekniske sjargongen nedenfor)

Moderne AI-sentriske produkter og løsninger utviklet av Nvidia, Google, Adobe og OpenAI har satt diffusjonsmodeller i sentrum av rampelyset. DALL.E 2, Stabil diffusjonog midt på reisen er fremtredende eksempler på diffusjonsmodeller som gjør runder på internett den siste tiden. Brukere gir en enkel tekstmelding som input, og disse modellene kan konvertere dem til realistiske bilder, slik som det som vises nedenfor.

Et bilde generert med Midjourney v5 ved hjelp av inndataprompt: livlige California-valmuer. Kilde: midt på reisen

La oss utforske de grunnleggende arbeidsprinsippene til diffusjonsmodeller og hvordan de endrer retningene og normene til verden slik vi ser den i dag.

Hva er diffusjonsmodeller?

I følge forskningspublikasjonen "Denoising Diffusion Probabilistic Models", er diffusjonsmodellene definert som:

"En diffusjonsmodell eller sannsynlig diffusjonsmodell er en parameterisert Markov-kjede trent ved bruk av variasjonsinferens for å produsere prøver som samsvarer med dataene etter begrenset tid"

Enkelt sagt kan diffusjonsmodeller generere data som ligner på de de er trent på. Hvis modellen trener på bilder av katter, kan den generere lignende realistiske bilder av katter.

La oss nå prøve å bryte ned den tekniske definisjonen nevnt ovenfor. Diffusjonsmodellene er inspirert av arbeidsprinsippet og det matematiske grunnlaget for en probabilistisk modell som kan analysere og forutsi et systems oppførsel som varierer over tid, for eksempel å forutsi aksjemarkedsavkastning eller pandemiens spredning.

Definisjonen sier at de er parameteriserte Markov-kjeder trent med variasjonsslutning. Markov-kjeder er matematiske modeller som definerer et system som veksler mellom ulike tilstander over tid. Den eksisterende tilstanden til systemet kan bare bestemme sannsynligheten for overgang til en bestemt tilstand. Med andre ord, den nåværende tilstanden til et system inneholder de mulige tilstandene et system kan følge eller tilegne seg til enhver tid.

Å trene modellen ved å bruke variasjonsinferens innebærer komplekse beregninger for sannsynlighetsfordelinger. Den tar sikte på å finne de nøyaktige parametrene til Markov-kjeden som samsvarer med de observerte (kjente eller faktiske) dataene etter en bestemt tid. Denne prosessen minimerer verdien av modellens tapsfunksjon, som er forskjellen mellom forutsagt (ukjent) og observert (kjent) tilstand.

Når modellen er trent, kan den generere prøver som samsvarer med de observerte dataene. Disse prøvene representerer mulige baner eller tilstander systemet kan følge eller tilegne seg over tid, og hver bane har en ulik sannsynlighet for å skje. Derfor kan modellen forutsi systemets fremtidige oppførsel ved å generere et utvalg av prøver og finne deres respektive sannsynligheter (sannsynligheten for at disse hendelsene skal skje).

Hvordan tolke diffusjonsmodeller i AI?

Diffusjonsmodeller er dypgenerative modeller som fungerer ved å legge til støy (gaussisk støy) til de tilgjengelige treningsdataene (også kjent som foroverdiffusjonsprosessen) og deretter reversere prosessen (kjent som denoising eller den omvendte diffusjonsprosessen) for å gjenopprette dataene. Modellen lærer seg gradvis å fjerne støyen. Denne innlærte denoising-prosessen genererer nye bilder av høy kvalitet fra tilfeldige frø (tilfeldige bilder med støy), som vist i illustrasjonen nedenfor.

Omvendt diffusjonsprosess: Et støyende bilde blir forkastet for å gjenopprette det originale bildet (eller generere dets variasjoner) via en trent diffusjonsmodell. Kilde: Denoising Diffusion Probabilistic Models

3 Spredningsmodellkategorier

Det finnes tre grunnleggende matematiske rammeverk som underbygger vitenskapen bak diffusjonsmodeller. Alle tre jobber etter de samme prinsippene for å legge til støy og deretter fjerne den for å generere nye prøver. La oss diskutere dem nedenfor.

En diffusjonsmodell legger til og fjerner støy fra et bilde. Kilde: Diffusjonsmodeller i visjon: En undersøkelse

1. Denoising Diffusion Probabilistic Models (DDPMs)

Som forklart ovenfor, er DDPM-er generative modeller som hovedsakelig brukes til å fjerne støy fra visuelle eller lyddata. De har vist imponerende resultater på forskjellige bilde- og lyddenoiseringsoppgaver. For eksempel bruker filmindustrien moderne bilde- og videobehandlingsverktøy for å forbedre produksjonskvaliteten.

2. Støybetingede resultatbaserte generative modeller (SGMs)

SGM-er kan generere nye prøver fra en gitt distribusjon. De fungerer ved å lære en estimeringsscorefunksjon som kan estimere loggtettheten til målfordelingen. Loggtetthetsestimering gjør antakelser for tilgjengelige datapunkter som er en del av et ukjent datasett (testsett). Denne poengfunksjonen kan da generere nye datapunkter fra distribusjonen.

Eksempelvis dype forfalskninger er beryktet for å produsere falske videoer og lyd av kjente personligheter. Men de tilskrives for det meste Generative Adversarial Networks (GAN). Det har imidlertid SGMs vist lignende evner – til tider overgå – i å generere kjendisansikter av høy kvalitet. SGM-er kan også bidra til å utvide helsetjenestedatasett, som ikke er lett tilgjengelige i store mengder på grunn av strenge forskrifter og industristandarder.

3. Stokastiske differensialligninger (SDEs)

SDE-er beskriver endringer i tilfeldige prosesser angående tid. De er mye brukt i fysikk og finansmarkeder som involverer tilfeldige faktorer som har betydelig innvirkning på markedsresultatene.

For eksempel er prisene på råvarer svært dynamiske og påvirket av en rekke tilfeldige faktorer. SDE-er beregner finansielle derivater som futureskontrakter (som råoljekontrakter). De kan modellere svingningene og beregne gunstige priser nøyaktig for å gi en følelse av trygghet.

Store anvendelser av diffusjonsmodeller i AI

La oss se på noen vidt tilpassede praksiser og bruk av diffusjonsmodeller i AI.

Videogenerering av høy kvalitet

Lage avanserte videoer ved hjelp av dyp læring er utfordrende ettersom det krever høy kontinuitet i videorammer. Det er her diffusjonsmodeller kommer til nytte ettersom de kan generere et undersett av videorammer for å fylle ut mellom de manglende bildene, noe som resulterer i høykvalitets og jevne videoer uten ventetid.

Forskere har utviklet Fleksibel diffusjonsmodell og restvideodiffusjon teknikker for å tjene dette formålet. Disse modellene kan også produsere realistiske videoer ved sømløst å legge til AI-genererte rammer mellom de faktiske bildene.

Disse modellene kan ganske enkelt utvide FPS (frames per second) for en video med lav FPS ved å legge til dummy-rammer etter å ha lært mønstrene fra tilgjengelige bilder. Med nesten ingen rammetap kan disse rammeverkene ytterligere hjelpe dyplæringsbaserte modeller til å generere AI-baserte videoer fra bunnen av som ser ut som naturlige bilder fra avanserte kameraoppsett.

Et bredt spekter av bemerkelsesverdige AI-videogeneratorer er tilgjengelig i 2023 for å gjøre produksjon og redigering av videoinnhold rask og enkel.

Tekst-til-bilde generering

Tekst-til-bilde-modeller bruker inndatameldinger for å generere bilder av høy kvalitet. For eksempel gi innspill "rødt eple på en tallerken" og produsere et fotorealistisk bilde av et eple på en tallerken. Blandet diffusjon og unCLIP er to fremtredende eksempler på slike modeller som kan generere svært relevante og nøyaktige bilder basert på brukerinnspill.

Også GLIDE av OpenAI er en annen allment kjent løsning utgitt i 2021 som produserer fotorealistiske bilder ved hjelp av brukerinndata. Senere ga OpenAI ut DALL.E-2, dens mest avanserte bildegenereringsmodell til nå.

Tilsvarende har Google også utviklet en bildegenereringsmodell kjent som Bilde, som bruker en stor språkmodell for å utvikle en dyp tekstforståelse av inndatateksten og deretter generere fotorealistiske bilder.

Vi har nevnt andre populære bildegenereringsverktøy som Midjourney og Stable Diffusion (drømmestudio) ovenfor. Ta en titt på et bilde generert ved hjelp av stabil diffusjon nedenfor.

En collage av menneskelige ansikter laget med Stable Diffusion 1.5

Et bilde laget med Stable Diffusion 1.5 ved hjelp av følgende ledetekst: "collager, hyperrealistisk, mange varianter portrett av svært gamle thom yorke, ansiktsvariasjoner, singer-songwriter, (side) profil, ulike aldre, makrolinse, liminalrom, av lee bermejo, alphonse mucha og greg rutkowski, gråskjegg, glatt ansikt, kinnbein”

Diffusjonsmodeller i AI – Hva kan du forvente i fremtiden?

Diffusjonsmodeller har avslørt lovende potensiale som en robust tilnærming til å generere høykvalitetsprøver fra komplekse bilde- og videodatasett. Ved å forbedre menneskets evne til å bruke og manipulere data, kan diffusjonsmodeller potensielt revolusjonere verden slik vi ser den i dag. Vi kan forvente å se enda flere anvendelser av diffusjonsmodeller bli en integrert del av hverdagen vår.

Når det er sagt, er ikke diffusjonsmodeller den eneste generative AI-teknikken. Forskere bruker også Generative Adversarial Networks (GANs), Variational Autokodere, og flytbaserte dype generative modeller for å generere AI-innhold. Å forstå de grunnleggende egenskapene som skiller diffusjonsmodeller fra andre generative modeller kan bidra til å produsere mer effektive løsninger i de kommende dagene.

For å lære mer om AI-baserte teknologier, besøk Unite.ai. Sjekk ut våre kuraterte ressurser om generative AI-verktøy nedenfor.