Connect with us

AI 101

Diffusjonsmodeller i AI – Alt du trenger å vite

mm
A collage of human faces created using AI image generator

I AI-økosystemet setter diffusjonsmodellene retningen og takten for teknologisk fremgang. De revolusjonerer måten vi nærmer oss komplekse generative AI-oppgaver. Disse modellene er basert på matematikken til gaussiske prinsipper, varians, differensialligninger og generative sekvenser. (Vi skal forklare den tekniske jargonen nedenfor)

Moderne AI-sentriske produkter og løsninger utviklet av Nvidia, Google, Adobe og OpenAI har satt diffusjonsmodellene i sentrum av rampelyset. DALL.E 2, Stable Diffusion og Midjourney er fremtredende eksempler på diffusjonsmodeller som har fått mye oppmerksomhet på internett nylig. Brukerne gir en enkel tekstprompt som innputt, og disse modellene kan konvertere dem til realistiske bilder, som vist nedenfor.

Et bilde generert med Midjourney v5 using input prompt: vibrant California poppies.

Et bilde generert med Midjourney v5 using input prompt: vibrant California poppies. Kilde: Midjourney

La oss utforske de grunnleggende arbeidsprinsippene for diffusjonsmodeller og hvordan de endrer retningene og normene i verden som vi ser den i dag.

Hva er diffusjonsmodeller?

Ifølge forskningspublikasjonen “Denoising Diffusion Probabilistic Models” defineres diffusjonsmodellene som:

“En diffusjonsmodell eller probabilistisk diffusjonsmodell er en parameterisert Markov-kjede trent med variasjonsinferens for å produsere prøver som matcher dataene etter en endelig tid”

Enkelt sagt kan diffusjonsmodeller generere data som ligner på de de er trent på. Hvis modellen er trent på bilder av katter, kan den generere lignende realistiske bilder av katter.

La oss prøve å bryte ned den tekniske definisjonen ovenfor. Diffusjonsmodellene tar inspirasjon fra arbeidsprinsippet og den matematiske grunnlaget for en probabilistisk modell som kan analysere og forutsi et systems atferd som varierer med tid, som å forutsi aksjemarkedets avkastning eller pandemiers spredning.

Definisjonen sier at de er parameteriserte Markov-kjeder trent med variasjonsinferens. Markov-kjeder er matematiske modeller som definerer et system som skifter mellom ulike tilstander over tid. Den eksisterende tilstanden til systemet kan bare bestemme sannsynligheten for å gå over til en bestemt tilstand. Med andre ord holder den nåværende tilstanden til systemet de mulige tilstander systemet kan følge eller tilegne seg på et gitt tidspunkt.

Å trene modellen med variasjonsinferens innebærer komplekse beregninger for sannsynlighetsfordelinger. Det målet er å finne de eksakte parameterne til Markov-kjeden som matcher de observerte (kjente eller faktiske) dataene etter en bestemt tid. Dette prosessen minimiserer verdien av modellens tap-funksjon, som er forskjellen mellom den forutsagte (ukjente) og observerte (kjente) tilstanden.

Når modellen er trent, kan den generere prøver som matcher de observerte dataene. Disse prøvene representerer mulige baner eller tilstander systemet kunne følge eller tilegne seg over tid, og hver bane har en annen sannsynlighet for å skje. Derfor kan modellen forutsi systemets fremtidige atferd ved å generere en rekke prøver og finne deres respektive sannsynligheter (sannsynligheten for at disse hendelsene skjer).

Hvordan tolke diffusjonsmodeller i AI?

Diffusjonsmodeller er dypt generative modeller som fungerer ved å legge til støy (gaussisk støy) til tilgjengelige treningdata (også kjent som den fremovergående diffusjonsprosessen) og deretter reversere prosessen (kjent som avstøying eller den inverse diffusjonsprosessen) for å gjenopprette dataene. Modellen lærer gradvis å fjerne støyen. Denne lærte avstøyningsprosessen genererer nye, høykvalitetsbilder fra tilfeldige frø (tilfeldige støybilder), som vist i illustrasjonen nedenfor.

Inverse diffusjonsprosess: Et støybild blir avstøyet for å gjenopprette det opprinnelige bildet (eller generere variasjoner) via en trent diffusjonsmodell.

Inverse diffusjonsprosess: Et støybild blir avstøyet for å gjenopprette det opprinnelige bildet (eller generere variasjoner) via en trent diffusjonsmodell. Kilde: Denoising Diffusion Probabilistic Models

3 diffusjonsmodellkategorier

Det finnes tre grunnleggende matematiske rammer som ligger til grunn for vitenskapen bak diffusjonsmodeller. Alle tre fungerer på samme prinsipper om å legge til støy og deretter fjerne den for å generere nye prøver. La oss diskutere dem nedenfor.

En diffusjonsmodell legger til og fjerner støy fra et bilde.

En diffusjonsmodell legger til og fjerner støy fra et bilde. Kilde: Diffusjonsmodeller i visjon: En oversikt

1. Avstøyningsdiffusjonsmodeller (DDPMs)

Som nevnt ovenfor er DDPMs generative modeller hovedsakelig brukt til å fjerne støy fra visuelle eller lyd-data. De har vist imponerende resultater på ulike bilde- og lydstøyningsoppgaver. For eksempel brukes moderne bilde- og video-behandlingsverktøy i filmindustrien til å forbedre produksjonskvaliteten.

2. Støy-betingede score-baserte generative modeller (SGMs)

SGMs kan generere nye prøver fra en gitt distribusjon. De fungerer ved å lære en estimasjonsscore-funksjon som kan estimere log-tettheten til måldistribusjonen. Log-tetthets-estimering gjør antagelser for tilgjengelige datapunkter som en del av en ukjent datasett (testsett). Denne score-funksjonen kan deretter generere nye datapunkter fra distribusjonen.

For eksempel er deepfakes notoriske for å produsere falske videoer og lydfiler av kjente personer. Men de er hovedsakelig tilskrevet Generative Adversarial Networks (GANs). Imidlertid har SGMs vist lignende evner – og noen ganger overgått – i å generere høykvalitets ansikter av kjendiser. Dessuten kan SGMs hjelpe med å utvide helserelaterte datasett, som ikke er lett tilgjengelige i store mengder på grunn av strenge reguleringer og bransjestandarder.

3. Stokastiske differensialligninger (SDEs)

SDEs beskriver endringer i tilfeldige prosesser i forhold til tid. De brukes bredt i fysikk og finansielle markeder som involverer tilfeldige faktorer som har en betydelig innvirkning på markedets resultater.

For eksempel er prisene på råvarer høyt dynamiske og påvirket av en rekke tilfeldige faktorer. SDEs beregner finansielle derivater som fremtidige kontrakter (som råoljekontrakter). De kan modellere fluktuasjonene og beregne gunstige priser nøyaktig for å gi en følelse av sikkerhet.

Store anvendelser av diffusjonsmodeller i AI

La oss se på noen vidt aksepterte praksiser og anvendelser av diffusjonsmodeller i AI.

Høykvalitets video-generering

Å lage høykvalitetsvideoer med dypt læring er utfordrende siden det krever høy kontinuitet av video-rammer. Dette er der diffusjonsmodellene kommer inn som en hjelp, da de kan generere en undergruppe av video-rammer for å fylle inn mellom de manglende rammene, med resultat av høykvalitets- og glatte videoer uten latency.

Forskere har utviklet Flexible Diffusion Model og Residual Video Diffusion-teknikkene for å betjene dette formålet. Disse modellene kan også produsere realistiske videoer ved å sammenføye AI-genererte rammene mellom de faktiske rammene.

Disse modellene kan enkelt utvide FPS (frames per second) til en lav-FPS-video ved å legge til dummy-rammer etter å ha lært mønsterene fra tilgjengelige rammene. Med nesten ingen rammetap kan disse rammene videre assistere dypt-læringsbaserte modeller til å generere AI-baserte videoer fra scratch som ser ut som naturlige skudd fra høykvalitets-kameraoppsett.

En rekke bemerkelsesverdige AI-video-generatore er tilgjengelige i 2023 for å gjøre video-innholdproduksjon og -redigering rask og enkel.

Tekst-til-bilde-generering

Tekst-til-bilde-modeller bruker innputt-prompter til å generere høykvalitetsbilder. For eksempel å gi innputt “rød eple på en plate” og produsere et fotorealistisk bilde av et eple på en plate. Blended diffusion og unCLIP er to fremtredende eksempler på slike modeller som kan generere høykvalitets- og nøyaktige bilder basert på brukerinnputt.

Dessuten er GLIDE fra OpenAI et annet vidt kjent løsning som ble lansert i 2021 og som produserer fotorealistiske bilder med brukerinnputt. Senere lanserte OpenAI DALL.E-2, sin mest avanserte bilde-genereringsmodell hittil.

Liksom har Google også utviklet en bilde-genereringsmodell kjent som Imagen, som bruker en stor språkmodell til å utvikle en dyp tekstlig forståelse av innputt-teksten og deretter generere fotorealistiske bilder.

Vi har nevnt andre populære bilde-genereringsverktøy som Midjourney og Stable Diffusion (DreamStudio) ovenfor. Se på et bilde generert med Stable Diffusion nedenfor.

Et bilde skapt med Stable Diffusion 1.5

Et bilde skapt med Stable Diffusion 1.5 med følgende prompt: “collages, hyper-realistic, many variations portrait of very old thom yorke, face variations, singer-songwriter, ( side ) profile, various ages, macro lens, liminal space, by lee bermejo, alphonse mucha and greg rutkowski, greybeard, smooth face, cheekbones”

Diffusjonsmodeller i AI – Hva kan vi forvente i fremtiden?

Diffusjonsmodeller har avdekket et lovende potensial som en robust tilnærming til å generere høykvalitetsprøver fra komplekse bilde- og video-datasett. Ved å forbedre menneskers evne til å bruke og manipulere data, kan diffusjonsmodeller potensielt revolusjonere verden som vi ser den i dag. Vi kan forvente å se enda flere anvendelser av diffusjonsmodeller bli en integrert del av våre daglige liv.

Det er sagt at diffusjonsmodeller ikke er den eneste generative AI-teknikken. Forskere bruker også Generative Adversarial Networks (GANs), Variational Autoencoders og flow-baserte dypt generative modeller til å generere AI-innhold. Å forstå de grunnleggende karakteristikkene som skiller diffusjonsmodeller fra andre generative modeller kan hjelpe med å produsere mer effektive løsninger i fremtiden.

For å lære mer om AI-baserte teknologier, besøk Unite.ai. Se våre kurerte ressurser på generative AI-verktøy nedenfor.

Haziqa er en dataforsker med omfattende erfaring med å skrive teknisk innhold for AI- og SaaS-selskaper.