Connect with us

AI 101

Diffusionsmodeller i AI – Alt, du behøver at vide

mm
A collage of human faces created using AI image generator

I AI-økosystemet sætter diffusionsmodeller retningen og takten for den teknologiske udvikling. De revolutionerer måden, vi tilgår komplekse generative AI-opgaver. Disse modeller er baseret på matematikken bag gaussiske principper, varians, differentialligninger og generative sekvenser. (Vi vil forklare den tekniske jargon nedenfor)

Moderne AI-centrerede produkter og løsninger udviklet af Nvidia, Google, Adobe og OpenAI har sat diffusionsmodeller i centrum af rampelyset. DALL.E 2, Stable Diffusion og Midjourney er prominente eksempler på diffusionsmodeller, der er på alles læber på internettet for tiden. Brugere giver en simpel tekstprompt som input, og disse modeller kan omdanne dem til realistiske billeder, som det vist nedenfor.

Et billede genereret med Midjourney v5 ved hjælp af inputprompt: vibrant California poppies.

Et billede genereret med Midjourney v5 ved hjælp af inputprompt: vibrant California poppies. Kilde: Midjourney

Lad os udforske de grundlæggende arbejdsprincipper for diffusionsmodeller og hvordan de ændrer retninger og normer i verden, som vi ser den i dag.

Hvad er diffusionsmodeller?

Ifølge forskningspublikationen “Denoising Diffusion Probabilistic Models” defineres diffusionsmodellerne som:

“En diffusionsmodel eller probabilistisk diffusionsmodel er en parameteriseret Markov-kæde, der trænes ved hjælp af variational inference for at producere samples, der matcher data efter en endelig tid”

Simplificeret kan siges, at diffusionsmodeller kan generere data, der ligner dem, de er trænet på. Hvis modellen trænes på billeder af katte, kan den generere realistiske billeder af katte.

Lad os nu forsøge at bryde den tekniske definition ned. Diffusionsmodellerne tager inspiration fra arbejdsprincippet og den matematiske grundlag for en probabilistisk model, der kan analysere og forudsige et systems adfærd, der varierer med tiden, såsom at forudsige aktiemarkedets afkast eller pandemiens spredning.

Definitionen fastslår, at de er parameteriserede Markov-kæder, der trænes med variational inference. Markov-kæder er matematiske modeller, der definerer et system, der skifter mellem forskellige tilstande over tid. Den eksisterende tilstand af systemet kan kun bestemme sandsynligheden for at gå over i en bestemt tilstand. Med andre ord kan systemets nuværende tilstand kun bestemme de mulige tilstande, systemet kan følge eller erhverve på et given tidspunkt.

At træne modellen ved hjælp af variational inference indebærer komplekse beregninger for sandsynlighedsfordelinger. Det sigter mod at finde de nøjagtige parametre for Markov-kæden, der matcher den observerede (kendte eller faktiske) data efter en bestemt tid. Dette proces minimerer værdien af modellens tab-funktion, der er forskellen mellem den forudsagte (ukendte) og observerede (kendte) tilstand.

Når modellen er trænet, kan den generere samples, der matcher den observerede data. Disse samples repræsenterer mulige baner eller tilstande, systemet kunne følge eller erhverve over tid, og hver bane har en anden sandsynlighed for at ske. Derfor kan modellen forudsige systemets fremtidige adfærd ved at generere en række samples og finde deres respektive sandsynligheder (sandsynligheden for, at disse begivenheder indtræffer).

Hvordan fortolker man diffusionsmodeller i AI?

Diffusionsmodeller er dybe generative modeller, der fungerer ved at tilføje støj (gaussisk støj) til den tilgængelige træningsdata (også kendt som den fremadgående diffusionsproces) og derefter omvende processen (kendt som denoising eller den omvendte diffusionsproces) for at genskabe data. Modellen lærer langsomt at fjerne støjen. Denne læring af denoising-proces genererer nye, højkvalitetsbilleder fra tilfældige frø (tilfældige støjede billeder), som vist i illustrationen nedenfor.

Omvendt diffusionsproces: Et støjende billede renses for at genskabe det originale billede (eller generere dets variationer) via en trænet diffusionsmodel.

Omvendt diffusionsproces: Et støjende billede renses for at genskabe det originale billede (eller generere dets variationer) via en trænet diffusionsmodel. Kilde: Denoising Diffusion Probabilistic Models

3 diffusionsmodelkategorier

Der er tre grundlæggende matematiske rammer, der danner grundlag for videnskaben bag diffusionsmodeller. Alle tre fungerer på samme principper om at tilføje støj og derefter fjerne den for at generere nye samples. Lad os diskutere dem nedenfor.

En diffusionsmodel tilføjer og fjerner støj fra et billede.

En diffusionsmodel tilføjer og fjerner støj fra et billede. Kilde: Diffusion Models in Vision: A Survey

1. Denoising Diffusion Probabilistic Models (DDPMs)

Som nævnt ovenfor er DDPMs generative modeller, der primært bruges til at fjerne støj fra visuelle eller lyd-data. De har vist imponerende resultater på forskellige billed- og lydstøjsreduktionsopgaver. For eksempel bruger filmindustrien moderne billed- og video-behandlingsværktøjer til at forbedre produktionskvaliteten.

2. Noise-Conditioned Score-Based Generative Models (SGMs)

SGMs kan generere nye samples fra en given fordeling. De fungerer ved at lære en estimations-score-funktion, der kan estimere log-densiteten af den målte fordeling. Log-densitets-estimation antager, at de tilgængelige datapunkter er en del af en ukendt dataset (test-sæt). Denne score-funktion kan derefter generere nye datapunkter fra fordelingen.

For eksempel er deep fakes notoriske for at producere fake-videoer og -lydfiler af berømte personer. Men de tilskrives mest Generative Adversarial Networks (GANs). Imidlertid har SGMs vist lignende evner – og undertiden overgået – i generering af højkvalitets ansigter af berømte personer. Desuden kan SGMs hjælpe med at udvide sundhedsdata-sæt, der ikke er lettilgængelige i store mængder på grund af strenge regler og branchestandarder.

3. Stokastiske Differentialligninger (SDEs)

SDEs beskriver ændringer i tilfældige processer i forhold til tid. De bruges bredt i fysik og finansielle markeder, der indebærer tilfældige faktorer, der betydeligt påvirker markedets resultater.

For eksempel er priserne på råvarer meget dynamiske og påvirkes af en række tilfældige faktorer. SDEs beregner finansielle derivater som futures-kontrakter (som råolie-kontrakter). De kan modelere fluktuationerne og beregne gunstige priser nøjagtigt for at give en fornemmelse af sikkerhed.

Diffusionsmodellers vigtigste anvendelser i AI

Lad os se på nogle af de mest udbredte og anvendte anvendelser af diffusionsmodeller i AI.

Høj-kvalitets video-generering

At oprette høj-kvalitets videoer ved hjælp af dyb læring er udfordrende, da det kræver høj kontinuitet af video-frames. Her kommer diffusionsmodellerne til udvalg, da de kan generere en undermængde af video-frames for at udfylde de manglende frames, hvilket resulterer i høj-kvalitets videoer uden latency.

Forskere har udviklet Flexible Diffusion Model og Residual Video Diffusion-teknikkerne til dette formål. Disse modeller kan også producere realistiske videoer ved at ubemærket tilføje AI-genererede frames mellem de faktiske frames.

Disse modeller kan blot udvide FPS (frames per second) for en lav-FPS-video ved at tilføje dummy-frames efter at have lært mønstrene fra de tilgængelige frames. Med næsten ingen frame-tab kan disse rammer yderligere hjælpe dyb-lærings-baserede modeller til at generere AI-baserede videoer fra scratch, der ligner naturlige optagelser fra høj-kvalitets kameraer.

Et bredt udvalg af bemærkelsesværdige AI-video-genereringsværktøjer er tilgængelige i 2023 for at gøre videoindholdproduktion og -redigering hurtig og nem.

Tekst-til-billede-generering

Tekst-til-billede-modeller bruger input-prompts til at generere høj-kvalitets billeder. For eksempel giver input “rød æble på en tallerken” og producerer et fotorealistisk billede af et æble på en tallerken. Blended diffusion og unCLIP er to prominente eksempler på sådanne modeller, der kan generere meget relevante og nøjagtige billeder baseret på bruger-input.

Desuden er GLIDE af OpenAI et andet velkendt løsning, der producerer fotorealistiske billeder ved hjælp af bruger-input. Senere udgav OpenAI DALL.E-2, deres mest avancerede billed-genereringsmodel hidtil.

Ligesom har Google udviklet en billed-genereringsmodel kendt som Imagen, der bruger en stor sprogmodel til at udvikle en dyb tekstforståelse af input-teksten og derefter generere fotorealistiske billeder.

Vi har nævnt andre populære billed-genereringsværktøjer som Midjourney og Stable Diffusion (DreamStudio) ovenfor. Se et billede genereret ved hjælp af Stable Diffusion nedenfor.

En collage af menneskeansigter skabt med Stable Diffusion 1.5

En collage af menneskeansigter skabt med Stable Diffusion 1.5 ved hjælp af følgende prompt: “collages, hyper-realistic, many variations portrait of very old thom yorke, face variations, singer-songwriter, (side) profile, various ages, macro lens, liminal space, by lee bermejo, alphonse mucha and greg rutkowski, greybeard, smooth face, cheekbones”

Diffusionsmodeller i AI – Hvad kan vi forvente i fremtiden?

Diffusionsmodeller har vist lovende potentiale som en robust tilgang til at generere høj-kvalitets samples fra komplekse billed- og video-data-sæt. Ved at forbedre menneskers evne til at bruge og manipulere data kan diffusionsmodeller potentielt revolutionere verden, som vi ser den i dag. Vi kan forvente at se endnu flere anvendelser af diffusionsmodeller blive en integreret del af vores daglige liv.

Det skal dog nævnes, at diffusionsmodeller ikke er den eneste generative AI-teknik. Forskere bruger også Generative Adversarial Networks (GANs), Variational Autoencoders og flow-baserede dybe generative modeller til at generere AI-indhold. At forstå de grundlæggende karakteristika, der adskiller diffusionsmodeller fra andre generative modeller, kan hjælpe med at producere mere effektive løsninger i de kommende dage.

For at lære mere om AI-baserede teknologier, besøg Unite.ai. Se vores kuraterede ressourcer på generative AI-værktøjer nedenfor.

Haziqa er en Data Scientist med omfattende erfaring i at skrive teknisk indhold til AI- og SaaS-virksomheder.