AI 101

Diffusiemodellen in AI – Alles wat u moet weten

Gepubliceerd op 31 maart 2023

Bijgewerkt op 23 mei 2026

Door

Haziqa Sajid

A collage of human faces created using AI image generator

In het AI-ecosysteem zetten diffusiemodellen de richting en het tempo van technologische vooruitgang uit. Ze revolutioneren de manier waarop we complexe generatieve AI-taken aanpakken. Deze modellen zijn gebaseerd op de wiskunde van gaussische principes, variantie, differentiaalvergelijkingen en generatieve sequenties. (We zullen de technische terminologie hieronder uitleggen)

Moderne AI-georiënteerde producten en oplossingen ontwikkeld door Nvidia, Google, Adobe en OpenAI hebben diffusiemodellen in de schijnwerpers gezet. DALL.E 2, Stable Diffusion en Midjourney zijn prominente voorbeelden van diffusiemodellen die momenteel op internet de ronde doen. Gebruikers geven een eenvoudige tekstprompt als invoer, en deze modellen kunnen deze omzetten in realistische afbeeldingen, zoals de onderstaande afbeelding.

Een afbeelding gegenereerd met Midjourney v5 met invoerprompt: vibrerende Californische klaprozen. Bron: Midjourney

Laten we de fundamentele werking van diffusiemodellen onderzoeken en hoe ze de richtingen en normen van de wereld veranderen zoals we die vandaag zien.

Wat zijn diffusiemodellen?

Volgens het onderzoeksartikel “Denoising Diffusion Probabilistic Models” worden diffusiemodellen gedefinieerd als:

“Een diffusiemodel of probabilistisch diffusiemodel is een parameterized Markov-keten getraind met behulp van variatie-inferentie om monsters te produceren die overeenkomen met de gegevens na een eindige tijd”

Simpele vertaling: diffusiemodellen kunnen gegevens genereren die lijken op de gegevens waarop ze getraind zijn. Als het model getraind wordt op afbeeldingen van katten, kan het soortgelijke realistische afbeeldingen van katten genereren.

Laten we proberen de technische definitie die hierboven wordt genoemd, te doorbreken. De diffusiemodellen putten inspiratie uit de werking en wiskundige basis van een probabilistisch model dat een systeem kan analyseren en voorspellen dat varieert met de tijd, zoals het voorspellen van de beurskoers of de verspreiding van een pandemie.

De definitie stelt dat ze parameterized Markov-ketens zijn getraind met variatie-inferentie. Markov-ketens zijn wiskundige modellen die een systeem definiëren dat tussen verschillende staten schakelt in de loop van de tijd. De bestaande staat van het systeem kan alleen de waarschijnlijkheid van het overgaan naar een bepaalde staat bepalen. Met andere woorden, de huidige staat van een systeem bevat de mogelijke staten die een systeem kan volgen of verkrijgen op een bepaald moment.

Het trainen van het model met variatie-inferentie omvat complexe berekeningen voor waarschijnlijkheidsverdelingen. Het doel is om de exacte parameters van de Markov-keten te vinden die overeenkomen met de waargenomen (bekende of feitelijke) gegevens na een bepaalde tijd. Dit proces minimaliseert de waarde van de verliesfunctie van het model, die het verschil is tussen de voorspelde (onbekende) en waargenomen (bekende) staat.

Zodra het model getraind is, kan het monsters genereren die overeenkomen met de waargenomen gegevens. Deze monsters vertegenwoordigen mogelijke trajecten of staten die het systeem kan volgen of verkrijgen in de loop van de tijd, en elk traject heeft een andere waarschijnlijkheid van optreden. Daarom kan het model het toekomstige gedrag van het systeem voorspellen door een reeks monsters te genereren en hun respectieve waarschijnlijkheden (de waarschijnlijkheid van deze gebeurtenissen) te vinden.

Hoe diffusiemodellen in AI interpreteren?

Diffusiemodellen zijn diepe generatieve modellen die werken door ruis (Gaussische ruis) toe te voegen aan de beschikbare trainingsgegevens (ook wel de forward diffusieproces genoemd) en vervolgens het proces om te keren (bekend als denoising of de reverse diffusieproces) om de gegevens te herstellen. Het model leert geleidelijk om de ruis te verwijderen. Dit geleerde denoisingproces genereert nieuwe, hoge-kwaliteit afbeeldingen vanuit willekeurige seeds (willekeurige, geruisde afbeeldingen), zoals wordt getoond in de onderstaande illustratie.

Reverse diffusieproces: een geruisde afbeelding wordt gedenoised om de oorspronkelijke afbeelding (of variaties daarvan) te herstellen via een getraind diffusiemodel. Bron: Denoising Diffusion Probabilistic Models

3 diffusiemodelcategorieën

Er zijn drie fundamentele wiskundige kaders die de wetenschap achter diffusiemodellen ondersteunen. Alle drie werken op basis van hetzelfde principe van het toevoegen en verwijderen van ruis om nieuwe monsters te genereren. Laten we ze hieronder bespreken.

Een diffusiemodel voegt en verwijdert ruis van een afbeelding. Bron: Diffusiemodellen in visie: een onderzoek

1. Denoising Diffusion Probabilistic Models (DDPM’s)

Zoals hierboven uitgelegd, zijn DDPM’s generatieve modellen die voornamelijk worden gebruikt om ruis van visuele of audiogegevens te verwijderen. Ze hebben indrukwekkende resultaten laten zien bij verschillende beeld- en audio-denoisingtaken. Bijvoorbeeld, de filmindustrie gebruikt moderne beeld- en videobewerkingsgereedschappen om de productiekwaliteit te verbeteren.

2. Noise-Conditioned Score-Based Generative Models (SGM’s)

SGM’s kunnen nieuwe monsters genereren vanuit een gegeven verdeling. Ze werken door een schattingsscore-functie te leren die de log-dichtheid van de doelverdeling kan schatten. Log-dichtheidschatting maakt aannamen over beschikbare datapunten die deel uitmaken van een onbekende dataset (testset). Deze score-functie kan vervolgens nieuwe datapunten genereren vanuit de verdeling.

Bijvoorbeeld, diepe vervalsingen zijn berucht vanwege het produceren van valse video’s en audio’s van beroemde persoonlijkheden. Maar ze worden meestal toegeschreven aan Generatieve Adversarial Networks (GAN’s). Echter, SGM’s hebben soortgelijke capaciteiten laten zien – soms zelfs beter – bij het genereren van hoge-kwaliteit beroemde gezichten. Bovendien kunnen SGM’s helpen om gezondheidsdatasets uit te breiden, die niet gemakkelijk beschikbaar zijn in grote hoeveelheden vanwege strikte regelgeving en industrienormen.

3. Stochastische differentiaalvergelijkingen (SDE’s)

SDE’s beschrijven veranderingen in random processen met betrekking tot de tijd. Ze worden op grote schaal gebruikt in de fysica en financiële markten met betrekking tot random factoren die een aanzienlijke invloed hebben op marktresultaten.

Bijvoorbeeld, de prijzen van grondstoffen zijn zeer dynamisch en worden beïnvloed door een reeks random factoren. SDE’s berekenen financiële derivaten zoals futurescontracten (zoals ruwe oliecontracten). Ze kunnen de fluctuaties modelleren en gunstige prijzen nauwkeurig berekenen om een gevoel van zekerheid te geven.

Belangrijke toepassingen van diffusiemodellen in AI

Laten we enkele breed geaccepteerde praktijken en toepassingen van diffusiemodellen in AI onderzoeken.

Hoge-kwaliteit videogeneratie

Het creëren van hoge-kwaliteit video’s met behulp van diepe leermodellen is moeilijk omdat het een hoge continuïteit van videoframes vereist. Dit is waar diffusiemodellen van pas komen, omdat ze een subset van videoframes kunnen genereren om ontbrekende frames in te vullen, waardoor hoge-kwaliteit en soepele video’s zonder latentie ontstaan.

Onderzoekers hebben de Flexible Diffusion Model en Residual Video Diffusion-technieken ontwikkeld om dit doel te dienen. Deze modellen kunnen ook realistische video’s produceren door naadloos AI-gegenereerde frames tussen de echte frames toe te voegen.

Deze modellen kunnen eenvoudigweg het FPS (frames per seconde) van een video met lage FPS uitbreiden door dummy-frames toe te voegen nadat ze patronen hebben geleerd van de beschikbare frames. Met bijna geen frameverlies kunnen deze kaders ook diepe leermodellen helpen die AI-gebaseerde video’s van scratch genereren die eruitzien als natuurlijke opnames van hoge kwaliteit.

Er zijn een breed scala aan opmerkelijke AI-videogeneratoren beschikbaar in 2023 om video-inhoudproductie en -bewerking snel en eenvoudig te maken.

Tekst-naar-afbeeldinggeneratie

Tekst-naar-afbeeldingsmodellen gebruiken invoerprompt om hoge-kwaliteit afbeeldingen te genereren. Bijvoorbeeld, geef “rode appel op een schotel” als invoer en produceer een fotorealistische afbeelding van een appel op een schotel. Blended diffusie en unCLIP zijn twee prominente voorbeelden van dergelijke modellen die hoge-kwaliteit en nauwkeurige afbeeldingen kunnen genereren op basis van gebruikersinvoer.

Ook GLIDE van OpenAI is een andere breed bekende oplossing die in 2021 is uitgebracht en fotorealistische afbeeldingen produceert met behulp van gebruikersinvoer. Later bracht OpenAI DALL.E-2 uit, het meest geavanceerde beeldgeneratiemodel tot nu toe.

Google heeft ook een beeldgeneratiemodel ontwikkeld dat Imagen heet, dat een groot taalmodel gebruikt om een diepe tekstuele begrip van de invoertekst te ontwikkelen en vervolgens fotorealistische afbeeldingen te genereren.

We hebben andere populaire beeldgeneratie-gereedschappen zoals Midjourney en Stable Diffusion (DreamStudio) hierboven genoemd. Bekijk een afbeelding die is gegenereerd met Stable Diffusion hieronder.

Een collage van menselijke gezichten gemaakt met Stable Diffusion 1.5

Een afbeelding gemaakt met Stable Diffusion 1.5 met de volgende prompt: “collages, hyperrealistisch, veel variaties portret van zeer oude Thom Yorke, gezichtsvariaties, singer-songwriter, (zij)profiel, verschillende leeftijden, macro-lens, liminale ruimte, door Lee Bermejo, Alphonse Mucha en Greg Rutkowski, grijze baard, glad gezicht, jukbeenderen”

Diffusiemodellen in AI – Wat kunt u in de toekomst verwachten?

Diffusiemodellen hebben veelbelovend potentieel getoond als een robuuste aanpak voor het genereren van hoge-kwaliteit monsters van complexe beeld- en videodatasets. Door de menselijke capaciteit om gegevens te gebruiken en te manipuleren te verbeteren, kunnen diffusiemodellen de wereld zoals we die vandaag zien, potentieel revolutioneren. We kunnen verwachten dat we in de toekomst nog meer toepassingen van diffusiemodellen zullen zien die een integraal onderdeel van ons dagelijks leven worden.

Er moet echter worden opgemerkt dat diffusiemodellen niet de enige generatieve AI-techniek zijn. Onderzoekers gebruiken ook Generatieve Adversarial Networks (GAN’s), Variational Autoencoders en flow-gebaseerde diepe generatieve modellen om AI-inhoud te genereren. Het begrijpen van de fundamentele kenmerken die diffusiemodellen onderscheiden van andere generatieve modellen, kan helpen om in de toekomst effectievere oplossingen te produceren.

Om meer te leren over AI-gebaseerde technologieën, bezoek Unite.ai. Bekijk onze gecureerde bronnen over generatieve AI-gereedschappen hieronder.