AI 101
Diffusiemodellen in AI – Alles wat u moet weten

In het ecosysteem van AI zetten diffusiemodellen de richting en het tempo van technologische vooruitgang. Ze revolutioneren de manier waarop we complexe generatieve AI-taken aanpakken. Deze modellen zijn gebaseerd op de wiskunde van gaussische principes, variantie, differentiaalvergelijkingen en generatieve sequenties. (We zullen het technische jargon hieronder uitleggen)
Moderne AI-georiënteerde producten en oplossingen ontwikkeld door Nvidia, Google, Adobe en OpenAI hebben diffusiemodellen in de schijnwerpers gezet. DALL.E 2, Stable Diffusion en Midjourney zijn prominente voorbeelden van diffusiemodellen die recentelijk op internet de ronde doen. Gebruikers geven een eenvoudige tekstprompt als invoer, en deze modellen kunnen deze omzetten in realistische afbeeldingen, zoals de afbeelding hieronder.

Een afbeelding gegenereerd met Midjourney v5 met invoerprompt: vibrerende California-poppen. Bron: Midjourney
Laten we de fundamentele werking van diffusiemodellen en hoe ze de richtingen en normen van de wereld veranderen, onderzoeken.
Wat zijn diffusiemodellen?
Volgens het onderzoekspublicatie “Denoising Diffusion Probabilistic Models,” worden diffusiemodellen gedefinieerd als:
“Een diffusiemodel of probabilistisch diffusiemodel is een parameterized Markov-keten getraind met variatie-inferentie om monsters te produceren die overeenkomen met de gegevens na een eindige tijd”
Vereenvoudigd gezegd, kunnen diffusiemodellen gegevens genereren die lijken op de gegevens waarop ze getraind zijn. Als het model getraind is op afbeeldingen van katten, kan het realistische afbeeldingen van katten genereren.
Laten we proberen de technische definitie hierboven te ontleden. De diffusiemodellen putten inspiratie uit het werkingsprincipe en de wiskundige basis van een probabilistisch model dat een systeem kan analyseren en voorspellen dat varieert met de tijd, zoals het voorspellen van de beurskoers of de verspreiding van een pandemie.
De definitie stelt dat ze parameterized Markov-ketens zijn getraind met variatie-inferentie. Markov-ketens zijn wiskundige modellen die een systeem definiëren dat tussen verschillende staten schakelt. De bestaande staat van het systeem kan alleen de waarschijnlijkheid bepalen van het overschakelen naar een bepaalde staat. Met andere woorden, de huidige staat van een systeem bevat de mogelijke staten die een systeem kan volgen of verkrijgen op een bepaald moment.
Het trainen van het model met variatie-inferentie omvat complexe berekeningen voor waarschijnlijkheidsverdelingen. Het doel is om de exacte parameters van de Markov-keten te vinden die overeenkomen met de waargenomen (bekende of werkelijke) gegevens na een bepaalde tijd. Dit proces minimaliseert de waarde van de verliesfunctie van het model, die het verschil is tussen de voorspelde (onbekende) en waargenomen (bekende) staat.
Zodra het model getraind is, kan het monsters genereren die overeenkomen met de waargenomen gegevens. Deze monsters vertegenwoordigen mogelijke trajecten of staten die het systeem kan volgen of verkrijgen in de loop van de tijd, en elk traject heeft een andere waarschijnlijkheid van voorkomen. Daarom kan het model het toekomstige gedrag van het systeem voorspellen door een reeks monsters te genereren en hun respectieve waarschijnlijkheden (waarschijnlijkheid van deze gebeurtenissen) te vinden.
Hoe diffusiemodellen in AI interpreteren?
Diffusiemodellen zijn diepe generatieve modellen die werken door ruis (Gaussische ruis) toe te voegen aan de beschikbare trainingsgegevens (ook wel de voorwaartse diffusieproces genoemd) en vervolgens het proces om te keren (bekend als denoising of de omgekeerde diffusieproces) om de gegevens te herstellen. Het model leert geleidelijk om de ruis te verwijderen. Dit geleerde denoisingproces genereert nieuwe, hoge-kwaliteit afbeeldingen vanuit willekeurige seeds (willekeurige geruisde afbeeldingen), zoals weergegeven in de onderstaande illustratie.

Omgekeerde diffusieproces: een geruisde afbeelding wordt gedenoised om de oorspronkelijke afbeelding (of variaties ervan) te herstellen via een getraind diffusiemodel. Bron: Denoising Diffusion Probabilistic Models
3 categorieën van diffusiemodellen
Er zijn drie fundamentele wiskundige kaders die de wetenschap achter diffusiemodellen ondersteunen. Alle drie werken op hetzelfde principe van het toevoegen van ruis en vervolgens het verwijderen ervan om nieuwe monsters te genereren. Laten we ze hieronder bespreken.

Een diffusiemodel voegt en verwijdert ruis van een afbeelding. Bron: Diffusiemodellen in visie: een overzicht
1. Denoising Diffusion Probabilistic Models (DDPM’s)
Zoals hierboven uitgelegd, zijn DDPM’s generatieve modellen die voornamelijk worden gebruikt om ruis te verwijderen uit visuele of audiogegevens. Ze hebben indrukwekkende resultaten laten zien bij verschillende beeld- en audio-denoisingtaken. Bijvoorbeeld, de filmindustrie gebruikt moderne beeld- en videobewerkingsgereedschappen om de productiekwaliteit te verbeteren.
2. Noise-Conditioned Score-Based Generative Models (SGM’s)
SGM’s kunnen nieuwe monsters genereren uit een gegeven verdeling. Ze werken door een schattingsscorefunctie te leren die de log-dichtheid van de doelverdeling kan schatten. Log-dichtheidschatting maakt aannamen over beschikbare datapunten dat het deel uitmaakt van een onbekende dataset (testset). Deze scorefunctie kan vervolgens nieuwe datapunten genereren uit de verdeling.
Bijvoorbeeld, diepe vervalsingen zijn berucht om het produceren van valse video’s en audio’s van beroemde personen. Maar ze worden meestal toegeschreven aan Generatieve Adversarial Networks (GAN’s). Echter, SGM’s hebben soortgelijke capaciteiten getoond – soms presteren ze beter – bij het genereren van hoge-kwaliteit celebrity-gezichten. Bovendien kunnen SGM’s helpen bij het uitbreiden van gezondheidsdatasets, die niet gemakkelijk beschikbaar zijn in grote hoeveelheden vanwege strikte regelgeving en industrienormen.
3. Stochastische differentiaalvergelijkingen (SDE’s)
SDE’s beschrijven veranderingen in random processen met betrekking tot de tijd. Ze worden op grote schaal gebruikt in de natuurkunde en financiële markten met betrekking tot random factoren die een aanzienlijke invloed hebben op de marktresultaten.
Bijvoorbeeld, de prijzen van grondstoffen zijn zeer dynamisch en worden beïnvloed door een reeks random factoren. SDE’s berekenen financiële derivaten zoals futurescontracten (zoals oliecontracten). Ze kunnen de fluctuaties modelleren en gunstige prijzen nauwkeurig berekenen om een gevoel van zekerheid te geven.
Belangrijke toepassingen van diffusiemodellen in AI
Laten we enkele breed geaccepteerde praktijken en toepassingen van diffusiemodellen in AI bekijken.
Hoge-kwaliteit videogeneratie
Het creëren van high-end video’s met diepe leermodellen is uitdagend omdat het een hoge continuïteit van videoframes vereist. Hier komen diffusiemodellen van pas, omdat ze een subset van videoframes kunnen genereren om de ontbrekende frames in te vullen, waardoor hoge-kwaliteit en soepele video’s met geen latentie ontstaan.
Onderzoekers hebben de Flexible Diffusion Model en Residual Video Diffusion-technieken ontwikkeld om dit doel te dienen. Deze modellen kunnen ook realistische video’s produceren door AI-gegenereerde frames naadloos toe te voegen tussen de echte frames.
Deze modellen kunnen eenvoudig het FPS (frames per seconde) van een video met lage FPS verhogen door dummy-frames toe te voegen na het leren van patronen uit beschikbare frames. Met bijna geen frameverlies kunnen deze kaders verder helpen bij het genereren van AI-gebaseerde video’s van scratch die eruitzien als natuurlijke opnames van high-end cam-uitrusting.
Een breed scala aan opvallende AI-videogeneratoren is beschikbaar in 2023 om video-inhoudproductie en -bewerking snel en eenvoudig te maken.
Tekst-naar-afbeelding-generatie
Tekst-naar-afbeelding-modellen gebruiken invoerprompt om hoge-kwaliteit afbeeldingen te genereren. Bijvoorbeeld, invoer “rode appel op een bord” en produceren van een fotorealistische afbeelding van een appel op een bord. Blended diffusie en unCLIP zijn twee prominente voorbeelden van dergelijke modellen die hoge-kwaliteit en nauwkeurige afbeeldingen kunnen genereren op basis van gebruikersinvoer.
Ook GLIDE van OpenAI is een ander breed bekend platform dat in 2021 is uitgebracht en fotorealistische afbeeldingen produceert met behulp van gebruikersinvoer. Later bracht OpenAI DALL.E-2 uit, het meest geavanceerde beeldgeneratiemodel tot nu toe.
Soortgelijk, Google heeft ook een beeldgeneratiemodel ontwikkeld genaamd Imagen, dat een groot taalmodel gebruikt om een diepe tekstuele begrip van de invoertekst te ontwikkelen en vervolgens fotorealistische afbeeldingen te genereren.
We hebben andere populaire beeldgeneratie-gereedschappen zoals Midjourney en Stable Diffusion (DreamStudio) hierboven genoemd. Bekijk een afbeelding gegenereerd met Stable Diffusion hieronder.

Een afbeelding gemaakt met Stable Diffusion 1.5 met de volgende prompt: “collages, hyperrealistisch, veel variaties portret van zeer oude Thom Yorke, gezichtsvariaties, singer-songwriter, (zij)profiel, verschillende leeftijden, macro-lens, liminale ruimte, door Lee Bermejo, Alphonse Mucha en Greg Rutkowski, grijze baard, glad gezicht, jukbeenderen”
Diffusiemodellen in AI – Wat kunnen we in de toekomst verwachten?
Diffusiemodellen hebben veelbelovend potentieel getoond als een robuuste aanpak voor het genereren van hoge-kwaliteit monsters uit complexe beeld- en videodatasets. Door de menselijke capaciteit te verbeteren om gegevens te gebruiken en te manipuleren, kunnen diffusiemodellen potentieel de wereld revolutioneren zoals we die vandaag zien. We kunnen verwachten dat we nog meer toepassingen van diffusiemodellen zien die een integraal onderdeel worden van ons dagelijks leven.
Dat gezegd hebbende, zijn diffusiemodellen niet de enige generatieve AI-techniek. Onderzoekers gebruiken ook Generatieve Adversarial Networks (GAN’s), Variational Autoencoders en flow-gebaseerde diepe generatieve modellen om AI-inhoud te genereren. Het begrijpen van de fundamentele kenmerken die diffusiemodellen onderscheiden van andere generatieve modellen, kan helpen bij het produceren van effectievere oplossingen in de komende dagen.
Om meer te leren over AI-gebaseerde technologieën, bezoek Unite.ai. Bekijk onze gecureerde bronnen over generatieve AI-gereedschappen hieronder.










