Connect with us

AI 101

Diffusionsmodeller i AI – Allt du behöver veta

mm
A collage of human faces created using AI image generator

I AI-ekosystemet sätter diffusionsmodeller riktningen och takten för teknisk utveckling. De revolutionerar sättet vi närmar oss komplexa generativ AI-uppgifter. Dessa modeller bygger på matematiken bakom gaussiska principer, varians, differentialekvationer och generativa sekvenser. (Vi kommer att förklara den tekniska jargongen nedan)

Modern AI-centrerade produkter och lösningar som utvecklats av Nvidia, Google, Adobe och OpenAI har satt diffusionsmodeller i centrum för rampljuset. DALL.E 2, Stable Diffusion och Midjourney är framstående exempel på diffusionsmodeller som gör rundor på internet nyligen. Användare tillhandahåller en enkel textprompt som indata, och dessa modeller kan omvandla dem till realistiska bilder, som den som visas nedan.

En bild genererad med Midjourney v5 med indataprompt: vibranta kaliforniska poppies.

En bild genererad med Midjourney v5 med indataprompt: vibranta kaliforniska poppies. Källa: Midjourney

Låt oss undersöka de grundläggande arbetsprinciperna för diffusionsmodeller och hur de förändrar riktningarna och normerna i världen som vi ser den idag.

Vad är diffusionsmodeller?

Enligt forskningspublikationen “Denoising Diffusion Probabilistic Models” definieras diffusionsmodellerna som:

“En diffusionsmodell eller probabilistisk diffusionsmodell är en parameteriserad Markovkedja som tränas med variational inferens för att producera prover som matchar data efter en ändlig tid”

Förenklat kan diffusionsmodeller generera data som liknar de de tränats på. Om modellen tränas på bilder av katter kan den generera realistiska bilder av katter.

Låt oss försöka bryta ner den tekniska definitionen som nämns ovan. Diffusionsmodellerna hämtar inspiration från arbetsprincipen och den matematiska grunden för en probabilistisk modell som kan analysera och förutsäga ett systems beteende som varierar med tiden, såsom att förutsäga aktieindex eller pandemins spridning.

Definitionen anger att de är parameteriserade Markovkedjor som tränas med variational inferens. Markovkedjor är matematiska modeller som definierar ett system som växlar mellan olika tillstånd över tiden. Det befintliga tillståndet i systemet kan endast bestämma sannolikheten för att gå över till ett visst tillstånd. Med andra ord har det aktuella tillståndet i ett system möjliga tillstånd som systemet kan följa eller förvärva vid en given tidpunkt.

Att träna modellen med variational inferens innebär komplexa beräkningar för sannolikhetsfördelningar. Det syftar till att hitta exakta parametrar för Markovkedjan som matchar de observerade (kända eller faktiska) data efter en viss tid. Denna process minimerar värdet av modellens förlustfunktion, som är skillnaden mellan den förutsagda (okända) och observerade (kända) tillståndet.

När modellen väl är tränad kan den generera prover som matchar de observerade data. Dessa prover representerar möjliga banor eller tillstånd som systemet kan följa eller förvärva över tiden, och varje bana har en annan sannolikhet för att inträffa. Därför kan modellen förutsäga systemets framtida beteende genom att generera en rad prover och hitta deras respektive sannolikheter (sannolikheten för att dessa händelser inträffar).

Hur tolkar man diffusionsmodeller i AI?

Diffusionsmodeller är djupa generativa modeller som fungerar genom att lägga till brus (gaussiskt brus) till den tillgängliga träningsdata (även känd som den främre diffusionsprocessen) och sedan omvända processen (känd som avbrusning eller den omvända diffusionsprocessen) för att återställa data. Modellen lär sig gradvis att ta bort bruset. Denna inlärda avbrusningsprocess genererar nya, högkvalitativa bilder från slumpmässiga frön (slumpmässiga brusiga bilder), som visas i illustrationen nedan.

Omvänd diffusionsprocess: En brusig bild avbrusas för att återställa den ursprungliga bilden (eller generera dess variationer) via en tränad diffusionsmodell.

Omvänd diffusionsprocess: En brusig bild avbrusas för att återställa den ursprungliga bilden (eller generera dess variationer) via en tränad diffusionsmodell. Källa: Denoising Diffusion Probabilistic Models

3 diffusionsmodellskategorier

Det finns tre grundläggande matematiska ramverk som utgör grunden för vetenskapen bakom diffusionsmodeller. Alla tre fungerar på samma principer om att lägga till brus och sedan ta bort det för att generera nya prover. Låt oss diskutera dem nedan.

En diffusionsmodell lägger till och tar bort brus från en bild.

En diffusionsmodell lägger till och tar bort brus från en bild. Källa: Diffusion Models in Vision: A Survey

1. Avbrusningsdiffusionsmodeller (DDPM)

Som nämns ovan är DDPM generativa modeller som främst används för att ta bort brus från visuell eller ljuddata. De har visat imponerande resultat på olika bild- och ljudavbrusningsuppgifter. Till exempel används moderna bild- och videobearbetningsverktyg inom filmindustrin för att förbättra produktkvaliteten.

2. Brusvillkorsbaserade poängbaserade generativa modeller (SGM)

SGM kan generera nya prover från en given fördelning. De fungerar genom att lära en estimationspoängfunktion som kan uppskatta loggdensiteten för målfördelningen. Loggdensitetsuppskattning gör antaganden för tillgängliga datapunkter som en del av en okänd dataset (testuppsättning). Denna poängfunktion kan sedan generera nya datapunkter från fördelningen.

Till exempel är djupfalsningar ökända för att producera falska videor och ljud av kända personer. Men de tillskrivs mest generativa adversariala nätverk (GAN). Men SGM har visat liknande förmågor – ibland överträffa – i att generera högkvalitativa kändisansikten. Dessutom kan SGM hjälpa till att utöka hälso datapunkter, som inte är lättillgängliga i stora mängder på grund av stränga regler och branschstandarder.

3. Stokastiska differentialekvationer (SDE)

SDE beskriver förändringar i slumpmässiga processer med avseende på tid. De används bredvid inom fysik och finansiella marknader som inbegriper slumpmässiga faktorer som påverkar marknadsresultatet.

Till exempel är råvarupriserna mycket dynamiska och påverkas av en mängd slumpmässiga faktorer. SDE beräknar finansiella derivat som terminskontrakt (såsom råoljekontrakt). De kan modellera fluktuationerna och beräkna fördelaktiga priser med stor noggrannhet för att ge en känsla av säkerhet.

Stora tillämpningar av diffusionsmodeller i AI

Låt oss se på några allmänt accepterade metoder och användningar av diffusionsmodeller i AI.

Högkvalitativ videogenerering

Att skapa högkvalitativa videor med djupinlärning är utmanande eftersom det kräver hög kontinuitet av videoframer. Här kommer diffusionsmodellerna in som handen i handsken eftersom de kan generera en undermängd av videoframer för att fylla i de saknade ramarna, vilket resulterar i högkvalitativa och smidiga videor med ingen fördröjning.

Forskare har utvecklat Flexible Diffusion Model och Residual Video Diffusion-tekniker för att tjäna detta syfte. Dessa modeller kan också producera realistiska videor genom att smidigt lägga till AI-genererade ramar mellan de faktiska ramarna.

Dessa modeller kan enkelt utöka FPS (bilder per sekund) för en låg FPS-video genom att lägga till dummy-ramar efter att ha lärt sig mönstren från tillgängliga ramar. Med nästan ingen ramförlust kan dessa ramverk ytterligare hjälpa djupinlärningsbaserade modeller att generera AI-baserade videor från scratch som ser ut som naturliga skott från högkvalitativa kamerainställningar.

En mängd olika AI-videogenererare finns tillgängliga 2023 för att göra videoinnehållsproduktion och redigering snabb och enkel.

Text-till-bild-generering

Text-till-bild-modeller använder indataprompt för att generera högkvalitativa bilder. Till exempel, genom att ge indata “röd äpple på en tallrik” och producera en fotorealistisk bild av ett äpple på en tallrik. Blended diffusion och unCLIP är två framstående exempel på sådana modeller som kan generera högkvalitativa och precisa bilder baserat på användarindata.

Även GLIDE av OpenAI är en annan välkänd lösning som släpptes 2021 som producerar fotorealistiska bilder med användarindata. Senare släppte OpenAI DALL.E-2, sin mest avancerade bildgenereringsmodell hittills.

På samma sätt har Google också utvecklat en bildgenereringsmodell som kallas Imagen, som använder en stor språkmodell för att utveckla en djup textuell förståelse av indata-texten och sedan generera fotorealistiska bilder.

Vi har nämnt andra populära bildgenereringsverktyg som Midjourney och Stable Diffusion (DreamStudio) ovan. Se en bild som genererats med Stable Diffusion nedan.

En samling av mänskliga ansikten skapad med Stable Diffusion 1.5

En bild skapad med Stable Diffusion 1.5 med följande prompt: “collages, hyperrealistiska, många variationer porträtt av mycket gammal Thom Yorke, ansiktsvariationer, sångare-låtskrivare, (sida) profil, olika åldrar, makroobjektiv, liminalt utrymme, av Lee Bermejo, Alphonse Mucha och Greg Rutkowski, gråskägg, slät hy, kindben”

Diffusionsmodeller i AI – Vad kan man förvänta sig i framtiden?

Diffusionsmodeller har visat lovande potential som en robust metod för att generera högkvalitativa prover från komplexa bild- och videodatamängder. Genom att förbättra människans förmåga att använda och manipulera data kan diffusionsmodeller potentiellt revolutionera världen som vi ser den idag. Vi kan förvänta oss att se ännu fler tillämpningar av diffusionsmodeller som blir en integrerad del av våra dagliga liv.

Det ska sägas att diffusionsmodeller inte är den enda generativa AI-tekniken. Forskare använder också generativa adversariala nätverk (GAN), variationala autoencoders och flödesbaserade djupa generativa modeller för att generera AI-innehåll. Att förstå de grundläggande egenskaperna som skiljer diffusionsmodeller från andra generativa modeller kan hjälpa till att producera mer effektiva lösningar i framtiden.

För att lära sig mer om AI-baserade teknologier, besök Unite.ai. Se våra kuraterade resurser om generativa AI-verktyg nedan.

Haziqa är en Data Scientist med omfattande erfarenhet av att skriva tekniskt innehåll för AI- och SaaS-företag.