Kunstig intelligens

Diffusionsmodeller i kunstig intelligens – alt hvad du behøver at vide

Udgivet

1 år siden

Marts 31, 2023

En collage af menneskelige ansigter skabt ved hjælp af AI-billedgenerator

I AI-økosystemet opstiller diffusionsmodeller retningen og tempoet for teknologiske fremskridt. De revolutionerer den måde, vi griber komplekse an på generativ AI opgaver. Disse modeller er baseret på matematikken for gaussiske principper, varians, differentialligninger og generative sekvenser. (Vi forklarer den tekniske jargon nedenfor)

Moderne AI-centrerede produkter og løsninger udviklet af Nvidia, Google, Adobe og OpenAI har sat diffusionsmodeller i centrum af rampelyset. DALL.E 2, Stabil diffusionog midt på rejsen er fremtrædende eksempler på diffusionsmodeller, der for nylig er på vej rundt på internettet. Brugere giver en simpel tekstprompt som input, og disse modeller kan konvertere dem til realistiske billeder, såsom det vist nedenfor.

Et billede genereret med Midjourney v5 ved hjælp af inputprompt: livlige californiske valmuer. Kilde: midt på rejsen

Lad os undersøge de grundlæggende arbejdsprincipper for diffusionsmodeller, og hvordan de ændrer verdens retninger og normer, som vi ser den i dag.

Hvad er diffusionsmodeller?

Ifølge forskningspublikationen "Denoising Diffusion Probabilistic Modeller", er diffusionsmodellerne defineret som:

"En diffusionsmodel eller probabilistisk diffusionsmodel er en parametriseret Markov-kæde trænet ved hjælp af variationsslutning til at producere prøver, der matcher dataene efter begrænset tid"

Kort sagt kan diffusionsmodeller generere data svarende til dem, de er trænet i. Hvis modellen træner på billeder af katte, kan den generere lignende realistiske billeder af katte.

Lad os nu prøve at nedbryde den tekniske definition, der er nævnt ovenfor. Diffusionsmodellerne tager inspiration fra arbejdsprincippet og det matematiske grundlag for en sandsynlighedsmodel, der kan analysere og forudsige et systems adfærd, der varierer med tiden, såsom forudsigelse af aktiemarkedsafkast eller pandemiens spredning.

Definitionen siger, at de er parametriserede Markov-kæder trænet med variationsslutning. Markov-kæder er matematiske modeller, der definerer et system, der skifter mellem forskellige tilstande over tid. Systemets eksisterende tilstand kan kun bestemme sandsynligheden for overgang til en specifik tilstand. Med andre ord, den nuværende tilstand af et system rummer de mulige tilstande et system kan følge eller erhverve på ethvert givet tidspunkt.

Træning af modellen ved hjælp af variationsinferens involverer komplekse beregninger for sandsynlighedsfordelinger. Det har til formål at finde de nøjagtige parametre for Markov-kæden, der matcher de observerede (kendte eller faktiske) data efter en bestemt tid. Denne proces minimerer værdien af modellens tabsfunktion, som er forskellen mellem den forudsagte (ukendte) og den observerede (kendte) tilstand.

Når først den er trænet, kan modellen generere prøver, der matcher de observerede data. Disse prøver repræsenterer mulige baner eller tilstand, som systemet kunne følge eller erhverve over tid, og hver bane har en forskellig sandsynlighed for at ske. Derfor kan modellen forudsige systemets fremtidige adfærd ved at generere en række prøver og finde deres respektive sandsynligheder (sandsynligheden for, at disse hændelser sker).

Hvordan tolker man diffusionsmodeller i AI?

Diffusionsmodeller er dybe generative modeller, der fungerer ved at tilføje støj (gaussisk støj) til de tilgængelige træningsdata (også kendt som den fremadrettede diffusionsproces) og derefter vende processen (kendt som denoising eller den omvendte diffusionsprocessen) for at gendanne dataene. Modellen lærer gradvist at fjerne støjen. Denne indlærte denoising-proces genererer nye billeder af høj kvalitet fra tilfældige frø (tilfældige billeder med støj), som vist i illustrationen nedenfor.

Omvendt diffusionsproces: Et støjende billede dæmpes for at gendanne det originale billede (eller generere dets variationer) via en trænet diffusionsmodel. Kilde: Denoising Diffusion Probabilistic Modeller

3 Diffusionsmodelkategorier

Der er tre grundlæggende matematiske rammer der understøtter videnskaben bag diffusionsmodeller. Alle tre arbejder efter de samme principper for at tilføje støj og derefter fjerne den for at generere nye prøver. Lad os diskutere dem nedenfor.

En diffusionsmodel tilføjer og fjerner støj fra et billede. Kilde: Diffusionsmodeller i vision: En undersøgelse

1. Denoising Diffusion Probabilistic Models (DDPM'er)

Som forklaret ovenfor er DDPM'er generative modeller, der hovedsageligt bruges til at fjerne støj fra visuelle eller lyddata. De har vist imponerende resultater på forskellige billed- og lydnedbrydningsopgaver. For eksempel bruger filmindustrien moderne billed- og videobehandlingsværktøjer til at forbedre produktionskvaliteten.

2. Støj-konditionerede score-baserede generative modeller (SGM'er)

SGM'er kan generere nye prøver fra en given distribution. De arbejder ved at lære en estimeringsscorefunktion, der kan estimere logtætheden af målfordelingen. Logtæthedsestimation gør antagelser for tilgængelige datapunkter, at det er en del af et ukendt datasæt (testsæt). Denne scorefunktion kan så generere nye datapunkter fra fordelingen.

For eksempel, dybe forfalskninger er berygtet for at producere falske videoer og lydoptagelser af berømte personligheder. Men de tilskrives for det meste Generative Adversarial Networks (GAN'er). Det har SGM'er dog vist lignende kapaciteter – til tider udkonkurrerer – ved at generere berømthedsansigter af høj kvalitet. SGM'er kan også hjælpe med at udvide sundhedsdatasæt, som ikke er let tilgængelige i store mængder på grund af strenge regler og industristandarder.

3. Stokastiske differentialligninger (SDE'er)

SDE'er beskriver ændringer i tilfældige processer vedrørende tid. De er meget udbredt i fysik og finansielle markeder, der involverer tilfældige faktorer, der i væsentlig grad påvirker markedsresultaterne.

For eksempel er priserne på råvarer meget dynamiske og påvirket af en række tilfældige faktorer. SDE'er beregner finansielle derivater som futureskontrakter (som råoliekontrakter). De kan modellere udsvingene og beregne favorable priser præcist for at give en følelse af sikkerhed.

Vigtigste anvendelser af diffusionsmodeller i kunstig intelligens

Lad os se på nogle vidt tilpassede praksisser og anvendelser af diffusionsmodeller i AI.

Videogenerering af høj kvalitet

Oprettelse af avancerede videoer ved hjælp af dyb læring er udfordrende, da det kræver høj kontinuitet af videoframes. Det er her, diffusionsmodeller er nyttige, da de kan generere et undersæt af videorammer til at udfylde mellem de manglende frames, hvilket resulterer i højkvalitets og glatte videoer uden latens.

Forskere har udviklet Fleksibel diffusionsmodel og resterende videodiffusion teknikker til at tjene dette formål. Disse modeller kan også producere realistiske videoer ved problemfrit at tilføje AI-genererede frames mellem de faktiske frames.

Disse modeller kan simpelthen udvide FPS (frames per second) for en lav FPS-video ved at tilføje dummy-rammer efter at have lært mønstrene fra tilgængelige frames. Uden næsten intet rammetab kan disse rammer yderligere hjælpe deep learning-baserede modeller til at generere AI-baserede videoer fra bunden, der ligner naturlige billeder fra avancerede cam-opsætninger.

En bred vifte af bemærkelsesværdige AI video generatorer er tilgængelig i 2023 for at gøre produktion og redigering af videoindhold hurtig og ligetil.

Tekst-til-billede generering

Tekst-til-billede-modeller bruger input-prompter til at generere billeder i høj kvalitet. For eksempel at give input "rødt æble på en tallerken" og producere et fotorealistisk billede af et æble på en tallerken. Blandet diffusion , unCLIP er to fremtrædende eksempler på sådanne modeller, der kan generere yderst relevante og præcise billeder baseret på brugerinput.

Således, GLIDE af OpenAI er en anden bredt kendt løsning udgivet i 2021, der producerer fotorealistiske billeder ved hjælp af brugerinput. Senere udgav OpenAI DALL.E-2, dens hidtil mest avancerede billedgenereringsmodel.

Tilsvarende har Google også udviklet en billedgenereringsmodel kendt som Billede, som bruger en stor sprogmodel til at udvikle en dyb tekstforståelse af inputteksten og derefter genererer fotorealistiske billeder.

Vi har nævnt andre populære billedgenereringsværktøjer som Midjourney og Stable Diffusion (DreamStudio) ovenfor. Se et billede genereret ved hjælp af stabil diffusion nedenfor.

En collage af menneskelige ansigter skabt med Stable Diffusion 1.5

Et billede oprettet med Stable Diffusion 1.5 ved hjælp af følgende prompt: "collager, hyperrealistisk, mange variationer portræt af meget gamle thom yorke, ansigtsvariationer, singer-songwriter, (side) profil, forskellige aldre, makrolinse, liminalrum, af lee bermejo, alphonse mucha og greg rutkowski, gråskæg, glat ansigt, kindben”

Diffusionsmodeller i AI – hvad kan man forvente i fremtiden?

Diffusionsmodeller har afsløret lovende potentiale som en robust tilgang til at generere prøver af høj kvalitet fra komplekse billed- og videodatasæt. Ved at forbedre menneskets evne til at bruge og manipulere data kan diffusionsmodeller potentielt revolutionere verden, som vi ser den i dag. Vi kan forvente at se endnu flere anvendelser af diffusionsmodeller blive en integreret del af vores daglige liv.

Når det er sagt, er diffusionsmodeller ikke den eneste generative AI-teknik. Forskere bruger også Generative Adversarial Networks (GAN'er), Variational Autoencodere, og flow-baserede dybe generative modeller til at generere AI-indhold. At forstå de grundlæggende egenskaber, der adskiller diffusionsmodeller fra andre generative modeller, kan hjælpe med at producere mere effektive løsninger i de kommende dage.

For at lære mere om AI-baserede teknologier, besøg Unite.ai. Se vores udvalgte ressourcer om generative AI-værktøjer nedenfor.