AI 101

Diffuusiomallit tekoälyssä – Kaikki mitä sinun tarvitsee tietää

Julkaistu 31. maaliskuuta 2023

Päivitetty 23. toukokuuta 2026

Tekijä

Haziqa Sajid

A collage of human faces created using AI image generator

Tekoälyekosysteemissä diffuusiomallit määrittävät teknologisen edistymisen suunnan ja vauhdin. Ne vallankumouksellistavat tapaa, jolla lähestymme monimutkaisia generatiivisia tekoälytehtäviä. Nämä mallit perustuvat gaussian periaatteiden, varianssin, differentiaaliyhtälöiden ja generatiivisten sekvenssien matematiikkaan. (Selitämme teknisen sanaston alla)

Modernit tekoälykeskeiset tuotteet ja ratkaisut, jotka on kehittänyt Nvidia, Google, Adobe ja OpenAI, ovat asettaneet diffuusiomallit valokeilaan. DALL.E 2, Stable Diffusion ja Midjourney ovat merkittäviä esimerkkejä diffuusiomalleista, jotka ovat saaneet paljon huomiota internetissä viime aikoina. Käyttäjät antavat yksinkertaisen tekstipromptin syötteenä, ja nämä mallit voivat muuttaa ne realistisiksi kuviksi, kuten alla olevassa kuvassa.

Kuva, joka on luotu Midjourney v5:llä syötteenä “vibrant California poppies”. Lähde: Midjourney

Tutustumme diffuusiomallien perustavanlaatuiseen toimintaperiaatteeseen ja siihen, miten ne muuttavat maailman suuntaa ja normeja, joita näemme tänään.

Mitä diffuusiomallit ovat?

Tutkimusjulkaisun “Denoising Diffusion Probabilistic Models” mukaan diffuusiomallit määritellään seuraavasti:

”Diffuusiomalli tai todennäköisyysdiffuusiomalli on parametrinen Markovin ketju, joka on koulutettu variatioinferenssin avulla tuottamaan näytteitä, jotka vastaavat dataa äärellisessä ajassa”

Yksinkertaisesti sanottuna diffuusiomallit voivat generoida dataa, joka on samanlaista kuin siihen koulutettu data. Jos malli on koulutettu kissojen kuvilla, se voi generoida samanlaisia realistisia kissojen kuvia.

Nyt yritämme purkaa yllä mainittua teknistä määritelmää. Diffuusiomallit ottavat vaikutteita todennäköisyysmallin toimintaperiaatteesta ja matemaattisesta perustasta, joka voi analysoida ja ennustaa järjestelmän käyttäytymistä, joka vaihtelee ajan suhteen, kuten ennustaa osakkeiden arvon muutosta tai pandemian leviämistä.

Määritelmä toteaa, että ne ovat parametrinen Markovin ketju, joka on koulutettu variatioinferenssin avulla. Markovin ketjut ovat matemaattisia malleja, jotka määrittävät järjestelmän, joka siirtyy eri tiloihin ajan suhteen. Järjestelmän nykyinen tila voi ainoastaan määrittää siirtymisen todennäköisyyden tiettyyn tilaan. Toisin sanoen järjestelmän nykyinen tila pitää mahdollisia tiloja, joita järjestelmä voi seurata tai hankkia millä tahansa hetkellä.

Mallin koulutus variatioinferenssin avulla sisältää monimutkaisia laskelmia todennäköisyysjakaumille. Se pyrkii löytämään täsmälliset parametriarvot Markovin ketjulle, jotka vastaavat havaittuja (tunnettuja tai todellisia) dataa tiettynä aikana. Tämä prosessi minimoi mallin häviöfunktion arvon, joka on ero ennustetun (tuntemattoman) ja havaitun (tunnetun) tilan välillä.

Kun malli on koulutettu, se voi generoida näytteitä, jotka vastaavat havaittuja dataa. Nämä näytteet edustavat mahdollisia polkuja tai tiloja, joita järjestelmä voi seurata tai hankkia ajan suhteen, ja kullakin polulla on eri todennäköisyys tapahtumisen mahdollisuudelle. Siispä malli voi ennustaa järjestelmän tulevan käyttäytymisen generoimalla joukon näytteitä ja etsimällä niiden vastaavat todennäköisyydet (tapauksen todennäköisyys).

Miten diffuusiomalleja tulkitaan tekoälyssä?

Diffuusiomallit ovat syvät generatiiviset mallit, jotka toimivat lisäämällä kohinaa (gaussin kohinaa) saatavilla koulutusdataan (tunnetaan myös eteenpäin diffuusioprosessina) ja sitten kääntämällä prosessin (tunnetaan myös puhdistus- tai käänteinen diffuusioprosessi) palauttaaakseen datan. Malli oppii vähitellen poistamaan kohinan. Tämä opittu puhdistusprosessi generoi uusia, laadukkaita kuvia satunnaisista siemenistä (satunnaisista kohinallisista kuvista), kuten alla olevassa kuvassa.

Käänteinen diffuusioprosessi: kohinallinen kuva puhdistetaan palauttaaakseen alkuperäisen kuvan (tai generoidaakseen sen varianteja) koulutetun diffuusiomallin avulla. Lähde: Denoising Diffusion Probabilistic Models

3 diffuusiomallin luokkaa

On kolme perustavaa matemaattista viitekehystä, jotka perustavat diffuusiomallien tieteellisen taustan. Kaikki kolme toimivat samojen periaatteiden mukaan: kohinan lisääminen ja poistaminen uusien näytteiden generoimiseksi. Tutustumme niihin alla.

Diffuusiomalli lisää ja poistaa kohinaa kuvasta. Lähde: Diffusion Models in Vision: A Survey

1. Denoising Diffusion Probabilistic Models (DDPMs)

Kuten yllä mainittiin, DDPM:t ovat generatiivisia malleja, joita käytetään pääasiassa kohinan poistamiseen visuaalisesta tai äänidatasta. Ne ovat osoittaneet vaikuttavat tulokset erilaisissa kuvan- ja äänenpuhdistustehtävissä. Esimerkiksi elokuvateollisuus käyttää modernia kuvan- ja videonkäsittelytyökaluja parantamaan tuotanto-laatuja.

2. Noise-Conditioned Score-Based Generative Models (SGMs)

SGM:t voivat generoida uusia näytteitä annetusta jakaumasta. Ne toimivat oppimalla arviointifunktion, joka voi arvioida logaritmista tiheyttä kohdejakaumalle. Logaritmisen tiheyden arviointi tekee oletuksia saatavilla olevista datapisteistä, jotka kuuluvat tuntemattomaan aineistoon (testijoukkoon). Tämä arviointifunktio voi sitten generoida uusia datapisteitä jakaumasta.

Esimerkiksi deep fake -tiedostot ovat maineikkaita väärennettyjen videoiden ja äänitallenteiden tuottamisesta. Ne voidaan kuitenkin pääasiassa liittää Generatiivisiin Adversarial Networks (GAN) -verkkoihin. SGM:t ovat kuitenkin osoittaneet samanlaisia kykyjä – joskus jopa ylittäen – korkealaatuisten julkkisten kasvojen generoimisessa. SGM:t voivat myös auttaa laajentamaan terveydenhuollon aineistoja, jotka eivät ole helposti saatavilla suurina määrinä tiukkojen sääntöjen ja teollisuusstandardien vuoksi.

3. Stokastiset differentiaaliyhtälöt (SDEs)

SDE:t kuvaavat satunnaisissa prosesseissa tapahtuvia muutoksia ajan suhteen. Niitä käytetään laajasti fysiikassa ja rahoitusmarkkinoilla, joissa satunnaiset tekijät vaikuttavat merkittävästi markkinatuloksiin.

Esimerkiksi raaka-aineiden hinnat ovat hyvin dynaamisia ja vaikuttavat moniin satunnaisiin tekijöihin. SDE:t laskenvat rahoitusjohdannaisia, kuten tulevaisuussopimuksia (kuten raaka-aineiden sopimuksia). Ne voivat mallintaa heilahteluita ja laskea edulliset hinnat tarkasti antaakseen turvallisuuden tunnetta.

Diffuusiomallien merkittävimmät sovellukset tekoälyssä

Tutustumme diffuusiomallien laajasti sovellettuihin käytäntöihin ja sovelluksiin tekoälyssä.

Korkealaatuinen videon generointi

Korkealaatuisten videoiden luominen syvällä oppimisella on haasteellista, koska se vaatii korkean videokehysnopeuden jatkuvuutta. Tässä diffuusiomallit tulevat tarpeeseen, koska ne voivat generoida videokehysjoukon puuttuvia kehyksiä, joista tuloksena on korkealaatuinen ja sileä video ilman viivettä.

Tutkijat ovat kehittäneet Flexible Diffusion Model ja Residual Video Diffusion -tekniikoita tätä tarkoitusta varten. Nämä mallit voivat myös tuottaa realistisia videoita lisäämällä AI-generoituja kehyksiä oikeiden kehysten väliin.

Nämä mallit voivat yksinkertaisesti laajentaa matalan kehysnopeuden videon kehysnopeutta (FPS) lisäämällä dummy-kehyksiä opettelemalla saatavilla olevien kehysten mallit. Lähes ilman kehysmenetyksiä nämä kehykset voivat edelleen auttaa syvällä oppimisella perustuvia malleja generoimaan AI-pohjaisia videoita alusta alkaen, jotka näyttävät luonnollisilta otoksilta korkealaatuisista kamerajärjestelmistä.

Laaja valikoima merkittäviä AI-videogeneraattoreita on saatavilla vuonna 2023 tehdäkseen videosisällön tuotannon ja editoinnin nopeaksi ja suoraviivaiseksi.

Tekstin kuvaksi generointi

Teksti-kuvamallit käyttävät syötteenä annettuja tekstejä generoidakseen korkealaatuisia kuvia. Esimerkiksi annetaan syöte “punainen omena lautasella” ja tuotetaan valokuvamainen kuva omenasta lautasella. Blended diffusion ja unCLIP ovat kaksi esimerkkiä tällaisista malleista, jotka voivat generoida hyvin merkityksellisiä ja tarkkoja kuvia käyttäjän syötteen perusteella.

Lisäksi GLIDE OpenAI on toinen laajasti tunnettu ratkaisu, joka julkaistiin vuonna 2021 ja tuottaa valokuvamaisia kuvia käyttäjän syötteen perusteella. Myöhemmin OpenAI julkaisi DALL.E-2:n, sen edistyneimmän kuvagenerointimallin tähän asti.

Samoin Google on kehittänyt kuvagenerointimallin nimeltä Imagen, joka käyttää suurta kielimallia kehittääkseen syvän tekstuaalisen ymmärryksen syötetystä tekstistä ja generoidakseen valokuvamaisia kuvia.

Olemme maininneet muita suosittuja kuvagenerointityökaluja, kuten Midjourney ja Stable Diffusion (DreamStudio). Katsokaa kuvaa, joka on generoitu Stable Diffusionilla alla.

Kuva, joka on luotu Stable Diffusion 1.5:llä syötteenä “collages, hyper-realistic, many variations portrait of very old thom yorke, face variations, singer-songwriter, (side) profile, various ages, macro lens, liminal space, by lee bermejo, alphonse mucha and greg rutkowski, greybeard, smooth face, cheekbones”

Diffuusiomallit tekoälyssä – Mitä odottaa tulevaisuudessa?

Diffuusiomallit ovat osoittaneet lupaavaa potentiaalia vankkana lähestymistapana korkealaatuisten näytteiden generoimiseksi monimutkaisista kuvaa ja videodatasta. Parantamalla ihmisten kykyä käyttää ja manipuloida dataa, diffuusiomallit voivat vallankumouksellistaa maailman, jonka näemme tänään. Voimme odottaa näkevämme vielä enemmän diffuusiomallien sovelluksia, jotka tulevat olemaan integraalinen osa arkipäivämme elämää.

On sanottava, että diffuusiomallit eivät ole ainoa generatiivinen tekoälytekniikka. Tutkijat käyttävät myös Generatiivisia Adversarial Networks (GAN) -verkkoja, Variational Autoencoders ja flow-pohjaisia syvän generatiivisia malleja AI-sisällön generoimiseen. Ymmärtäminen diffuusiomallien perusominaisuuksista, jotka erottavat ne muista generatiivisista malleista, voi auttaa tuottamaan tehokkaampia ratkaisuja tulevina päivinä.

Lisätietoa tekoälypohjaisista teknologioista löydät Unite.ai:sta. Tarkastele kuratoituja resurssejamme generatiivisesta tekoälystä alla.