AI 101
Diffuusiomallit tekoälyssä – Kaikki mitä sinun tarvitsee tietää

Tekoälyekosysteemissä diffuusiomallit määrittävät suunnan ja vauhdin teknologisen kehityksen edetessä. Ne muuttavat tapaa, jolla lähestymme monimutkaisia generatiivisia tekoälytehtäviä. Nämä mallit perustuvat gaussian periaatteiden, varianssin, differentiaaliyhtälöiden ja generatiivisten sekvenssien matematiikkaan. (Selitämme teknistä jargonia alla)
Nykyaikaiset tekoälykeskeiset tuotteet ja ratkaisut, joita Nvidia, Google, Adobe ja OpenAI ovat kehittäneet, ovat asettaneet diffuusiomallit keskipisteen valokeilaan. DALL.E 2, Stable Diffusion ja Midjourney ovat merkittäviä esimerkkejä diffuusiomalleista, jotka ovat saaneet paljon huomiota internetissä viime aikoina. Käyttäjät antavat yksinkertaisen tekstipromptin syötteenä, ja nämä mallit voivat muuttaa ne realistisiksi kuviksi, kuten alla olevassa esimerkissä.

Kuva luotu Midjourney v5:llä syötteenä “vibrant California poppies”. Lähde: Midjourney
Tutustumme diffuusiomallien perusperiaatteisiin ja siihen, miten ne muuttavat maailman suuntaa ja normeja, joita näemme tänään.
Mitä diffuusiomallit ovat?
Tutkimusjulkaisun “Denoising Diffusion Probabilistic Models” mukaan diffuusiomallit on määritelty seuraavasti:
“Diffuusiomalli tai probabilistinen diffuusiomalli on parametrinen Markovin ketju, joka on koulutettu variational inference -menetelmällä tuottamaan näytteitä, jotka vastaavat dataa äärellisessä ajassa”
Yksinkertaisesti sanottuna, diffuusiomallit voivat generoida dataa, joka on samankaltaista kuin se, mille ne on koulutettu. Jos malli on koulutettu kissojen kuvilla, se voi generoida samankaltaisia realistisia kissojen kuvia.
Tarkastellaan nyt tarkemmin yllä mainittua teknistä määritelmaa. Diffuusiomallit ottavat vaikutteita probabilistisen mallin toimintaperiaatteesta ja matemaattisesta perustasta, joka voi analysoida ja ennustaa järjestelmän käyttäytymistä, joka vaihtelee ajan suhteen, kuten osakkeiden arvon ennustamista tai pandemian leviämistä.
Määritelmä toteaa, että ne ovat parametrinen Markovin ketju, joka on koulutettu variational inference -menetelmällä. Markovin ketjut ovat matemaattisia malleja, jotka määrittävät järjestelmän, joka siirtyy eri tiloihin ajan suhteen. Järjestelmän nykyinen tila määrittää vain siirtymisen todennäköisyyden tiettyyn tilaan.
Mallin kouluttaminen variational inference -menetelmällä sisältää monimutkaisia laskelmia todennäköisyysjakaumien suhteen. Se pyrkii löytämään täsmälliset parametriarvot Markovin ketjulle, jotka vastaavat havaittuja (tunnettuja) dataa tietyn ajan jälkeen. Tämä prosessi minimoi mallin virhefunktion arvon, joka on ero ennustetun (tuntemattoman) ja havaitun (tunnetun) tilan välillä.
Kun malli on koulutettu, se voi generoida näytteitä, jotka vastaavat havaittuja dataa. Nämä näytteet edustavat mahdollisia reittejä tai tiloja, joita järjestelmä voi seurata tai hankkia ajan kuluessa, ja kunkin reitin todennäköisyys (mahdollisuus) on erilainen. Siispä malli voi ennustaa järjestelmän tulevan käyttäytymisen generoimalla joukon näytteitä ja etsimällä niiden todennäköisyyksiä (mahdollisuutta).
Miten diffuusiomallit tulkitaan tekoälyssä?
Diffuusiomallit ovat syvät generatiiviset mallit, jotka toimivat lisäämällä kohinaa (gaussinen kohina) saatavilla koulutusdataan (tunnetaan myös eteenpäin diffuusioprosessina) ja sitten kääntämällä prosessi (tunnetaan myös puhdistus- tai käänteinen diffuusioprosessi) palauttaa data. Malli oppii vähitellen poistamaan kohinan. Tämä oppiminen puhdistusprosessi generoi uusia, laadukkaita kuvia satunnaisista siemenistä (satunnaisista kohinallisista kuvista), kuten alla olevassa kuvassa.

Käänteinen diffuusioprosessi: Kohinallinen kuva puhdistetaan palauttaa alkuperäisen kuvan (tai generoi sen variaatiot) koulutetun diffuusiomallin avulla. Lähde: Denoising Diffusion Probabilistic Models
3 diffuusiomallin luokkaa
On kolme perustavaa matemaattista viitekehyksi, jotka muodostavat tieteen taustan diffuusiomalleissa. Kaikki kolme toimivat samojen periaatteiden mukaan: kohinan lisääminen ja poistaminen generoidakseen uusia näytteitä. Tarkastellaan niitä alla.

Diffuusiomalli lisää ja poistaa kohinaa kuvasta. Lähde: Diffusion Models in Vision: A Survey
1. Denoising Diffusion Probabilistic Models (DDPMs)
Kuten yllä mainittiin, DDPMs ovat generatiivisia malleja, joita käytetään pääasiassa poistamaan kohinaa visuaalisesta tai äänidatasta. Ne ovat osoittaneet vaikuttavat tulokset erilaisissa kuvan ja äänen puhdistustehtävissä. Esimerkiksi elokuvateollisuus käyttää nykyaikaisia kuvan ja videon prosessointityökaluja parantamaan tuotannon laatua.
2. Noise-Conditioned Score-Based Generative Models (SGMs)
SGMs voivat generoida uusia näytteitä annetusta jakaumasta. Ne toimivat oppimalla arviointifunktion, joka voi arvioida logaritmisena tiheytenä kohdetarinan jakaumaa. Logaritminen tiheysarvio tekee oletuksia saatavilla olevista datasta, jonka osana se on (testijoukko). Tämä arviointifunktio voi sitten generoida uusia datakohtia jakaumasta.
Esimerkiksi deep fake -tutkimukset ovat maineikkaita väärennetyistä videosta ja äänistä kuuluisuuksista. Mutta ne voidaan pääasiassa liittää Generative Adversarial Networks (GANs) -verkkoihin. Kuitenkin SGMs ovat osoittaneet samanlaisia kykyjä – joskus jopa ylittävät – korkealaatuisten julkkisten kasvojen generoimisessa. Lisäksi SGMs voivat auttaa laajentamaan terveydenhuollon tietoja, joita ei ole helposti saatavilla suurina määrinä tiukkojen sääntöjen ja teollisuusstandardien vuoksi.
3. Stokastiset differentiaaliyhtälöt (SDEs)
SDEs kuvaavat satunnaisen prosessin muutoksia ajan suhteen. Ne ovat laajasti käytössä fysiikassa ja rahoitusmarkkinoilla, joissa satunnaiset tekijät vaikuttavat merkittävästi markkinatuloksiin.
Esimerkiksi raaka-aineiden hinnat ovat erittäin dynaamisia ja vaikuttavat laajaan joukkoon satunnaisia tekijöitä. SDEs laskelmat rahoitusjohdannaisia, kuten tulevaisuussopimuksia (kuten raakaöljysopimukset). Ne voivat mallintaa heilahteluita ja laskea edullisia hintoja tarkasti antaen turvallisuuden tunnetta.
Diffuusiomallien merkittävät sovellukset tekoälyssä
Tarkastellaan joitakin laajasti sovellettuja käytäntöjä ja sovelluksia diffuusiomalleista tekoälyssä.
Korkealaatuinen videon generointi
Korkealaatuisten videoiden luominen syvällä oppimisella on haasteellista, koska se vaatii korkean jatkuvuuden videokehysissä. Tässä diffuusiomallit tulevat tarpeeseen, koska ne voivat generoida videokehysien alijoukon täyttämään puuttuvat kehykset, tuloksena on korkealaatuiset ja sileät videot ilman viivettä.
Tutkijat ovat kehittäneet Flexible Diffusion Model and Residual Video Diffusion -tekniikoita tätä tarkoitusta varten. Nämä mallit voivat myös tuottaa realistisia videoita lisäämällä AI-generoituja kehyksiä oikeiden kehysten väliin.
Nämä mallit voivat yksinkertaisesti laajentaa matalan FPS-videon (kuva per sekunti) FPS:ää lisäämällä dummy-kehyksiä oppimalla mallit saatavilla olevista kehysistä. Lähes ilman kehysmenetystä nämä kehykset voivat edelleen auttaa syvällä oppimisella perustuvia malleja generoimaan AI-pohjaisia videoita alusta alkaen, jotka näyttävät luonnollisilta otoksilta korkealaatuisten kamerajärjestelmien avulla.
Laaja valikoima merkittäviä AI-videogeneraattoreita on saatavilla vuonna 2023 tehdäkseen videosisällön tuotannon ja editoinnin nopeaksi ja suoraviivaiseksi.
Tekstistä kuvaan generointi
Tekstistä kuvaan mallit käyttävät syötteitä generoidakseen korkealaatuisia kuvia. Esimerkiksi antamalla syöte “punainen omena lautasella” ja tuottamalla fotorealistinen kuva omenasta lautasella. Blended diffusion ja unCLIP ovat kaksi merkittävää esimerkkiä näistä malleista, jotka voivat generoida erittäin merkityksellisiä ja tarkkoja kuvia käyttäjän syötteen perusteella.
Myös GLIDE OpenAI on laajasti tunnettu ratkaisu, joka julkaistiin vuonna 2021 ja tuottaa fotorealistisia kuvia käyttäjän syötteen perusteella. Myöhemmin OpenAI julkaisi DALL.E-2:n, sen edistyneimmän kuvagenerointimallin tähän asti.
Samoin Google on kehittänyt kuvagenerointimallin nimeltä Imagen, joka käyttää suurta kielimallia kehittääkseen syvän tekstuaalisen ymmärryksen syötetekstistä ja generoi fotorealistisia kuvia.
Olemme maininneet muita suosittuja kuvagenerointityökaluja, kuten Midjourney ja Stable Diffusion (DreamStudio). Katsokaa kuvaa, joka on generoitu Stable Diffusionilla alla.

Kuva luotu Stable Diffusion 1.5:llä seuraavalla syötteellä: ”collages, hyper-realistic, many variations portrait of very old thom yorke, face variations, singer-songwriter, (side) profile, various ages, macro lens, liminal space, by lee bermejo, alphonse mucha and greg rutkowski, greybeard, smooth face, cheekbones”
Diffuusiomallit tekoälyssä – Mitä odottaa tulevaisuudessa?
Diffuusiomallit ovat osoittaneet lupaavaa potentiaalia vahvana lähestymistapana korkealaatuisten näytteiden generoimiseen monimutkaisista kuvista ja videodatasta. Parantamalla ihmisten kykyä käyttää ja manipuloida dataa, diffuusiomallit voivat vallankumouksellisesti muuttaa maailmaa, jonka näemme tänään. Voimme odottaa näkevämme vielä enemmän diffuusiomallien sovelluksia, jotka tulevat olemaan olennainen osa arkipäivämme elämää.
On kuitenkin sanottava, että diffuusiomallit eivät ole ainoa generatiivinen tekoälytekniikka. Tutkijat käyttävät myös Generative Adversarial Networks (GANs), Variational Autoencoders ja flow-pohjaisia syviä generatiivisia malleja generoimaan tekoälysisältöä. Ymmärtäminen diffuusiomallien perusominaisuuksia, jotka erottavat ne muista generatiivisista malleista, voi auttaa tuottamaan tehokkaampia ratkaisuja tulevina päivinä.
Lisätietoja tekoälytekniikoista on Unite.ai -sivustolla. Tarkastelkaa kuratoituja resurssejamme generatiivisista tekoälytyökaluista alla.










