Keinotekoinen yleinen älykkyys

Video Generation AI: OpenAI:n uraauurtavan Sora-mallin tutkiminen

Julkaistu

3 kuukautta sitten

Maaliskuussa 1, 2024

Sora, OpenAI:n uraauurtava tekstistä videoksi generaattori

OpenAI julkisti uusimman tekoälyn luomuksensa - sora, vallankumouksellinen tekstistä videoksi -generaattori, joka pystyy tuottamaan erittäin tarkkoja, yhtenäisiä videoita jopa 1 minuutin pituisina yksinkertaisista tekstikehotteista. Sora edustaa valtavaa harppausta eteenpäin luovassa video-AI:ssa, jonka ominaisuudet ylittävät selvästi aiemmat huippuluokan mallit.

Tässä postauksessa tarjoamme kattavan teknisen sukellus Soraan – miten se toimii konepellin alla, uusia tekniikoita, joita OpenAI hyödynsi Soran uskomattomien videontuotantokykyjen saavuttamiseksi, sen tärkeimmät vahvuudet ja nykyiset rajoitukset sekä valtavan potentiaalin, jonka Sora merkitsee tekoälyn luovuuden tulevaisuus.

Soran yleiskatsaus

Korkealla tasolla Sora ottaa syötteeksi tekstikehotteen (esim. "kaksi koiraa leikkimässä kentällä") ja luo vastaavan ulostulovideon, jossa on realistisia kuvia, liikettä ja ääntä.

Jotkut Soran tärkeimmistä ominaisuuksista ovat:

Jopa 60 sekunnin pituisten videoiden luominen korkealla resoluutiolla (1080p tai korkeampi)
Tuottaa korkealaatuisia, yhtenäisiä videoita johdonmukaisilla objekteilla, tekstuureilla ja liikkeillä
Tukee erilaisia videotyylejä, kuvasuhteita ja resoluutioita
Kuvien ja videoiden käsittely niiden laajentamiseksi, muokkaamiseksi tai siirtymiseksi niiden välillä
Esittelee uusia simulointikykyjä, kuten 3D-yhteensopivuutta ja pitkän aikavälin objektin pysyvyyttä

Konepellin alla Sora yhdistää ja skaalaa kaksi keskeistä tekoälyinnovaatiota – diffuusio malleja ja muuntajat – saavuttaa ennennäkemättömät videontuotantoominaisuudet.

Soran tekninen perusta

Sora perustuu kahteen uraauurtavaan tekoälytekniikkaan, jotka ovat osoittaneet suurta menestystä viime vuosina – syvädiffuusiomallit ja muuntajat:

Diffuusiomallit

Diffuusiomallit ovat luokka syvägeneratiivisia malleja, jotka voivat luoda erittäin realistisia synteettiset kuvat ja videot. He toimivat ottamalla todellisia harjoitustietoja, lisäämällä melua korruptoimaan sitä, ja sitten koulutus a neuroverkkomallien poistaaksesi tämän kohinan vaiheittain alkuperäisten tietojen palauttamiseksi. Tämä kouluttaa mallin luomaan korkealaatuisia, monipuolisia näytteitä, jotka tallentavat todellisen visuaalisen datan kuviot ja yksityiskohdat.

Sora käyttää diffuusiomallin tyyppiä nimeltä a vaimentava diffuusioprobabilistinen malli (DDPM). DDPM:t hajottavat kuvan/videon luontiprosessin useisiin pienempiin kohinanpoistovaiheisiin, mikä helpottaa mallin kouluttamista kääntämään diffuusioprosessi ja luomaan selkeitä näytteitä.

Tarkemmin sanottuna Sora käyttää DDPM:n videovarianttia, nimeltään DVD-DDPM, joka on suunniteltu mallintamaan videoita suoraan aikatasolla ja samalla saavuttamaan vahva ajallinen yhtenäisyys kehysten välillä. Tämä on yksi avaimista Soran kykyyn tuottaa yhtenäisiä, korkealaatuisia videoita.

Muuntajat

Muuntajat ovat vallankumouksellinen hermoverkkoarkkitehtuuri, joka on tullut hallitsemaan luonnollisen kielen käsittelyä viime vuosina. Muuntajat käsittelevät tietoja rinnakkain huomioperusteisten lohkojen yli, jolloin ne voivat mallintaa monimutkaisia pitkän kantaman riippuvuuksia sekvensseissä.

Sora mukauttaa muuntajat toimimaan visuaalisen datan kanssa välittämällä tokenoituja videopätkiä tekstillisten tokenien sijaan. Tämä antaa mallille mahdollisuuden ymmärtää tila- ja aikasuhteita videojakson yli. Soran muuntaja-arkkitehtuuri mahdollistaa myös pitkän kantaman koherenssin, objektin pysyvyyden ja muut ilmenevät simulointiominaisuudet.

Yhdistämällä nämä kaksi tekniikkaa – hyödyntämällä DDPM:ää korkealaatuiseen videosynteesiin ja muuntajia maailmanlaajuisen ymmärryksen ja johdonmukaisuuden saavuttamiseksi – Sora työntää rajoja generatiivisen video-AI:n mahdollisuudelle.

Nykyiset rajoitukset ja haasteet

Vaikka Sora on erittäin pätevä, sillä on silti joitain keskeisiä rajoituksia:

Fyysisen ymmärryksen puute – Soralla ei ole vankkaa synnynnäistä ymmärrystä fysiikasta ja syy-seuraus-suhteista. Esimerkiksi rikkinäiset esineet voivat "parantaa" videon aikana.
Epäjohdonmukaisuus pitkiä aikoja – Visuaalisia artefakteja ja epäjohdonmukaisuuksia voi kertyä yli 1 minuutin mittaisiin näytteisiin. Täydellisen johdonmukaisuuden säilyttäminen erittäin pitkissä videoissa on edelleen avoin haaste.
Satunnaisia esinevirheitä – Sora luo toisinaan videoita, joissa esineet vaihtavat paikkoja luonnottomalla tavalla tai spontaanisti ilmestyvät/katoavat kehyksestä toiseen.
Vaikeus jakelun lopettamiseen liittyvien kehotteiden kanssa – Erittäin uudet kehotteet kaukana Soran koulutusjakelusta voivat johtaa huonolaatuisiin näytteisiin. Soran kyvyt ovat vahvimmat lähellä sen harjoitustietoja.

Mallien skaalaaminen edelleen, harjoitustiedot, ja tarvitaan uusia tekniikoita näiden rajoitusten korjaamiseksi. Video sukupolven AI on vielä pitkä tie edessä.

Video Generation AI:n vastuullinen kehittäminen

Kuten missä tahansa nopeasti kehittyvässä tekniikassa, tässä on mahdollisia riskejä, jotka on otettava huomioon etujen ohella:

Synteettinen disinformaatio – Sora tekee manipuloidun ja väärennetyn videon luomisesta helpompaa kuin koskaan. Suojatoimia tarvitaan luotujen videoiden havaitsemiseksi ja haitallisen väärinkäytön rajoittamiseksi.
Tietopoikkeamat – Soran kaltaiset mallit heijastavat harjoitustietojen harhaa ja rajoituksia, joiden on oltava monipuolisia ja edustavia.
Haitallinen sisältö – Ilman asianmukaisia ohjaimia tekstistä videoon AI voi tuottaa väkivaltaista, vaarallista tai epäeettistä sisältöä. Harkitut sisällönvalvontakäytännöt ovat välttämättömiä.
Immateriaalioikeudet – Tekijänoikeudella suojattua tietoa koskeva koulutus ilman lupaa aiheuttaa oikeudellisia ongelmia johdannaisteoksiin liittyen. Tietojen lisensointia on harkittava huolellisesti.

OpenAI:n on oltava erittäin huolellinen näiden ongelmien ratkaisemisessa, kun Sora otetaan lopulta käyttöön julkisesti. Kaiken kaikkiaan vastuullisesti käytettynä Sora on kuitenkin uskomattoman tehokas työkalu luovuuteen, visualisointiin, viihteeseen ja muuhun.

Video Generation AI:n tulevaisuus

Sora osoittaa, että uskomattomia edistysaskeleita generatiivisessa video-AI:ssä on näköpiirissä. Tässä on joitain jännittäviä suuntia, joihin tämä tekniikka voi johtaa, kun se jatkaa nopeaa kehitystä:

Pidemmät näytteet – Mallit saattavat pian pystyä luomaan tuntikausia videota minuuttien sijaan pitäen samalla johdonmukaisuutta. Tämä laajentaa mahdollisia sovelluksia valtavasti.
Täysi aika-avaruushallinta – Tekstin ja kuvien lisäksi käyttäjät voivat suoraan manipuloida videon piileviä tiloja, mikä mahdollistaa tehokkaat videoeditointimahdollisuudet.
Ohjattava simulaatio – Soran kaltaiset mallit voisivat mahdollistaa simuloitujen maailmojen manipuloinnin tekstikehotteiden ja vuorovaikutusten avulla.
Personoitu video – Tekoäly voisi tuottaa yksilöllisesti räätälöityä videosisältöä, joka on räätälöity yksittäisille katsojille tai konteksteille.
Multimodaalinen fuusio – Kielen, äänen ja videon kaltaisten menetelmien tiukempi integrointi voisi mahdollistaa erittäin vuorovaikutteisen sekamediakokemuksen.
Erikoistuneet verkkotunnukset – Verkkoaluekohtaiset videomallit voisivat loistaa räätälöityissä sovelluksissa, kuten lääketieteellisessä kuvantamisessa, teollisuusvalvonnassa, pelimoottoreissa ja muissa.

Yhteenveto

Kanssa sora, OpenAI on ottanut räjähdysmäisen harppauksen eteenpäin generatiivisessa video-AI:ssä ja osoittanut ominaisuuksia, jotka tuntuivat vuosikymmenien päässä vasta viime vuonna. Vaikka avoimiin haasteisiin vastaaminen on vielä kesken, Soran vahvuudet osoittavat tämän tekniikan valtavan potentiaalin jäljitellä ja laajentaa ihmisen visuaalista mielikuvitusta massiivisessa mittakaavassa.

Myös muut DeepMindin, Googlen, Metan ja muiden mallit jatkavat rajojen työntämistä tässä tilassa. Tekoälyn luoman videon tulevaisuus näyttää uskomattoman valoisalta. Voimme odottaa tämän teknologian laajentavan luovia mahdollisuuksia ja löytävän uskomattoman hyödyllisiä sovelluksia tulevina vuosina, mutta edellyttäen harkittua hallintoa riskien vähentämiseksi.

Se on jännittävää aikaa sekä tekoälykehittäjille että harjoittajille, kun Soran kaltaiset videosukupolven mallit avaavat uusia näköaloja sille, mikä on mahdollista. Vaikutukset, joita näillä edistyksillä voi olla mediaan, viihteeseen, simulaatioon, visualisointiin ja muuhun, ovat vasta alkamassa avautua.

Seuraavaksi

Voisimmeko saavuttaa AGI:n 5 vuodessa? NVIDIA:n toimitusjohtaja Jensen Huang uskoo sen olevan mahdollista

Älä missaa

Gemini 1.5:n tutkiminen: Kuinka Googlen uusin multimodaalinen tekoälymalli nostaa tekoälymaisemaa edeltäjäänsä pidemmälle

Aayush Mittal

Olen viettänyt viimeiset viisi vuotta uppoutuen koneoppimisen ja syväoppimisen kiehtovaan maailmaan. Intohimoni ja asiantuntemukseni ovat saaneet minut osallistumaan yli 50:een erilaiseen ohjelmistosuunnitteluprojektiin keskittyen erityisesti tekoälyyn/ML:ään. Jatkuva uteliaisuuteni on myös vetänyt minut kohti luonnollisen kielen käsittelyä, alaa, jota olen innokas tutkimaan lisää.