Umetna splošna inteligenca

Umetna inteligenca za ustvarjanje videa: Raziskovanje prelomnega modela Sora OpenAI

objavljeno

Pred 2 meseci

Marec 1, 2024

Sora, revolucionarni generator besedila v video OpenAI

OpenAI je predstavil svojo najnovejšo stvaritev AI – Sora, revolucionarni generator besedila v video, ki je sposoben iz preprostih besedilnih pozivov ustvariti visoko zvestobe, koherentne videoposnetke, dolge do 1 minute. Sora predstavlja ogromen korak naprej v generativni video AI, z zmogljivostmi, ki daleč presegajo prejšnje najsodobnejše modele.

V tej objavi bomo zagotovili celovit tehnični potop v Soro – kako deluje pod pokrovom, nove tehnike, ki jih je OpenAI uporabil za doseganje Sorinih neverjetnih sposobnosti ustvarjanja videa, njene ključne prednosti in trenutne omejitve ter ogromen potencial, ki ga Sora pomeni za prihodnost ustvarjalnosti AI.

Pregled Sore

Na visoki ravni Sora sprejme besedilni poziv kot vhod (npr. "dva psa se igrata na polju") in ustvari ujemajoč se izhodni video skupaj z realističnimi slikami, gibanjem in zvokom.

Nekatere ključne zmogljivosti Sore vključujejo:

Ustvarjanje videoposnetkov do 60 sekund v visoki ločljivosti (1080p ali več)
Ustvarjanje skladnih videoposnetkov visoke ločljivosti z doslednimi predmeti, teksturami in gibi
Podpira različne video sloge, razmerja stranic in ločljivosti
Pogojovanje slik in videoposnetkov za razširitev, urejanje ali prehod med njimi
Izkazovanje nastajajočih simulacijskih sposobnosti, kot sta 3D-konsistentnost in dolgoročna obstojnost objekta

Pod pokrovom Sora združuje in povečuje dve ključni inovaciji AI – difuzijski modeli in transformatorji – doseči zmogljivosti ustvarjanja videa brez primere.

Tehnični temelji družbe Sora

Sora temelji na dveh prelomnih tehnikah umetne inteligence, ki sta v zadnjih letih pokazali izjemen uspeh – modeli globoke difuzije in transformatorji:

Difuzijski modeli

Difuzijski modeli so razred globokih generativnih modelov, ki lahko ustvarijo zelo realistično sintetične slike in videi. Delujejo tako, da vzamejo resnične podatke o usposabljanju, dodajanje hrupa, da se pokvari, nato pa trening a nevronska mreža da odstranite ta šum po korakih, da obnovite izvirne podatke. To usposobi model za generiranje raznolikih vzorcev visoke ločljivosti, ki zajemajo vzorce in podrobnosti vizualnih podatkov iz resničnega sveta.

Sora uporablja vrsto difuzijskega modela, imenovanega a verjetnostni model difuzije z odpravljanjem šuma (DDPM). DDPM razčlenijo proces generiranja slike/videoposnetka na več manjših korakov odpravljanja hrupa, zaradi česar je lažje usposobiti model, da obrne proces difuzije in ustvari čiste vzorce.

Natančneje, Sora uporablja video različico DDPM, imenovano DVD-DDPM, ki je zasnovana za modeliranje videoposnetkov neposredno v časovni domeni, hkrati pa dosega močno časovno doslednost med okvirji. To je eden od ključev Sorine sposobnosti za ustvarjanje skladnih videoposnetkov visoke ločljivosti.

transformatorji

Transformerji so revolucionarna vrsta arhitekture nevronskih mrež, ki je v zadnjih letih prevladovala pri obdelavi naravnega jezika. Transformatorji obdelujejo podatke vzporedno prek blokov, ki temeljijo na pozornosti, kar jim omogoča modeliranje kompleksnih dolgotrajnih odvisnosti v zaporedjih.

Sora prilagodi transformatorje za delovanje na vizualnih podatkih tako, da posreduje v tokenizirane zaplate videa namesto besedilnih žetonov. To omogoča modelu razumevanje prostorskih in časovnih razmerij v video zaporedju. Sorina transformatorska arhitektura omogoča tudi koherenco na dolge razdalje, stalnost objekta in druge nastajajoče sposobnosti simulacije.

S kombinacijo teh dveh tehnik – izkoriščanja DDPM za video sintezo visoke ločljivosti in transformatorjev za globalno razumevanje in skladnost – Sora premika meje možnega v generativni video AI.

Trenutne omejitve in izzivi

Čeprav je zelo sposobna, ima Sora še vedno nekaj ključnih omejitev:

Pomanjkanje fizičnega razumevanja – Sora nima trdnega prirojenega razumevanja fizike ter vzroka in posledice. Na primer, zlomljeni predmeti se lahko med videoposnetkom »zacelijo«.
Dolgotrajna neskladnost – V vzorcih, daljših od 1 minute, se lahko pojavijo vizualni artefakti in nedoslednosti. Ohranjanje popolne skladnosti za zelo dolge videoposnetke ostaja odprt izziv.
Sporadične napake na objektu – Sora včasih ustvari videoposnetke, kjer predmeti nenaravno premikajo lokacijo ali se spontano pojavijo/izginejo od kadra do kadra.
Težave s pozivi za distribucijo – Zelo novi pozivi daleč zunaj Sorine distribucije usposabljanja lahko povzročijo vzorce nizke kakovosti. Zmogljivosti Sore so najmočnejše v bližini njenih podatkov o usposabljanju.

Nadaljnje povečevanje modelov, podatki o usposabljanju, za obravnavanje teh omejitev pa bodo potrebne nove tehnike. AI za ustvarjanje videa čaka ga še dolga pot.

Odgovoren razvoj umetne inteligence video generacije

Kot pri vsaki hitro napredujoči tehnologiji obstajajo tudi možna tveganja, ki jih je treba upoštevati poleg koristi:

Sintetične dezinformacije – Sora olajša ustvarjanje manipuliranega in lažnega videa kot kdaj koli prej. Za zaznavanje ustvarjenih videoposnetkov in omejitev škodljive zlorabe bodo potrebni zaščitni ukrepi.
Pristranskosti podatkov – modeli, kot je Sora, odražajo pristranskosti in omejitve njihovih podatkov o usposabljanju, ki morajo biti raznoliki in reprezentativni.
Škodljiva vsebina – brez ustreznih kontrol bi lahko umetna inteligenca za pretvorbo besedila v video ustvarila nasilno, nevarno ali neetično vsebino. Potrebna je premišljena politika moderiranja vsebine.
Pomisleki glede intelektualne lastnine – Usposabljanje o avtorsko zaščitenih podatkih brez dovoljenja sproža pravna vprašanja v zvezi z izpeljanimi deli. O licenciranju podatkov je treba skrbno razmisliti.

OpenAI bo moral biti zelo previden pri krmarjenju s temi težavami, ko bo sčasoma javno uvedel Soro. Na splošno pa Sora ob odgovorni uporabi predstavlja neverjetno močno orodje za ustvarjalnost, vizualizacijo, zabavo in več.

Prihodnost umetne inteligence video generacije

Sora dokazuje, da je na obzorju neverjeten napredek v generativni video AI. Tukaj je nekaj vznemirljivih smeri, v katere bi lahko vodila ta tehnologija, ko nadaljuje hiter napredek:

Vzorci z daljšim trajanjem – Modeli bodo morda kmalu lahko ustvarili ure video posnetkov namesto minut, pri tem pa ohranili skladnost. To močno razširi možnosti uporabe.
Popoln nadzor prostora in časa – Poleg besedila in slik lahko uporabniki neposredno manipulirajo s latentnimi prostori videa, kar omogoča zmogljive zmožnosti urejanja videa.
Kontrolirana simulacija – Modeli, kot je Sora, bi lahko omogočili manipulacijo simuliranih svetov prek besedilnih pozivov in interakcij.
Personaliziran video – AI bi lahko ustvaril edinstveno prilagojeno video vsebino, prilagojeno posameznim gledalcem ali kontekstom.
Multimodalna fuzija – Tesnejša integracija modalitet, kot so jezik, zvok in video, bi lahko omogočila zelo interaktivne izkušnje mešanih medijev.
Specializirane domene – Domensko specifični video modeli bi lahko blesteli pri prilagojenih aplikacijah, kot so medicinsko slikanje, industrijsko spremljanje, igralni pogoni in več.

zaključek

z Sora, je OpenAI naredil eksploziven preskok na področju generativne video umetne inteligence in pokazal zmogljivosti, za katere se je še prejšnje leto zdelo, da bodo minila desetletja. Medtem ko ostaja delo za reševanje odprtih izzivov, prednosti Sore kažejo ogromen potencial za to tehnologijo, da nekega dne posnema in razširi človeško vizualno domišljijo v velikem obsegu.

Tudi drugi modeli iz DeepMinda, Googla, Mete in drugih bodo še naprej premikali meje v tem prostoru. Prihodnost videa, ustvarjenega z umetno inteligenco, je videti neverjetno svetla. Pričakujemo lahko, da bo ta tehnologija razširila ustvarjalne možnosti in našla neverjetno uporabne aplikacije v prihodnjih letih, hkrati pa bo zahtevala premišljeno upravljanje za ublažitev tveganj.

To je vznemirljiv čas tako za razvijalce umetne inteligence kot za praktike, saj modeli video generacije, kot je Sora, odpirajo nova obzorja za to, kar je mogoče. Vplivi, ki jih lahko ima ta napredek na medije, zabavo, simulacijo, vizualizacijo in drugo, se šele začenjajo razkrivati.

Up Next

Bi lahko dosegli AGI v 5 letih? Izvršni direktor NVIDIA Jensen Huang verjame, da je to mogoče

Ne zamudite

Raziskovanje Gemini 1.5: Kako Googlov najnovejši večmodalni model umetne inteligence povzdigne krajino umetne inteligence onkraj svojega predhodnika

Aayush Mittal

Zadnjih pet let sem se potopil v fascinanten svet strojnega in globokega učenja. Moja strast in strokovno znanje sta me pripeljala do tega, da sem prispeval k več kot 50 raznolikim projektom programskega inženiringa, s posebnim poudarkom na AI/ML. Moja nenehna radovednost me je pripeljala tudi do obdelave naravnega jezika, področja, ki ga želim nadalje raziskati.