Intelliġenza Ġenerali artifiċjali

Video Generation AI: Nesploraw il-Mudell Sora innovattiv ta' OpenAI

ippubblikat

2 xhur ilu

Marzu 1, 2024

Sora, il-ġeneratur innovattiv ta' OpenAI minn test għal vidjo

L-OpenAI żvela l-aħħar ħolqien tal-AI tiegħu - Sora, ġeneratur rivoluzzjonarju minn test għal vidjo li kapaċi jipproduċi vidjows koerenti u ta' fedeltà għolja sa tul ta' minuta minn messaġġi sempliċi ta' test. Sora tirrappreżenta qabża kbira 'l quddiem fl-AI tal-vidjo ġenerattiva, b'kapaċitajiet li jaqbżu bil-bosta l-mudelli l-aktar avvanzati preċedenti.

F'din il-kariga, aħna ser nipprovdu adsa teknika komprensiva f'Sora – kif taħdem taħt il-barnuża, it-tekniki ġodda li OpenAI ssaħħaħ biex tikseb l-abbiltajiet inkredibbli ta 'ġenerazzjoni tal-vidjow ta' Sora, is-saħħiet ewlenin tagħha u l-limitazzjonijiet attwali, u l-potenzjal immens li Sora tfisser għall- futur tal-kreattività tal-IA.

Ħarsa ġenerali lejn Sora

F'livell għoli, Sora tieħu test fil-pront bħala input (eż. “żewġt iklieb jilagħbu f'għalqa”) u tiġġenera vidjow ta' output li jaqbel komplut b'immaġni, moviment u awdjo realistiċi.

Xi kapaċitajiet ewlenin ta’ Sora jinkludu:

Ġenerazzjoni ta' vidjows sa 60 sekonda b'riżoluzzjoni għolja (1080p jew ogħla)
Nipproduċu vidjows koerenti ta' fedeltà għolja b'oġġetti, nisġa u mozzjonijiet konsistenti
Jappoġġaw diversi stili ta 'vidjow, proporzjonijiet ta' aspetti u riżoluzzjonijiet
Kundizzjonament fuq stampi u vidjows biex jestendu, jeditjaw jew transizzjoni bejniethom
Li juri abbiltajiet ta 'simulazzjoni emerġenti bħall-konsistenza 3D u l-permanenza tal-oġġett fit-tul

Taħt il-barnuża, Sora tgħaqqad u żżid żewġ innovazzjonijiet ewlenin tal-IA - mudelli tad-diffużjoni u, trasformaturi – biex jinkisbu kapaċitajiet ta 'ġenerazzjoni ta' vidjow bla preċedent.

Il-Fondazzjonijiet Tekniċi ta' Sora

Sora tibni fuq żewġ tekniki innovattivi tal-IA li wrew suċċess kbir f’dawn l-aħħar snin – mudelli ta’ diffużjoni profonda u transformers:

Mudelli ta' Diffużjoni

Mudelli ta 'tixrid huma klassi ta' mudelli ġenerattivi profondi li jistgħu joħolqu realistiċi ħafna immaġini u vidjows sintetiċi. Jaħdmu billi jieħdu data ta' taħriġ reali, iżid storbju biex jikkorrompih, u mbagħad taħriġ a newrali netwerk biex tneħħi dak il-ħoss b'mod pass pass biex tirkupra d-dejta oriġinali. Dan iħarreġ il-mudell biex jiġġenera kampjuni diversi ta 'fedeltà għolja li jaqbdu l-mudelli u d-dettalji tad-dejta viżiva tad-dinja reali.

Sora tutilizza tip ta 'mudell ta' diffużjoni imsejjaħ a mudell probabilstiku tad-diffużjoni ta' denoising (DDPM). Id-DDPMs ikissru l-proċess ta 'ġenerazzjoni ta' immaġni/vidjow f'diversi passi iżgħar ta 'denoising, li jagħmilha aktar faċli biex jitħarreġ il-mudell biex ireġġa' lura l-proċess ta 'diffużjoni u jiġġenera kampjuni ċari.

Speċifikament, Sora juża varjant tal-vidjo tad-DDPM imsejjaħ DVD-DDPM li huwa ddisinjat biex jimmudella vidjows direttament fid-dominju tal-ħin filwaqt li jikseb konsistenza temporali qawwija bejn il-frejms. Din hija waħda miċ-ċwievet għall-kapaċità ta' Sora li tipproduċi vidjows koerenti u ta' fedeltà għolja.

transformers

It-trasformaturi huma tip rivoluzzjonarju ta 'arkitettura tan-netwerk newrali li tiddomina l-ipproċessar tal-lingwa naturali f'dawn l-aħħar snin. It-trasformaturi jipproċessaw id-dejta b'mod parallel fuq blokki bbażati fuq l-attenzjoni, li jippermettulhom jimmudellaw dipendenzi kumplessi fuq medda twila f'sekwenzi.

Sora tadatta t-trasformaturi biex joperaw fuq data viżwali billi tgħaddi rqajja 'tokenized ta' vidjo minflok tokens testwali. Dan jippermetti lill-mudell jifhem ir-relazzjonijiet spazjali u temporali tul is-sekwenza tal-vidjo. L-arkitettura tat-transformer ta 'Sora tippermetti wkoll koerenza fuq medda twila, permanenza tal-oġġett, u abbiltajiet oħra ta' simulazzjoni emerġenti.

Billi tgħaqqad dawn iż-żewġ tekniki – l-ingranaġġ tad-DDPM għal sinteżi tal-vidjow ta’ fedeltà għolja u transformers għal fehim u koerenza globali – Sora timbotta l-konfini ta’ dak li hu possibbli fl-AI tal-vidjo ġenerattiva.

Limitazzjonijiet u Sfidi kurrenti

Filwaqt li kapaċi ħafna, Sora għad għandha xi limitazzjonijiet ewlenin:

Nuqqas ta 'fehim fiżiku – Sora m'għandhiex fehim innat robust tal-fiżika u l-kawża u l-effett. Pereżempju, oġġetti miksura jistgħu "fejqu" matul vidjo.
Inkoerenza fuq tul ta' żmien twil – Artifacts viżwali u inkonsistenzi jistgħu jinbnew f'kampjuni itwal minn minuta. Iż-żamma ta' koerenza perfetta għal vidjows twal ħafna tibqa' sfida miftuħa.
Difetti sporadiċi tal-oġġett – Sora kultant tiġġenera vidjows fejn l-oġġetti jbiddlu l-postijiet b’mod mhux naturali jew spontanju jidhru/jisparixxu minn qafas għal qafas.
Diffikultà b'prompts off-distribuzzjoni – Promptijiet ġodda ħafna lil hinn mid-distribuzzjoni tat-taħriġ ta' Sora jistgħu jirriżultaw f'kampjuni ta' kwalità baxxa. Il-kapaċitajiet ta' Sora huma l-aktar b'saħħithom ħdejn id-dejta tat-taħriġ tagħha.

Aktar tkabbir tal-mudelli, data tat-taħriġ, u tekniki ġodda se jkunu meħtieġa biex jindirizzaw dawn il-limitazzjonijiet. Ġenerazzjoni tal-vidjo AI għad għandu triq twila quddiem.

Żvilupp Responsabbli tal-Ġenerazzjoni tal-Vidjo AI

Bħal kull teknoloġija li qed tavvanza malajr, hemm riskji potenzjali li għandhom jiġu kkunsidrati flimkien mal-benefiċċji:

Disinformazzjoni sintetika - Sora tagħmel il-ħolqien ta' vidjow manipulat u falz aktar faċli minn qatt qabel. Se jkunu meħtieġa salvagwardji biex jinstabu vidjows iġġenerati u jiġi limitat l-użu ħażin li jagħmel il-ħsara.
Preġudizzji tad-dejta - Mudelli bħal Sora jirriflettu preġudizzji u limitazzjonijiet tad-dejta tat-taħriġ tagħhom, li jeħtieġ li tkun diversa u rappreżentattiva.
Kontenut ta’ ħsara – Mingħajr kontrolli xierqa, l-AI minn test għal vidjo tista’ tipproduċi kontenut vjolenti, perikoluż jew mhux etiku. Politiki ta' moderazzjoni tal-kontenut maħsubin huma meħtieġa.
Tħassib dwar il-proprjetà intellettwali – It-taħriġ dwar dejta bid-drittijiet tal-awtur mingħajr permess iqajjem kwistjonijiet legali dwar xogħlijiet derivattivi. Il-liċenzjar tad-dejta jeħtieġ li jiġi kkunsidrat bir-reqqa.

OpenAI se jkollu bżonn jieħu attenzjoni kbira biex jinnaviga dawn il-kwistjonijiet meta eventwalment juża Sora pubblikament. Madankollu, b'mod ġenerali, użat b'mod responsabbli, Sora jirrappreżenta għodda b'saħħitha oerhört għall-kreattività, il-viżwalizzazzjoni, id-divertiment u aktar.

Il-Futur tal-Ġenerazzjoni tal-Vidjo AI

Sora turi li avvanzi inkredibbli fl-AI tal-vidjo ġenerattivi qegħdin fuq l-orizzont. Hawn huma xi direzzjonijiet eċċitanti li din it-teknoloġija tista 'tmexxi hekk kif tkompli progress mgħaġġel:

Kampjuni ta' żmien itwal – Il-mudelli jistgħu dalwaqt ikunu jistgħu jiġġeneraw sigħat ta’ vidjow minflok minuti filwaqt li jżommu l-koerenza. Dan jespandi l-applikazzjonijiet possibbli bil-kbir.
Kontroll sħiħ tal-ispazju – Lil hinn mit-test u l-immaġini, l-utenti jistgħu jimmanipulaw direttament spazji moħbija tal-vidjow, li jippermettu abbiltajiet qawwija ta 'editjar tal-vidjo.
Simulazzjoni kontrollabbli – Mudelli bħal Sora jistgħu jippermettu l-manipulazzjoni ta’ dinjiet simulati permezz ta’ prompts testwali u interazzjonijiet.
Vidjow personalizzat – L-AI tista’ tiġġenera kontenut tal-vidjow imfassal b’mod uniku apposta għal telespettaturi jew kuntesti individwali.
Fużjoni multimodali – Integrazzjoni aktar stretta ta' modalitajiet bħall-lingwa, l-awdjo u l-vidjow jistgħu jippermettu esperjenzi ta' midja mħallta interattivi ħafna.
Oqsma speċjalizzati – Mudelli tal-vidjo speċifiċi għad-dominju jistgħu jisbqu f’applikazzjonijiet imfassla apposta bħal immaġini mediċi, monitoraġġ industrijali, magni tal-logħob u aktar.

konklużjoni

bil Sora, OpenAI għamel qabża splussiva 'l quddiem fl-AI tal-vidjo ġenerattiv, u wriet kapaċitajiet li dehru għexieren ta' snin 'il bogħod biss is-sena l-oħra. Filwaqt li għad fadal xogħol biex jiġu indirizzati sfidi miftuħa, is-saħħiet ta’ Sora juru l-potenzjal immens għal din it-teknoloġija biex xi darba timita u tespandi l-immaġinazzjoni viżiva tal-bniedem fuq skala enormi.

Mudelli oħra minn DeepMind, Google, Meta u aktar ukoll se jkomplu jimbuttaw il-konfini f’dan l-ispazju. Il-futur tal-vidjo iġġenerat mill-AI jidher oerhört qawwi. Nistgħu nistennew li din it-teknoloġija tespandi l-possibbiltajiet kreattivi u ssib applikazzjonijiet oerhört utli fis-snin li ġejjin, filwaqt li teħtieġ governanza bir-reqqa biex ittaffi r-riskji.

Huwa żmien eċċitanti kemm għall-iżviluppaturi tal-AI kif ukoll għall-prattikanti peress li mudelli ta 'ġenerazzjoni ta' vidjow bħal Sora jiftħu orizzonti ġodda għal dak li hu possibbli. L-impatti li dawn l-avvanzi jista’ jkollhom fuq il-midja, id-divertiment, is-simulazzjoni, il-viżwalizzazzjoni u aktar għadhom qed jibdew jiżvolġu.

Sa jmiss

Nistgħu Nilħqu AGI fi żmien 5 Snin? Il-Kap Eżekuttiv ta 'NVIDIA Jensen Huang Jemmen Huwa Possibbli

M'għandekx Miss

Nesploraw Gemini 1.5: Kif l-aħħar Mudell AI Multimodali ta' Google Jgħolli l-Pajsaġġ tal-AI lil hinn mill-predeċessur tiegħu

Aayush Mittal

Għamilt l-aħħar ħames snin ngħaddas ruħi fid-dinja affaxxinanti tal-Machine Learning u t-Tagħlim Profond. Il-passjoni u l-kompetenza tiegħi wassluni biex nikkontribwixxi għal aktar minn 50 proġett ta' inġinerija tas-softwer differenti, b'fokus partikolari fuq AI/ML. Il-kurżità kontinwa tiegħi ġibditni wkoll lejn Natural Language Processing, qasam li jien ħerqan li nesplora aktar.