Algemene kunstmatige intelligentie

Video Generation AI: onderzoek naar het baanbrekende Sora-model van OpenAI

gepubliceerd

2 maanden geleden

1 maart 2024

Sora, de baanbrekende tekst-naar-videogenerator van OpenAI

OpenAI onthulde zijn nieuwste AI-creatie – Sora, een revolutionaire tekst-naar-video-generator die hifi-, coherente video's van maximaal 1 minuut kan produceren op basis van eenvoudige tekstprompts. Sora vertegenwoordigt een enorme sprong voorwaarts in generatieve video-AI, met mogelijkheden die eerdere state-of-the-art modellen ver overtreffen.

In dit bericht geven we een uitgebreide technische duik in Sora – hoe het onder de motorkap werkt, de nieuwe technieken die OpenAI heeft gebruikt om Sora's ongelooflijke mogelijkheden voor het genereren van video's te bereiken, de belangrijkste sterke punten en huidige beperkingen, en het immense potentieel dat Sora betekent voor de toekomst van AI-creativiteit.

Overzicht van Sora

Op een hoog niveau gebruikt Sora een tekstprompt als invoer (bijvoorbeeld 'twee honden die in een veld spelen') en genereert een bijpassende uitvoervideo, compleet met realistische beelden, beweging en audio.

Enkele belangrijke mogelijkheden van Sora zijn onder meer:

Video's genereren van maximaal 60 seconden met hoge resolutie (1080p of hoger)
Het produceren van hifi, samenhangende video's met consistente objecten, texturen en bewegingen
Ondersteuning van diverse videostijlen, beeldverhoudingen en resoluties
Conditionering op afbeeldingen en video's om ze uit te breiden, te bewerken of ertussen over te zetten
Het tonen van opkomende simulatiemogelijkheden zoals 3D-consistentie en objectduurzaamheid op de lange termijn

Onder de motorkap combineert en schaalt Sora twee belangrijke AI-innovaties op: diffusiemodellen en transformers – om ongekende mogelijkheden voor videogeneratie te bereiken.

Sora's technische fundamenten

Sora bouwt voort op twee baanbrekende AI-technieken die de afgelopen jaren enorme successen hebben geboekt: diepe diffusiemodellen en transformatoren:

Verspreidingsmodellen

Diffusiemodellen zijn een klasse van diepe generatieve modellen die zeer realistisch kunnen creëren synthetische afbeeldingen en video's. Ze werken door echte trainingsgegevens te gebruiken, ruis toevoegen om het te bederven, en dan trainen a neuraal netwerk om die ruis stapsgewijs te verwijderen om de originele gegevens te herstellen. Hierdoor wordt het model getraind om zeer betrouwbare, diverse samples te genereren die de patronen en details van visuele gegevens uit de echte wereld vastleggen.

Sora gebruikt een soort diffusiemodel genaamd a denoising diffusie probabilistisch model (DDPM). DDPM's splitsen het beeld-/videogeneratieproces op in meerdere kleinere stappen voor het verwijderen van ruis, waardoor het gemakkelijker wordt om het model te trainen om het diffusieproces om te keren en duidelijke samples te genereren.

Concreet gebruikt Sora een videovariant van DDPM, DVD-DDPM genaamd, die is ontworpen om video's rechtstreeks in het tijdsdomein te modelleren en tegelijkertijd een sterke temporele consistentie tussen frames te bereiken. Dit is een van de sleutels tot Sora's vermogen om coherente, hifi-video's te produceren.

transformers

Transformers zijn een revolutionair type neurale netwerkarchitectuur die de afgelopen jaren de natuurlijke taalverwerking is gaan domineren. Transformers verwerken gegevens parallel over op aandacht gebaseerde blokken, waardoor ze complexe afhankelijkheden op lange afstand in reeksen kunnen modelleren.

Sora past transformatoren aan om met visuele gegevens te werken door getokeniseerde videofragmenten door te geven in plaats van tekstuele tokens. Hierdoor kan het model de ruimtelijke en temporele relaties in de videosequentie begrijpen. Sora's transformatorarchitectuur maakt ook coherentie over lange afstanden, objectduurzaamheid en andere opkomende simulatiemogelijkheden mogelijk.

Door deze twee technieken te combineren – door gebruik te maken van DDPM voor hifi-videosynthese en transformatoren voor mondiaal begrip en samenhang – verlegt Sora de grenzen van wat mogelijk is in generatieve video-AI.

Huidige beperkingen en uitdagingen

Hoewel zeer capabel, heeft Sora nog steeds enkele belangrijke beperkingen:

Gebrek aan fysiek begrip – Sora heeft geen robuust aangeboren begrip van natuurkunde en oorzaak-en-gevolg. Gebroken voorwerpen kunnen bijvoorbeeld in de loop van een video ‘genezen’.
Incoherentie over langere perioden – Visuele artefacten en inconsistenties kunnen zich ophopen in samples die langer dan 1 minuut duren. Het behouden van een perfecte samenhang voor zeer lange video's blijft een open uitdaging.
Sporadische objectdefecten – Sora genereert soms video's waarin objecten op onnatuurlijke wijze van locatie veranderen of spontaan van frame naar frame verschijnen/verdwijnen.
Moeilijkheden met aanwijzingen buiten de distributie – Zeer nieuwe aanwijzingen ver buiten de trainingsdistributie van Sora kunnen resulteren in monsters van lage kwaliteit. Sora's capaciteiten zijn het sterkst in de buurt van de trainingsgegevens.

Verdere opschaling van modellen, trainingsdataen er zullen nieuwe technieken nodig zijn om deze beperkingen aan te pakken. Videogeneratie AI heeft nog een lange weg te gaan.

Verantwoorde ontwikkeling van videogeneratie-AI

Zoals bij elke snel voortschrijdende technologie zijn er naast de voordelen ook potentiële risico's waarmee rekening moet worden gehouden:

Synthetische desinformatie – Sora maakt het maken van gemanipuleerde en nepvideo eenvoudiger dan ooit. Er zullen waarborgen nodig zijn om gegenereerde video's te detecteren en schadelijk misbruik te beperken.
Vooroordelen op het gebied van data – Modellen zoals Sora weerspiegelen de vooroordelen en beperkingen van hun trainingsgegevens, die divers en representatief moeten zijn.
Schadelijke inhoud – Zonder de juiste controles zou tekst-naar-video-AI gewelddadige, gevaarlijke of onethische inhoud kunnen produceren. Een doordacht beleid voor het modereren van inhoud is noodzakelijk.
Bezorgdheid over intellectueel eigendom – Training over auteursrechtelijk beschermde gegevens zonder toestemming roept juridische problemen op rond afgeleide werken. Datalicenties moeten zorgvuldig worden overwogen.

OpenAI zal grote zorg moeten besteden aan het omgaan met deze problemen wanneer Sora uiteindelijk publiekelijk wordt ingezet. Maar over het geheel genomen vertegenwoordigt Sora, als het op verantwoorde wijze wordt gebruikt, een ongelooflijk krachtig hulpmiddel voor creativiteit, visualisatie, entertainment en meer.

De toekomst van videogeneratie-AI

Sora laat zien dat er ongelooflijke vooruitgang op het gebied van generatieve video-AI in het verschiet ligt. Hier zijn enkele opwindende richtingen die deze technologie zou kunnen volgen, aangezien deze snelle vooruitgang voortzet:

Monsters met een langere duur – Modellen kunnen binnenkort mogelijk uren aan video genereren in plaats van minuten, terwijl de samenhang behouden blijft. Dit breidt de mogelijke toepassingen enorm uit.
Volledige ruimtetijdcontrole – Naast tekst en afbeeldingen konden gebruikers latente videoruimten rechtstreeks manipuleren, waardoor krachtige videobewerkingsmogelijkheden mogelijk werden.
Controleerbare simulatie – Modellen als Sora zouden het mogelijk kunnen maken gesimuleerde werelden te manipuleren door middel van tekstuele aanwijzingen en interacties.
Gepersonaliseerde video – AI zou uniek op maat gemaakte video-inhoud kunnen genereren die is afgestemd op individuele kijkers of contexten.
Multimodale fusie – Een nauwere integratie van modaliteiten zoals taal, audio en video zou zeer interactieve mixed-media-ervaringen mogelijk kunnen maken.
Gespecialiseerde domeinen – Domeinspecifieke videomodellen kunnen uitblinken in op maat gemaakte toepassingen zoals medische beeldvorming, industriële monitoring, gaming-engines en meer.

Conclusie

met SoraOpenAI heeft een explosieve sprong voorwaarts gemaakt op het gebied van generatieve video-AI, waarbij mogelijkheden worden gedemonstreerd die vorig jaar nog tientallen jaren leken te liggen. Hoewel er nog werk moet worden verricht om openstaande uitdagingen aan te pakken, laten de sterke punten van Sora het enorme potentieel van deze technologie zien om ooit de menselijke visuele verbeelding op grote schaal na te bootsen en uit te breiden.

Andere modellen van DeepMind, Google, Meta en meer zullen ook grenzen blijven verleggen op dit gebied. De toekomst van door AI gegenereerde video ziet er ongelooflijk rooskleurig uit. We kunnen verwachten dat deze technologie de creatieve mogelijkheden de komende jaren zal uitbreiden en ongelooflijk nuttige toepassingen zal vinden, terwijl doordacht bestuur nodig is om de risico's te beperken.

Het is een spannende tijd voor zowel AI-ontwikkelaars als beoefenaars, aangezien videogeneratiemodellen zoals Sora nieuwe horizonten openen voor wat mogelijk is. De impact die deze vooruitgang kan hebben op media, entertainment, simulatie, visualisatie en meer begint zich nog maar net te ontvouwen.

Kunnen we AGI binnen 5 jaar realiseren? NVIDIA's CEO Jensen Huang gelooft dat dit mogelijk is

Mis het niet

Een verkenning van Gemini 1.5: hoe het nieuwste multimodale AI-model van Google het AI-landschap naar een hoger niveau tilt dan zijn voorganger

Aayush Mittal

De afgelopen vijf jaar heb ik me verdiept in de fascinerende wereld van Machine Learning en Deep Learning. Door mijn passie en expertise heb ik bijgedragen aan meer dan 50 verschillende software engineering projecten, met een bijzondere focus op AI/ML. Mijn voortdurende nieuwsgierigheid heeft me ook aangetrokken tot Natural Language Processing, een gebied dat ik graag verder wil verkennen.