stomp Consistente AI-video-inhoudbewerking met tekstgestuurde invoer - Unite.AI
Verbind je met ons

Artificial Intelligence

Consistente AI-video-inhoudbewerking met tekstgestuurde invoer

mm
Bijgewerkt on

Terwijl de professionele VFX-gemeenschap geïntrigeerd is - en af ​​en toe voelt een beetje bedreigd – door nieuwe innovaties in beeld- en videosynthese degradeert het gebrek aan temporele continuïteit in de meeste op AI gebaseerde videobewerkingsprojecten veel van deze inspanningen naar de 'psychedelische' sfeer, met glinsterend en snel veranderend texturen en structuren, inconsistente effecten en het soort grof technologisch geruzie dat doet denken aan de fotochemisch tijdperk van visuele effecten.

Als je iets heel specifieks wilt veranderen in een video die niet tot het domein van deepfakes behoort (dat wil zeggen, een nieuwe identiteit opleggen aan bestaand beeldmateriaal van een persoon), opereren de meeste van de huidige oplossingen onder vrij ernstige beperkingen, in termen van de precisie die nodig is voor visuele effecten van productiekwaliteit.

Een uitzondering is het lopende werk van een losse vereniging van academici van het Weizmann Institute of Science. In 2021 zullen drie van haar onderzoekers, in samenwerking met Adobe, aangekondigd een nieuwe methode om video te ontbinden en een consistente interne mapping te superponeren - een gelaagde neurale atlas - in een samengestelde uitvoer, compleet met alfakanalen en tijdelijk samenhangende uitvoer.

Uit de paper uit 2021: een schatting van het volledige traject van de weg in de bronclip wordt bewerkt via een neuraal netwerk op een manier waarvoor traditioneel uitgebreid rotoscoping en match-moving nodig zou zijn. Omdat de achtergrond- en voorgrondelementen door verschillende netwerken worden afgehandeld, zijn maskers echt 'automatisch'. Bron: https://layered-neural-atlases.github.io/

Uit de paper uit 2021: een schatting van het volledige traject van de weg in de bronclip wordt bewerkt via een neuraal netwerk op een manier waarvoor traditioneel uitgebreid rotoscoping en match-moving nodig zou zijn. Omdat de achtergrond- en voorgrondelementen door verschillende netwerken worden afgehandeld, zijn maskers echt 'automatisch'. Bron: https://layered-neural-atlases.github.io/

Hoewel het ergens in het rijk valt dat eronder valt optische stroming in VFX-pijplijnen heeft de gelaagde atlas geen direct equivalent in traditionele CGI-workflows, aangezien het in wezen een 'temporele textuurkaart' vormt die kan worden geproduceerd en bewerkt via traditionele softwaremethoden. In de tweede afbeelding in bovenstaande afbeelding wordt de achtergrond van het wegdek (figuurlijk) weergegeven over de gehele looptijd van de video. Het wijzigen van die basisafbeelding (derde afbeelding van links in de afbeelding hierboven) zorgt voor een consistente verandering in de achtergrond.

De afbeeldingen van de 'uitgevouwen' atlas hierboven vertegenwoordigen alleen individueel geïnterpreteerde frames; consistente veranderingen in elk doelvideoframe worden teruggezet naar het originele frame, waarbij alle noodzakelijke occlusies en andere vereiste scène-effecten, zoals schaduwen of reflecties, behouden blijven.

De kernarchitectuur maakt gebruik van een Multilayer Perceptron (MLP) om de ongevouwen atlassen, alfakanalen en mappings weer te geven, die allemaal in overleg en volledig in een 2D-ruimte zijn geoptimaliseerd, waardoor voorkennis in NeRF-stijl van 3D-geometriepunten, dieptekaarten, en vergelijkbare attributen in CGI-stijl.

De referentieatlas van individuele objecten kan ook betrouwbaar worden gewijzigd:

Consistente verandering naar een bewegend object onder het raamwerk van 2021. Bron: https://www.youtube.com/watch?v=aQhakPFC4oQ

Consistente verandering naar een bewegend object onder het raamwerk van 2021. Bron: https://www.youtube.com/watch?v=aQhakPFC4oQ

In wezen combineert het 2021-systeem geometrie-uitlijning, match-moving, mapping, re-texturizing en rotoscoping in een discreet neuraal proces.

Tekst2Live

De drie oorspronkelijke onderzoekers van de paper uit 2021, samen met NVIDIA-onderzoek, behoren tot de bijdragers aan een nieuwe innovatie op het gebied van de techniek die de kracht van gelaagde atlassen combineert met het soort tekstgestuurde CLIP-technologie die deze week weer op de voorgrond is gekomen met OpenAI's los van het DALL-E 2-framework.

De nieuwe architectuur, getiteld Tekst2Live, stelt een eindgebruiker in staat om gelokaliseerde bewerkingen aan daadwerkelijke video-inhoud te maken op basis van tekstprompts:

Twee voorbeelden van bewerking op de voorgrond. Bekijk voor een betere resolutie en definitie de originele video's op https://text2live.github.io/sm/pages/video_results_atlases.html

Twee voorbeelden van bewerking op de voorgrond. Bekijk voor een betere resolutie en definitie de originele video's op https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live biedt semantische en sterk gelokaliseerde bewerking zonder het gebruik van een vooraf getrainde generator, door gebruik te maken van een interne database die specifiek is voor de betreffende videoclip.

Achtergrond- en voorgrondtransformaties (object) onder Text2Live. Bron: https://text2live.github.io/sm/pages/video_results_atlases.html

Achtergrond- en voorgrondtransformaties (object) onder Text2Live. Bron: https://text2live.github.io/sm/pages/video_results_atlases.html

De techniek vereist geen door de gebruiker geleverde maskers, zoals een typische rotoscoping- of green-screen-workflow, maar eerder schattingen relevantie kaarten door middel van een bootstrapping-techniek gebaseerd op 2021 onderzoek van The School of Computer Science aan de Universiteit van Tel Aviv en Facebook AI Research (FAIR).

Uitvoerkaarten gegenereerd via een op transformator gebaseerd generiek aandachtsmodel.

Uitvoerkaarten gegenereerd via een op transformator gebaseerd generiek aandachtsmodel.

De nieuwe papier is getiteld Text2LIVE: tekstgestuurde gelaagde beeld- en videobewerking. Het oorspronkelijke 2021-team wordt vergezeld door Weizmann's Omer Bar-Tal en Yoni Kasten van NVIDIA Research.

Architectuur

Text2Live bestaat uit een generator die is getraind op een enkele invoerafbeelding en doeltekstprompts. Een CLIP-model (Contrastive Language-Image Pretraining), vooraf getraind op 400 miljoen tekst/beeld-paren, levert bijbehorend visueel materiaal waaruit transformaties van gebruikersinvoer kunnen worden geïnterpreteerd.

De generator accepteert een invoerbeeld (frame) en voert een doel-RGBA-laag uit met kleur- en dekkingsinformatie. Deze laag wordt vervolgens samengevoegd tot het originele beeldmateriaal met aanvullende augmentaties.

Het alfakanaal in de gegenereerde RGBA-laag biedt een interne compositing-functie zonder toevlucht te nemen tot traditionele pijplijnen met op pixels gebaseerde software zoals After Effects.

Het alfakanaal in de gegenereerde RGBA-laag biedt een interne compositing-functie zonder toevlucht te nemen tot traditionele pijplijnen met op pixels gebaseerde software zoals After Effects.

Door te trainen op interne afbeeldingen die relevant zijn voor de doelvideo of -afbeelding, vermijdt Text2Live de vereiste om dat ook te doen omkeren het invoerbeeld in de latente ruimte van een Generative Adversarial Network (GAN), een praktijk die momenteel wordt toegepast verre van exact genoeg voor productievideobewerkingsvereisten, of gebruik anders een diffusiemodel dat nauwkeuriger en configureerbaarder is, maar trouw niet kan behouden naar de doelvideo.

Diverse op prompts gebaseerde transformatiebewerkingen van Text2Live.

Diverse op prompts gebaseerde transformatiebewerkingen van Text2Live.

Eerdere benaderingen hebben ofwel gebruikt op voortplanting gebaseerde methoden or optische flow-gebaseerd benadert. Aangezien deze technieken tot op zekere hoogte frame-gebaseerd zijn, is geen van beide in staat om een ​​consistent temporeel uiterlijk van veranderingen in outputvideo te creëren. Een neurale gelaagde atlas biedt in plaats daarvan een enkele ruimte om wijzigingen aan te pakken, die vervolgens trouw kan blijven aan de vastgelegde verandering naarmate de video vordert.

Geen 'sissen' of willekeurige hallucinaties: Text2Live verkrijgt een interpretatie van de tekstprompt 'roestige jeep' en past deze eenmaal toe op de neurale gelaagde atlas van de auto in de video, in plaats van de transformatie opnieuw te starten voor elk geïnterpreteerd frame.

Geen 'sissen' of willekeurige hallucinaties: Text2Live verkrijgt een interpretatie van de tekstprompt 'roestige jeep' en past deze eenmaal toe op de neurale gelaagde atlas van de auto in de video, in plaats van de transformatie opnieuw te starten voor elk geïnterpreteerd frame.

Workflow van Text2Live's consistente transformatie van een Jeep in een roestig relikwie.

Workflow van Text2Live's consistente transformatie van een Jeep in een roestig relikwie.

Text2Live is dichter bij een doorbraak in op AI gebaseerde composities dan in de vruchtbare tekst-naar-beeld-ruimte die deze week zoveel aandacht heeft getrokken met de release van de tweede generatie van OpenAI's DALL-E-framework (dat doelafbeeldingen kan opnemen als onderdeel van het transformatieproces, maar beperkt blijft in zijn vermogen om direct in te grijpen in een foto, naast de censurering van bron trainingsgegevens en het opleggen van filters, ontworpen om gebruikersmisbruik te voorkomen).

In plaats daarvan stelt Text2Live de eindgebruiker in staat om een ​​atlas te extraheren en deze vervolgens in één keer te bewerken in zeer gecontroleerde pixelgebaseerde omgevingen zoals Photoshop (en aantoonbaar zelfs meer abstracte kaders voor beeldsynthese zoals Nerf), alvorens het terug te voeren naar een correct georiënteerde omgeving die niettemin niet afhankelijk is van 3D-schattingen of op CGI gebaseerde benaderingen.

Bovendien is Text2Live, zo beweren de auteurs, het eerste vergelijkbare raamwerk dat maskeren en samenstellen op een volledig automatische manier mogelijk maakt.

 

Voor het eerst gepubliceerd op 7 april 2022.