Artificial Intelligence
Consistente AI-video-inhoudbewerking met tekstgestuurde invoer
Terwijl de professionele VFX-gemeenschap geïntrigeerd is - en af en toe voelt een beetje bedreigd – door nieuwe innovaties in beeld- en videosynthese degradeert het gebrek aan temporele continuïteit in de meeste op AI gebaseerde videobewerkingsprojecten veel van deze inspanningen naar de 'psychedelische' sfeer, met glinsterend en snel veranderend texturen en structuren, inconsistente effecten en het soort grof technologisch geruzie dat doet denken aan de fotochemisch tijdperk van visuele effecten.
Als je iets heel specifieks wilt veranderen in een video die niet tot het domein van deepfakes behoort (dat wil zeggen, een nieuwe identiteit opleggen aan bestaand beeldmateriaal van een persoon), opereren de meeste van de huidige oplossingen onder vrij ernstige beperkingen, in termen van de precisie die nodig is voor visuele effecten van productiekwaliteit.
Een uitzondering is het lopende werk van een losse vereniging van academici van het Weizmann Institute of Science. In 2021 zullen drie van haar onderzoekers, in samenwerking met Adobe, aangekondigd een nieuwe methode om video te ontbinden en een consistente interne mapping te superponeren - een gelaagde neurale atlas - in een samengestelde uitvoer, compleet met alfakanalen en tijdelijk samenhangende uitvoer.
Hoewel het ergens in het rijk valt dat eronder valt optische stroming in VFX-pijplijnen heeft de gelaagde atlas geen direct equivalent in traditionele CGI-workflows, aangezien het in wezen een 'temporele textuurkaart' vormt die kan worden geproduceerd en bewerkt via traditionele softwaremethoden. In de tweede afbeelding in bovenstaande afbeelding wordt de achtergrond van het wegdek (figuurlijk) weergegeven over de gehele looptijd van de video. Het wijzigen van die basisafbeelding (derde afbeelding van links in de afbeelding hierboven) zorgt voor een consistente verandering in de achtergrond.
De afbeeldingen van de 'uitgevouwen' atlas hierboven vertegenwoordigen alleen individueel geïnterpreteerde frames; consistente veranderingen in elk doelvideoframe worden teruggezet naar het originele frame, waarbij alle noodzakelijke occlusies en andere vereiste scène-effecten, zoals schaduwen of reflecties, behouden blijven.
De kernarchitectuur maakt gebruik van een Multilayer Perceptron (MLP) om de ongevouwen atlassen, alfakanalen en mappings weer te geven, die allemaal in overleg en volledig in een 2D-ruimte zijn geoptimaliseerd, waardoor voorkennis in NeRF-stijl van 3D-geometriepunten, dieptekaarten, en vergelijkbare attributen in CGI-stijl.
De referentieatlas van individuele objecten kan ook betrouwbaar worden gewijzigd:
In wezen combineert het 2021-systeem geometrie-uitlijning, match-moving, mapping, re-texturizing en rotoscoping in een discreet neuraal proces.
Tekst2Live
De drie oorspronkelijke onderzoekers van de paper uit 2021, samen met NVIDIA-onderzoek, behoren tot de bijdragers aan een nieuwe innovatie op het gebied van de techniek die de kracht van gelaagde atlassen combineert met het soort tekstgestuurde CLIP-technologie die deze week weer op de voorgrond is gekomen met OpenAI's los van het DALL-E 2-framework.
De nieuwe architectuur, getiteld Tekst2Live, stelt een eindgebruiker in staat om gelokaliseerde bewerkingen aan daadwerkelijke video-inhoud te maken op basis van tekstprompts:
Text2Live biedt semantische en sterk gelokaliseerde bewerking zonder het gebruik van een vooraf getrainde generator, door gebruik te maken van een interne database die specifiek is voor de betreffende videoclip.
De techniek vereist geen door de gebruiker geleverde maskers, zoals een typische rotoscoping- of green-screen-workflow, maar eerder schattingen relevantie kaarten door middel van een bootstrapping-techniek gebaseerd op 2021 onderzoek van The School of Computer Science aan de Universiteit van Tel Aviv en Facebook AI Research (FAIR).
De nieuwe papier is getiteld Text2LIVE: tekstgestuurde gelaagde beeld- en videobewerking. Het oorspronkelijke 2021-team wordt vergezeld door Weizmann's Omer Bar-Tal en Yoni Kasten van NVIDIA Research.
Architectuur
Text2Live bestaat uit een generator die is getraind op een enkele invoerafbeelding en doeltekstprompts. Een CLIP-model (Contrastive Language-Image Pretraining), vooraf getraind op 400 miljoen tekst/beeld-paren, levert bijbehorend visueel materiaal waaruit transformaties van gebruikersinvoer kunnen worden geïnterpreteerd.
De generator accepteert een invoerbeeld (frame) en voert een doel-RGBA-laag uit met kleur- en dekkingsinformatie. Deze laag wordt vervolgens samengevoegd tot het originele beeldmateriaal met aanvullende augmentaties.
Door te trainen op interne afbeeldingen die relevant zijn voor de doelvideo of -afbeelding, vermijdt Text2Live de vereiste om dat ook te doen omkeren het invoerbeeld in de latente ruimte van een Generative Adversarial Network (GAN), een praktijk die momenteel wordt toegepast verre van exact genoeg voor productievideobewerkingsvereisten, of gebruik anders een diffusiemodel dat nauwkeuriger en configureerbaarder is, maar trouw niet kan behouden naar de doelvideo.
Eerdere benaderingen hebben ofwel gebruikt op voortplanting gebaseerde methoden or optische flow-gebaseerd benadert. Aangezien deze technieken tot op zekere hoogte frame-gebaseerd zijn, is geen van beide in staat om een consistent temporeel uiterlijk van veranderingen in outputvideo te creëren. Een neurale gelaagde atlas biedt in plaats daarvan een enkele ruimte om wijzigingen aan te pakken, die vervolgens trouw kan blijven aan de vastgelegde verandering naarmate de video vordert.
Text2Live is dichter bij een doorbraak in op AI gebaseerde composities dan in de vruchtbare tekst-naar-beeld-ruimte die deze week zoveel aandacht heeft getrokken met de release van de tweede generatie van OpenAI's DALL-E-framework (dat doelafbeeldingen kan opnemen als onderdeel van het transformatieproces, maar beperkt blijft in zijn vermogen om direct in te grijpen in een foto, naast de censurering van bron trainingsgegevens en het opleggen van filters, ontworpen om gebruikersmisbruik te voorkomen).
In plaats daarvan stelt Text2Live de eindgebruiker in staat om een atlas te extraheren en deze vervolgens in één keer te bewerken in zeer gecontroleerde pixelgebaseerde omgevingen zoals Photoshop (en aantoonbaar zelfs meer abstracte kaders voor beeldsynthese zoals Nerf), alvorens het terug te voeren naar een correct georiënteerde omgeving die niettemin niet afhankelijk is van 3D-schattingen of op CGI gebaseerde benaderingen.
Bovendien is Text2Live, zo beweren de auteurs, het eerste vergelijkbare raamwerk dat maskeren en samenstellen op een volledig automatische manier mogelijk maakt.
Voor het eerst gepubliceerd op 7 april 2022.