Umělá inteligence

Konsistentní editace videa pomocí umělé inteligence s textovým vstupem

Published April 7, 2022

Updated April 28, 2026

Martin Anderson

Zatímco profesionální komunita VFX je fascinována – a občas se cítí trochu ohrožena – novými inovacemi v oblasti syntézy obrazu a videa, absence temporální kontinuity ve většině projektů editace videa založených na umělé inteligenci řadí mnoho těchto snah do “psychedelické” sféry, s lesknoucími se a rychle se měnícími texturami a strukturami, nekonzistentními efekty a druhem hrubého technologického ovládání, které připomíná photochemickou éru vizuálních efektů.

Pokud chcete změnit něco velmi specifického ve videu, co nespadá do oblasti deepfakes (tj. vynucení nové identity na existující záběry osoby), většina současných řešení funguje pod quite přísnými omezeními, pokud jde o přesnost vyžadovanou pro produkční kvalitu vizuálních efektů.

Jednou z výjimek je pokračující práce volného sdružení akademiků z Weizmannova institutu vědy. V roce 2021 tři z jeho výzkumníků, ve spolupráci s Adobe, oznámili novou metodu pro rozložení videa a superponování konzistentní vnitřní mapy – vrstevnatý neuronový atlas – do komponovaného výstupu, kompletního s alfa kanály a temporálně koherentním výstupem.

Z roku 2021: odhad kompletní traverze silnice ve zdrojovém klipu je upraven pomocí neuronové sítě způsobem, který tradičně vyžadoval rozsáhlé rotoskopování a match-moving. Odůvodnění: pozadí a popředí jsou zpracovávána jinými sítěmi, masky jsou skutečně ‘automatické’. Zdroj: https://layered-neural-atlases.github.io/

Ačkoli spadá někam do oblasti pokryté optickým tokem ve VFX potrubích, vrstevnatý atlas nemá žádný přímý ekvivalent v tradičních CGI pracovních postupech, protože esenciálně tvoří ‘temporální texturovou mapu’, která může být produkována a editována pomocí tradičních softwarových metod. Ve druhé obrazové části výše je pozadí vozovky reprezentováno (figurativně) napříč celou délkou videa. Změna této základní obrazovky (třetí obraz zleva v ilustraci výše) produkuje konzistentní změnu v pozadí.

Obrazy “rozevíraného” atlasu výše reprezentují pouze jednotlivé interpretované snímky; konzistentní změny v jakémkoli cílovém snímku videa jsou mapovány zpět na původní snímek, zachovávajíce jakýkoli nutný překryv a jiné požadované scénické efekty, jako jsou stíny nebo odrazy.

Jádro architektury používá Multilayer Perceptron (MLP) pro reprezentaci rozevíraných atlasů, alfa kanálů a mapování, vše z nich je optimalizováno v koncertu a zcela ve 2D prostoru, zrušující NeRF-styl předchozí znalosti 3D geometrických bodů, hloubkových map a podobných CGI-styl tranzitiv.

Referenční atlas jednotlivých objektů může být také spolehlivě upraven:

Konzistentní změna pohyblivého objektu v rámci rámce z roku 2021. Zdroj: https://www.youtube.com/watch?v=aQhakPFC4oQ

V podstatě systém z roku 2021 kombinuje geometrické zarovnání, match-moving, mapování, re-texturizaci a rotoskopování do diskrétního neuronového procesu.

Text2Live

Tři původní výzkumníci z roku 2021, společně s NVIDIA výzkumem, jsou mezi přispěvateli k novému inovativnímu přístupu k této technice, který kombinuje sílu vrstevnatých atlasů s druhem textem-řízené CLIP technologie, která se vrátila do popředí tento týden s OpenAI’s vydáním DALL-E 2 rámce.

Nová architektura, nazvaná Text2Live, umožňuje koncovému uživateli vytvářet lokalizované úpravy skutečného videoobsahu na základě textových příkazů:

Dva příklady úpravy popředí. Pro lepší rozlišení a definici se podívejte na původní videa na https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live nabízí sémantickou a vysoce lokalizovanou úpravu bez použití předem trénovaného generátoru, využívající interní databázi specifickou pro video klip, který je ovlivněn.

Transformace pozadí a popředí (objektu) v Text2Live. Zdroj: https://text2live.github.io/sm/pages/video_results_atlases.html

Tato technika nevyžaduje uživatelsky poskytované masky, jako je typické rotoskopování nebo green-screen workflow, ale spíše odhaduje relevancy mapy prostřednictvím bootstrapping techniky založené na výzkumu z roku 2021 ze Školy počítačových věd na Telavivské univerzitě a Facebook AI Research (FAIR).

Výstupní mapy generované pomocí transformer-založeného generického attention modelu.

Nový článek je nazvaný Text2LIVE: Text-Driven Layered Image and Video Editing. Původní tým z roku 2021 je doplněn Weizmannovým Omerem Bar-Talem a Yoni Kastenem z NVIDIA Research.

Architektura

Text2Live se skládá z generátoru trénovaného na jediném vstupním obraze a cílových textových příkazů. Model Contrastive Language-Image Pretraining (CLIP) předtrénovaný na 400 milionech textových a obrazových párů poskytuje související vizuální materiál, ze kterého lze interpretovat uživatelské transformace.

Generátor akceptuje vstupní obraz (snímek) a produkuje cílovou RGBA vrstvu obsahující barevnou a transparentní informaci. Tato vrstva je pak komponována do původního záběru s dalšími augmentacemi.

Alfa kanál v generované RGBA vrstvě poskytuje interní kompozitní funkci bez nutnosti tradičních potrubí zahrnujících pixel-založené software jako After Effects.

Tréninkem na interních obrazech relevantních pro cílové video nebo obraz, Text2Live se vyhýbá požadavku buď inverze vstupního obrazu do latentního prostoru Generative Adversarial Network (GAN), praxe, která je目前 daleko od dostatečně přesné pro požadavky produkční video editace, nebo použití Diffusion modelu, který je přesnější a konfigurovatelnější, ale nemůže zachovat věrnost cílovému videu.

Různé transformace založené na příkazech z Text2Live.

Předchozí přístupy používaly propagační metody nebo optickým tokem-založené přístupy. Tyto techniky jsou do jisté míry založeny na snímcích, aniž by byly schopny vytvořit konzistentní temporální vzhled změn ve výstupním videu. Vrstevnatý neuronový atlas poskytuje jediný prostor, ve kterém lze řešit změny, které lze poté uchovat věrně k provedené změně, jak video postupuje.

Žádné ‘sizzling’ nebo náhodné halucinace: Text2Live získá interpretaci textového příkazu ‘rusty jeep’, a aplikuje ji jednou na neuronový atlas auta ve videu, místo aby restartovala transformaci pro každý interpretovaný snímek.

Pracovní postup Text2Live’s konzistentní transformace Jeepu na rezavý relikt.

Text2Live je blíže k průlomu v AI-založené kompozici, spíše než v úrodném text-to-image prostoru, který získal tolik pozornosti tento týden s vydáním druhé generace OpenAI’s DALL-E rámce (který může zahrnovat cílové obrázky jako součást transformačního procesu, ale zůstává omezený ve své schopnosti přímo zasahovat do fotografie, kromě cenzury zdrojových trénovacích dat a uvalení filtrů, navržených k prevenci zneužití uživatelem).

Místo toho Text2Live umožňuje koncovému uživateli extrahovat atlas a poté jej upravit v jednom kroku v prostředí s vysokou kontrolou pixel-založených prostředí, jako je Photoshop (a možná ještě abstraktnější obrazové syntézy rámce, jako je NeRF), předtím, než jej vrátí do správně orientovaného prostředí, které nicméně nezávisí na 3D odhadu nebo zpětném CGI-založeném přístupu.

Kromě toho Text2Live, autoři prohlašují, je první srovnatelný rámec, který dosáhne maskování a kompozice zcela automaticky.

Poprvé publikováno 7. dubna 2022.

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai

Unite.AI

Konsistentní editace videa pomocí umělé inteligence s textovým vstupem

Text2Live

Architektura

You may like