Umělá inteligence

ST-NeRF: Kompozice a editace pro syntézu videa

Published May 7, 2021

Updated April 5, 2026

Martin Anderson

Čínský výzkumný konsorcium vyvinulo techniky pro editaci a kompozici v jednom z nejžhavějších oblastí výzkumu syntézy obrazu za poslední rok – Neural Radiance Fields (NeRF). Systém se nazývá ST-NeRF (Prostorově-časově koherentní neuronové radiační pole).

Co vypadá jako fyzické panorámování kamery na obrázku níže, je ve skutečnosti pouze uživatel “procházející” pohledy na videoobsah, který existuje v 4D prostoru. Pohled není vázaný na výkon lidí zobrazených ve videu, jejichž pohyby lze sledovat z libovolné části 180stupňového poloměru.

ST-NeRF

Každá část videa je diskrétně zachyceným prvkem, který je složen do koherentní scény, která lze dynamicky prozkoumat.

Tyto části lze volně duplikovat ve scéně nebo měnit velikost:

ST-NeRF

Kromě toho lze snadno upravit časové chování každé části, zpomalit, spustit pozpátku nebo manipulovat jakýmkoli způsobem, což otevírá cestu k architektuře filtrů a velmi vysoké úrovni interpretability.

Dvě samostatné NeRF části běží v stejné scéně na různých rychlostech. Source: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Není třeba rotoskopovat výkony nebo prostředí, nebo mít výkony provádět své pohyby naslepo a mimo kontext zamýšlené scény. Místo toho je záznam pořízen přirozeně pomocí pole 16 video kamer pokrývajících 180 stupňů:

16 kamer ST-NeRF

Tři prvky zobrazené výše, dvě osoby a prostředí, jsou samostatné a jsou ohraničeny pouze pro ilustrační účely. Každý z nich lze vyměnit a každý lze vložit do scény v dříve nebo později bodě v jejich individuálním časovém rámci.

ST-NeRF je inovací ve výzkumu Neural Radiance Fields (NeRF), frameworku pro strojové učení, ve kterém jsou syntetizovány multiple pohledy do navigovatelného virtuálního prostoru pomocí rozsáhlého tréninku (ačkoli single pohledová syntéza je také sub-sektor výzkumu NeRF).

Neuronové radiační pole funguje tak, že shromažďuje multiple pohledy do jediného koherentního a navigovatelného 3D prostoru, s mezerami mezi pokrytím odhadnutými a renderovanými neuronovou sítí. Pokud se místo statických obrazů použije video, jsou renderovací zdroje často značné. Source: https://www.matthewtancik.com/nerf

Zájem o NeRF se stal intenzivním za posledních devět měsíců, a Reddit-maintained seznam derivativních nebo průzkumných NeRF papírů目前 obsahuje šedesát projektů.

Pouze několik z mnoha odnoží původního NeRF papíru. Source: https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/

Dostupné trénování

Papír je spoluprací mezi výzkumníky na Šanghajské technické univerzitě a DGene Digital Technology, a byl přijat s určitým nadšením at Open Review.

ST-NeRF nabízí několik inovací oproti předchozím iniciativám v ML-derived navigovatelných video prostorech. Nejméně, dosahuje vysoké úrovně realismu s pouze 16 kamerami. Ačkoli Facebookův DyNeRF používá pouze dvě kamery více, než toto, nabízí mnohem více omezený navigovatelný oblouk.

Příklad Facebookova DyNeRF prostředí, s více omezeným pohybem a více kamerami na čtvereční stopu potřebnými k rekonstrukci scény. Source: https://neural-3d-video.github.io

Kromě toho, že chybí schopnost editovat a komponovat jednotlivé části, je DyNeRF zvláště drahý z hlediska výpočetních zdrojů. Naopak, čínští výzkumníci uvádějí, že náklady na trénování jejich dat se pohybují mezi 900-3 000 dolarů, ve srovnání s 30 000 dolarů za state-of-the-art video generovací model DVDGAN a intenzivními systémy, jako je DyNeRF.

Recenzenti také poznamenali, že ST-NeRF představuje významnou inovaci v oddělení procesu učení pohybu od procesu syntézy obrazu. Toto oddělení umožňuje editaci a kompozici, zatímco předchozí přístupy byly omezující a lineární ve srovnání.

Ačkoli 16 kamer je velmi omezené pole pro tak plný půlkruhový pohled, výzkumníci doufají, že sníží toto číslo dále v pozdější práci pomocí proxy před-scanned statických pozadí a více datově řízených přístupů k modelování scény. Doufají také, že budou moci začlenit schopnosti re-osvětlení, nedávnou inovaci ve výzkumu NeRF.

Vyřešení omezení ST-NeRF

V kontextu akademických CS papírů, které tendují k likvidaci skutečné použitelnosti nového systému v odhozeném závěrečném odstavci, jsou i omezení, která výzkumníci uznávají pro ST-NeRF, neobvyklá.

Poznamenávají, že systém目前 nemůže individuovat a samostatně renderovat konkrétní objekty ve scéně, protože lidé ve footage jsou segmentováni do jednotlivých entit pomocí systému navrženého pro rozpoznávání lidí a ne objektů – problém, který se zdá být snadno řešitelný pomocí YOLO a podobných rámců, s tvrdou prací na extrahování lidského videa již provedenou.

Ačkoli výzkumníci poznamenávají, že目前 není možné generovat slow-motion, zdá se, že nic nebrání implementaci tohoto pomocí existujících inovací v interpolaci rámců, jako je DAIN a RIFE.

Jako u všech implementací NeRF a v mnoha dalších oblastech výzkumu počítačového vidění, ST-NeRF může selhat v případech závažného zakrytí, kde je subjekt dočasně zakryt jinou osobou nebo objektem, a může být obtížné jej kontinuálně sledovat nebo přesně znovu získat. Jako jinde, tato obtíž může čekat na řešení v dalších oblastech. Mezitím výzkumníci uznávají, že je nutná manuální intervence v těchto zakrytých rámcích.

Nakonec výzkumníci poznamenávají, že postupy segmentace lidí目前 závisí na barevných rozdílech, které by mohly vést k neúmyslnému sloučení dvou lidí do jednoho segmentového bloku – problém, který není omezen pouze na ST-NeRF, ale je intrinsicní pro knihovnu, která se používá, a který by mohl být perhaps vyřešen pomocí optického toku a dalších vznikajících technik.

Poprvé publikováno 7. května 2021.

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai

Unite.AI

ST-NeRF: Kompozice a editace pro syntézu videa

Dostupné trénování

Vyřešení omezení ST-NeRF

You may like