Umělá inteligence
ST-NeRF: Skládání a střih pro syntézu videa
Čínské výzkumné konsorcium má rozvinutý techniky, které přinesou možnosti úprav a skládání do jednoho z nejžhavějších výzkumných sektorů syntézy obrazu za poslední rok – Neural Radiance Fields (NeRF). Systém se nazývá ST-NeRF (Spatio-Temporal Coherent Neural Radiance Field).
To, co se na obrázku níže zdá být fyzickým pohybem kamery, je ve skutečnosti jen „procházení“ uživatele v úhlech pohledu na videoobsah, který existuje ve 4D prostoru. POV není vázáno na výkon lidí zobrazených na videu, jejichž pohyby lze sledovat z jakékoli části 180stupňového okruhu.
Každý aspekt ve videu je diskrétně zachyceným prvkem, složeným dohromady do soudržné scény, kterou lze dynamicky prozkoumat.
Fazety lze ve scéně volně duplikovat nebo měnit jejich velikost:
Časové chování každého aspektu lze navíc snadno změnit, zpomalit, spustit pozpátku nebo s ním manipulovat mnoha různými způsoby, čímž se otevírá cesta k architektuře filtrů a extrémně vysoká úroveň interpretovatelnosti.
Není třeba provádět rotoskopii účinkujících nebo prostředí nebo nechat umělce provádět své pohyby slepě a mimo kontext zamýšlené scény. Místo toho je záznam pořizován přirozeně pomocí řady 16 videokamer pokrývajících 180 stupňů:
ST-NeRF je inovace ve výzkumu v oblasti neuronových radiačních polí (NeRF), rámec strojového učení, ve kterém jsou zachycení více úhlů pohledu syntetizována do splavného virtuálního prostoru pomocí rozsáhlého školení (ačkoli zachycení jednoho úhlu pohledu je také podsektorem výzkumu NeRF).
Zájem o NeRF se za posledních devět měsíců stal intenzivním a udržuje se Reddit lest odvozených nebo průzkumných článků NeRF aktuálně uvádí šedesát projektů.
Cenově dostupné školení
Tento dokument je výsledkem spolupráce mezi výzkumníky z Shanghai Tech University a Digitální technologie DGenea byl přijat s určitým nadšením v Open Review.
ST-NeRF nabízí řadu inovací oproti předchozím iniciativám v navigačních video prostorech odvozených z ML. V neposlední řadě dosahuje vysoké úrovně realismu pouze s 16 kamerami. I když Facebook DyNeRF používá pouze dvě kamery více než toto, nabízí mnohem omezenější navigační oblouk.
Kromě toho, že chybí možnost upravovat a skládat jednotlivé aspekty, je DyNeRF obzvláště drahý z hlediska výpočetních zdrojů. Naproti tomu čínští vědci uvádějí, že náklady na školení pro jejich data se pohybují někde mezi 900 až 3,000 30,000 dolary ve srovnání s XNUMX XNUMX dolary za nejmodernější model generace videa DVDGAN a intenzivní systémy, jako je DyNeRF.
Recenzenti také poznamenali, že ST-NeRF představuje významnou inovaci v oddělení procesu učení pohybu od procesu syntézy obrazu. Toto oddělení je to, co umožňuje editaci a skládání, přičemž předchozí přístupy jsou ve srovnání omezující a lineární.
Ačkoli je 16 kamer velmi omezené pole pro takový plný půlkruhový pohled, vědci doufají, že toto číslo v pozdější práci ještě sníží pomocí proxy předem naskenovaných statických pozadí a více přístupů k modelování scén založených na datech. Doufají také, že začlení možnosti opětovného osvětlení, a nedávné inovace ve výzkumu NeRF.
Řešení omezení ST-NeRF
V kontextu akademických CS prací, které mají tendenci zmařit skutečnou použitelnost nového systému ve vyhozeném koncovém odstavci, dokonce i omezení, která výzkumníci uznávají pro ST-NeRF, jsou neobvyklá.
Pozorují, že systém v současné době nemůže individualizovat a samostatně vykreslovat konkrétní objekty ve scéně, protože lidé na záběrech jsou rozděleni do jednotlivých entit prostřednictvím systému navrženého tak, aby rozpoznával lidi a ne objekty – problém, který se zdá být snadno řešitelný pomocí YOLO a podobných. rámců, přičemž těžší práce s extrahováním lidského videa již byla dokončena.
Ačkoli výzkumníci poznamenávají, že v současné době není možné generovat zpomalený pohyb, zdá se, že jen málo brání jeho implementaci pomocí stávajících inovací v interpolaci snímků, jako je např. DAIN a RIFE.
Stejně jako u všech implementací NeRF a v mnoha dalších sektorech výzkumu počítačového vidění může ST-NeRF selhat v případech vážné okluze, kdy je subjekt dočasně zakrytý jinou osobou nebo objektem a může být obtížné jej neustále sledovat nebo přesně poté znovu získat. Stejně jako jinde si tento problém možná bude muset počkat na řešení proti proudu. Mezitím výzkumníci připouštějí, že v těchto uzavřených rámech je nutný manuální zásah.
Nakonec výzkumníci pozorují, že procedury lidské segmentace v současnosti spoléhají na barevné rozdíly, které by mohly vést k neúmyslnému sloučení dvou lidí do jednoho segmentačního bloku – kámen úrazu, který se neomezuje na ST-NeRF, ale je vlastní použité knihovně, a který by možná mohla být vyřešena analýzou optického toku a dalšími nově vznikajícími technikami.
Poprvé publikováno 7. května 2021.