výhonek ST-NeRF: Skládání a střih pro syntézu videa - Unite.AI
Spojte se s námi

Umělá inteligence

ST-NeRF: Skládání a střih pro syntézu videa

mm
aktualizováno on
ST-NeRF

Čínské výzkumné konsorcium má rozvinutý techniky, které přinesou možnosti úprav a skládání do jednoho z nejžhavějších výzkumných sektorů syntézy obrazu za poslední rok – Neural Radiance Fields (NeRF). Systém se nazývá ST-NeRF (Spatio-Temporal Coherent Neural Radiance Field).

To, co se na obrázku níže zdá být fyzickým pohybem kamery, je ve skutečnosti jen „procházení“ uživatele v úhlech pohledu na videoobsah, který existuje ve 4D prostoru. POV není vázáno na výkon lidí zobrazených na videu, jejichž pohyby lze sledovat z jakékoli části 180stupňového okruhu.

ST-NeRF

Každý aspekt ve videu je diskrétně zachyceným prvkem, složeným dohromady do soudržné scény, kterou lze dynamicky prozkoumat.

Fazety lze ve scéně volně duplikovat nebo měnit jejich velikost:

ST-NeRF

Časové chování každého aspektu lze navíc snadno změnit, zpomalit, spustit pozpátku nebo s ním manipulovat mnoha různými způsoby, čímž se otevírá cesta k architektuře filtrů a extrémně vysoká úroveň interpretovatelnosti.

Dvě samostatné fasety NeRF běží ve stejné scéně různými rychlostmi. Zdroj: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Dvě samostatné fasety NeRF běží ve stejné scéně různými rychlostmi. Zdroj: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Není třeba provádět rotoskopii účinkujících nebo prostředí nebo nechat umělce provádět své pohyby slepě a mimo kontext zamýšlené scény. Místo toho je záznam pořizován přirozeně pomocí řady 16 videokamer pokrývajících 180 stupňů:

16 kamer ST-NeRF

Tři výše zobrazené prvky, dva lidé a prostředí, jsou odlišné a nastíněné pouze pro ilustrativní účely. Každý může být zaměněn a každý může být vložen do scény dříve nebo později v jejich individuální časové ose zachycení.

Tři výše zobrazené prvky, dva lidé a prostředí, jsou odlišné a nastíněné pouze pro ilustrativní účely. Každý může být zaměněn a každý může být vložen do scény dříve nebo později v jejich individuální časové ose zachycení.

ST-NeRF je inovace ve výzkumu v oblasti neuronových radiačních polí (NeRF), rámec strojového učení, ve kterém jsou zachycení více úhlů pohledu syntetizována do splavného virtuálního prostoru pomocí rozsáhlého školení (ačkoli zachycení jednoho úhlu pohledu je také podsektorem výzkumu NeRF).

Neural Radiance Fields fungují tak, že shromažďují více snímaných úhlů pohledu do jediného koherentního a navigovatelného 3D prostoru, s mezerami mezi pokrytím odhadovaným a vykresleným neuronovou sítí. Tam, kde se používá video (spíše než statické obrázky), jsou potřebné zdroje pro vykreslování často značné. Zdroj: https://www.matthewtancik.com/nerf

Neural Radiance Fields fungují tak, že shromažďují více snímaných úhlů pohledu do jediného koherentního a navigovatelného 3D prostoru, s mezerami mezi pokrytím odhadovaným a vykresleným neuronovou sítí. Tam, kde se používá video (spíše než statické obrázky), jsou potřebné zdroje pro vykreslování často značné. Zdroj: https://www.matthewtancik.com/nerf

Zájem o NeRF se za posledních devět měsíců stal intenzivním a udržuje se Reddit lest odvozených nebo průzkumných článků NeRF aktuálně uvádí šedesát projektů.

 

Jen několik z mnoha odnoží původního papíru NeRF. Zdroj: https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/

Jen několik z mnoha odnoží původního papíru NeRF. Zdroj: https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/

Cenově dostupné školení

Tento dokument je výsledkem spolupráce mezi výzkumníky z Shanghai Tech University a Digitální technologie DGenea byl přijat s určitým nadšením v Open Review.

ST-NeRF nabízí řadu inovací oproti předchozím iniciativám v navigačních video prostorech odvozených z ML. V neposlední řadě dosahuje vysoké úrovně realismu pouze s 16 kamerami. I když Facebook DyNeRF používá pouze dvě kamery více než toto, nabízí mnohem omezenější navigační oblouk.

Příklad prostředí Facebooku DyNeRF s omezenějším polem pohybu a více kamer na čtvereční stopu potřebných k rekonstrukci scény. Zdroj: https://neural-3d-video.github.io

Příklad prostředí Facebooku DyNeRF s omezenějším polem pohybu a více kamer na čtvereční stopu potřebných k rekonstrukci scény. Zdroj: https://neural-3d-video.github.io

Kromě toho, že chybí možnost upravovat a skládat jednotlivé aspekty, je DyNeRF obzvláště drahý z hlediska výpočetních zdrojů. Naproti tomu čínští vědci uvádějí, že náklady na školení pro jejich data se pohybují někde mezi 900 až 3,000 30,000 dolary ve srovnání s XNUMX XNUMX dolary za nejmodernější model generace videa DVDGAN a intenzivní systémy, jako je DyNeRF.

Recenzenti také poznamenali, že ST-NeRF představuje významnou inovaci v oddělení procesu učení pohybu od procesu syntézy obrazu. Toto oddělení je to, co umožňuje editaci a skládání, přičemž předchozí přístupy jsou ve srovnání omezující a lineární.

Ačkoli je 16 kamer velmi omezené pole pro takový plný půlkruhový pohled, vědci doufají, že toto číslo v pozdější práci ještě sníží pomocí proxy předem naskenovaných statických pozadí a více přístupů k modelování scén založených na datech. Doufají také, že začlení možnosti opětovného osvětlení, a nedávné inovace ve výzkumu NeRF.

Řešení omezení ST-NeRF

V kontextu akademických CS prací, které mají tendenci zmařit skutečnou použitelnost nového systému ve vyhozeném koncovém odstavci, dokonce i omezení, která výzkumníci uznávají pro ST-NeRF, jsou neobvyklá.

Pozorují, že systém v současné době nemůže individualizovat a samostatně vykreslovat konkrétní objekty ve scéně, protože lidé na záběrech jsou rozděleni do jednotlivých entit prostřednictvím systému navrženého tak, aby rozpoznával lidi a ne objekty – problém, který se zdá být snadno řešitelný pomocí YOLO a podobných. rámců, přičemž těžší práce s extrahováním lidského videa již byla dokončena.

Ačkoli výzkumníci poznamenávají, že v současné době není možné generovat zpomalený pohyb, zdá se, že jen málo brání jeho implementaci pomocí stávajících inovací v interpolaci snímků, jako je např. DAIN a RIFE.

Stejně jako u všech implementací NeRF a v mnoha dalších sektorech výzkumu počítačového vidění může ST-NeRF selhat v případech vážné okluze, kdy je subjekt dočasně zakrytý jinou osobou nebo objektem a může být obtížné jej neustále sledovat nebo přesně poté znovu získat. Stejně jako jinde si tento problém možná bude muset počkat na řešení proti proudu. Mezitím výzkumníci připouštějí, že v těchto uzavřených rámech je nutný manuální zásah.

Nakonec výzkumníci pozorují, že procedury lidské segmentace v současnosti spoléhají na barevné rozdíly, které by mohly vést k neúmyslnému sloučení dvou lidí do jednoho segmentačního bloku – kámen úrazu, který se neomezuje na ST-NeRF, ale je vlastní použité knihovně, a který by možná mohla být vyřešena analýzou optického toku a dalšími nově vznikajícími technikami.

Poprvé publikováno 7. května 2021.