Umelá inteligencia

ST-NeRF: Skladanie a strih pre syntézu videa

Aktualizované on Decembra 9, 2022

Čínske výskumné konzorcium má rozvinutý techniky, ktoré prinášajú možnosti úprav a skladania do jedného z najhorúcejších sektorov výskumu syntézy obrazu za posledný rok – Neural Radiance Fields (NeRF). Systém má názov ST-NeRF (Spatio-Temporal Coherent Neural Radiance Field).

To, čo sa na obrázku nižšie javí ako pohyb z kamery, je v skutočnosti len „rolovanie“ používateľa cez uhly pohľadu na videoobsah, ktorý existuje v 4D priestore. POV nie je viazaný na výkon ľudí zobrazených vo videu, ktorých pohyby je možné sledovať z ktorejkoľvek časti 180-stupňového okruhu.

Každý aspekt vo videu je diskrétne zachytený prvok, zložený do súdržnej scény, ktorú možno dynamicky skúmať.

Fazety je možné v rámci scény voľne duplikovať alebo zmeniť ich veľkosť:

Okrem toho, dočasné správanie každého aspektu možno ľahko zmeniť, spomaliť, spustiť dozadu alebo s ním manipulovať akýmkoľvek spôsobom, čím sa otvára cesta k architektúram filtrov a extrémne vysoká úroveň interpretovateľnosti.

Dve samostatné fazety NeRF bežia rôznymi rýchlosťami v tej istej scéne. Zdroj: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Nie je potrebné robiť rotoskopy účinkujúcich alebo prostredia, alebo nechať umelcov vykonávať svoje pohyby slepo a mimo kontextu zamýšľanej scény. Namiesto toho sa zábery zachytávajú prirodzene pomocou radu 16 kamier pokrývajúcich 180 stupňov:

Tri prvky zobrazené vyššie, dvaja ľudia a prostredie, sú odlišné a načrtnuté len na ilustračné účely. Každý z nich môže byť vymenený a každý môže byť vložený do scény v skoršom alebo neskoršom bode ich individuálnej časovej osi.

ST-NeRF je inovácia vo výskume polí Neural Radiance (NeRF), rámec strojového učenia, v ktorom sa zachytenia viacerých hľadísk syntetizujú do navigovateľného virtuálneho priestoru rozsiahlym tréningom (hoci zachytávanie jedného uhla je tiež podsektorom výskumu NeRF).

Neurónové radiačné polia fungujú tak, že zhromažďujú viaceré uhly pohľadu do jedného koherentného a navigovateľného 3D priestoru s medzerami medzi pokrytím odhadnutým a vykresleným neurónovou sieťou. Tam, kde sa používa video (namiesto statických obrázkov), sú potrebné zdroje na vykresľovanie často značné. Zdroj: https://www.matthewtancik.com/nerf

Záujem o NeRF sa za posledných deväť mesiacov zvýšil a udržiava sa Reddit zoznam odvodených alebo prieskumných článkov NeRF v súčasnosti uvádza šesťdesiat projektov.

Len niekoľko z mnohých odnoží pôvodného papiera NeRF. Zdroj: https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/

Cenovo dostupné školenie

Tento dokument je výsledkom spolupráce medzi výskumníkmi na Shanghai Tech University a Digitálna technológia DGenea bol prijatý s istým nadšením na Open Review.

ST-NeRF ponúka množstvo inovácií oproti predchádzajúcim iniciatívam v navigačných video priestoroch odvodených od ML. V neposlednom rade dosahuje vysokú úroveň realizmu iba so 16 kamerami. Aj keď Facebook DyNeRF používa iba o dve kamery viac ako toto, ponúka oveľa obmedzenejší plavebný oblúk.

Príklad prostredia DyNeRF na Facebooku s obmedzenejším poľom pohybu a väčším počtom kamier na štvorcový meter potrebnými na rekonštrukciu scény. Zdroj: https://neural-3d-video.github.io

Okrem toho, že DyNeRF chýba možnosť upravovať a zlučovať jednotlivé aspekty, je obzvlášť drahý z hľadiska výpočtových zdrojov. Naproti tomu čínski výskumníci uvádzajú, že náklady na školenie pre ich údaje sú niekde medzi 900 až 3,000 30,000 dolármi v porovnaní s XNUMX XNUMX dolármi za najmodernejší model generácie videa DVDGAN a intenzívne systémy, ako je DyNeRF.

Recenzenti tiež poznamenali, že ST-NeRF predstavuje veľkú inováciu v oddelení procesu učenia pohybu od procesu syntézy obrazu. Toto oddelenie umožňuje úpravu a kompozíciu, pričom predchádzajúce prístupy sú v porovnaní s predchádzajúcimi prístupmi obmedzujúce a lineárne.

Aj keď 16 kamier je veľmi obmedzené pole pre taký plný polkruhový pohľad, výskumníci dúfajú, že toto číslo ešte znížia v neskoršej práci pomocou proxy vopred naskenovaného statického pozadia a prístupov k modelovaniu scén viac založených na údajoch. Tiež dúfajú, že začlenia možnosti opätovného osvetlenia, a nedávna inovácia vo výskume NeRF.

Riešenie obmedzení ST-NeRF

V kontexte akademických CS dokumentov, ktoré majú tendenciu zničiť skutočnú použiteľnosť nového systému v zbytočnom koncovom odseku, dokonca aj obmedzenia, ktoré výskumníci uznávajú pre ST-NeRF, sú neobvyklé.

Pozorujú, že systém momentálne nedokáže individualizovať a samostatne vykresliť konkrétne objekty v scéne, pretože ľudia na záberoch sú segmentovaní na jednotlivé entity prostredníctvom systému navrhnutého tak, aby rozpoznával ľudí a nie predmety – problém, ktorý sa zdá byť ľahko vyriešený pomocou YOLO a podobných rámcov, pričom ťažšia práca s extrahovaním ľudského videa už bola vykonaná.

Hoci výskumníci poznamenávajú, že v súčasnosti nie je možné generovať spomalený pohyb, zdá sa, že len máločo bráni jeho implementácii pomocou existujúcich inovácií v interpolácii snímok, ako napr. DAIN a RIFE.

Rovnako ako pri všetkých implementáciách NeRF a v mnohých iných sektoroch výskumu počítačového videnia, ST-NeRF môže zlyhať v prípadoch vážnej oklúzie, keď je subjekt dočasne zakrytý inou osobou alebo objektom a môže byť ťažké ho nepretržite sledovať alebo presne potom znova získať. Tak ako inde, tento problém si možno bude musieť počkať na riešenia vyššie. Medzitým výskumníci pripúšťajú, že v týchto okludovaných rámoch je potrebný manuálny zásah.

Nakoniec výskumníci pozorujú, že postupy ľudskej segmentácie sa v súčasnosti spoliehajú na farebné rozdiely, ktoré by mohli viesť k neúmyselnému porovnaniu dvoch ľudí do jedného segmentačného bloku – kameň úrazu, ktorý nie je obmedzený na ST-NeRF, ale je vlastný použitej knižnici a ktorý by sa možno dalo vyriešiť analýzou optického toku a inými vznikajúcimi technikami.

Prvýkrát uverejnené 7. mája 2021.