Umelá inteligencia
ST-NeRF: Skladanie a strih pre syntézu videa
Čínske výskumné konzorcium má rozvinutý techniky, ktoré prinášajú možnosti úprav a skladania do jedného z najhorúcejších sektorov výskumu syntézy obrazu za posledný rok – Neural Radiance Fields (NeRF). Systém má názov ST-NeRF (Spatio-Temporal Coherent Neural Radiance Field).
To, čo sa na obrázku nižšie javí ako pohyb z kamery, je v skutočnosti len „rolovanie“ používateľa cez uhly pohľadu na videoobsah, ktorý existuje v 4D priestore. POV nie je viazaný na výkon ľudí zobrazených vo videu, ktorých pohyby je možné sledovať z ktorejkoľvek časti 180-stupňového okruhu.
Každý aspekt vo videu je diskrétne zachytený prvok, zložený do súdržnej scény, ktorú možno dynamicky skúmať.
Fazety je možné v rámci scény voľne duplikovať alebo zmeniť ich veľkosť:
Okrem toho, dočasné správanie každého aspektu možno ľahko zmeniť, spomaliť, spustiť dozadu alebo s ním manipulovať akýmkoľvek spôsobom, čím sa otvára cesta k architektúram filtrov a extrémne vysoká úroveň interpretovateľnosti.
Nie je potrebné robiť rotoskopy účinkujúcich alebo prostredia, alebo nechať umelcov vykonávať svoje pohyby slepo a mimo kontextu zamýšľanej scény. Namiesto toho sa zábery zachytávajú prirodzene pomocou radu 16 kamier pokrývajúcich 180 stupňov:
ST-NeRF je inovácia vo výskume polí Neural Radiance (NeRF), rámec strojového učenia, v ktorom sa zachytenia viacerých hľadísk syntetizujú do navigovateľného virtuálneho priestoru rozsiahlym tréningom (hoci zachytávanie jedného uhla je tiež podsektorom výskumu NeRF).
Záujem o NeRF sa za posledných deväť mesiacov zvýšil a udržiava sa Reddit zoznam odvodených alebo prieskumných článkov NeRF v súčasnosti uvádza šesťdesiat projektov.
Cenovo dostupné školenie
Tento dokument je výsledkom spolupráce medzi výskumníkmi na Shanghai Tech University a Digitálna technológia DGenea bol prijatý s istým nadšením na Open Review.
ST-NeRF ponúka množstvo inovácií oproti predchádzajúcim iniciatívam v navigačných video priestoroch odvodených od ML. V neposlednom rade dosahuje vysokú úroveň realizmu iba so 16 kamerami. Aj keď Facebook DyNeRF používa iba o dve kamery viac ako toto, ponúka oveľa obmedzenejší plavebný oblúk.
Okrem toho, že DyNeRF chýba možnosť upravovať a zlučovať jednotlivé aspekty, je obzvlášť drahý z hľadiska výpočtových zdrojov. Naproti tomu čínski výskumníci uvádzajú, že náklady na školenie pre ich údaje sú niekde medzi 900 až 3,000 30,000 dolármi v porovnaní s XNUMX XNUMX dolármi za najmodernejší model generácie videa DVDGAN a intenzívne systémy, ako je DyNeRF.
Recenzenti tiež poznamenali, že ST-NeRF predstavuje veľkú inováciu v oddelení procesu učenia pohybu od procesu syntézy obrazu. Toto oddelenie umožňuje úpravu a kompozíciu, pričom predchádzajúce prístupy sú v porovnaní s predchádzajúcimi prístupmi obmedzujúce a lineárne.
Aj keď 16 kamier je veľmi obmedzené pole pre taký plný polkruhový pohľad, výskumníci dúfajú, že toto číslo ešte znížia v neskoršej práci pomocou proxy vopred naskenovaného statického pozadia a prístupov k modelovaniu scén viac založených na údajoch. Tiež dúfajú, že začlenia možnosti opätovného osvetlenia, a nedávna inovácia vo výskume NeRF.
Riešenie obmedzení ST-NeRF
V kontexte akademických CS dokumentov, ktoré majú tendenciu zničiť skutočnú použiteľnosť nového systému v zbytočnom koncovom odseku, dokonca aj obmedzenia, ktoré výskumníci uznávajú pre ST-NeRF, sú neobvyklé.
Pozorujú, že systém momentálne nedokáže individualizovať a samostatne vykresliť konkrétne objekty v scéne, pretože ľudia na záberoch sú segmentovaní na jednotlivé entity prostredníctvom systému navrhnutého tak, aby rozpoznával ľudí a nie predmety – problém, ktorý sa zdá byť ľahko vyriešený pomocou YOLO a podobných rámcov, pričom ťažšia práca s extrahovaním ľudského videa už bola vykonaná.
Hoci výskumníci poznamenávajú, že v súčasnosti nie je možné generovať spomalený pohyb, zdá sa, že len máločo bráni jeho implementácii pomocou existujúcich inovácií v interpolácii snímok, ako napr. DAIN a RIFE.
Rovnako ako pri všetkých implementáciách NeRF a v mnohých iných sektoroch výskumu počítačového videnia, ST-NeRF môže zlyhať v prípadoch vážnej oklúzie, keď je subjekt dočasne zakrytý inou osobou alebo objektom a môže byť ťažké ho nepretržite sledovať alebo presne potom znova získať. Tak ako inde, tento problém si možno bude musieť počkať na riešenia vyššie. Medzitým výskumníci pripúšťajú, že v týchto okludovaných rámoch je potrebný manuálny zásah.
Nakoniec výskumníci pozorujú, že postupy ľudskej segmentácie sa v súčasnosti spoliehajú na farebné rozdiely, ktoré by mohli viesť k neúmyselnému porovnaniu dvoch ľudí do jedného segmentačného bloku – kameň úrazu, ktorý nie je obmedzený na ST-NeRF, ale je vlastný použitej knižnici a ktorý by sa možno dalo vyriešiť analýzou optického toku a inými vznikajúcimi technikami.
Prvýkrát uverejnené 7. mája 2021.