škrbina ST-NeRF: Sestavljanje in urejanje za video sintezo – Unite.AI
Povežite se z nami

Umetna inteligenca

ST-NeRF: Sestavljanje in urejanje za video sintezo

mm
Posodobljeno on
ST-NeRF

Kitajski raziskovalni konzorcij je razvili tehnike za prenos zmožnosti urejanja in sestavljanja v enega najbolj vročih raziskovalnih sektorjev sinteze slik v zadnjem letu – Neural Radiance Fields (NeRF). Sistem nosi naslov ST-NeRF (Spatio-Temporal Coherent Neural Radiance Field).

Kar se na spodnji sliki zdi kot fizično premikanje kamere, je pravzaprav le uporabnik, ki se 'pomika' skozi vidike video vsebine, ki obstaja v 4D prostoru. POV ni vezan na delovanje ljudi, prikazanih v videoposnetku, katerih gibanje je mogoče videti s katerega koli dela 180-stopinjskega polmera.

ST-NeRF

Vsak vidik v videu je diskretno zajet element, sestavljen v kohezivno sceno, ki jo je mogoče dinamično raziskovati.

Fasete je mogoče poljubno podvojiti znotraj prizora ali jim spremeniti velikost:

ST-NeRF

Poleg tega je mogoče časovno vedenje vsakega vidika enostavno spremeniti, upočasniti, vrniti nazaj ali manipulirati na poljubne načine, kar odpre pot do arhitektur filtrov in izjemno visoke ravni interpretabilnosti.

Dva ločena vidika NeRF delujeta z različnimi hitrostmi v istem prizoru. Vir: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Dva ločena vidika NeRF delujeta z različnimi hitrostmi v istem prizoru. Vir: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Ni potrebe po rotoskopiranju nastopajočih ali okolij ali da izvajalci izvajajo svoje gibe na slepo in izven konteksta predvidene scene. Namesto tega se posnetek zajema naravno z nizom 16 video kamer, ki pokrivajo 180 stopinj:

16 kamer ST-NeRF

Zgoraj upodobljeni trije elementi, dva človeka in okolje, se razlikujejo in so orisani samo za ilustracijo. Vsako je mogoče zamenjati in vsako vstaviti v sceno na zgodnejši ali kasnejši točki njihove individualne časovnice zajema.

Zgoraj upodobljeni trije elementi, dva človeka in okolje, se razlikujejo in so orisani samo za ilustracijo. Vsako je mogoče zamenjati in vsako vstaviti v sceno na zgodnejši ali kasnejši točki njihove individualne časovnice zajema.

ST-NeRF je inovacija na področju raziskav nevronskih sevalnih polj (NeRF), ogrodje strojnega učenja, pri katerem se z obsežnim usposabljanjem sintetizira več zajemov zornih kotov v navigacijski virtualni prostor (čeprav je zajem ene same zorne točke tudi podsektor raziskav NeRF).

Nevronska sevalna polja delujejo tako, da združijo več zornih kotov zajemanja v en koherenten in krmarljiv 3D prostor, pri čemer vrzeli med pokritostjo oceni in upodablja nevronska mreža. Kjer se uporablja video (namesto fotografij), so potrebni viri za upodabljanje pogosto precejšnji. Vir: https://www.matthewtancik.com/nerf

Nevronska sevalna polja delujejo tako, da združijo več zornih kotov zajemanja v en koherenten in krmarljiv 3D prostor, pri čemer vrzeli med pokritostjo oceni in upodablja nevronska mreža. Kjer se uporablja video (namesto fotografij), so potrebni viri za upodabljanje pogosto precejšnji. Vir: https://www.matthewtancik.com/nerf

Zanimanje za NeRF je v zadnjih devetih mesecih postalo intenzivno in Reddit vzdržuje Seznam izpeljanih ali raziskovalnih dokumentov NeRF trenutno navaja šestdeset projektov.

 

Le nekaj od mnogih odlomkov izvirnega dokumenta NeRF. Vir: https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/

Le nekaj od mnogih odlomkov izvirnega dokumenta NeRF. Vir: https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/

Ugodno usposabljanje

Prispevek je rezultat sodelovanja med raziskovalci s tehnološke univerze v Šanghaju in Digitalna tehnologija DGene, in je bil sprejet z nekaj navdušenja na Open Review.

ST-NeRF ponuja številne inovacije glede na prejšnje pobude v navigacijskih video prostorih, ki izhajajo iz ML. Ne nazadnje dosega visoko raven realizma s samo 16 kamerami. Čeprav Facebook DyNeRF uporablja samo dve kameri več kot to, ponuja veliko bolj omejen navigacijski lok.

Primer Facebookovega okolja DyNeRF z bolj omejenim poljem gibanja in več kamer na kvadratni čevelj, potrebnih za rekonstrukcijo scene. Vir: https://neural-3d-video.github.io

Primer Facebookovega okolja DyNeRF z bolj omejenim poljem gibanja in več kamer na kvadratni čevelj, potrebnih za rekonstrukcijo scene. Vir: https://neural-3d-video.github.io

Poleg pomanjkanja zmožnosti urejanja in sestavljanja posameznih vidikov je DyNeRF še posebej drag v smislu računalniških virov. Nasprotno pa kitajski raziskovalci navajajo, da stroški usposabljanja za njihove podatke znašajo nekje med 900 in 3,000 $ v primerjavi s 30,000 $ za najsodobnejši model video generacije DVDGAN in intenzivne sisteme, kot je DyNeRF.

Recenzenti so tudi ugotovili, da je ST-NeRF velika inovacija pri ločevanju procesa učenja gibanja od procesa sinteze slike. To ločevanje je tisto, kar omogoča urejanje in sestavljanje, pri čemer so prejšnji pristopi restriktivni in linearni v primerjavi.

Čeprav je 16 kamer zelo omejen nabor za tako poln polkrog pogleda, raziskovalci upajo, da bodo to število v poznejšem delu še zmanjšali z uporabo posredniških vnaprej skeniranih statičnih ozadij in več pristopov modeliranja scene, ki temeljijo na podatkih. Upajo tudi, da bodo vključili zmogljivosti ponovne osvetlitve, a nedavna inovacija v raziskavi NeRF.

Odpravljanje omejitev ST-NeRF

V kontekstu akademskih člankov o CS, ki ponavadi zaničujejo dejansko uporabnost novega sistema v končnem odstavku, so celo omejitve, ki jih raziskovalci priznavajo za ST-NeRF, nenavadne.

Opažajo, da sistem trenutno ne more individualizirati in ločeno upodabljati določenih predmetov v prizoru, ker so ljudje na posnetku segmentirani v posamezne entitete prek sistema, zasnovanega za prepoznavanje ljudi in ne predmetov – težava, ki se zdi enostavno rešljiva z YOLO in podobnimi. ogrodja, pri čemer je težje delo pridobivanja človeškega videa že opravljeno.

Čeprav raziskovalci ugotavljajo, da trenutno ni mogoče ustvariti počasnega posnetka, se zdi, da le malo preprečuje izvajanje tega z uporabo obstoječih inovacij v interpolaciji kadrov, kot je npr. DAIN in RIFE.

Tako kot pri vseh izvedbah NeRF in v mnogih drugih sektorjih raziskav računalniškega vida lahko tudi ST-NeRF odpove v primerih hude okluzije, kjer je subjekt začasno zakrit z drugo osebo ali predmetom in je morda težko neprekinjeno slediti ali natančno pozneje ponovno pridobiti. Tako kot drugod bo ta težava morda morala počakati na rešitve navzgor. Medtem pa raziskovalci priznavajo, da je v teh zaprtih okvirih potreben ročni poseg.

Nazadnje raziskovalci opažajo, da se postopki človeške segmentacije trenutno zanašajo na barvne razlike, kar bi lahko vodilo do nenamerne primerjave dveh oseb v en segmentacijski blok – kamen spotike, ki ni omejen na ST-NeRF, ampak je neločljivo povezan s knjižnico, ki se uporablja, in ki mogoče rešiti z analizo optičnega toka in drugimi nastajajočimi tehnikami.

Prvič objavljeno 7. maja 2021.