Umetna inteligenca
ST-NeRF: Sestavljanje in urejanje za video sintezo
Kitajski raziskovalni konzorcij je razvili tehnike za prenos zmožnosti urejanja in sestavljanja v enega najbolj vročih raziskovalnih sektorjev sinteze slik v zadnjem letu – Neural Radiance Fields (NeRF). Sistem nosi naslov ST-NeRF (Spatio-Temporal Coherent Neural Radiance Field).
Kar se na spodnji sliki zdi kot fizično premikanje kamere, je pravzaprav le uporabnik, ki se 'pomika' skozi vidike video vsebine, ki obstaja v 4D prostoru. POV ni vezan na delovanje ljudi, prikazanih v videoposnetku, katerih gibanje je mogoče videti s katerega koli dela 180-stopinjskega polmera.
Vsak vidik v videu je diskretno zajet element, sestavljen v kohezivno sceno, ki jo je mogoče dinamično raziskovati.
Fasete je mogoče poljubno podvojiti znotraj prizora ali jim spremeniti velikost:
Poleg tega je mogoče časovno vedenje vsakega vidika enostavno spremeniti, upočasniti, vrniti nazaj ali manipulirati na poljubne načine, kar odpre pot do arhitektur filtrov in izjemno visoke ravni interpretabilnosti.
Ni potrebe po rotoskopiranju nastopajočih ali okolij ali da izvajalci izvajajo svoje gibe na slepo in izven konteksta predvidene scene. Namesto tega se posnetek zajema naravno z nizom 16 video kamer, ki pokrivajo 180 stopinj:
ST-NeRF je inovacija na področju raziskav nevronskih sevalnih polj (NeRF), ogrodje strojnega učenja, pri katerem se z obsežnim usposabljanjem sintetizira več zajemov zornih kotov v navigacijski virtualni prostor (čeprav je zajem ene same zorne točke tudi podsektor raziskav NeRF).
Zanimanje za NeRF je v zadnjih devetih mesecih postalo intenzivno in Reddit vzdržuje Seznam izpeljanih ali raziskovalnih dokumentov NeRF trenutno navaja šestdeset projektov.
Ugodno usposabljanje
Prispevek je rezultat sodelovanja med raziskovalci s tehnološke univerze v Šanghaju in Digitalna tehnologija DGene, in je bil sprejet z nekaj navdušenja na Open Review.
ST-NeRF ponuja številne inovacije glede na prejšnje pobude v navigacijskih video prostorih, ki izhajajo iz ML. Ne nazadnje dosega visoko raven realizma s samo 16 kamerami. Čeprav Facebook DyNeRF uporablja samo dve kameri več kot to, ponuja veliko bolj omejen navigacijski lok.
Poleg pomanjkanja zmožnosti urejanja in sestavljanja posameznih vidikov je DyNeRF še posebej drag v smislu računalniških virov. Nasprotno pa kitajski raziskovalci navajajo, da stroški usposabljanja za njihove podatke znašajo nekje med 900 in 3,000 $ v primerjavi s 30,000 $ za najsodobnejši model video generacije DVDGAN in intenzivne sisteme, kot je DyNeRF.
Recenzenti so tudi ugotovili, da je ST-NeRF velika inovacija pri ločevanju procesa učenja gibanja od procesa sinteze slike. To ločevanje je tisto, kar omogoča urejanje in sestavljanje, pri čemer so prejšnji pristopi restriktivni in linearni v primerjavi.
Čeprav je 16 kamer zelo omejen nabor za tako poln polkrog pogleda, raziskovalci upajo, da bodo to število v poznejšem delu še zmanjšali z uporabo posredniških vnaprej skeniranih statičnih ozadij in več pristopov modeliranja scene, ki temeljijo na podatkih. Upajo tudi, da bodo vključili zmogljivosti ponovne osvetlitve, a nedavna inovacija v raziskavi NeRF.
Odpravljanje omejitev ST-NeRF
V kontekstu akademskih člankov o CS, ki ponavadi zaničujejo dejansko uporabnost novega sistema v končnem odstavku, so celo omejitve, ki jih raziskovalci priznavajo za ST-NeRF, nenavadne.
Opažajo, da sistem trenutno ne more individualizirati in ločeno upodabljati določenih predmetov v prizoru, ker so ljudje na posnetku segmentirani v posamezne entitete prek sistema, zasnovanega za prepoznavanje ljudi in ne predmetov – težava, ki se zdi enostavno rešljiva z YOLO in podobnimi. ogrodja, pri čemer je težje delo pridobivanja človeškega videa že opravljeno.
Čeprav raziskovalci ugotavljajo, da trenutno ni mogoče ustvariti počasnega posnetka, se zdi, da le malo preprečuje izvajanje tega z uporabo obstoječih inovacij v interpolaciji kadrov, kot je npr. DAIN in RIFE.
Tako kot pri vseh izvedbah NeRF in v mnogih drugih sektorjih raziskav računalniškega vida lahko tudi ST-NeRF odpove v primerih hude okluzije, kjer je subjekt začasno zakrit z drugo osebo ali predmetom in je morda težko neprekinjeno slediti ali natančno pozneje ponovno pridobiti. Tako kot drugod bo ta težava morda morala počakati na rešitve navzgor. Medtem pa raziskovalci priznavajo, da je v teh zaprtih okvirih potreben ročni poseg.
Nazadnje raziskovalci opažajo, da se postopki človeške segmentacije trenutno zanašajo na barvne razlike, kar bi lahko vodilo do nenamerne primerjave dveh oseb v en segmentacijski blok – kamen spotike, ki ni omejen na ST-NeRF, ampak je neločljivo povezan s knjižnico, ki se uporablja, in ki mogoče rešiti z analizo optičnega toka in drugimi nastajajočimi tehnikami.
Prvič objavljeno 7. maja 2021.