Inteligența artificială
ST-NeRF: Compoziție și editare pentru sinteza video

Un consorțiu de cercetare chinez are dezvoltat tehnici pentru a aduce capacitățile de editare și compoziție unuia dintre cele mai fierbinți sectoare de cercetare de sinteză a imaginilor din ultimul an - Neural Radiance Fields (NeRF). Sistemul este intitulat ST-NeRF (Câmp de radiație neuronal coerent spațio-temporal).
Ceea ce pare a fi o panoramă fizică a camerei în imaginea de mai jos este de fapt doar un utilizator care „defilează” prin puncte de vedere asupra conținutului video care există într-un spațiu 4D. POV-ul nu este blocat la performanța persoanelor descrise în videoclip, ale căror mișcări pot fi vizualizate din orice parte a unei raze de 180 de grade.
Fiecare fațetă din videoclip este un element surprins discret, compus împreună într-o scenă coerentă care poate fi explorată dinamic.
Fațetele pot fi duplicate liber în cadrul scenei sau redimensionate:
În plus, comportamentul temporal al fiecărei fațete poate fi ușor modificat, încetinit, rulat înapoi sau manipulat în mai multe moduri, deschizând calea către arhitecturi de filtrare și un nivel extrem de ridicat de interpretabilitate.

Două fațete NeRF separate rulează la viteze diferite în aceeași scenă. Sursa: https://www.youtube.com/watch?v=Wp4HfOwFGP4
Nu este nevoie să rotoscopați artiștii sau mediile sau să îi puneți pe interpreți să-și execute mișcările orbește și în afara contextului scenei dorite. În schimb, filmările sunt surprinse în mod natural printr-o serie de 16 camere video care acoperă 180 de grade:

Cele trei elemente descrise mai sus, cele două persoane și mediul înconjurător, sunt distincte și conturate doar în scopuri ilustrative. Fiecare poate fi schimbat și fiecare poate fi inserat în scenă la un moment mai devreme sau mai târziu în cronologia lor individuală de captură.
ST-NeRF este o inovație în cercetarea în câmpurile de radiație neuronală (NeRF), un cadru de învățare automată prin care capturile multiple de puncte de vedere sunt sintetizate într-un spațiu virtual navigabil printr-o instruire extinsă (deși capturarea unui singur punct de vedere este, de asemenea, un subsector al cercetării NeRF).

Neural Radiance Fields funcționează prin adunarea mai multor puncte de vedere de captură într-un singur spațiu 3D coerent și navigabil, cu decalajele dintre acoperire estimate și redate de o rețea neuronală. Acolo unde se utilizează video (mai degrabă decât imagini statice), resursele de randare necesare sunt adesea considerabile. Sursa: https://www.matthewtancik.com/nerf
Interesul pentru NeRF a devenit intens în ultimele nouă luni, iar un Reddit a menținut listă de lucrări derivate sau exploratorii NeRF listează în prezent șaizeci de proiecte.

Doar câteva dintre numeroasele ramuri ale hârtiei originale NeRF. Sursa: https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/
Training accesibil
Lucrarea este o colaborare între cercetătorii de la Shanghai Tech University și Tehnologia digitală DGeneși a fost acceptat cu oarecare entuziasm la Open Review.
ST-NeRF oferă o serie de inovații față de inițiativele anterioare în spațiile video navigabile derivate din ML. Nu în ultimul rând, atinge un nivel ridicat de realism cu doar 16 camere. Deși Facebook-ul DyNeRF folosește doar două camere mai mult decât aceasta, oferă un arc navigabil mult mai restrâns.

Un exemplu de mediu DyNeRF al Facebook, cu un câmp de mișcare mai limitat și mai multe camere pe metru pătrat necesare pentru a reconstrui scena. Sursa: https://neural-3d-video.github.io
Pe lângă faptul că nu are capacitatea de a edita și compozi fațete individuale, DyNeRF este deosebit de costisitor în ceea ce privește resursele de calcul. În schimb, cercetătorii chinezi afirmă că costul de instruire pentru datele lor se ridică undeva la 900-3,000 USD, comparativ cu cei 30,000 USD pentru modelul de generație video de ultimă generație DVDGAN și sistemele intensive precum DyNeRF.
Revizorii au remarcat, de asemenea, că ST-NeRF face o inovație majoră în decuplarea procesului de învățare a mișcării de procesul de sinteză a imaginii. Această separare este ceea ce permite editarea și compunerea, cu abordările anterioare restrictive și liniare prin comparație.
Deși 16 camere este o matrice foarte limitată pentru un astfel de cerc complet de vedere, cercetătorii speră să reducă acest număr și mai mult în lucrările ulterioare, prin utilizarea unor fundaluri statice pre-scanate prin proxy și mai multe abordări de modelare a scenei bazate pe date. De asemenea, ei speră să încorporeze capacități de re-iluminare, a inovație recentă în cercetarea NeRF.
Abordarea limitărilor ST-NeRF
În contextul lucrărilor CS academice care tind să arunce la gunoi utilizarea reală a unui nou sistem într-un paragraf final de aruncat, chiar și limitările pe care cercetătorii le recunosc pentru ST-NeRF sunt neobișnuite.
Ei observă că în prezent sistemul nu poate individualiza și reda separat anumite obiecte dintr-o scenă, deoarece oamenii din filmare sunt segmentați în entități individuale printr-un sistem conceput să recunoască oameni și nu obiecte - o problemă care pare ușor de rezolvat cu YOLO și similare. cadre, cu munca mai grea de extragere a videoclipurilor umane deja realizată.
Deși cercetătorii observă că în prezent nu este posibil să se genereze mișcare lentă, se pare că există puține lucruri care să împiedice implementarea acestui lucru folosind inovațiile existente în interpolarea cadrelor, cum ar fi DAIN și RIFE.
Ca și în cazul tuturor implementărilor NeRF și în multe alte sectoare de cercetare a vederii computerizate, ST-NeRF poate eșua în cazurile de ocluzie severă, în care subiectul este temporar ascuns de o altă persoană sau de un obiect și poate fi dificil de urmărit continuu sau de precis. redobândiți după aceea. Ca și în altă parte, această dificultate poate fi nevoită să aștepte soluții în amonte. Între timp, cercetătorii admit că intervenția manuală este necesară în aceste cadre ocluse.
În cele din urmă, cercetătorii observă că procedurile de segmentare umană se bazează în prezent pe diferențe de culoare, ceea ce ar putea duce la asamblarea neintenționată a două persoane într-un singur bloc de segmentare - o piatră de poticnire nu se limitează la ST-NeRF, ci intrinsecă bibliotecii utilizate și care ar putea fi rezolvat prin analiza fluxului optic și alte tehnici emergente.
Publicat prima dată pe 7 mai 2021.