taló NeRF fa un altre pas més a prop de substituir CGI - Unite.AI
Connecteu-vos amb nosaltres

Intel·ligència Artificial

NeRF s'acosta un altre pas a substituir CGI

mm
actualitzat on

Els investigadors del MIT i Google han fet un gran pas per resoldre un dels obstacles més fonamentals per a una tecnologia emergent impulsada per IA que eventualment pot substituir CGI: separar les imatges del camp de radiació neural (NeRF) en els seus components visuals constitutius, de manera que les imatges puguin tornar a texturar i tornar a il·luminar.

El nou enfocament, anomenat NeRFactor, divideix eficaçment les imatges capturades en normals per objecte (a les quals es poden assignar textures), visibilitat de la llum, albedo (la proporció de llum incidental que es reflecteix lluny d'una superfície) i funcions de distribució de reflectància bidireccional (BRDF).

Amb aquestes facetes aïllades, és possible no només canviar les textures per a objectes individuals o grups d'objectes, sinó també afegir fonts d'il·luminació noves i úniques i implementacions d'ombres, descomptant qualsevol que hagi estat capturada per les matrius multicàmera que generen entrada per a les imatges NeRF.

Normals, visibilitat, albedo i BRDF separats sota NeRFactor. Font: https://www.youtube.com/watch?v=UUVSPJlwhPg

Normals, visibilitat, albedo i BRDF separats sota NeRFactor. Font: https://www.youtube.com/watch?v=UUVSPJlwhPg

El model admet ombres suaus o dures de fonts d'il·luminació arbitràries i definides per l'usuari, i separa els quatre aspectes del vídeo capturat de manera programàtica, utilitzant una pèrdua de reconstrucció, dades de càlculs anteriors de BRDF i una regularització bàsica de suavitat senzilla.

Flux de treball de NeRFactor, que extreu les facetes d'imatges accionables per separat derivades de matrius de càmeres múltiples. Font: https://arxiv.org/pdf/2106.01970.pdf

NeRFactor utilitza una sonda de llum HDR, un enfocament ben establert que ha impregnat l'escena visual industrial i artística des del seu introducció l'any 1998, per avaluar possibles vies de raigs, que permeten una il·luminació arbitrària. Com que això genera un nombre ingovernable de paràmetres possibles, la sonda de llum es filtra a través d'un perceptró multicapa (MLP), que mapeja la geometria percebuda a la sonda sense intentar calcular un mapa de volum d'il·luminació complet per a l'espai model.

S'utilitzen dos models de camp de radiació neural per demostrar cinc models d'il·luminació possibles amb NeRFactor. Feu clic a la imatge per a una resolució més alta.

Motiu de reflexió

La nova investigació és potser la més significativa per separar les capes d'imatges capturades que controlen la reflexió. Aquest segueix sent un dels majors reptes per a les imatges del camp de radiació neural, ja que un sistema NeRF veritablement nou i flexible no només haurà de poder substituir textures, sinó que, fonamentalment, necessitarà alguna manera de reflectir els objectes en moviment (a més de l'entorn fix general). que normalment es tindria en compte en un flux de treball CGI.

Aquest problema es va assenyalar recentment pel que fa a Intel una nova investigació impressionant per transformar imatges de videojocs en vídeo fotorealista mitjançant xarxes neuronals convolucionals. En aquests fluxos de treball, molts aspectes "cuits" del material d'origen haurien de ser discrets i intercanviables, i això és possiblement més fàcil de resoldre per tornar a il·luminar (que és una funció de la geometria que es representa a NeRF) que per a reflexions (que utilitzen " geometria fora de la pantalla, que està totalment fora de l'abast del model).

Per tant, aïllar les capes del vídeo NeRF que faciliten la reflexió fa que NeRF sigui un pas més a prop de resoldre el seu "repte de reflexió".

NeRFactor: factorització neuronal de la forma i la reflectància sota una il·luminació desconeguda

L'ús d'un entorn HDR ja resol el problema de generar reflexos de l'entorn mundial (és a dir, cels, paisatges i altres factors ambientals "fixos"), però caldran nous enfocaments per introduir reflexions en moviment i dinàmiques.

Fotogrametria amb NeRF

Les imatges del camp de radiació neural utilitzen l'anàlisi d'aprenentatge automàtic per desenvolupar un espai completament volumètric a partir d'una escena o objecte que s'ha capturat des de diversos angles.

Diversos esquemes basats en NeRF que han sorgit durant l'últim any han utilitzat un nombre divers de dispositius de càmera que han contribuït; alguns fan servir 16 o més càmeres, d'altres només una o dues. En tots els casos, els punts de vista intermedis s'omplen (és a dir, s'interpreten) de manera que es pugui navegar amb fluïdesa per l'escena o l'objecte.

L'entitat resultant és un espai completament volumètric, amb una comprensió 3D intrínseca que es pot explotar de moltes maneres, inclosa la capacitat de generar malles CG tradicionals a partir de la suma analitzada en 3D de les imatges d'entrada.

NeRF en el context d'un "nou CGI"

La imatge del camp de radiació neuronal és dibuixat directament a partir d'imatges del món real, incloses imatges en moviment de persones, objectes i escenes. Per contra, una metodologia CGI "estudia" i interpreta el món, requerint que treballadors qualificats construeixin malles, aparells i textures que facin ús d'imatges del món real (és a dir, captures facials i ambientals). Continua sent un enfocament essencialment interpretatiu i artesanal que és car i laboriós.

A més, CGI ha tingut problemes constants amb l'efecte "vall misteriosa" en els seus esforços per recrear semblances humanes, que no presenta cap limitació a un enfocament impulsat per NeRF, que simplement captura vídeos o imatges de persones reals i el manipula.

A més, NeRF pot generar geometria de malla d'estil CGI tradicional directament a partir de les fotos segons sigui necessari i, de fet, substituir molts dels procediments manuals que sempre han estat necessaris en les imatges generades per ordinador.

Reptes per a NeRF

Aquesta darrera investigació del MIT i de Google es produeix en el context d'una autèntica inundació de documents de NeRF durant l'últim any, molts dels quals han ofert solucions als diferents reptes plantejats pel document inicial de 2020.

A l'abril, la innovació d'un consorci de recerca xinès va oferir una manera de fer-ho aïllar discretament les línies de temps individuals de les facetes d'una escena NeRF, incloses les persones.

ST-NeRF

La investigació xinesa permet als usuaris finals copiar, enganxar i canviar la mida dels elements capturats, desvinculant-los de la línia de temps lineal del vídeo original. Font: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Aquest enfocament no només permet reimaginar l'escena des de qualsevol angle capturat per la matriu de càmeres (i no només la vista única representada en una captura de vídeo típica), sinó que també permet una composició versàtil, i fins i tot la capacitat de representar dues facetes de la mateixa metratges que s'executen en els seus propis períodes de temps individuals (o fins i tot cap enrere, segons sigui necessari).

Dues facetes NeRF separades funcionen a diferents velocitats en la mateixa escena. Font: https://www.youtube.com/watch?v=Wp4HfOwFGP4

La investigació xinesa permet als usuaris finals copiar, enganxar i canviar la mida dels elements capturats, desvinculant-los de la línia de temps lineal del vídeo original. Font: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Un dels majors reptes per a NeRF és reduir els recursos considerables necessaris per entrenar una escena, i això s'ha abordat en diversos articles recents. Per exemple, l'Institut Max Planck per a Sistemes Intel·ligents es va presentar recentment KiloNeRF, que no només accelera els temps de renderització en un factor de 1000, sinó que fins i tot permet que NeRF funcioni de manera interactiva.

KiloNeRF executa un entorn interactiu a 50 fps en una GTX 1080ti. Font: https://github.com/creiser/kilonerf

KiloNeRF executa un entorn interactiu a 50 fps en una GTX 1080ti. Font: https://github.com/creiser/kilonerf

Tanmateix, la innovació de velocitat de NeRF que realment va captar la imaginació dels investigadors i del públic el 2021 ha estat la PlenOctrees col·laboració, dirigida per UC Berkeley, que ofereix la representació en temps real dels camps de radiació neuronal:

PlenOctrees per a la representació en temps real de camps de radiació neuronal

L'efecte de les capacitats interactives de PlenOctrees s'ha reproduït en a interfície en directe basada en web.

Moviment interactiu en directe d'un objecte PlenOctrees al Firefox (el moviment és més suau i més dinàmic del que representa aquest GIF). Font: http://alexyu.net/plenoctrees/demo/

Moviment interactiu en directe d'un objecte PlenOctrees al Firefox (el moviment és més suau i més dinàmic del que representa aquest GIF). Font: http://alexyu.net/plenoctrees/demo/

A més, NeRF recursiu (d'un article de maig de 2021 d'investigadors de la Universitat de Tsinghua) ofereix una representació recursiva d'alta qualitat sota demanda. En lloc d'obligar l'usuari a representar escenes senceres, incloses les parts que potser no es veuen, Recursive-NeRF proporciona una cosa semblant a la compressió amb pèrdues de JPEG i pot generar sub-NeRF discrets per gestionar imatges addicionals sota demanda, aconseguint un gran estalvi en recursos computacionals. .

Retenció de detalls mentre s'aboca càlculs de renderització innecessaris amb NeRF recursiu. Font: https://arxiv.org/pdf/2105.09103.pdf

Retenció de detalls mentre s'aboca càlculs de renderització innecessaris amb NeRF recursiu. Feu clic a la imatge per a una resolució més alta. Font: https://arxiv.org/pdf/2105.09103.pdf

Altres enfocaments inclouen FastNeRF, que afirma aconseguir una renderització neuronal d'alta fidelitat a 200 fps.

S'ha observat que moltes de les tècniques d'optimització de NeRF impliquen 'enfornar' l'escena, apostant per aspectes que es volen representar i descartant altres facetes, la qual cosa limita l'exploració però accelera molt la interactivitat.

L'inconvenient d'això és que l'estrès es mou de la GPU a l'emmagatzematge, perquè les escenes al forn ocupen una quantitat desmesurada d'espai de disc; fins a cert punt, això es pot mitigar reduint el mostreig de les dades al forn, tot i que això també implica un cert compromís, pel que fa a tancar vies d'exploració o interactivitat.

Pel que fa a la captura de moviment i l'aparell, un nou enfocament de les universitats de Zheijang i Cornell, revelat al maig, va oferir un mètode per recrear humans animables mitjançant camps de pes de barreja i estructures d'esquelet interpretats a partir del vídeo d'entrada:

Estructura esquelètica derivada en NeRF animable. Font: https://www.youtube.com/watch?v=eWOSWbmfJo4

Estructura esquelètica derivada en NeRF animable. Font: https://www.youtube.com/watch?v=eWOSWbmfJo4

Quan NeRF tindrà el seu moment "Jurassic Park"?

Malgrat el ràpid ritme de progrés amb la síntesi d'imatges mitjançant camps de radiació neuronal, és només en aquest període que s'establirà qualsevol tipus de "llei de la termodinàmica" sobre com es pot desplegar NeRF. En termes d'una línia de temps anàloga a la història de CGI, NeRF es troba actualment al voltant de 1973, just abans del first faci servir de CGI a Westworld.

Això no vol dir que NeRF necessàriament hagi d'esperar nou anys pel seu equivalent La ira de Khan fita, o dècades pels avenços similars que CGI va aconseguir sota el patrocini entusiasta de James Cameron el 1989. The Abyss o de 1991 Terminator 2 – i després, la tecnologia és realment revolucionària moment de ruptura al 1993 Jurassic Park.

L'escena de la imatge ha canviat molt des del llarg període d'estancament dels efectes visuals fotoquímics, que va dominar la producció de cinema i televisió des del naixement del cinema fins a principis dels anys noranta. L'arribada de la revolució de PC i l'acceleració de la llei de Moore van portar a la revolució CGI, que d'altra manera podria haver tingut lloc ja als anys seixanta.

Caldrà veure si hi ha cap barrera tan implacable que pugui frenar el progrés de NeRF durant tant de temps, i si les innovacions posteriors en visió per ordinador no superen per complet a NeRF com a candidat clau per a la corona de CGI, que caracteritza els camps de radiació neuronal. com la "màquina de fax" de curta durada de la síntesi d'imatges neuronals.

De moment, NeRF no s'ha utilitzat en cap context fora de la recerca acadèmica; però cal destacar que els principals actors com Google Research i molts dels laboratoris d'investigació de visió per ordinador més destacats competeixen per l'últim avenç de NeRF.

Molts dels majors obstacles de NeRF s'han començat a abordar directament aquest any; si la investigació posterior ofereix una solució al "problema de reflexió", i les nombroses línies d'investigació que optimitza NeRF s'uneixen en una solució decisiva per a les considerables demandes de processament i/o emmagatzematge de la tecnologia, NeRF realment té la possibilitat de convertir-se en "el nou CGI". 'en els propers cinc anys.

 

Escriptor sobre aprenentatge automàtic, intel·ligència artificial i big data.
Lloc personal: martinanderson.ai
Poseu-vos en contacte amb: [protegit per correu electrònic]
Twitter: @manders_ai