taló Representació neuronal: NeRF fa un passeig a l'aire fresc - Unite.AI
Connecteu-vos amb nosaltres

Intel·ligència Artificial

Representació neuronal: NeRF fa un passeig a l'aire fresc

mm
actualitzat on

Una col·laboració entre Google Research i la Universitat de Harvard ha desenvolupat un nou mètode per crear vídeos neuronals de 360 ​​graus d'escenes completes utilitzant Camps de radiació neuronal (NeRF). El nou enfocament fa que NeRF sigui un pas més a prop de l'ús abstracte casual en qualsevol entorn, sense limitar-s'hi models de sobretaula or escenaris interiors tancats.

Font: https://www.youtube.com/watch?v=YStDS2-Ln1s

Vegeu el final de l'article per veure el vídeo complet. Font: https://www.youtube.com/watch?v=YStDS2-Ln1s

El Mip-NeRF 360 pot gestionar fons extensos i objectes "infinits" com el cel, perquè, a diferència de la majoria de les iteracions anteriors, estableix límits en la forma en què s'interpreten els raigs de llum i crea límits d'atenció que racionalitzen temps d'entrenament llargs. Vegeu el nou vídeo adjunt incrustat al final d'aquest article per obtenir més exemples i una visió ampliada del procés.

El nou document es titula Mip-NeRF 360: camps de radiació neural anti-aliased il·limitats, i està dirigit pel científic de recerca del personal sènior de Google Research Jon Barron.

Per entendre l'avenç, és necessari tenir una comprensió bàsica de com funciona la síntesi d'imatges basada en camps de radiació neural.

Què és NeRF?

És problemàtic descriure una xarxa NeRF en termes de "vídeo", ja que s'acosta més a una xarxa totalment realitzada en 3D, però Basat en IA entorn virtual, on s'utilitzen múltiples punts de vista de fotos individuals (inclosos fotogrames de vídeo) per unir una escena que tècnicament només existeix a l'espai latent d'un algorisme d'aprenentatge automàtic, però de la qual es poden extreure un nombre extraordinari de punts de vista i vídeos a voluntat. .

Una representació dels múltiples punts de captura de la càmera que proporcionen les dades que NeRF reuneix en una escena neuronal (a la imatge de la dreta).

Una representació dels múltiples punts de captura de la càmera que proporcionen les dades que NeRF reuneix en una escena neuronal (a la imatge de la dreta).

La informació derivada de les fotos que han contribuït s'entrena en una matriu semblant a una tradicional graella de voxels als fluxos de treball CGI, en què cada punt de l'espai 3D acaba amb un valor, fent que l'escena sigui navegable.

Una matriu de voxels tradicional col·loca la informació de píxels (que normalment existeix en un context 2D, com ara la quadrícula de píxels d'un fitxer JPEG) en un espai tridimensional. Font: https://www.researchgate.net/publication/344488704_Processing_and_analysis_of_airborne_full-waveform_laser_scanning_data_for_the_characterization_of_forest_structure_and_fuel_properties

Una matriu de voxels tradicional col·loca la informació de píxels (que normalment existeix en un context 2D, com ara la quadrícula de píxels d'un fitxer JPEG) en un espai tridimensional. Font: ResearchGate

Després de calcular l'espai intersticial entre les fotos (si cal), el camí de cada píxel possible de cada foto contribuint és eficaçment "traçat amb raigs" i se li assigna un valor de color, inclòs un valor de transparència (sense el qual la matriu neuronal seria completament opaca, o completament buit).

Com les graelles de voxel, i a diferència Espai de coordenades 3D basat en CGI, l'"interior" d'un objecte "tancat" no existeix en una matriu NeRF. Podeu dividir un kit de bateria CGI i mirar dins, si voleu; però pel que fa a NeRF, l'existència de la bateria acaba quan el valor d'opacitat de la seva superfície és igual a '1'.

Una vista més àmplia d'un píxel

Mip-NeRF 360 és una extensió de recerca a partir de març de 2021, que va introduir efectivament un antialiasing eficient a NeRF sense un supermostreig exhaustiu.

Tradicionalment, NeRF calcula només un camí de píxel, que s'inclina a produir el tipus de 'jaggies' que va caracteritzar els primers formats d'imatge d'Internet, així com sistemes de jocs anteriors. Aquestes vores irregulars es van resoldre mitjançant diversos mètodes, que normalment implicaven el mostreig de píxels adjacents i la recerca d'una representació mitjana.

Com que el NeRF tradicional només mostra el camí d'un píxel, Mip-NeRF va introduir una àrea de captació "cònica", com una torxa de feix ample, que proporciona prou informació sobre adjacents píxels per produir un antialiasing econòmic amb detalls millorats.

La captació del con cònic que utilitza Mip-NeRF es talla en troncs cònics (a sota), que es veu encara més "desdibuixat" per representar un espai gaussià més vague que es pot utilitzar per calcular la precisió i l'àlies d'un píxel. Font: https://www.youtube.com/watch?v=EpH175PY1A0

La captació del con cònic que utilitza Mip-NeRF es talla en troncs cònics (imatge inferior), que es veuen encara més "desdibuixats" per crear espais gaussians vagues que es poden utilitzar per calcular la precisió i l'àlies d'un píxel. Font: https://www.youtube.com/watch?v=EpH175PY1A0

La millora respecte a una implementació estàndard de NeRF va ser notable:

Mip-NeRF (dreta), llançat el març de 2021, proporciona detalls millorats mitjançant una canalització d'àlies més completa però econòmica, en lloc de només "difuminar" píxels per evitar vores irregulars. Font: https://jonbarron.info/mipnerf/

Mip-NeRF (dreta), llançat el març de 2021, proporciona detalls millorats mitjançant una canalització d'àlies més completa però econòmica, en lloc de només "difuminar" píxels per evitar vores irregulars. Font: https://jonbarron.info/mipnerf/

NeRF il·limitat

El document de març va deixar tres problemes sense resoldre pel que fa a l'ús de Mip-NeRF en entorns il·limitats que podrien incloure objectes molt llunyans, inclosos els cels. El nou treball soluciona això aplicant a Estil Kalman deformació als gaussians Mip-NeRF.

En segon lloc, les escenes més grans requereixen una major potència de processament i temps d'entrenament més llargs, que Mip-NeRF 360 resol mitjançant la "destil·lació" de la geometria de l'escena amb una petita "proposta" perceptró multicapa (MLP), que limita prèviament la geometria predita per un gran MLP estàndard de NeRF. Això accelera l'entrenament en un factor de tres.

Finalment, les escenes més grans tendeixen a fer que la discretització de la geometria interpretada sigui ambigua, donant com a resultat el tipus d'artefactes amb què els jugadors poden estar familiaritzats quan el joc produeix "llàgrimes". El nou document aborda això creant un nou regularitzador per als intervals de raigs Mip-NeRF.

A la dreta, veiem artefactes no desitjats a Mip-NeRF a causa de la dificultat per limitar una escena tan gran. A l'esquerra, veiem que el nou regularitzador ha optimitzat prou bé l'escena per eliminar aquestes pertorbacions.

A la dreta, veiem artefactes no desitjats a Mip-NeRF a causa de la dificultat per limitar una escena tan gran. A l'esquerra, veiem que el nou regularitzador ha optimitzat prou bé l'escena per eliminar aquestes pertorbacions.

Per obtenir més informació sobre el nou document, mireu el vídeo següent i també el Vídeo de presentació de març de 2021 a Mip-NeRF. També podeu obtenir més informació sobre la investigació de NeRF si feu una ullada la nostra cobertura fins ara.

Mip-NeRF 360: camps de radiació neural anti-aliased il·limitats

Publicat originalment el 25 de novembre de 2021
21 de desembre de 2021, 12:25: S'ha substituït el vídeo mort. – MA