Inteligență artificială
Înspre oameni AI în timp real cu Neural Lumigraph Rendering

În ciuda valului actual de interes pentru Neural Radiance Fields (NeRF), o tehnologie capabilă să creeze medii și obiecte 3D generate de inteligență artificială, această nouă abordare a tehnologiei de sinteză a imaginilor încă necesită mult timp de antrenament și lipsește o implementare care să permită interfețe în timp real, foarte receptive.
Cu toate acestea, o colaborare între câteva nume impresionante din industrie și academia oferă o nouă abordare a acestei provocări (cunoscută generic sub numele de Sinteză de vedere nouă, sau NVS).
Cercetarea articolului, intitulat Neural Lumigraph Rendering, afirmă o îmbunătățire a stadiului actual cu aproximativ două ordine de mărime, reprezentând câteva pași spre renderingul în timp real al graficii computerizate prin pipeline-uri de învățare automată.

Neural Lumigraph Rendering (dreapta) oferă o rezoluție mai bună a artefactelor de amestecare și o gestionare îmbunătățită a ocluziunii față de metodele anterioare. Sursă.
Deși creditelor pentru articolul menționează doar Universitatea Stanford și compania de tehnologie de afișare holografică Raxium (care operează în prezent în mod stealth), contributorii includ un arhitect principal de învățare automată la Google, un om de știință computerizat la Adobe și directorul tehnic la StoryFile (care a făcut știri recent cu o versiune AI a lui William Shatner).
În ceea ce privește recenta campanie de publicitate a lui Shatner, StoryFile pare să utilizeze NLR în noul său proces de creare a entităților interactive generate de inteligență artificială, bazate pe caracteristicile și narativele individuale ale oamenilor.
StoryFile își imaginează utilizarea acestei tehnologii în expoziții de muzeu, narative interactive online, afișaje holografice, realitate augmentată (AR) și documentare patrimoniale – și pare să vizeze, de asemenea, aplicații noi ale NLR în interviuri de recrutare și aplicații de întâlniri virtuale:

Utilizări propuse dintr-un videoclip online de la StoryFile. Sursă: https://www.youtube.com/watch?v=2K9J6q5DqRc
Captură Volumetrică Pentru Interfețe De Sinteză De Vedere Nouă Și Video
Principiul capturării volumetrice, de-a lungul gamei de articole care se adună pe această temă, este ideea de a lua imagini statice sau videoclipuri ale unui subiect și de a utiliza învățarea automată pentru a “umple” punctele de vedere care nu au fost acoperite de matricea originală de camere.

Sursă: https://research.fb.com/wp-content/uploads/2019/06/Neural-Volumes-Learning-Dynamic-Renderable-Volumes-from-Images.pdf
În imaginea de mai sus, preluată din cercetarea AI a Facebook din 2019 (a se vedea mai jos), vedem cele patru etape ale capturării volumetrice: multiple camere obțin imagini/videoclipuri; arhitectura encoder/decoder (sau alte arhitecturi) calculează și concatenează relația dintre punctele de vedere; algoritmii de mers pe raze calculează voxelii (sau alte unități geometrice spațiale XYZ) ale fiecărui punct din spațiul volumetric; și (în cele mai recente articole) are loc antrenament pentru a sintetiza o entitate completă care poate fi manipulată în timp real.
Este această fază de antrenament, adesea extinsă și încărcată cu date, care a ținut până acum sinteza de vedere nouă în afara domeniului de timp real sau de capturare foarte receptivă.
Faptul că sinteza de vedere nouă creează o hartă 3D completă a unui spațiu volumetric înseamnă că este relativ trivial să împăturim aceste puncte într-o matrice computerizată tradițională, capturând și articulând un om CGI (sau orice alt obiect relativ limitat) pe loc.
Abordările care utilizează NeRF se bazează pe nori de puncte și hărți de adâncime pentru a genera interpolările dintre punctele de vedere rare ale dispozitivelor de captură:

NeRF poate genera adâncime volumetrică prin calcularea hărților de adâncime, mai degrabă decât generarea de matrice CGI. Sursă: https://www.youtube.com/watch?v=JuH79E8rdKc
Deși NeRF este capabil să calculeze matrice, majoritatea implementărilor nu utilizează acest lucru pentru a genera scene volumetrice.
În schimb, abordarea Implicit Differentiable Renderer (IDR), publicată de Institutul Weizmann de Știință în octombrie 2020, se bazează pe exploatarea informațiilor despre matricea 3D generate automat din matricele de captură:

Exemple de capturi IDR transformate în matrice CGI interactive. Sursă: https://www.youtube.com/watch?v=C55y7RhJ1fE
Deși NeRF lipsește de capacitatea IDR de estimare a formei, IDR nu poate egala calitatea imaginii NeRF, și ambele necesită resurse extinse pentru a fi antrenate și colectate (deși inovațiile recente în NeRF încep să adreseze acest lucru).

Dispozitivul de cameră personalizat NLR, cu 16 camere GoPro HERO7 și 6 camere centrale Back-Bone H7PRO. Pentru rendering în timp real, acestea funcționează la o rată minimă de 60fps. Sursă: https://arxiv.org/pdf/2103.11571.pdf
În schimb, Neural Lumigraph Rendering utilizează SIREN (Rețele Sinusoidale) pentru a încorpora punctele forte ale fiecărei abordări în propria sa structură, care are scopul de a genera ieșiri direct utilizabile în pipeline-urile grafice în timp real existente.
SIREN a fost utilizat pentru implementări similare în ultimul an și reprezintă acum o apel API popular pentru notebook-urile Colab ale comunităților de sinteză a imaginilor; cu toate acestea, inovația NLR constă în aplicarea SIREN-ilor la supravegherea imaginilor bidimensionale cu multiple puncte de vedere, ceea ce este problematic din cauza extinderii la care SIREN produce ieșiri supraantrenate mai degrabă decât generalizate.
După ce matricea CGI este extrasă din imaginile matricei, matricea este rasterizată prin OpenGL, iar pozițiile verticalelor matricei sunt mapate la pixelii corespunzători, după care se calculează amestecarea hărților contributive.
Matricea rezultată este mai generalizată și reprezentativă decât cea a NeRF (a se vedea imaginea de mai jos), necesită mai puține calcule și nu aplică detalii excesive în zone (cum ar fi pielea facială netedă) care nu pot beneficia de acest lucru:
Pe partea negativă, NLR nu are încă nicio capacitate pentru iluminare dinamică sau reluminare, și ieșirea este limitată la hărți de umbră și alte considerații de iluminare obținute în momentul capturării. Cercetătorii intenționează să abordeze acest lucru în lucrările viitoare.
În plus, articolul recunoaște că formele generate de NLR nu sunt la fel de precise ca unele abordări alternative, cum ar fi Selectarea punctului de vedere pixel cu pixel pentru stereo multi-vizual neordonat, sau cercetarea Institutului Weizmann menționată anterior.
Ascensiunea Sintezei de Imagine Volumetrice
Ideea de a crea entități 3D dintr-o serie limitată de fotografii cu rețele neuronale precede NeRF, cu articole vizionare care datează din 2007 sau mai devreme. În 2019, departamentul de cercetare AI al Facebook a produs un articol de cercetare seminal, Neural Volumes: Learning Dynamic Renderable Volumes from Images, care a permis pentru prima dată interfețe receptive pentru oameni sintetici generați de capturarea volumetrică bazată pe învățarea automată.

Cercetarea Facebook din 2019 a permis crearea unei interfețe utilizator receptive pentru o persoană volumetrică. Sursă: https://research.fb.com/publications/neural-volumes-learning-dynamic-renderable-volumes-from-images/











