Connect with us

Inteligență artificială

Oare mediile de realitate augmentată HDR ale Apple pot rezolva reflexiile pentru renderingul neural?

mm

Investiția vigorosă și pe termen lung a Apple în tehnologii de realitate augmentată se accelerează în acest an, cu o nouă serie de unelte pentru dezvoltatori pentru a captura și conversia obiectelor din lumea reală în facetelor AR, și o convingere din ce în ce mai mare a industriei că dispozitivele dedicate AR vor veni pentru a sprijini experiențele imersive pe care această avalanșă de cercetare și dezvoltare le poate face posibile.

Printre o serie de informații noi despre eforturile Apple în domeniul realității augmentate, un nou articol din cadrul diviziei de cercetare a viziunii calculate a companiei prezintă o metodă pentru utilizarea imaginilor panoramice HDR de 360 de grade pentru a furniza reflexii și iluminare specifice scenei pentru obiectele care sunt suprapuse peste scenele de realitate augmentată.

Intitulat Estimarea hărții de mediu HDR pentru realitatea augmentată în timp real, articolul, scris de inginerul de cercetare a viziunii calculate Apple, Gowri Somanath, și managerul senior de învățare automată, Daniel Kurz, propune crearea dinamică a unor medii HDR în timp real prin intermediul unei rețele neuronale convoluționale (CNN) care rulează într-un mediu de procesare mobil. Rezultatul este că obiectele reflective pot reflecta literalmente medii noi, nevăzute, la cerere:

În noua flux de lucru de generare a obiectelor AR Apple, un ibric este instanțiat prin fotogrammetrie complet cu mediul său ambient, ducând la reflexii convingătoare care nu sunt 'coapte' în textură. Sursă: https://docs-assets.developer.apple.com/

În noua flux de lucru de generare a obiectelor AR Apple, un ibric este instanțiat prin fotogrammetrie complet cu mediul său ambient, ducând la reflexii convingătoare care nu sunt ‘coapte’ în textură. Sursă: https://docs-assets.developer.apple.com/

Metoda, prezentată la CVPR 2021, capturează o imagine a întregii scene și utilizează EnvMapNet CNN pentru a estima o imagine panoramică HDR vizual completă, cunoscută și sub numele de ‘sondă de lumină’.

Harta rezultată identifică sursele puternice de lumină (conturate la sfârșitul animației de mai sus) și le ia în considerare la renderarea obiectelor virtuale.

Arhitectura EnvMapNet, care procesează imagini limitate în sonde de lumină HDR complete. Sursă: https://arxiv.org/pdf/2011.10687.pdf

Arhitectura EnvMapNet, care procesează imagini limitate în sonde de lumină HDR complete. Sursă: https://arxiv.org/pdf/2011.10687.pdf

Algoritmul poate rula în mai puțin de 9 ms pe un iPhone XS și este capabil să renderizeze obiecte conștiente de reflexii în timp real, cu o reducere a erorii direcționale de 50% comparativ cu abordările anterioare și diferite ale problemei.

Sonde de lumină

Mediile de iluminare HDR au fost un factor în efectele vizuale de la apariția imaginilor cu gamă dinamică ridicată (inventate în 1986) și au devenit o forță notabilă prin progresele în tehnologia computerului în anii 1990. Cineva care urmărește filmări din culise poate fi observat că tehnicienii țin bile de oglinzi pe bețe – imagini de referință care urmează a fi incorporate ca factori de mediu atunci când se reconstruiesc elemente CGI pentru scena respectivă.

Sursă: https://beforesandafters.com/

Sursă: https://beforesandafters.com/

Cu toate acestea, utilizarea bilelor de crom pentru hărți de reflexie precede anii 1990, datând din 1983, când a fost publicat articolul SIGGRAPH Parametrii piramidali, care a prezentat imagini statice ale unui robot CGI reflector într-un stil care avea să devină celebru aproape un deceniu mai târziu, prin efectele ‘lichid metal’ din filmul lui James Cameron Terminator 2: Ziua judecății.

Medii HDR în renderingul neural

Renderingul neural oferă posibilitatea de a genera videouri fotorealiste din intrări foarte rare, inclusiv hărți de segmentare grosiere.

imagine de rendering neural (2017). Sursă: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis” width=”738″ height=”395″ /> Intel ISL’s segmentare> imagine de rendering neural (2017). Sursă: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

În mai, cercetătorii de la Intel au dezvăluit o nouă inițiativă în sinteza de imagini neurale, în care s-a utilizat footage din Grand Theft Auto V pentru a genera ieșiri fotorealiste pe baza seturilor de date de imagini de străzi din Germania.

Sursă: https://www.youtube.com/watch?v=0fhUJT21-bs

Sursă: https://www.youtube.com/watch?v=0fhUJT21-bs

Provocarea în dezvoltarea mediilor de rendering neural care pot fi adaptate la diverse condiții de iluminare constă în separarea conținutului obiectului de factorii de mediu care îl afectează.

În prezent, reflexiile și efectele anizotrope rămân funcții fie ale imaginilor originale din setul de date (care le face inflexibile), fie necesită același tip de schemă pe care cercetătorii de la Intel au utilizat-o, care generează ieșiri semi-fotorealiste dintr-un motor de joc (ca Grand Theft Auto V), efectuează segmentarea și apoi aplică transferul de stil dintr-un set de date ‘copt’ (ca setul de vedere a străzilor Mapillary din Germania, utilizat în cercetarea recentă).

În acest rendering neural (footage-ul din GTA V este pe stânga), vehiculul din față demonstrează reflexii convingătoare și chiar saturează senzorul camerei virtuale cu reflexii de la soare. Dar acest aspect al iluminării este derivat din footage-ul original al jocului, deoarece facetelor neurale din scena nu au structuri de iluminare autonome și auto-referențiale care pot fi modificate.

În acest rendering neural derivat din footage-ul din GTA V (stânga), vehiculul din față demonstrează reflexii convingătoare și chiar saturează senzorul camerei virtuale cu reflexii de la soare. Dar acest aspect al iluminării este derivat din footage-ul original al jocului, deoarece facetelor neurale din scena nu au structuri de iluminare autonome și auto-referențiale care pot fi modificate.

Reflexie în NeRF

Imaginile derivate din Câmpuri de radianță neurală (NeRF) sunt la fel de provocatoare. Deși cercetările recente despre NeRF au făcut progrese în separarea elementelor care alcătuiesc o scenă neurală (de exemplu, colaborarea MIT/Google NeRFactor), reflexiile au rămas o piedică.

Abordarea NeRFactor a MIT și Google separă normale, vizibilitate (umbre), textură și albedo local, dar nu reflectă un mediu, deoarece există în vid. Sursă: https://arxiv.org/pdf/2106.01970.pdf

Abordarea NeRFactor a MIT și Google separă normale, vizibilitate (umbre), textură și albedo local, dar nu reflectă un mediu, deoarece există în vid. Sursă: https://arxiv.org/pdf/2106.01970.pdf

NeRF poate rezolva această problemă cu același tip de hartă HDR pe care Apple îl utilizează. Fiecare pixel dintr-un câmp de radianță neurală este calculat pe o traiectorie de la o cameră virtuală până la punctul în care ‘răzbat’ nu poate călători mai departe, similar cu urmărirea razelor în CGI-ul tradițional. Adăugarea intrării HDR la calculul acestei raze este o metodă potențială pentru a obține reflexii de mediu reale și este, în esență, un analog al metodelor de iluminare globală sau de radiativitate din CGI, în care o scenă sau un obiect este parțial luminat de reflexiile percepute ale propriului mediu.

Deși este garantat că o matrice HDR nu va face nimic pentru a ușura sarcinile computaționale semnificative ale NeRF, o mare parte a cercetărilor în acest domeniu se concentrează în prezent pe abordarea acestui aspect al pipeline-ului de procesare. Inevitabil, reflexia este unul dintre factorii care așteaptă în așteptare pentru a reumple și a provoca din nou arhitectura recent optimizată. Cu toate acestea, NeRF nu poate atinge potențialul său maxim ca metodologie de sinteză a imaginilor și videourilor neurale discrete fără a adopta o modalitate de a ține cont de un mediu înconjurător.

Reflexie în pipeline-urile de rendering neural

Într-o versiune presupusă HDR a scenariului de rendering neural Intel GTA V, o singură sondă HDR nu ar putea acoperi reflexiile dinamice care trebuie exprimate în obiectele în mișcare. De exemplu, pentru a vedea vehiculul propriu reflectat în vehiculul din față în timp ce se apropie de semafoare, vehiculul din față ar putea avea propria sa sondă HDR animată, a cărei rezoluție s-ar degrada incremental pe măsură ce se îndepărtează de punctul de vedere al utilizatorului final, devenind joasă și reprezentativă pe măsură ce se îndepărtează în depărtare – un LOD bazat pe proximitate similar cu delimitatoarele ‘distanței de desenare’ din jocurile video.

Adevăratul potențial al lucrării Apple în iluminarea și hărțile de reflexie HDR nu constă în faptul că este deosebit de inovatoare, deoarece se bazează pe lucrări anterioare în sinteza generală de imagini și în dezvoltarea scenei AR. Mai degrabă, posibila înfrângere este reprezentată de modul în care constrângerile severe de calcul local s-au combinat cu inovațiile hardware de învățare automată Apple M-series pentru a produce hărți HDR ușoare, cu latență scăzută, concepute pentru a funcționa sub resurse limitate.

Dacă această problemă poate fi rezolvată în mod economic, apariția sintezei videourilor fotorealiste din segmentarea > imagine poate veni cu un pas semnificativ mai aproape.

Sursă: https://docs-assets.developer.apple.com/

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.