Inteligența artificială
NeRFocus: Aducerea unui control ușor al focalizării câmpurilor de radiație neuronală

O nouă cercetare din China oferă o metodă de a obține un control accesibil asupra efectelor profunzimii câmpului pentru câmpurile de radiație neurale (NeRF), permițând utilizatorului final să se concentreze și să schimbe dinamic configurația lentilei virtuale în spațiul de randare.
intitulat NeRFocus, tehnica implementează o nouă abordare de „imagini cu lentile subțiri” pentru a focaliza traversarea și inovează P-antrenament, o strategie de antrenament probabilistică care înlătură nevoia de seturi de date dedicate pentru profunzimea câmpului și simplifică un flux de lucru de instruire cu focalizare activată.
hârtie se intitulează NeRFocus: Neural Radiance Field pentru defocalizare sintetică 3D, și provine de la patru cercetători de la Shenzhen Graduate School de la Universitatea Peking și de la Laboratorul Peng Cheng din Shenzhen, un institut finanțat de Guvernul Provincial Guangdong.
Abordarea locului de atenție foveated în NeRF
Dacă NeRF va lua vreodată locul ca tehnologie de conducere validă pentru realitatea virtuală și augmentată, va avea nevoie de o metodă ușoară de a permite redarea fovată, unde majoritatea resurselor de redare se acumulează în jurul privirii utilizatorului, mai degrabă decât să fie distribuite fără discernământ la rezoluție mai mică în întreg spațiul vizual disponibil.

Din lucrarea din 2021 Foveated Neural Radiance Fields pentru Real-Time and Egocentric Virtual Reality, vedem locul atenției într-o nouă schemă de redare foveated pentru NeRF. Sursă: https://arxiv.org/pdf/2103.16365.pdf
O parte esențială a autenticității implementărilor viitoare ale NeRF egocentric va fi capacitatea sistemului de a reflecta capacitatea proprie a ochiului uman de a comuta focalizarea pe un plan de perspectivă în retragere (vezi prima imagine de mai sus).
Acest gradient de focalizare este, de asemenea, un indicator perceptiv al amplorii scenei; Vederea dintr-un elicopter care zboară deasupra unui oraș va avea zero câmpuri de focalizare navigabile, deoarece întreaga scenă există dincolo de capacitatea de focalizare exterioară a privitorului, în timp ce examinarea unei scene în miniatură sau „câmp apropiat” nu va permite doar „focalizarea rafale”, dar ar trebui, de dragul realismului, să conțină o adâncime îngustă de câmp în mod implicit.
Mai jos este un videoclip care demonstrează capacitățile inițiale ale NeRFocus, furnizat nouă de autorul corespondent al lucrării:
Dincolo de planurile focale restrânse
Conștienți de cerințele pentru controlul focalizării, o serie de proiecte NeRF din ultimii ani au prevăzut acest lucru, deși toate încercările de până acum sunt, în mod efectiv, soluții de o manieră de delelect, sau presupun rutine notabile de post-procesare care fac aceste contribuții improbabile la mediile în timp real avute în vedere în cele din urmă pentru tehnologiile Neural Radiance Fields.
Controlul focal sintetic în cadrele de redare neuronală a fost încercat prin diferite metode în ultimii 5-6 ani - de exemplu, prin utilizarea unei rețele de segmentare pentru a îngrădi datele din prim-plan și din fundal și apoi pentru a defocala în mod generic fundalul - o solutie comuna pentru efecte simple de focalizare pe două planuri.

Din lucrarea „Segmentarea automată a portretelor pentru stilizarea imaginilor”, o separare banală, în stil animație, a planurilor focale. Sursa: https://jiaya.me/papers/portrait_eg16.pdf
Reprezentările multiplane adaugă câteva „celuri de animație” virtuale acestei paradigme, de exemplu prin utilizarea estimării adâncimii pentru a tăia scena într-un gradient agitat, dar gestionabil de planuri focale distincte, și apoi orchestrând nuclee dependente de adâncime pentru sintetiza estomparea.
În plus, și foarte relevantă pentru mediile potențiale AR/VR, diferența dintre cele două puncte de vedere ale configurației unei camere stereo poate fi utilizată ca proxy de adâncime - o metodă propusă de Google Research în 2015.

Din lucrarea condusă de Google Fast Bilateral-Space Stereo for Synthetic Defocus, diferența dintre două puncte de vedere oferă o hartă de adâncime care poate facilita estomparea. Totuși, această abordare este neautentică în situația avută în vedere mai sus, în care fotografia este în mod clar realizată cu un obiectiv de 35-50 mm (standard SLR), dar defocalizarea extremă a fundalului ar avea loc vreodată doar cu un obiectiv care depășește 200 mm, care are genul de plan focal foarte restrâns care produce adâncime îngustă de câmp în medii normale, de dimensiuni umane. Sursă
Abordările de această natură tind să demonstreze artefacte de margine, deoarece încearcă să reprezinte două sfere de focalizare distincte și limitate de margini ca un gradient focal continuu.
În 2021 RawNeRF inițiativa a oferit funcționalitate High Dynamic Range (HDR), cu un control mai mare asupra situațiilor de lumină slabă și o capacitate aparent impresionantă de concentrare:

Rack-urile RawNeRF se concentrează frumos (dacă, în acest caz, în mod neautentic, din cauza planurilor focale nerealiste), dar are un cost de calcul ridicat. Sursa: https://bmild.github.io/rawnerf/
Cu toate acestea, RawNeRF necesită precalcul împovărător pentru reprezentările sale multiplane ale NeRF antrenat, rezultând un flux de lucru care nu poate fi adaptat cu ușurință la implementări mai ușoare sau cu latență mai mică ale NeRF.
Modelarea unei lentile virtuale
NeRF însuși se bazează pe modelul de imagistică pinhole, care redă întreaga scenă într-un mod similar cu o scenă CGI implicită (înainte de diferitele abordări care redau estomparea ca un efect de post-procesare sau înnăscut bazat pe adâncimea câmpului).
NeRFocus creează o „lentila subțire” virtuală (mai degrabă decât o deschidere „fără sticlă”) care calculează traseul fasciculului fiecărui pixel de intrare și îl redă direct, inversând în mod eficient procesul standard de captare a imaginii, care funcționează post fapt asupra intrării de lumină care a fost deja afectată de proprietățile de refracție ale designului lentilei.
Acest model introduce o serie de posibilități de redare a conținutului în interiorul trunchiului (cel mai mare cerc de influență descris în imaginea de mai sus).
Calcularea culorii și a densității corecte pentru fiecare perceptron multistrat (MLP) în această gamă mai largă de posibilități este o sarcină suplimentară. Asta a fost rezolvate inainte prin aplicarea instruirii supravegheate unui număr mare de imagini DLSR, implicând crearea de seturi de date suplimentare pentru un flux de lucru probabilistic de antrenament – implicând efectiv pregătirea și stocarea laborioasă a mai multor resurse calculate posibile care pot fi sau nu necesare.
NeRFocus depășește acest lucru prin P-antrenament, unde seturile de date de antrenament sunt generate pe baza operațiunilor de estompare de bază. Astfel, modelul este format cu operații de estompare înnăscute și navigabile.

Diametrul deschiderii este setat la zero în timpul antrenamentului, iar probabilitățile predefinite sunt folosite pentru a alege un nucleu de estompare la întâmplare. Acest diametru obținut este utilizat pentru a mări diametrele fiecărui con compozit, permițând MLP să prezică cu exactitate strălucirea și densitatea trunchiurilor (cercurile largi din imaginile de mai sus, reprezentând zona maximă de transformare pentru fiecare pixel)
Autorii noii lucrări observă că NeRFocus este potențial compatibil cu abordarea HDR a RawNeRF, care ar putea ajuta la redarea anumitor secțiuni provocatoare, cum ar fi evidențierea speculară defocalizată și multe dintre celelalte efecte intense din punct de vedere computațional care au a contestat fluxurile de lucru CGI timp de treizeci sau mai mult de ani.
Procesul nu implică cerințe suplimentare pentru timp și/sau parametri în comparație cu abordările anterioare, cum ar fi NeRF de bază și Mip-NeRF (și, probabil Mip-NeRF 360, deși acest lucru nu este abordat în lucrare) și este aplicabil ca o extensie generală a metodologiei centrale a câmpurilor de radiație neurale.
Prima dată publicată pe 12 martie 2022.