Connect with us

Inteligență artificială

Imaginea Splatter: Reconstructie 3D Ultra-Rapidă cu o Singură Vizualizare

mm
Splatter Image: Ultra-Fast Single-View 3D Reconstruction

Reconstrucția 3D a obiectelor cu o singură vizualizare, utilizând rețele neuronale convoluționale, a demonstrat capacități remarcabile. Modelele de reconstrucție 3D cu o singură vizualizare generează modelul 3D al oricărui obiect utilizând o singură imagine ca referință, făcându-l una dintre cele mai fierbinți subiecte de cercetare în domeniul viziunii calculate. 

De exemplu, să considerăm motocicleta din imaginea de mai sus. Generarea structurii sale 3D necesită o pipeline complexă care combină mai întâi indicii de la nivel scăzut cu informații semantice de nivel înalt și cunoștințe despre aranjamentul structural al părților. 

Datorită procesului complex, reconstrucția 3D cu o singură vizualizare a fost o provocare majoră în domeniul viziunii calculate. În încercarea de a îmbunătăți eficiența reconstrucției 3D cu o singură vizualizare, dezvoltatorii au lucrat la Imaginea Splatter, o metodă care își propune să realizeze o construcție ultra-rapidă a formei și aspectului 3D al obiectelor. La nucleul său, cadrul Imaginea Splatter utilizează metoda de splatting gaussian pentru a analiza reprezentările 3D, beneficiind de viteza și calitatea pe care le oferă. 

Recent, metoda de splatting gaussian a fost implementată de numeroase modele de reconstrucție multi-vizualizare pentru renderizare în timp real, scalare îmbunătățită și antrenament rapid. Cu toate acestea, Imaginea Splatter este primul cadru care implementează metoda de splatting gaussian pentru sarcini de reconstrucție cu o singură vizualizare. 

În acest articol, vom explora cum cadrul Imaginea Splatter utilizează metoda de splatting gaussian pentru a realiza o reconstrucție 3D ultra-rapidă cu o singură vizualizare. Așadar, să începem. 

Imaginea Splatter: O Încercare de Reconstrucție 3D Ultra-Rapidă cu o Singură Vizualizare

Așa cum s-a menționat anterior, Imaginea Splatter este o abordare ultra-rapidă pentru reconstrucția 3D a obiectelor cu o singură vizualizare, bazată pe metoda de splatting gaussian. Imaginea Splatter este primul cadru de viziune calculată care implementează splatting gaussian pentru generarea monoculară a obiectelor 3D, deoarece, în mod tradițional, splatting gaussian a alimentat cadrele de reconstrucție 3D multi-vizualizare. Cu toate acestea, ceea ce separă cadrul Imaginea Splatter de metodele anterioare este faptul că este o abordare bazată pe învățare, iar reconstrucția în testare necesită doar evaluarea feed-forward a rețelei neuronale. 

Imaginea Splatter se bazează fundamental pe calitățile de renderizare ale splatting gaussian și pe viteza de procesare ridicată pentru a genera reconstrucții 3D. Cadrul Imaginea Splatter are un design simplu: cadrul utilizează o rețea neuronală de imagine-la-imagine 2D pentru a prezice un gaussian 3D pentru fiecare pixel de intrare, și cartografiază imaginea de intrare la un gaussian 3D pe pixel. Gaussianii 3D rezultați au forma unei imagini, cunoscută sub numele de Imaginea Splatter, și acești gaussiani oferă, de asemenea, o reprezentare de 360 de grade a imaginii. Procesul este demonstrat în imaginea următoare. 

Deși procesul este simplu și direct, există câteva provocări cheie cu care se confruntă cadrul Imaginea Splatter atunci când utilizează splatting gaussian pentru a genera gaussiani 3D pentru reprezentări 3D cu o singură vizualizare. Prima provocare majoră este de a proiecta o rețea neuronală care acceptă imaginea unui obiect ca intrare și generează un amestec gaussian corespunzător, care reprezintă toate părțile imaginii ca ieșire. Pentru a aborda această provocare, Imaginea Splatter utilizează faptul că, deși amestecul gaussian generat este un set sau o colecție neordonată de articole, el poate fi, totuși, stocat într-o structură de date ordonată. În consecință, cadrul utilizează o imagine 2D ca container pentru gaussianii 3D, ca rezultat al căruia fiecare pixel din container conține parametrii unui gaussian, inclusiv proprietățile sale, cum ar fi forma, opacitatea și culoarea. 

Prin stocarea seturilor de gaussiani 3D într-o imagine, cadrul Imaginea Splatter este capabil să reducă obstacolele de reconstrucție cu care se confruntă atunci când se învață o rețea neuronală de imagine-la-imagine. Utilizând această abordare, procesul de reconstrucție poate fi implementat doar prin utilizarea operatorilor 2D eficienți, în loc de a se baza pe operatori 3D. Mai mult, în cadrul Imaginea Splatter, reprezentarea 3D este un amestec de gaussiani 3D, ceea ce îi permite să exploateze avantajele de viteza și eficiență a memoriei oferite de splatting gaussian, ceea ce îmbunătățește eficiența în antrenament, precum și în inferență. 

Din punct de vedere empiric, este demn de remarcat faptul că cadrul Imaginea Splatter poate produce o reconstrucție de 360 de grade a obiectului, chiar dacă vede doar o parte a obiectului. Cadrul alocă apoi diferiți gaussiani într-un vecinătate 2D pentru diferite părți ale obiectului 3D, pentru a codifica informațiile generate de 360 de grade în imaginea 2D. Mai mult, cadrul setează opacitatea mai multor gaussiani la zero, ceea ce îi dezactivează, permițându-le să fie eliminate în timpul post-procesării. 

Pentru a rezuma, cadrul Imaginea Splatter este

  1. O abordare nouă pentru a genera reconstrucții 3D ale obiectelor cu o singură vizualizare, prin portarea metodei de splatting gaussian. 
  2. Extinde metoda pentru reconstrucția 3D a obiectelor cu multiple vizualizări. 
  3. Atinge performanțe de reconstrucție 3D a obiectelor de ultimă generație pe benchmark-urile standard, cu o viteză și o calitate excepționale. 

Imaginea Splatter: Metodologie și Arhitectură

Splatting Gaussian

Așa cum s-a menționat anterior, splatting gaussian este metoda principală implementată de cadrul Imaginea Splatter pentru a genera reconstrucții 3D ale obiectelor cu o singură vizualizare. În termeni simpli, splatting gaussian este o metodă de rasterizare pentru reconstrucția și renderizarea imaginilor 3D în timp real, care are multiple puncte de vedere. Spațiul 3D din imagine este referit ca gaussiani, iar tehnici de învățare automată sunt implementate pentru a învăța parametrii fiecărui gaussian. Splatting gaussian nu necesită antrenament în timpul renderizării, ceea ce facilitează timpi de renderizare mai rapizi. Imaginea următoare rezumă arhitectura splatting gaussian 3D. 

Splatting gaussian 3D utilizează mai întâi setul de imagini de intrare pentru a genera un nor de puncte. Splatting gaussian utilizează apoi imaginile de intrare pentru a estima parametrii externi ai camerei, cum ar fi înclinația și poziția, prin potrivirea pixelilor între imagini, iar acești parametri sunt utilizați pentru a calcula norul de puncte. Utilizând diferite metode de învățare automată, splatting gaussian optimizează apoi patru parametri pentru fiecare gaussian: poziție (unde este localizat), covarianță (extinderea sa de întindere sau scalare într-o matrice 3×3), culoare (ce schemă de culori RGB are) și alfa (măsurarea transparenței). Procesul de optimizare renderizează imaginea pentru fiecare poziție a camerei și o utilizează pentru a determina parametrii mai apropiați de imaginea originală. Ca rezultat, ieșirea rezultată a splatting gaussian 3D este o imagine, numită Imaginea Splatter, care seamănă cel mai mult cu imaginea originală, văzută din poziția camerei din care a fost capturată. 

Mai mult, funcția de opacitate și funcția de culoare din splatting gaussian oferă un câmp de radianță cu direcția de vedere a punctului 3D. Cadrul apoi renderizează câmpul de radianță pe o imagine, integrând culorile observate de-a lungul razei care trece prin pixel. Splatting gaussian reprezintă aceste funcții ca o combinație de gaussiani colorați, unde media gaussiană sau centrul, împreună cu covarianța gaussiană, ajută la determinarea formei și mărimii sale. Fiecare gaussian are, de asemenea, o proprietate de opacitate și o culoare dependentă de vedere, care, împreună, definesc câmpul de radianță. 

Imaginea Splatter

Componenta de renderizare a cadrului mapă setul de gaussiani 3D la o imagine. Pentru a realiza o reconstrucție 3D cu o singură vizualizare, cadrul caută apoi o funcție inversă pentru gaussianii 3D, care reconstruește amestecul de gaussiani 3D dintr-o imagine. Incluziunea cheie aici este de a propune un design simplu, dar eficient, pentru funcția inversă. În special, pentru o imagine de intrare, cadrul prezice un gaussian pentru fiecare pixel utilizând o arhitectură de rețea neuronală de imagine-la-imagine pentru a produce o imagine, Imaginea Splatter, ca ieșire. Rețeaua prezice, de asemenea, forma, opacitatea și culoarea. 

Acum, s-ar putea specula cum poate cadrul Imaginea Splatter reconstrui reprezentarea 3D a unui obiect, chiar dacă are acces doar la o singură vedere a acestuia? În timp real, cadrul Imaginea Splatter învață să utilizeze unele dintre gaussianii disponibili pentru a reconstrui vederea și utilizează restul gaussianilor pentru a reconstrui automat părțile nevăzute ale imaginii. Pentru a-și maximiza eficiența, cadrul poate dezactiva automat orice gaussiani, prevăzând dacă opacitatea este zero. Dacă opacitatea este zero, gaussianii sunt dezactivați, iar cadrul nu renderizează aceste puncte și sunt eliminate în post-procesare. 

Pierdere la Nivel de Imagine

Un avantaj major al utilizării vitezei și eficienței oferite de metoda de splatting gaussian este că facilitează cadrului să renderizeze toate imaginile la fiecare iterație, chiar și pentru loturi cu dimensiuni relativ mai mari. Mai mult, implică faptul că cadrul nu numai că poate utiliza pierderi descompuse, dar poate utiliza, de asemenea, pierderi la nivel de imagine care nu se descompun în pierderi pe pixel. 

Normalizarea Scării

Este dificil să estimezi mărimea unui obiect privind o singură vedere, iar este o sarcină dificilă de a rezolva această ambiguitate atunci când este antrenat cu o pierdere. Aceeași problemă nu este observată în seturile de date sintetice, deoarece toate obiectele sunt renderizate cu intrinseci camerale identice și obiectele sunt la o distanță fixă de cameră, ceea ce ajută în mod final la rezolvarea ambiguității. Cu toate acestea, în seturile de date cu imagini din viața reală, ambiguitatea este destul de evidentă, iar cadrul Imaginea Splatter utilizează mai multe metode de pre-procesare pentru a fixa aproximativ scara tuturor obiectelor. 

Culoare Dependentă de Vedere

Pentru a reprezenta culorile dependente de vedere, cadrul Imaginea Splatter utilizează armonici sferice pentru a generaliza culorile dincolo de modelul de culoare Lambertian. Pentru orice gaussian specific, modelul definește coeficienți care sunt prezisați de rețea și armonicii sferice. Schimbarea punctului de vedere transformă o direcție de vedere în sursa camerei în direcția de vedere corespunzătoare în cadrul de referință. Modelul găsește apoi coeficienții corespunzători pentru a găsi funcția de culoare transformată. Modelul este capabil să facă acest lucru, deoarece, sub rotație, armonicii sferice sunt închise, împreună cu orice altă ordine. 

Arhitectura Rețelei Neuronale

Majoritatea arhitecturii predictorului care mapă imaginea de intrare la amestecul de gaussiani este identică cu procesul utilizat în cadrul SongUNet. Stratul final din arhitectură este înlocuit cu un strat de convoluție 1×1, cu modelul de culoare care determină lățimea canalelor de ieșire. Dată imaginea de intrare, rețeaua produce un tensor de canal de ieșire și, pentru fiecare canal de pixel, codifică parametrii care sunt apoi transformați în offset, opacitate, rotație, adâncime și culoare. Cadrul utilizează apoi funcții neliniare pentru a activa parametrii și a obține parametrii gaussiani. 

Pentru a reconstrui reprezentări 3D cu multiple vizualizări, cadrul Imaginea Splatter aplică aceeași rețea pentru fiecare vedere de intrare și utilizează apoi abordarea punctului de vedere pentru a combina reconstrucțiile individuale. Mai mult, pentru a facilita coordonarea eficientă și schimbul de informații între vizualizări în rețea, cadrul Imaginea Splatter face două modificări în rețea. În primul rând, cadrul condiționează modelul cu poza camerei sale și trece vectori prin codarea fiecărui intrării utilizând o încorporare pozițională sinusoidală, rezultând multiple dimensiuni. În al doilea rând, cadrul adaugă straturi de atenție reciprocă pentru a facilita comunicarea între caracteristicile diferitelor vizualizări. 

Imaginea Splatter: Experimente și Rezultate

Cadrul Imaginea Splatter măsoară calitatea reconstrucțiilor sale prin evaluarea calității de sinteză a viziunii noi, deoarece cadrul utilizează vederea sursă și renderizează forma 3D pentru a vizualiza vederi nevăzute pentru a efectua reconstrucții. Cadrul evaluează performanța sa prin măsurarea SSIM sau a similarității structurale, a raportului semnal-zgomot sau PSNR și a scorurilor de calitate perceptuală sau LPIPS. 

Performanța de Reconstrucție 3D cu o Singură Vizualizare

Tabelul următor demonstrează performanța modelului Imaginea Splatter în sarcina de reconstrucție 3D cu o singură vizualizare pe benchmark-ul ShapeNet. 

Așa cum se poate observa, cadrul Imaginea Splatter depășește toate metodele deterministice de reconstrucție în ceea ce privește scorurile LPIPS și SSIM. Scorurile indică faptul că modelul Imaginea Splatter generează imagini cu reconstrucții mai clare. Mai mult, modelul Imaginea Splatter depășește, de asemenea, toate metodele deterministice de bază în ceea ce privește scorul PSNR, ceea ce indică faptul că reconstrucțiile generate sunt, de asemenea, mai precise. Mai mult, pe lângă faptul că depășește toate metodele deterministice, cadrul Imaginea Splatter necesită doar pozele relative ale camerei pentru a-și îmbunătăți eficiența atât în faza de antrenament, cât și în faza de testare. 

Imaginea următoare demonstrează puterea calitativă a cadrului Imaginea Splatter, și, așa cum se poate vedea, modelul generează reconstrucții cu geometrii subțiri și interesante și capturează detalii ale viziunilor condiționate. 

Imaginea următoare arată că reconstrucțiile generate de cadrul Imaginea Splatter nu numai că sunt mai clare, dar au și o mai bună precizie decât modelele anterioare, în special în condiții neconvenționale, cu structuri subțiri și vizibilitate limitată. 

Reconstrucția 3D cu Multiple Vizualizări

Pentru a evalua capacitățile sale de reconstrucție 3D cu multiple vizualizări, cadrul Imaginea Splatter este antrenat pe setul de date SpaneNet-SRN Cars pentru predicții cu două vizualizări. Metodele existente utilizează condiționarea pozei absolute a camerei pentru sarcinile de reconstrucție 3D cu multiple vizualizări, ceea ce înseamnă că modelul învață să se bazeze în primul rând pe orientarea canonicală a obiectului. Deși face treaba, limitează aplicabilitatea modelelor, deoarece poza absolută a camerei este adesea necunoscută pentru o nouă imagine a unui obiect. 

Gânduri Finale

În acest articol, am discutat despre Imaginea Splatter, o metodă care își propune să realizeze o construcție ultra-rapidă a formei și aspectului 3D al obiectelor. La nucleul său, cadrul Imaginea Splatter utilizează metoda de splatting gaussian pentru a analiza reprezentările 3D, beneficiind de viteza și calitatea pe care le oferă. Cadrul Imaginea Splatter procesează imagini utilizând o arhitectură de rețea neuronală de imagine-la-imagine standard 2D pentru a prezice o pseudo-imagine care conține un gaussian colorat pentru fiecare pixel. Utilizând metoda de splatting gaussian, cadrul Imaginea Splatter este capabil să combineze renderizarea rapidă cu inferența rapidă, ceea ce duce la antrenament rapid și evaluare rapidă pe benchmark-urile reale și sintetice. 

"Un inginer de profesie, un scriitor din inimă". Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a inteligenței artificiale și a învățării automate, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.