Connect with us

Inteligență artificială

Părți Neuronale: Descompunerea Primitivelor pentru Geometrie Inferată Semnificativă

mm

În timp ce sistemele capabile să genereze geometrie 3D din imagini statice unice au proliferat în ultimii ani, obiectele pe care le obțin tind să fie “fuzionate” împreună, fără niciun schema semantică reală pentru a reflecta modul în care părțile contribuie la întreg.

Există o serie de motive bune pentru a genera modele ierarhice inferate cu o diviziune semnificativă a părților, incluzând analiza industrială, cercetarea medicală și aplicațiile de imagistică, generarea automată a geometriei pentru jocuri video, simulatoare și medii VR/AR, și efecte vizuale de asamblare, printre altele.

Multe metode dezvoltate în ultimii ani, cum ar fi Superquadrics parsing-ul formei, produc rezultate mai puțin satisfăcătoare și au luptat pentru a face progrese în stadiul actual dincolo de tăierea indicativă cuboidă.

Segmentarea prin Superquadrics și alte abordări oferă sub-părți grosiere sau reprezentative pentru o imagine inferată. Sursă: https://www.youtube.com/watch?v=6WK3B0IZJsw

Segmentarea prin Superquadrics și alte abordări oferă sub-părți grosiere sau reprezentative pentru o imagine inferată. Sursă: https://www.youtube.com/watch?v=6WK3B0IZJsw

Cu toate acestea, o nouă cercetare de la Institutul Max Planck, intitulată Părți Neuronale: Învățarea Abstracțiilor de Formă 3D Expresive cu Rețele Neuronale Inversabile, oferă un nou sistem de reprezentare 3D primitiv neural care creează secțiuni semantic utile.

Metodele anterioare pot descompune obiecte mari inferate, dar nu într-un mod semantic util. La dreapta, metoda Neural Parts creează fragmente mai practice. Sursă: https://paschalidoud.github.io/neural_parts

Metodele anterioare pot descompune obiecte mari inferate, dar nu într-un mod semantic util. La dreapta, metoda Neural Parts creează fragmente mai practice. Sursă: https://paschalidoud.github.io/neural_parts

Segmentarea se realizează prin intermediul unei rețele neuronale inversabile (INN), care utilizează homeomorfismul condiționat pentru a deforma o formă geometrică de bază în primitive și viceversa, calculând ierarhia topologică în ambele direcții. În acest fel, fiecare formă primitivă este asociată cu o încorporare primitivă invățabilă pentru a genera încorporarea formei pentru acea primitivă.

Arhitectură

Părțile Neuronale trebuie să echilibreze calitatea reconstrucției și integritatea primitivă, deoarece primitivele complexe tind să împingă sistemul spre deconstrucții complexe. Prin urmare, arhitectura Părților Neuronale a fost proiectată pentru a străbate aceste considerații conflictuale într-un mod elegant.

Arhitectura Părților Neuronale constă dintr-un extractor de caracteristici care mapăază intrarea unui vector și o componentă de homeomorfism condiționat care învață homeomorfisme condiționate de încorporarea formei.

Prima secțiune a extractorului de caracteristici utilizează o componentă ResNet-18 pentru a extrage imagini de caracteristici. Componenta de homeomorfism condiționat utilizează un modul de transformare real-valued non-volum-preserving (real NVP).

Evaluare

Sistemul a fost testat împotriva a trei seturi de date – 2017’s Dynamic FAUST (D-FAUST), FreiHAND (2019) și Stanford University’s popular 2015 ShapeNet. D-FAUST conține 38.640 de rețele umane-centrice, care s-au dovedit a fi adecvate pentru comparație, în timp ce primele 5000 de poziții ale mâinii în FreiHAND au fost utilizate pentru a genera rețele. Pentru ShapeNet, cercetătorii au urmat aceeași linie de antrenament specifică categoriei, așa cum a fost descrisă de cercetătorii de la Stanford în 2016.

Testele au fost efectuate împotriva metodelor bazate pe primitive, incluzând superquadrics, CvxNet și H-SQs.

Sub ShapeNet, cercetătorii au constatat că modelul Părți Neuronale a rezultat în reconstrucții mai precise decât CvxNet la un nivel de 5 și 25 de primitive. Unele dintre obiectele mai simple din baza de date, cum ar fi scaunele, nu conțineau suficientă geometrie pentru o deconstrucție semnificativă.

Pentru FreiHAND, Părțile Neuronale au rezultat în reconstrucții geometric mai precise, cu o captură mai bună a detaliilor fine, cum ar fi poziția degetului mare. Cercetătorii notează că, prin comparație, CvxNet și SQs se concentrează mai mult asupra structurii nucleului general și lipsesc aceste detalii.

Pentru Dynamic FAUST, CvxNet și SQs au fost comparate cu ieșirea Părților Neuronale utilizând cinci primitive pentru a captura integritatea corpului uman inițial inferată din date. Părțile Neuronale au putut obține o segmentare mai netedă, fără a sacrifica esența topologiei.

Lucrări viitoare

Cercetătorii intenționează să extindă Părțile Neuronale la studii care nu oferă direct rețele țintă, prin utilizarea tehnicilor de randare diferențiale. Deoarece o sferă de bază este primitiva curentă utilizată în cadrul Părților Neuronale, cercetătorii sunt, de asemenea, luați în considerare utilizarea unor primitive geometrice mai complexe și mai expresive.

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.