Inteligenta Artificiala

Noua tehnică ajută AI să identifice obiectele 3D

Actualizat on December 9, 2022

Imagine: Universitatea de Stat din NC

O nouă tehnică dezvoltată de cercetătorii de la Universitatea de Stat din Carolina de Nord îmbunătățește capacitatea programelor de inteligență artificială (AI) de a identifica obiecte 3D. Denumită MonoCon, tehnica ajută, de asemenea, AI să învețe modul în care obiectele 3D se relaționează între ele în spațiu, folosind imagini 2D.

MonoCon ar putea avea o gamă largă de aplicații, inclusiv ajutarea vehiculelor autonome să navigheze în jurul altor vehicule folosind imagini 2D primite de la o cameră de bord. Ar putea juca, de asemenea, un rol în producție și robotică.

Tianfu Wu este autorul corespondent al lucrare de cercetare și un profesor asistent de inginerie electrică și informatică la Universitatea de Stat din Carolina de Nord.

„Trăim într-o lume 3D, dar când faci o fotografie, aceasta înregistrează acea lume într-o imagine 2D”, spune Wu.

„Programele AI primesc informații vizuale de la camere. Deci, dacă dorim ca AI să interacționeze cu lumea, trebuie să ne asigurăm că este capabilă să interpreteze ceea ce imaginile 2D îi pot spune despre spațiul 3D. În această cercetare, ne concentrăm pe o parte a acestei provocări: cum putem face ca AI să recunoască cu exactitate obiectele 3D - cum ar fi oamenii sau mașinile - în imagini 2D și să plaseze acele obiecte în spațiu", continuă Wu.

Vehicule autonome

Vehiculele autonome se bazează adesea pe lidar pentru a naviga în spațiul 3D. Lidar, care folosește lasere pentru a măsura distanța, este scump, ceea ce înseamnă că sistemele autonome nu includ multă redundanță. A pune zeci de senzori Lidar pe o mașină fără șofer produsă în serie ar fi incredibil de costisitor.

„Dar dacă un vehicul autonom ar putea folosi intrări vizuale pentru a naviga prin spațiu, ai putea crea redundanță”, spune Wu. „Deoarece camerele sunt semnificativ mai puțin costisitoare decât lidar, ar fi fezabil din punct de vedere economic să se includă camere suplimentare - creând redundanță în sistem și făcându-l atât mai sigur, cât și mai robust.

„Aceasta este o aplicație practică. Cu toate acestea, suntem și încântați de avansul fundamental al acestei lucrări: că este posibil să obținem date 3D de la obiecte 2D.”

Antrenarea AI

MonoCon poate identifica obiecte 3D în imagini 2D înainte de a le plasa într-o „casetă de delimitare”, care spune AI marginile exterioare ale obiectului.

„Ceea ce ne diferențiază munca este modul în care antrenăm AI, care se bazează pe tehnicile anterioare de antrenament”, spune Wu. „Ca și eforturile anterioare, plasăm obiecte în cutii de delimitare 3D în timp ce antrenăm AI. Cu toate acestea, pe lângă faptul că solicităm AI să prezică distanța dintre cameră și obiect și dimensiunile casetelor de delimitare, îi cerem, de asemenea, AI să prezică locațiile fiecăruia dintre cele opt puncte ale cutiei și distanța acesteia de la centrul delimitării. cutie in doua dimensiuni. Numim acest „context auxiliar” și am descoperit că ajută AI să identifice și să prezică mai precis obiectele 3D pe baza imaginilor 2D.

„Metoda propusă este motivată de o binecunoscută teoremă în teoria măsurii, teorema Cramér-Wold. Este, de asemenea, potențial aplicabil și altor sarcini de predicție cu rezultate structurate în viziunea computerizată.”

MonoCon a fost testat cu un set de date de referință utilizat pe scară largă numit KITTI.

„La momentul în care am trimis această lucrare, MonoCon avea performanțe mai bune decât oricare dintre zecile de alte programe de inteligență artificială menite să extragă date 3D de pe automobile din imagini 2D”, spune Wu.

Echipa va căuta acum să extindă procesul cu seturi de date mai mari.

„În continuare, extindem acest lucru și lucrăm cu seturi de date mai mari pentru a evalua și ajusta MonoCon pentru utilizare în conducerea autonomă”, spune Wu. „Vrem, de asemenea, să explorăm aplicații în producție, pentru a vedea dacă putem îmbunătăți performanța unor sarcini precum utilizarea brațelor robotizate.”

Subiecte asemănătoare:AI inteligență artificială Vehicule autonome

Urmeaza

Noul CGI: Crearea de cartiere neuronale cu Block-NeRF

Nu ratați

Echipa de cercetare dezvoltă tehnica AI pentru detectarea expresiei faciale 3D

Alex McFarland

Alex McFarland este jurnalist și scriitor AI care explorează cele mai recente evoluții în inteligența artificială. A colaborat cu numeroase startup-uri și publicații AI din întreaga lume.