Mesterséges Intelligencia

Az új technika segít a mesterséges intelligencia számára a 3D objektumok azonosításában

korszerűsített on December 9, 2022

Kép: NC State University

Az Észak-Karolinai Állami Egyetem kutatói által kifejlesztett új technika javítja a mesterséges intelligencia (AI) programjainak képességét a 3D objektumok azonosítására. A MonoCon névre keresztelt technika abban is segít, hogy a mesterséges intelligencia megtanulja, hogyan viszonyulnak egymáshoz a 3D objektumok a térben a 2D képek segítségével.

A MonoCon alkalmazásainak széles skálája lehet, beleértve az autonóm járművek navigálását más járművek körül a fedélzeti kamerától kapott 2D képek segítségével. A gyártásban és a robotikában is szerepet játszhat.

Tianfu Wu a megfelelő szerzője a kutatási papír valamint az elektromos és számítástechnikai mérnök adjunktusa az Észak-Karolinai Állami Egyetemen.

„3D-s világban élünk, de ha fényképet készítünk, az azt a világot 2D-s képen rögzíti” – mondja Wu.

„Az AI programok vizuális bemenetet kapnak a kameráktól. Tehát ha azt akarjuk, hogy a mesterséges intelligencia kölcsönhatásba lépjen a világgal, akkor gondoskodnunk kell arról, hogy képes legyen értelmezni, hogy a 2D képek mit árulnak el a 3D térről. Ebben a kutatásban ennek a kihívásnak egy részére összpontosítunk: hogyan érhetjük el az AI-t, hogy pontosan felismerje a 3D objektumokat – például embereket vagy autókat – a 2D képeken, és elhelyezze ezeket a tárgyakat a térben” – folytatja Wu.

Autonóm járművek

Az autonóm járművek gyakran a lidarra támaszkodnak a 3D térben való navigáláshoz. A távolság mérésére lézereket használó Lidar drága, vagyis az autonóm rendszerek nem tartalmaznak sok redundanciát. Hihetetlenül drága lenne több tucat lidar érzékelőt elhelyezni egy sorozatgyártású, vezető nélküli autóban.

„De ha egy autonóm jármű vizuális bemeneteket használna a térben való navigáláshoz, akkor redundanciát építhetne ki” – mondja Wu. „Mivel a kamerák lényegesen olcsóbbak, mint a lidar, gazdaságilag megvalósítható lenne további kamerák beépítése – redundanciát építve a rendszerbe, és biztonságosabbá és robusztusabbá téve azt.

„Ez egy gyakorlati alkalmazás. Mindazonáltal izgatottak vagyunk a munka alapvető előrelépése miatt is: hogy lehetséges 3D-s adatok beszerzése 2D-s objektumokból.”

Az AI képzése

A MonoCon képes azonosítani a 3D objektumokat a 2D képeken, mielőtt azokat „határoló dobozba” helyezné, amely közli az MI-vel az objektum külső széleit.

„Munkánkat az különbözteti meg egymástól, ahogyan az AI-t képezzük, ami a korábbi képzési technikákra épít” – mondja Wu. „A korábbi próbálkozásokhoz hasonlóan az AI betanítása során 3D határolódobozokba helyezzük az objektumokat. Mindazonáltal amellett, hogy megkérjük az MI-t, hogy jósolja meg a kamera és az objektum távolságát és a határoló dobozok méreteit, azt is megkérjük, hogy jósolja meg a doboz mind a nyolc pontjának helyét és távolságát a határoló közepétől. doboz két dimenzióban. Ezt „kiegészítő kontextusnak” nevezzük, és azt találtuk, hogy ez segít az AI-nak pontosabban azonosítani és előre jelezni a 3D objektumokat a 2D képek alapján.

„A javasolt módszert a mértékelméletben jól ismert tétel, a Cramér-Wold tétel motiválja. Potenciálisan alkalmazható más strukturált kimeneti előrejelzési feladatokra is a számítógépes látás területén.

A MonoCon-t a KITTI nevű, széles körben használt benchmark adatkészlettel tesztelték.

„Amikor benyújtottuk ezt a dokumentumot, a MonoCon jobban teljesített, mint bármelyik több tucat más mesterséges intelligencia program, amelyek célja az autók 3D-s adatainak 2D-s képekből való kinyerése volt” – mondja Wu.

A csapat most arra törekszik, hogy nagyobb adatkészletekkel bővítse a folyamatot.

„Előre haladva bővítjük ezt, és nagyobb adatkészletekkel dolgozunk, hogy kiértékeljük és finomhangoljuk a MonoConot az autonóm vezetéshez” – mondja Wu. „Szeretnénk feltárni a gyártási alkalmazásokat is, hogy meglássuk, javíthatjuk-e az olyan feladatok teljesítményét, mint például a robotkarok használata.”

Kapcsolódó témák:AI mesterséges intelligencia Autonóm járművek

Up Next

Az új CGI: Neurális szomszédságok létrehozása Block-NeRF segítségével

Ne hagyd ki

A kutatócsoport mesterséges intelligencia technikát fejleszt a 3D arckifejezés-felismeréshez

Alex McFarland

Alex McFarland mesterséges intelligencia újságíró és író, aki a mesterséges intelligencia legújabb fejleményeit vizsgálja. Számos AI startup vállalkozással és publikációval működött együtt világszerte.