tynkä Uusi tekniikka auttaa tekoälyä tunnistamaan 3D-objekteja - Unite.AI
Liity verkostomme!

Tekoäly

Uusi tekniikka auttaa tekoälyä tunnistamaan 3D-objekteja

Päivitetty on
Kuva: NC State University

North Carolina State Universityn tutkijoiden kehittämä uusi tekniikka parantaa tekoälyohjelmien kykyä tunnistaa 3D-objekteja. MonoCon-niminen tekniikka auttaa myös tekoälyä oppimaan, kuinka 3D-objektit liittyvät toisiinsa avaruudessa käyttämällä 2D-kuvia. 

MonoConilla voi mahdollisesti olla laaja valikoima sovelluksia, mukaan lukien autonomisten ajoneuvojen auttaminen navigoimaan muiden ajoneuvojen ympäri käyttämällä sisäisestä kamerasta saatuja 2D-kuvia. Sillä voisi olla rooli myös valmistuksessa ja robotiikassa.

Tianfu Wu on vastaava kirjoittaja tutkimus paperi ja sähkö- ja tietokonetekniikan apulaisprofessori North Carolina State Universityssä. 

"Elämme 3D-maailmassa, mutta kun otat kuvan, se tallentaa maailman 2D-kuvaksi", Wu sanoo.

”Tekoälyohjelmat saavat visuaalista syötettä kameroista. Joten jos haluamme tekoälyn olevan vuorovaikutuksessa maailman kanssa, meidän on varmistettava, että se pystyy tulkitsemaan, mitä 2D-kuvat voivat kertoa sille 3D-avaruudesta. Tässä tutkimuksessa keskitymme haasteen yhteen osaan: miten voimme saada tekoälyn tunnistamaan tarkasti 3D-kohteet – kuten ihmiset tai autot – 2D-kuvista ja sijoittamaan ne avaruuteen”, Wu jatkaa. 

Autonomiset ajoneuvot

Autonomiset ajoneuvot luottavat usein lidariin navigoidakseen 3D-tilassa. Lidar, joka käyttää lasereita etäisyyden mittaamiseen, on kallis, mikä tarkoittaa, että autonomiset järjestelmät eivät sisällä paljon redundanssia. Kymmenien lidar-anturien asentaminen massatuotantoon ilman kuljettajaa olevaan autoon olisi uskomattoman kallista. 

"Mutta jos autonominen ajoneuvo voisi käyttää visuaalisia syötteitä navigoidakseen avaruudessa, voit rakentaa redundanssia", Wu sanoo. "Koska kamerat ovat huomattavasti halvempia kuin lidar, olisi taloudellisesti järkevää sisällyttää lisäkameroita - lisäämällä redundanssia järjestelmään ja tehden siitä sekä turvallisemman että kestävämmän.

"Se on yksi käytännön sovellus. Olemme kuitenkin innoissamme myös tämän työn perustavanlaatuisesta edistyksestä: siitä, että 3D-objekteista on mahdollista saada 2D-dataa.

Tekoälyn koulutus

MonoCon voi tunnistaa 3D-objektit 2D-kuvista ennen kuin sijoittaa ne "rajoituslaatikkoon", joka kertoo tekoälylle kohteen ulkoreunat. 

"Työmme erottaa se, miten harjoitamme tekoälyä, joka perustuu aikaisempiin harjoitustekniikoihin", Wu sanoo. ”Aiempien ponnistelujen tapaan sijoitamme esineitä 3D-rajoitusruutuihin, kun harjoittelemme tekoälyä. Sen lisäksi, että pyydämme tekoälyä ennustamaan kameran ja objektin välisen etäisyyden ja rajoitusruutujen mitat, pyydämme tekoälyä myös ennustamaan kunkin laatikon kahdeksan pisteen sijainnit ja sen etäisyyden rajauksen keskustasta. laatikko kahdessa ulottuvuudessa. Kutsumme tätä "apukontekstiksi", ja havaitsimme, että se auttaa tekoälyä tunnistamaan ja ennustamaan 3D-kohteet tarkemmin 2D-kuvien perusteella.

"Ehdotettu menetelmä perustuu mittateoriassa hyvin tunnetulle lauseelle, Cramér-Woldin lauseelle. Sitä voidaan mahdollisesti soveltaa myös muihin tietokonenäön strukturoidun tuotoksen ennustustehtäviin."

MonoCon testattiin laajalti käytetyllä vertailutietojoukolla nimeltä KITTI.

"Kun lähetimme tämän asiakirjan, MonoCon toimi paremmin kuin mikään kymmenistä muista tekoälyohjelmista, joiden tarkoituksena oli poimia 3D-tietoja autoista 2D-kuvista", Wu sanoo.

Tiimi pyrkii nyt laajentamaan prosessia suuremmilla tietojoukoilla.

"Eteenpäin skaalaamme tätä ja työskentelemme suurempien tietojoukkojen kanssa arvioidaksemme ja hienosäätääksemme MonoConia käytettäväksi autonomisessa ajamisessa", Wu sanoo. "Haluamme myös tutkia sovelluksia valmistuksessa nähdäksemme, voimmeko parantaa tehtävien, kuten robottikäsivarsien, suorituskykyä."

Alex McFarland on tekoälytoimittaja ja kirjailija, joka tutkii tekoälyn viimeisintä kehitystä. Hän on tehnyt yhteistyötä lukuisten AI-startup-yritysten ja -julkaisujen kanssa maailmanlaajuisesti.