stubbur Ný tækni hjálpar gervigreind að bera kennsl á þrívíddarhluti - Unite.AI
Tengja við okkur

Artificial Intelligence

Ný tækni hjálpar gervigreind að bera kennsl á þrívíddarhluti

Uppfært on
Mynd: NC State University

Ný tækni þróuð af vísindamönnum við North Carolina State University bætir getu gervigreindarforrita (AI) til að bera kennsl á þrívíddarhluti. Tæknin, sem kallast MonoCon, hjálpar einnig gervigreind að læra hvernig þrívíddarhlutirnir tengjast hver öðrum í geimnum með því að nota tvívíddarmyndir. 

MonoCon gæti hugsanlega haft fjölbreytt úrval af forritum, þar á meðal að hjálpa sjálfstætt ökutæki að sigla um önnur farartæki með því að nota 2D myndir sem berast frá myndavél um borð. Það gæti einnig gegnt hlutverki í framleiðslu og vélfærafræði.

Tianfu Wu er samsvarandi höfundur rannsóknarritgerð og lektor í rafmagns- og tölvuverkfræði við North Carolina State University. 

„Við lifum í þrívíddarheimi, en þegar þú tekur mynd skráir hún heiminn á tvívíddarmynd,“ segir Wu.

„AI forrit fá sjónrænt inntak frá myndavélum. Þannig að ef við viljum að gervigreind hafi samskipti við heiminn þurfum við að tryggja að það sé fær um að túlka það sem tvívíddarmyndir geta sagt honum um þrívíddarrýmið. Í þessari rannsókn einbeitum við okkur að einum hluta þessarar áskorunar: hvernig við getum fengið gervigreind til að þekkja nákvæmlega þrívíddarhluti – eins og fólk eða bíla – í tvívíddarmyndum og staðsetja þá hluti í geimnum,“ heldur Wu áfram. 

Sjálfstæð ökutæki

Sjálfstýrð farartæki treysta oft á lidar til að sigla um þrívíddarrýmið. Lidar, sem notar leysir til að mæla fjarlægð, er dýrt, sem þýðir að sjálfstæð kerfi innihalda ekki mikla offramboð. Að setja heilmikið af lidar skynjara á fjöldaframleiddan ökumannslausan bíl væri ótrúlega dýrt. 

„En ef sjálfstætt ökutæki gæti notað sjónrænt inntak til að sigla um geiminn gætirðu byggt upp offramboð,“ segir Wu. „Vegna þess að myndavélar eru umtalsvert ódýrari en lidar, væri efnahagslega hagkvæmt að setja viðbótarmyndavélar með - byggja offramboð inn í kerfið og gera það bæði öruggara og öflugra.

„Þetta er ein hagnýt umsókn. Hins vegar erum við líka spennt fyrir grundvallarframvindu þessarar vinnu: að hægt sé að fá þrívíddargögn úr tvívíddarhlutum.“

Þjálfun gervigreindar

MonoCon getur borið kennsl á þrívíddarhluti í tvívíddarmyndum áður en þeir eru settir í „afmörkunarkassa“ sem segir gervigreindinni frá ytri brúnum hlutarins. 

„Það sem aðgreinir starf okkar er hvernig við þjálfum gervigreindina, sem byggir á fyrri þjálfunartækni,“ segir Wu. „Eins og fyrri tilraunir, setjum við hluti í 3D afmörkunarkassa á meðan við þjálfum gervigreindina. Hins vegar, auk þess að biðja gervigreindina að spá fyrir um fjarlægð myndavélar á milli hluta og stærð afmörkunarkassa, biðjum við gervigreindina einnig að spá fyrir um staðsetningu hvers af átta punktum kassans og fjarlægð hans frá miðju afmörkunar kassi í tvívídd. Við köllum þetta „hjálparsamhengi“ og komumst að því að það hjálpar gervigreindinni að bera kennsl á og spá fyrir um þrívíddarhluti með nákvæmari hætti út frá tvívíddarmyndum.

„Fyrirhuguð aðferð byggist á vel þekktri setningu í mælikvarðafræði, Cramér-Wold setningunni. Það á einnig hugsanlega við um önnur skipulögð framleiðsluspáverkefni í tölvusjón.

MonoCon var prófað með mikið notaðu viðmiðunargagnasetti sem kallast KITTI.

„Á þeim tíma sem við sendum þessa grein, stóð MonoCon sig betur en nokkur af tugum annarra gervigreindarforrita sem miða að því að draga út þrívíddargögn um bíla úr tvívíddarmyndum,“ segir Wu.

Liðið mun nú leita að því að stækka ferlið með stærri gagnasöfnum.

„Áfram erum við að stækka þetta og vinna með stærri gagnapakka til að meta og fínstilla MonoCon til notkunar í sjálfvirkum akstri,“ segir Wu. „Við viljum líka kanna forrit í framleiðslu til að sjá hvort við getum bætt frammistöðu verkefna eins og notkun vélfæravopna.

Alex McFarland er blaðamaður og rithöfundur gervigreindar sem skoðar nýjustu þróunina í gervigreind. Hann hefur unnið með fjölmörgum AI sprotafyrirtækjum og útgáfum um allan heim.