Inteligjenca artificiale

Teknika e re ndihmon AI të identifikojë objektet 3D

Përditësuar on Dhjetor 9, 2022

Imazhi: Universiteti Shtetëror NC

Një teknikë e re e zhvilluar nga studiuesit në Universitetin Shtetëror të Karolinës së Veriut përmirëson aftësinë e programeve të inteligjencës artificiale (AI) për të identifikuar objektet 3D. E quajtur MonoCon, teknika gjithashtu ndihmon AI të mësojë se si objektet 3D lidhen me njëri-tjetrin në hapësirë duke përdorur imazhe 2D.

MonoCon mund të ketë potencialisht një gamë të gjerë aplikacionesh, duke përfshirë ndihmën e automjeteve autonome të lundrojnë nëpër automjete të tjera duke përdorur imazhe 2D të marra nga një kamerë në bord. Ai gjithashtu mund të luajë një rol në prodhim dhe robotikë.

Tianfu Wu është autori korrespondues i studim dhe një asistent profesor i inxhinierisë elektrike dhe kompjuterike në Universitetin Shtetëror të Karolinës së Veriut.

"Ne jetojmë në një botë 3D, por kur ju bëni një fotografi, ajo e regjistron atë botë në një imazh 2D," thotë Wu.

“Programet e AI marrin të dhëna vizuale nga kamerat. Pra, nëse duam që AI të ndërveprojë me botën, duhet të sigurohemi që ajo të jetë në gjendje të interpretojë se çfarë mund t'i tregojnë imazhet 2D për hapësirën 3D. Në këtë hulumtim, ne jemi të përqendruar në një pjesë të asaj sfide: si mund ta bëjmë AI të njohë me saktësi objektet 3D – të tilla si njerëzit ose makinat – në imazhet 2D dhe t’i vendosim ato objekte në hapësirë,” vazhdon Wu.

Automjete autonome

Automjetet autonome shpesh mbështeten në lidar për të lundruar në hapësirën 3D. Lidar, i cili përdor lazer për të matur distancën, është i shtrenjtë, që do të thotë se sistemet autonome nuk përfshijnë shumë tepricë. Për të vendosur dhjetëra sensorë lidar në një makinë pa shofer të prodhuar në masë do të ishte tepër e shtrenjtë.

"Por nëse një automjet autonom mund të përdorë hyrje vizuale për të lundruar nëpër hapësirë, ju mund të ndërtoni në mënyrë të tepërt," thotë Wu. “Për shkak se kamerat janë dukshëm më pak të shtrenjta se lidar, do të ishte ekonomikisht e mundshme të përfshiheshin kamera shtesë – duke krijuar tepricë në sistem dhe duke e bërë atë më të sigurt dhe më të fortë.

“Ky është një aplikim praktik. Megjithatë, ne jemi gjithashtu të ngazëllyer për përparimin themelor të kësaj pune: që është e mundur të merren të dhëna 3D nga objektet 2D.”

Trajnimi i AI

MonoCon mund të identifikojë objektet 3D në imazhet 2D përpara se t'i vendosë në një "kuti kufizuese", e cila i tregon AI skajet e jashtme të objektit.

"Ajo që e veçon punën tonë është mënyra se si ne trajnojmë AI, e cila bazohet në teknikat e mëparshme të trajnimit," thotë Wu. “Ashtu si përpjekjet e mëparshme, ne vendosim objekte në kuti kufizuese 3D ndërsa trajnojmë AI. Megjithatë, përveçse i kërkojmë AI të parashikojë distancën e kamerës me objektin dhe dimensionet e kutive kufizuese, ne i kërkojmë gjithashtu AI të parashikojë vendndodhjen e secilës prej tetë pikave të kutisë dhe distancën e saj nga qendra e kufirit. kuti ne dy dimensione. Ne e quajmë këtë 'kontekst ndihmës' dhe zbuluam se ndihmon AI të identifikojë dhe parashikojë më saktë objektet 3D bazuar në imazhet 2D.

“Metoda e propozuar motivohet nga një teoremë e njohur në teorinë e masës, teorema Cramér-Wold. Është gjithashtu potencialisht i zbatueshëm për detyra të tjera të parashikimit të prodhimit të strukturuar në vizionin kompjuterik.

MonoCon u testua me një grup të dhënash standarde të përdorur gjerësisht të quajtur KITTI.

“Në kohën kur ne dorëzuam këtë punim, MonoCon performoi më mirë se cilido prej dhjetëra programeve të tjera të AI që synojnë nxjerrjen e të dhënave 3D në makina nga imazhet 2D”, thotë Wu.

Ekipi tani do të kërkojë të zgjerojë procesin me grupe të dhënash më të mëdha.

"Duke ecur përpara, ne po e përshkallëzojmë këtë dhe po punojmë me grupe të dhënash më të mëdha për të vlerësuar dhe rregulluar mirë MonoCon për përdorim në drejtimin autonom," thotë Wu. “Ne gjithashtu duam të eksplorojmë aplikacionet në prodhim, për të parë nëse mund të përmirësojmë performancën e detyrave të tilla si përdorimi i krahëve robotikë”.

Temat e ngjashme:AI inteligjencës artificiale Automjete autonome

E rradhes

CGI e re: Krijimi i fqinjësive nervore me Block-NeRF

Mos e humbas

Ekipi hulumtues zhvillon teknikën e AI për zbulimin 3D të shprehjeve të fytyrës

Alex McFarland

Alex McFarland është një gazetar dhe shkrimtar i AI që eksploron zhvillimet më të fundit në inteligjencën artificiale. Ai ka bashkëpunuar me startupe dhe publikime të shumta të AI në mbarë botën.