stub Nowa technika pomaga sztucznej inteligencji identyfikować obiekty 3D – Unite.AI
Kontakt z nami

Artificial Intelligence

Nowa technika pomaga sztucznej inteligencji identyfikować obiekty 3D

Zaktualizowano on
Zdjęcie: Uniwersytet Stanowy NC

Nowa technika opracowana przez naukowców z North Carolina State University poprawia zdolność programów sztucznej inteligencji (AI) do identyfikowania obiektów 3D. Technika ta, zwana MonoCon, pomaga również sztucznej inteligencji dowiedzieć się, w jaki sposób obiekty 3D odnoszą się do siebie w przestrzeni, za pomocą obrazów 2D. 

MonoCon mógłby potencjalnie mieć szeroki zakres zastosowań, w tym pomagać pojazdom autonomicznym w poruszaniu się wokół innych pojazdów przy użyciu obrazów 2D otrzymanych z kamery pokładowej. Może również odegrać rolę w produkcji i robotyce.

Tianfu Wu jest autorem korespondencyjnym Referat naukowy oraz adiunkt inżynierii elektrycznej i komputerowej na Uniwersytecie Stanowym Karoliny Północnej. 

„Żyjemy w świecie 3D, ale kiedy robisz zdjęcie, rejestruje ono ten świat w obrazie 2D” – mówi Wu.

„Programy AI otrzymują sygnał wizualny z kamer. Jeśli więc chcemy, aby sztuczna inteligencja wchodziła w interakcję ze światem, musimy zadbać o to, aby była w stanie zinterpretować to, co obrazy 2D mogą jej powiedzieć o przestrzeni 3D. W tych badaniach koncentrujemy się na jednej części tego wyzwania: w jaki sposób możemy zmusić sztuczną inteligencję do dokładnego rozpoznawania obiektów 3D – takich jak ludzie czy samochody – na obrazach 2D i umieszczania tych obiektów w przestrzeni” – kontynuuje Wu. 

Autonomiczne pojazdy

Pojazdy autonomiczne często korzystają z lidaru do nawigacji w przestrzeni 3D. Lidar, który wykorzystuje lasery do pomiaru odległości, jest drogi, co oznacza, że ​​systemy autonomiczne nie zapewniają dużej redundancji. Umieszczenie kilkudziesięciu czujników lidarowych w masowo produkowanym samochodzie autonomicznym byłoby niezwykle kosztowne. 

„Gdyby jednak pojazd autonomiczny mógł wykorzystywać dane wizualne do poruszania się w przestrzeni, można byłoby zapewnić redundancję” – mówi Wu. „Ponieważ kamery są znacznie tańsze niż lidar, ekonomicznie uzasadnione byłoby dodanie dodatkowych kamer, zapewniając redundancję systemu i czyniąc go zarówno bezpieczniejszym, jak i solidniejszym.

„To jedno praktyczne zastosowanie. Jednakże jesteśmy również podekscytowani zasadniczym postępem tej pracy: możliwością uzyskania danych 3D z obiektów 2D”.

Szkolenie sztucznej inteligencji

MonoCon może identyfikować obiekty 3D na obrazach 2D przed umieszczeniem ich w „ramce ograniczającej”, która informuje sztuczną inteligencję o zewnętrznych krawędziach obiektu. 

„Naszą pracę wyróżnia sposób, w jaki szkolimy sztuczną inteligencję w oparciu o wcześniejsze techniki szkoleniowe” – mówi Wu. „Podobnie jak w przypadku poprzednich wysiłków, podczas szkolenia sztucznej inteligencji umieszczamy obiekty w ramkach ograniczających 3D. Jednakże oprócz proszenia sztucznej inteligencji o przewidzenie odległości kamery od obiektu i wymiarów obwiedni, prosimy również sztuczną inteligencję o przewidzenie lokalizacji każdego z ośmiu punktów ramki oraz jej odległości od środka obwiedni pudełko w dwóch wymiarach. Nazywamy to „kontekstem pomocniczym” i odkryliśmy, że pomaga on sztucznej inteligencji dokładniej identyfikować i przewidywać obiekty 3D na podstawie obrazów 2D.

„Proponowana metoda jest motywowana dobrze znanym twierdzeniem teorii miary, twierdzeniem Craméra-Wolda. Można je również potencjalnie zastosować do innych zadań przewidywania wyników ustrukturyzowanych w wizji komputerowej.

MonoCon został przetestowany przy użyciu powszechnie używanego zestawu danych porównawczych o nazwie KITTI.

„W momencie, gdy przesyłaliśmy ten artykuł, MonoCon działał lepiej niż którykolwiek z kilkudziesięciu innych programów AI, których celem było wyodrębnianie danych 3D o samochodach z obrazów 2D” – mówi Wu.

Zespół będzie teraz starał się zwiększyć skalę procesu przy użyciu większych zbiorów danych.

„W przyszłości zwiększamy skalę tego rozwiązania i pracujemy z większymi zbiorami danych, aby ocenić i udoskonalić MonoCon pod kątem zastosowania w pojazdach autonomicznych” – mówi Wu. „Chcemy także zbadać zastosowania w produkcji, aby sprawdzić, czy możemy poprawić wydajność zadań, takich jak wykorzystanie ramion robotycznych”.

Alex McFarland jest dziennikarzem i pisarzem zajmującym się sztuczną inteligencją badającym najnowsze osiągnięcia w dziedzinie sztucznej inteligencji. Współpracował z wieloma startupami i publikacjami AI na całym świecie.