Intelligence Artificielle

Une nouvelle technique aide l'IA à identifier les objets 3D

Publié 6 février 2022

Le kit de préparation mis à jour 9 décembre 2022

Alex McFarland

Image: Université d'État de Caroline du Nord

Une nouvelle technique développée par des chercheurs de la North Carolina State University améliore la capacité des programmes d'intelligence artificielle (IA) à identifier des objets 3D. Appelée MonoCon, la technique aide également l'IA à apprendre comment les objets 3D sont liés les uns aux autres dans l'espace en utilisant des images 2D.

MonoCon pourrait potentiellement avoir un large éventail d'applications, notamment aider les véhicules autonomes à naviguer autour d'autres véhicules à l'aide d'images 2D reçues d'une caméra embarquée. Il pourrait également jouer un rôle dans la fabrication et la robotique.

Tianfu Wu est l'auteur correspondant du document de recherche et professeur adjoint de génie électrique et informatique à la North Carolina State University.

"Nous vivons dans un monde en 3D, mais lorsque vous prenez une photo, elle enregistre ce monde dans une image en 2D", explique Wu.

"Les programmes d'IA reçoivent des informations visuelles des caméras. Donc, si nous voulons que l'IA interagisse avec le monde, nous devons nous assurer qu'elle est capable d'interpréter ce que les images 2D peuvent lui dire sur l'espace 3D. Dans cette recherche, nous nous concentrons sur une partie de ce défi : comment faire en sorte que l'IA reconnaisse avec précision des objets 3D - tels que des personnes ou des voitures - dans des images 2D, et place ces objets dans l'espace », poursuit Wu.

Véhicules autonomes

Les véhicules autonomes s'appuient souvent sur le lidar pour naviguer dans l'espace 3D. Le lidar, qui utilise des lasers pour mesurer la distance, est coûteux, ce qui signifie que les systèmes autonomes n'incluent pas beaucoup de redondance. Mettre des dizaines de capteurs lidar sur une voiture sans conducteur produite en série coûterait incroyablement cher.

"Mais si un véhicule autonome pouvait utiliser des entrées visuelles pour naviguer dans l'espace, vous pourriez créer une redondance", explique Wu. « Étant donné que les caméras sont nettement moins chères que le lidar, il serait économiquement faisable d'inclure des caméras supplémentaires, ce qui créerait une redondance dans le système et le rendrait à la fois plus sûr et plus robuste.

« C'est une application pratique. Cependant, nous sommes également enthousiasmés par l'avancée fondamentale de ces travaux : il est désormais possible d'obtenir des données 3D à partir d'objets 2D. »

Former l'IA

MonoCon peut identifier des objets 3D dans des images 2D avant de les placer dans une "boîte englobante", qui indique à l'IA les bords extérieurs de l'objet.

« Ce qui distingue notre travail, c'est la façon dont nous entraînons l'IA, qui s'appuie sur des techniques d'entraînement antérieures », explique Wu. « Comme pour les précédents travaux, nous plaçons les objets dans des cadres 3D lors de l'entraînement de l'IA. Cependant, en plus de demander à l'IA de prédire la distance caméra-objet et les dimensions des cadres, nous lui demandons également de prédire l'emplacement de chacun des huit points du cadre et sa distance par rapport au centre du cadre en deux dimensions. Nous appelons cela le "contexte auxiliaire", et nous avons constaté qu'il aide l'IA à identifier et à prédire plus précisément les objets 3D à partir d'images 2D. »

« La méthode proposée est motivée par un théorème bien connu en théorie de la mesure, le théorème de Cramér-Wold. Il est également potentiellement applicable à d’autres tâches de prédiction de sortie structurée en vision par ordinateur.

MonoCon a été testé avec un ensemble de données de référence largement utilisé appelé KITTI.

"Au moment où nous avons soumis cet article, MonoCon fonctionnait mieux que n'importe lequel des dizaines d'autres programmes d'IA visant à extraire des données 3D sur les automobiles à partir d'images 2D", déclare Wu.

L'équipe va maintenant chercher à étendre le processus avec des ensembles de données plus importants.

"Pour aller de l'avant, nous étendons cela et travaillons avec des ensembles de données plus importants pour évaluer et affiner MonoCon pour une utilisation dans la conduite autonome", a déclaré Wu. "Nous voulons également explorer les applications dans la fabrication, pour voir si nous pouvons améliorer les performances de tâches telles que l'utilisation de bras robotiques."

Rubriques connexes:AI l'intelligence artificielle Véhicules autonomes

Alex McFarland

Alex McFarland est un journaliste et écrivain en IA qui explore les derniers développements en matière d'intelligence artificielle. Il a collaboré avec de nombreuses startups et publications d'IA dans le monde entier.

Unite.AI

Une nouvelle technique aide l'IA à identifier les objets 3D

Véhicules autonomes

Former l'IA

Tu peux aimer