Intelligence artificielle

Conversion de LiDAR en imagerie photo-réelle avec un réseau accusatoire génératif

Le kit de préparation mis à jour on 9 décembre 2022

Plus tôt cette semaine, des images ont été libéré montrant un système de pilote automatique Tesla s'écraser directement sur le côté d'un véhicule en panne sur une autoroute en juin 2021. Le fait que la voiture était sombre et difficile à discerner a incité spirituelle sur les limites du recours à la vision par ordinateur dans les scénarios de conduite autonome.

Les images publiées en décembre 2021 montrent le moment de l'impact. Source : https://twitter.com/greentheonly/status/1473307236952940548

Bien que la compression vidéo dans les images largement partagées donne une impression légèrement exagérée de la rapidité avec laquelle le camion immobilisé s'est faufilé sur le conducteur dans ce cas, un vidéo de meilleure qualité du même événement démontre qu'un conducteur pleinement alerte aurait également eu du mal à réagir avec autre chose qu'une embardée tardive ou un freinage semi-efficace.

Les images ajoutent à la controverse autour de Tesla décision de supprimer les capteurs radar pour le pilote automatique, annoncé en mai 2021, et sa position sur privilégier les systèmes basés sur la vision sur d'autres technologies d'écho-localisation telles que LiDAR.

Par coïncidence, un nouveau document de recherche israélien cette semaine propose une approche pour chevaucher les domaines du LiDAR et de la vision par ordinateur, en convertissant les nuages de points LiDAR en imagerie photo-réelle à l'aide d'un réseau antagoniste génératif (GAN).

Dans le nouveau projet d'Israël, les voitures noires identifiées dans les images LiDAR sont converties en un scénario "lumière du jour" pour des analyses basées sur la vision par ordinateur, similaire à la tactique que Tesla poursuit pour le développement de son système de pilote automatique. Source : https://arxiv.org/pdf/2112.11245.pdf

Les auteurs déclarent:

«Nos modèles ont appris à prédire des images réalistes à partir de données de nuages de points uniquement, même des images avec des voitures noires.

«Les voitures noires sont difficiles à détecter directement à partir de nuages de points en raison de leur faible niveau de réflectivité. Cette approche pourrait être utilisée à l'avenir pour effectuer une reconnaissance visuelle d'objets sur des images photoréalistes générées à partir de nuages de points LiDAR.

Flux d'images photo-réelles basées sur LiDAR

La nouveau papier est intitulé Génération d'images photoréalistes à partir de nuages de points LiDAR avec des réseaux antagonistes génératifs, et vient de sept chercheurs de trois facultés universitaires israéliennes, ainsi que de six chercheurs de la société israélienne Innoviz Technologies.

Les chercheurs ont cherché à découvrir si l'imagerie synthétique basée sur le GAN pouvait être produite à un rythme approprié à partir des nuages de points générés par les systèmes LiDAR, afin que le flux d'images suivant puisse être utilisé dans les workflows de reconnaissance d'objets et de segmentation sémantique.

Données

L'idée centrale, comme dans tant d'autres nouveaux projets de translittération d'images [x]>[x], consiste à former un algorithme sur des données appariées, où les images de nuages de points LiDAR (qui reposent sur la lumière émise par l'appareil) sont formées par rapport à un cadre correspondant d'une caméra frontale.

Étant donné que les images ont été prises pendant la journée, où un système de vision par ordinateur peut plus facilement identifier un véhicule entièrement noir autrement insaisissable (comme celui dans lequel la Tesla s'est écrasée en juin), cette formation devrait fournir une vérité de terrain centrale qui est plus résistant aux conditions sombres.

Les données ont été recueillies avec un capteur InnovizOne LiDAR, qui offre un taux de capture de 10 ips ou 15 ips, selon le modèle.

Données LiDAR capturées par un appareil Innoviz. Source : https://www.youtube.com/watch?v=wmcaf_VpsQI

L'ensemble de données résultant contenait environ 30,000 200,000 images et 3 XNUMX points XNUMXD collectés. Les chercheurs ont mené deux tests : un dans lequel les données du nuage de points ne contenaient que des informations de réflectivité ; et un second, dans lequel les données du nuage de points avaient deux canaux, un pour la réflectivité et un pour la distance.

Pour la première expérience, le GAN a été formé à 50 époques, au-delà desquelles le surajustement a été considéré comme un problème.

Images créées par le GAN à partir de la première expérience. À gauche, données de nuages de points ; au milieu, des images réelles de séquences capturées, utilisées comme vérité terrain ; à droite, les représentations synthétiques créées par le Generative Adversarial Network.

Les auteurs commentent :

"L'ensemble de test est un enregistrement complètement nouveau que les GAN n'ont jamais vu avant le test. Cela a été prédit en utilisant uniquement les informations de réflectivité du nuage de points.

«Nous avons choisi de montrer des images avec des voitures noires car les voitures noires sont généralement difficiles à détecter à partir du LiDAR. Nous pouvons voir que le générateur a appris à générer des voitures noires, probablement à partir d'informations contextuelles, du fait que les couleurs et les formes exactes des objets dans les images prédites ne sont pas identiques à celles des images réelles.

Pour la deuxième expérience, les auteurs ont formé le GAN à 40 époques avec une taille de lot de 1, ce qui a donné une présentation similaire de voitures noires « représentatives » obtenues en grande partie à partir du contexte. Cette configuration a également été utilisée pour générer un vidéo qui montre les images générées par le GAN (photo ci-dessus, dans l'exemple d'image ci-dessous) ainsi que les images de vérité au sol.

Evaluation

Le processus habituel d'évaluation et de comparaison avec l'état de l'art existant n'a pas été possible avec ce projet, en raison de sa nature unique. Au lieu de cela, les chercheurs ont conçu une métrique personnalisée concernant la mesure dans laquelle les voitures (parties mineures et éphémères de la séquence source) sont représentées dans la séquence de sortie.

Ils ont sélectionné 100 paires d'images LiDAR/générées dans chaque ensemble et ont effectivement divisé le nombre d'images de voitures présentes dans les images source par le nombre présent dans les données synthétiques produites, produisant une échelle métrique de 0 à 1.

Les auteurs déclarent:

«Le score dans les deux expériences était compris entre 0.7 et 0.8. Compte tenu du fait que la qualité générale des images prédites est inférieure à celle des images réelles (il est en général plus difficile de détecter des objets dans des images de moindre qualité), ce score indique que la grande majorité des voitures présentes dans la vérité terrain présente dans les images prédites.'

Les chercheurs ont conclu que la détection des véhicules noirs, qui est un problème à la fois pour les systèmes basés sur la vision par ordinateur et pour le LiDAR, peut être effectuée en identifiant un Défaut de données pour les sections de l'image :

«Le fait que dans les images prédites, les informations de couleur et les formes exactes ne soient pas identiques à la vérité terrain, suggère que cette prédiction des voitures noires est principalement dérivée d'informations contextuelles et non de la réflectivité LiDAR des points eux-mêmes.

«Nous suggérons qu'en plus du système LiDAR conventionnel, un deuxième système qui génère des images photoréalistes à partir de nuages de points LiDAR fonctionnerait simultanément pour la reconnaissance visuelle d'objets en temps réel.»

Les chercheurs ont l'intention de développer les travaux à l'avenir, avec des ensembles de données plus importants.

Latence et pile de traitement SDV encombrée

Un commentateur sur le post Twitter très partagé de l'accident du pilote automatique a estimé que, voyageant à environ 75 mph (110 pieds par seconde), un flux vidéo fonctionnant à 20 ips ne couvrirait que 5.5 pieds par image. Cependant, si le véhicule utilisait les derniers matériels et logiciels de Tesla, la fréquence d'images aurait été 36fps (pour la caméra principale), qui définit le taux d'évaluation à 110 pieds par seconde (trois pieds par cadre).

Outre le coût et l'ergonomie, le problème de l'utilisation du LiDAR comme flux de données supplémentaire est l'ampleur même de l'« embouteillage » informationnel de l'entrée du capteur dans le cadre de traitement SDV. Combiné à la nature critique de la tâche, cela semble avoir forcé le radar et le LiDAR à sortir de la pile du pilote automatique au profit de méthodes d'évaluation basées sur l'image.

Par conséquent, il semble peu probable qu'un système utilisant LiDAR - qui en soi ajouterait à un goulot d'étranglement de traitement sur le pilote automatique - pour déduire des images photo-réelles soit réalisable du point de vue de Tesla.

Le fondateur de Tesla, Elon Musk, n'est pas un critique général du LiDAR, qui il fait remarquer est utilisé par SpaceX pour les procédures d'amarrage, mais considère que la technologie est "inutile" pour les véhicules autonomes. Musk suggère qu'une longueur d'onde pénétrant dans l'occlusion, telle que le radar de précision d'environ 4 mm, serait plus utile.

Cependant, depuis juin 2021, les véhicules Tesla sont pas équipé de radar non plus. Il ne semble pas y avoir actuellement beaucoup de projets conçus pour générer des flux d'images à partir d'un radar de la même manière que les tentatives de projets israéliens actuels (bien que le département américain de l'énergie commanditée une tentative d'imagerie GAN d'origine radar en 2018).

Première publication le 23 décembre 2021.

S'attaquer à la montagne PDF du gouvernement américain avec la vision par ordinateur

Ne manquez pas

Une étude de Datagen suggère une adoption généralisée des données synthétiques

Martin Anderson

Écrivain sur l'apprentissage automatique, l'intelligence artificielle et le big data.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai