Intelligence Artificielle
Conversion de LiDAR en imagerie photo-réelle avec un réseau accusatoire génératif

Plus tôt cette semaine, des images ont été libéré montrant un système de pilote automatique Tesla s'écraser directement sur le côté d'un véhicule en panne sur une autoroute en juin 2021. Le fait que la voiture était sombre et difficile à discerner a incité spirituelle sur les limites du recours à la vision par ordinateur dans les scénarios de conduite autonome.

Les images publiées en décembre 2021 montrent le moment de l'impact. Source : https://twitter.com/greentheonly/status/1473307236952940548
Bien que la compression vidéo dans les images largement partagées donne une impression légèrement exagérée de la rapidité avec laquelle le camion immobilisé s'est « faufilé » sur le conducteur dans ce cas, une vidéo de meilleure qualité du même événement démontre qu'un conducteur pleinement alerte aurait également eu du mal à réagir autrement qu'avec un écart tardif ou un freinage semi-efficace.
Les images ajoutent à la controverse autour de Tesla décision de supprimer les capteurs radar pour le pilote automatique, annoncé en mai 2021, et sa position sur privilégier les systèmes basés sur la vision sur d'autres technologies d'écho-localisation telles que LiDAR.
Par coïncidence, un nouveau document de recherche israélien cette semaine propose une approche pour chevaucher les domaines du LiDAR et de la vision par ordinateur, en convertissant les nuages de points LiDAR en imagerie photo-réelle à l'aide d'un réseau antagoniste génératif (GAN).

Dans le nouveau projet israélien, les voitures noires identifiées dans les images LiDAR sont converties en un scénario « lumière du jour » pour des analyses basées sur la vision par ordinateur, similaire à la voie que Tesla poursuit pour le développement de son système Autopilot. Source : https://arxiv.org/pdf/2112.11245.pdf
Les auteurs déclarent:
«Nos modèles ont appris à prédire des images réalistes à partir de données de nuages de points uniquement, même des images avec des voitures noires.
Les voitures noires sont difficiles à détecter directement à partir de nuages de points en raison de leur faible réflectivité. Cette approche pourrait être utilisée à l'avenir pour effectuer une reconnaissance visuelle d'objets sur des images photoréalistes générées à partir de nuages de points LiDAR.
Flux d'images photo-réelles basées sur LiDAR
L'espace nouveau papier est intitulé Génération d'images photoréalistes à partir de nuages de points LiDAR avec des réseaux antagonistes génératifs, et vient de sept chercheurs de trois facultés universitaires israéliennes, ainsi que de six chercheurs de la société israélienne Innoviz Technologies.
Les chercheurs ont cherché à découvrir si l'imagerie synthétique basée sur le GAN pouvait être produite à un rythme approprié à partir des nuages de points générés par les systèmes LiDAR, afin que le flux d'images suivant puisse être utilisé dans les workflows de reconnaissance d'objets et de segmentation sémantique.
Date
L'idée centrale, comme dans tant d'autres nouveaux projets de translittération d'images [x]>[x], consiste à former un algorithme sur des données appariées, où les images de nuages de points LiDAR (qui reposent sur la lumière émise par l'appareil) sont formées par rapport à un cadre correspondant d'une caméra frontale.
Étant donné que les images ont été prises pendant la journée, où un système de vision par ordinateur peut plus facilement identifier un véhicule entièrement noir autrement insaisissable (comme celui dans lequel la Tesla s'est écrasée en juin), cette formation devrait fournir une vérité fondamentale centrale plus résistante aux conditions d'obscurité.
Les données ont été recueillies avec un capteur InnovizOne LiDAR, qui offre un taux de capture de 10 ips ou 15 ips, selon le modèle.

Données LiDAR capturées par un appareil Innoviz. Source : https://www.youtube.com/watch?v=wmcaf_VpsQI
L'ensemble de données résultant contenait environ 30,000 200,000 images et 3 XNUMX points XNUMXD collectés. Les chercheurs ont mené deux tests : un dans lequel les données du nuage de points ne contenaient que des informations de réflectivité ; et un second, dans lequel les données du nuage de points avaient deux canaux, un pour la réflectivité et un pour la distance.
Pour la première expérience, le GAN a été formé à 50 époques, au-delà desquelles le surajustement a été considéré comme un problème.

Images créées par le GAN à partir de la première expérience. À gauche, données de nuages de points ; au milieu, des images réelles de séquences capturées, utilisées comme vérité terrain ; à droite, les représentations synthétiques créées par le Generative Adversarial Network.
Les auteurs commentent :
"L'ensemble de test est un enregistrement complètement nouveau que les GAN n'ont jamais vu avant le test. Cela a été prédit en utilisant uniquement les informations de réflectivité du nuage de points.
« Nous avons choisi d'afficher des images avec des voitures noires, car celles-ci sont généralement difficiles à détecter par LiDAR. Nous constatons que le générateur a appris à générer des voitures noires, probablement à partir d'informations contextuelles, car les couleurs et les formes exactes des objets dans les images prédites ne sont pas identiques à celles des images réelles. »
Pour la deuxième expérience, les auteurs ont entraîné le GAN à 40 époques avec une taille de lot de 1, ce qui a donné lieu à une présentation similaire de voitures noires « représentatives », obtenue en grande partie à partir du contexte. Cette configuration a également été utilisée pour générer un face qui montre les images générées par le GAN (photo ci-dessus, dans l'exemple d'image ci-dessous) ainsi que les images de vérité au sol.
Évaluation
Le processus habituel d'évaluation et de comparaison avec l'état de l'art existant n'a pas été possible avec ce projet, en raison de sa nature unique. Au lieu de cela, les chercheurs ont conçu une métrique personnalisée concernant la mesure dans laquelle les voitures (parties mineures et éphémères de la séquence source) sont représentées dans la séquence de sortie.
Ils ont sélectionné 100 paires d'images LiDAR/générées dans chaque ensemble et ont effectivement divisé le nombre d'images de voitures présentes dans les images source par le nombre présent dans les données synthétiques produites, produisant une échelle métrique de 0 à 1.
Les auteurs déclarent:
Le score des deux expériences se situait entre 0.7 et 0.8. Étant donné que la qualité générale des images prédites est inférieure à celle des images réelles (il est généralement plus difficile de détecter des objets dans des images de qualité inférieure), ce score indique que la grande majorité des voitures présentes dans la réalité terrain sont présentes dans les images prédites.
Les chercheurs ont conclu que la détection des véhicules noirs, qui est un problème à la fois pour les systèmes basés sur la vision par ordinateur et pour le LiDAR, peut être effectuée en identifiant un Défaut de données pour les sections de l'image :
«Le fait que dans les images prédites, les informations de couleur et les formes exactes ne soient pas identiques à la vérité terrain, suggère que cette prédiction des voitures noires est principalement dérivée d'informations contextuelles et non de la réflectivité LiDAR des points eux-mêmes.
« Nous suggérons qu'en plus du système LiDAR conventionnel, un deuxième système générant des images photoréalistes à partir de nuages de points LiDAR fonctionnerait simultanément pour la reconnaissance visuelle d'objets en temps réel. »
Les chercheurs ont l'intention de développer les travaux à l'avenir, avec des ensembles de données plus importants.
Latence et pile de traitement SDV encombrée
Un commentateur sur le tweet très partagé concernant l'accident du pilote automatique a estimé qu'à environ 75 km/h (110 mètres par seconde), une vidéo à 20 images par seconde ne couvrirait que 5.5 mètre par image. Or, si le véhicule était équipé des derniers matériels et logiciels Tesla, la fréquence d'images aurait été de 36 images par seconde (pour la caméra principale), ce qui fixe la fréquence d'évaluation à 110 pieds par seconde (trois pieds par cadre).
Outre le coût et l'ergonomie, le problème de l'utilisation du LiDAR comme flux de données supplémentaire réside dans l'ampleur de l'encombrement informationnel des données d'entrée des capteurs dans le cadre de traitement SDV. Combiné à la nature critique de la tâche, ce problème semble avoir contraint le radar et le LiDAR à quitter la pile de pilotage automatique au profit de méthodes d'évaluation basées sur l'image.
Il semble donc peu probable qu'un système utilisant LiDAR – qui en soi ajouterait un goulot d'étranglement de traitement sur Autopilot – pour déduire des images photo-réelles soit réalisable du point de vue de Tesla.
Le fondateur de Tesla, Elon Musk, n'est pas un critique général du LiDAR, qui il fait remarquer SpaceX utilise cette technologie pour ses procédures d'amarrage, mais estime qu'elle est « inutile » pour les véhicules autonomes. Musk suggère qu'une longueur d'onde pénétrant l'occlusion, comme celle d'environ 4 mm d'un radar de précision, serait plus utile.
Cependant, depuis juin 2021, les véhicules Tesla sont pas équipé de radar non plus. Il ne semble pas y avoir actuellement beaucoup de projets conçus pour générer des flux d'images à partir d'un radar de la même manière que les tentatives de projets israéliens actuels (bien que le département américain de l'énergie commanditée une tentative d'imagerie GAN d'origine radar en 2018).
Première publication le 23 décembre 2021.












