Ángulo de Anderson
Conversión de LiDAR a Imágenes Foto-Realistas con una Red Adversaria Generativa

Earlier esta semana, se publicó un video que muestra un sistema de piloto automático de Tesla chocando directamente contra un vehículo detenido en una autopista en junio de 2021. El hecho de que el coche fuera oscuro y difícil de discernir ha generado discusión sobre las limitaciones de confiar en la visión por computadora en escenarios de conducción autónoma.

El video publicado en diciembre de 2021 muestra el momento del impacto. Fuente: https://twitter.com/greentheonly/status/1473307236952940548
Aunque la compresión de video en el video ampliamente compartido da una impresión ligeramente exagerada de cómo el camión inmovilizado ‘se acercó’ al conductor en este caso, un video de mayor calidad del mismo evento demuestra que un conductor completamente alerta también habría tenido dificultades para responder con algo más que un viraje tardío o un frenado semi-eficaz.
El video agrega controversia sobre la decisión de Tesla de eliminar sensores de radar para Autopilot, anunciada en mayo de 2021, y su postura sobre favorecer sistemas basados en visión sobre otras tecnologías de eco-localización, como LiDAR.
Por coincidencia, un nuevo artículo de investigación de Israel esta semana ofrece un enfoque para combinar los dominios de LiDAR y visión por computadora, convirtiendo nubes de puntos de LiDAR en imágenes foto-realistas con el uso de una Red Adversaria Generativa (GAN).

En el nuevo proyecto de Israel, los coches negros identificados en las imágenes de LiDAR se convierten en un escenario de ‘día’ para análisis basados en visión por computadora, similar al enfoque que Tesla está siguiendo para el desarrollo de su sistema Autopilot. Fuente: https://arxiv.org/pdf/2112.11245.pdf
Los autores afirman:
‘Nuestros modelos aprendieron a predecir imágenes realistas desde solo datos de nubes de puntos, incluso imágenes con coches negros.
‘Los coches negros son difíciles de detectar directamente desde nubes de puntos debido a su bajo nivel de reflectividad. Este enfoque podría usarse en el futuro para realizar reconocimiento de objetos visuales en imágenes foto-realistas generadas desde nubes de puntos de LiDAR.’
Imágenes Foto-Realistas, Flujos de Imágenes Basados en LiDAR
El nuevo artículo se titula Generación de Imágenes Foto-Realistas desde Nubes de Puntos de LiDAR con Redes Adversarias Generativas, y proviene de siete investigadores de tres facultades académicas israelíes, junto con seis investigadores de la empresa israelí Innoviz Technologies.
Los investigadores se propusieron descubrir si la imaginería sintética basada en GAN podría producirse a una tasa adecuada desde las nubes de puntos generadas por sistemas de LiDAR, para que la posterior secuencia de imágenes podría usarse en flujos de trabajo de reconocimiento de objetos y segmentación semántica.
Datos
La idea central, como en muchos proyectos de transliteración de imagen [x]>[x] novedosos, es entrenar un algoritmo en datos emparejados, donde las imágenes de nubes de puntos de LiDAR (que dependen de la luz emitida por el dispositivo) se entrenan contra un marco coincidente desde una cámara frontal.
Como el video se grabó durante el día, donde un sistema de visión por computadora puede individuar más fácilmente un vehículo completamente negro (como el que chocó el Tesla en junio), este entrenamiento debería proporcionar una verdad fundamental más resistente a condiciones oscuras.
Los datos se recopilaron con un sensor LiDAR InnovizOne, que ofrece una tasa de captura de 10fps o 15fps, dependiendo del modelo.

Datos de LiDAR capturados por un dispositivo Innoviz. Fuente: https://www.youtube.com/watch?v=wmcaf_VpsQI
El conjunto de datos resultante contenía alrededor de 30,000 imágenes y 200,000 puntos 3D recopilados. Los investigadores realizaron dos pruebas: una en la que los datos de la nube de puntos solo llevaban información de reflectividad; y una segunda, en la que los datos de la nube de puntos tenían dos canales, uno para reflectividad y otro para distancia.
Para el primer experimento, la GAN se entrenó durante 50 épocas, más allá de las cuales se observó un problema de sobreajuste.

Imágenes creadas por la GAN en el primer experimento. A la izquierda, datos de nubes de puntos; en el medio, marcos reales de la filmación capturada, utilizados como verdad fundamental; a la derecha, las representaciones sintéticas creadas por la Red Adversaria Generativa.
Los autores comentan:
‘El conjunto de pruebas es una grabación completamente nueva que la GAN nunca ha visto antes de la prueba. Esto se predijo utilizando solo información de reflectividad de la nube de puntos.
‘Seleccionamos mostrar marcos con coches negros porque los coches negros suelen ser difíciles de detectar desde LiDAR. Podemos ver que el generador aprendió a generar coches negros, probablemente desde información contextual, debido a que los colores y las formas exactas de los objetos en las imágenes predichas no son idénticos a los de las imágenes reales.’
Para el segundo experimento, los autores entrenaron la GAN durante 40 épocas con un tamaño de lote de 1, lo que resultó en una presentación similar de ‘coches negros representativos’ obtenidos en gran medida desde el contexto. Esta configuración también se utilizó para generar un video que muestra la filmación generada por la GAN (mostrada arriba, en la imagen de muestra a continuación) junto con la filmación de verdad fundamental.
Evaluación
El proceso habitual de evaluación y comparación con el estado actual de la técnica no fue posible con este proyecto, debido a su naturaleza única. En su lugar, los investigadores diseñaron una métrica personalizada sobre la medida en que los coches (partes menores y fugaces de la filmación de origen) están representados en la filmación de salida.
Seleccionaron 100 pares de imágenes LiDAR/Generadas de cada conjunto y dividieron efectivamente el número de imágenes de coches presentes en la filmación de origen al número presente en los datos sintéticos producidos, produciendo una escala métrica de 0 a 1.
Los autores afirman:
‘La puntuación en ambos experimentos fue entre 0,7 y 0,8. Considerando el hecho de que la calidad general de las imágenes predichas es inferior a la de las imágenes reales (es más difícil en general detectar objetos en imágenes de menor calidad), esta puntuación indica que la gran mayoría de los coches que están presentes en la verdad fundamental están presentes en las imágenes predichas.’
Los investigadores concluyeron que la detección de vehículos negros, que es un problema para ambos sistemas basados en visión por computadora y para LiDAR, puede realizarse identificando una falta de datos para secciones de la imagen:
‘El hecho de que en las imágenes predichas, la información de color y las formas exactas no sean idénticas a la verdad fundamental, sugiere que la predicción de coches negros se deriva en gran medida de información contextual y no de la reflectividad de LiDAR de los puntos en sí.
‘Sugerimos que, además del sistema LiDAR convencional, un segundo sistema que genere imágenes foto-realistas desde nubes de puntos de LiDAR funcionaría simultáneamente para el reconocimiento de objetos visuales en tiempo real.’
Los investigadores pretenden desarrollar el trabajo en el futuro, con conjuntos de datos más grandes.
Latencia y la Pila de Procesamiento de SDV Congestinada
Un comentarista en la publicación de Twitter del accidente de Autopilot estimó que, viajando a unos 75mph (110 pies por segundo), una secuencia de video que opera a 20fps solo cubriría 5,5 pies por cuadro. Sin embargo, si el vehículo estaba ejecutando el hardware y software más recientes de Tesla, la tasa de cuadros habría sido de 36fps (para la cámara principal), lo que establece la tasa de evaluación en 110 pies por segundo (tres pies por cuadro).
Además del costo y la ergonomía, el problema de usar LiDAR como una secuencia de datos suplementaria es la escala masiva del ’embotellamiento’ de entrada de sensor en el marco de procesamiento de SDV. Combinado con la naturaleza crítica de la tarea, esto parece haber obligado a radar y LiDAR a salir de la pila de Autopilot en favor de métodos de evaluación basados en imágenes.
Por lo tanto, parece poco probable que un sistema que use LiDAR, que en sí mismo agregaría a un cuello de botella de procesamiento en Autopilot, para inferir imágenes foto-realistas sea factible desde el punto de vista de Tesla.
El fundador de Tesla, Elon Musk, no es un crítico en blanco de LiDAR, que señala que se utiliza en SpaceX para procedimientos de atraque, pero considera que la tecnología es ‘inútil’ para vehículos autónomos. Musk sugiere que una longitud de onda que penetre las occlusiones, como la precisión del radar de ~4mm, sería más útil.
Sin embargo, a partir de junio de 2021, los vehículos de Tesla no están equipados con radar. No parece haber muchos proyectos diseñados para generar secuencias de imágenes desde radar de la misma manera que el proyecto israelí actual intenta (aunque el Departamento de Energía de EE. UU. patrocinó un intento de imágenes de radar con GAN en 2018).
Publicado por primera vez el 23 de diciembre de 2021.












