Connect with us

Convirtiendo LiDAR a Imágenes Foto-Realistas con una Red Adversaria Generativa

Inteligencia artificial

Convirtiendo LiDAR a Imágenes Foto-Realistas con una Red Adversaria Generativa

mm

Hace poco se publicaron imágenes que muestran un sistema de piloto automático de Tesla chocando directamente contra el lado de un vehículo detenido en una autopista en junio de 2021. El hecho de que el coche fuera oscuro y difícil de discernir ha generado discusión sobre las limitaciones de confiar en la visión por computadora en escenarios de conducción autónoma.

Las imágenes publicadas en diciembre de 2021 muestran el momento del impacto. Fuente: https://twitter.com/greentheonly/status/1473307236952940548

Las imágenes publicadas en diciembre de 2021 muestran el momento del impacto. Fuente: https://twitter.com/greentheonly/status/1473307236952940548

Aunque la compresión de video en las imágenes compartidas ampliamente da una impresión ligeramente exagerada de lo rápido que el camión inmovilizado ‘se acercó’ al conductor en este caso, un video de mayor calidad del mismo evento demuestra que un conductor completamente alerta también habría tenido dificultades para responder con algo más que un viraje tardío o frenado semi-efectivo.

Las imágenes agregan controversia sobre la decisión de Tesla de eliminar sensores de radar para Autopilot, anunciada en mayo de 2021, y su postura sobre favorecer sistemas basados en visión sobre otras tecnologías de eco-localización, como LiDAR.

Por casualidad, un nuevo artículo de investigación de Israel esta semana ofrece un enfoque para combinar los dominios de LiDAR y visión por computadora, convirtiendo nubes de puntos LiDAR en imágenes foto-realistas con el uso de una Red Adversaria Generativa (GAN).

En el nuevo proyecto de Israel, los coches negros identificados en las imágenes LiDAR se convierten en un escenario de 'día' para análisis basados en visión por computadora, similar al enfoque que Tesla está siguiendo para el desarrollo de su sistema Autopilot. Fuente: https://arxiv.org/pdf/2112.11245.pdf

En el nuevo proyecto de Israel, los coches negros identificados en las imágenes LiDAR se convierten en un escenario de ‘día’ para análisis basados en visión por computadora, similar al enfoque que Tesla está siguiendo para el desarrollo de su sistema Autopilot. Fuente: https://arxiv.org/pdf/2112.11245.pdf

Los autores afirman:

‘Nuestros modelos aprendieron a predecir imágenes realistas desde solo datos de nubes de puntos, incluso imágenes con coches negros.

‘Los coches negros son difíciles de detectar directamente desde nubes de puntos debido a su bajo nivel de reflectividad. Este enfoque podría usarse en el futuro para realizar reconocimiento de objetos visuales en imágenes foto-realistas generadas a partir de nubes de puntos LiDAR.’

Flujos de Imágenes Foto-Realistas, Basados en LiDAR

El nuevo artículo se titula Generando Imágenes Foto-Realistas a partir de Nubes de Puntos LiDAR con Redes Adversarias Generativas, y proviene de siete investigadores de tres facultades académicas israelíes, junto con seis investigadores de la empresa israelí Innoviz Technologies.

Los investigadores se propusieron descubrir si la imaginería sintética basada en GAN podría producirse a una tasa adecuada a partir de las nubes de puntos generadas por sistemas LiDAR, para que la posterior secuencia de imágenes podría usarse en flujos de trabajo de reconocimiento de objetos y segmentación semántica.

Datos

La idea central, como en muchos proyectos de transliteración de imagen [x] > [x] novedosos, es entrenar un algoritmo en datos emparejados, donde las imágenes de nubes de puntos LiDAR (que dependen de la luz emitida por el dispositivo) se entrenan contra un marco coincidente de una cámara frontal.

Dado que las imágenes se tomaron durante el día, donde un sistema de visión por computadora puede individuar más fácilmente un vehículo completamente negro (como el que chocó Tesla en junio), este entrenamiento debería proporcionar una verdad fundamental más resistente a condiciones oscuras.

Los datos se recopilaron con un sensor LiDAR InnovizOne, que ofrece una tasa de captura de 10fps o 15fps, dependiendo del modelo.

Datos LiDAR capturados por un dispositivo Innoviz. Fuente: https://www.youtube.com/watch?v=wmcaf_VpsQI

Datos LiDAR capturados por un dispositivo Innoviz. Fuente: https://www.youtube.com/watch?v=wmcaf_VpsQI

El conjunto de datos resultante contenía alrededor de 30,000 imágenes y 200,000 puntos 3D recopilados. Los investigadores realizaron dos pruebas: una en la que los datos de la nube de puntos solo llevaban información de reflectividad; y una segunda, en la que los datos de la nube de puntos tenían dos canales, uno para reflectividad y otro para distancia.

Para el primer experimento, la GAN se entrenó durante 50 épocas, más allá de las cuales se vio que el sobreajuste era un problema.

Imágenes creadas por la GAN en el primer experimento. A la izquierda, datos de la nube de puntos; en el medio, marcos reales de las imágenes capturadas, utilizados como verdad fundamental; a la derecha, las representaciones sintéticas creadas por la Red Adversaria Generativa.

Imágenes creadas por la GAN en el primer experimento. A la izquierda, datos de la nube de puntos; en el medio, marcos reales de las imágenes capturadas, utilizados como verdad fundamental; a la derecha, las representaciones sintéticas creadas por la Red Adversaria Generativa.

Los autores comentan:

‘El conjunto de pruebas es una grabación completamente nueva que las GAN nunca habían visto antes de la prueba. Esto se predijo utilizando solo información de reflectividad de la nube de puntos.

‘Seleccionamos mostrar marcos con coches negros porque los coches negros suelen ser difíciles de detectar desde LiDAR. Podemos ver que el generador aprendió a generar coches negros, probablemente a partir de información contextual, debido al hecho de que los colores y las formas exactas de los objetos en las imágenes predichas no son idénticos a los de las imágenes reales.’

Para el segundo experimento, los autores entrenaron la GAN durante 40 épocas con un tamaño de lote de 1, lo que resultó en una presentación similar de ‘coches negros representativos’ obtenidos en gran medida a partir del contexto. Esta configuración también se utilizó para generar un video que muestra las imágenes generadas por la GAN (que se muestran arriba, en la imagen de muestra a continuación) junto con las imágenes de verdad fundamental.

Evaluación

El proceso habitual de evaluación y comparación con el estado actual de la técnica no fue posible con este proyecto, debido a su naturaleza única. En su lugar, los investigadores diseñaron una métrica personalizada con respecto a la medida en que los coches (partes menores y fugaces de las imágenes de origen) están representados en las imágenes de salida.

Seleccionaron 100 pares de imágenes LiDAR/Generadas de cada conjunto y dividieron efectivamente el número de imágenes de coches presentes en las imágenes de origen al número presente en los datos sintéticos producidos, lo que produjo una escala de métrica de 0 a 1.

Los autores afirman:

‘La puntuación en ambos experimentos estuvo entre 0,7 y 0,8. Considerando el hecho de que la calidad general de las imágenes predichas es inferior a la de las imágenes reales (es más difícil en general detectar objetos en imágenes de menor calidad), esta puntuación indica que la gran mayoría de los coches que están presentes en la verdad fundamental están presentes en las imágenes predichas.’

Los investigadores concluyeron que la detección de vehículos negros, que es un problema tanto para los sistemas basados en visión por computadora como para LiDAR, puede realizarse identificando una falta de datos para secciones de la imagen:

‘El hecho de que en las imágenes predichas, la información de color y las formas exactas no sean idénticas a la verdad fundamental, sugiere que la predicción de coches negros se deriva principalmente de información contextual y no de la reflectividad LiDAR de los puntos en sí.

‘Sugerimos que, además del sistema LiDAR convencional, un segundo sistema que genere imágenes foto-realistas a partir de nubes de puntos LiDAR funcionaría simultáneamente para el reconocimiento de objetos visuales en tiempo real.’

Los investigadores tienen la intención de desarrollar el trabajo en el futuro, con conjuntos de datos más grandes.

Latencia y la Pila de Procesamiento de SDV Congestinada

Un comentarista en la publicación de Twitter muy compartida del accidente de Autopilot estimó que, viajando a unos 120 km/h (110 pies por segundo), una secuencia de video que opera a 20fps solo cubriría 1,7 metros por cuadro. Sin embargo, si el vehículo estaba ejecutando el hardware y software más recientes de Tesla, la tasa de cuadros habría sido de 36fps (para la cámara principal), lo que establece la tasa de evaluación en 110 pies por segundo (tres pies por cuadro).

Además del costo y la ergonomía, el problema de usar LiDAR como flujo de datos suplementario es la escala masiva del ‘atasco de información’ de la entrada del sensor al marco de procesamiento de SDV. Combinado con la naturaleza crítica de la tarea, esto parece haber forzado a radar y LiDAR a salir de la pila de Autopilot en favor de métodos de evaluación basados en imágenes.

Parece poco probable que un sistema que use LiDAR, que en sí mismo agregaría a un cuello de botella de procesamiento en Autopilot, para inferir imágenes foto-realistas sea factible desde el punto de vista de Tesla.

El fundador de Tesla, Elon Musk, no es un crítico en blanco de LiDAR, que señala que se utiliza en SpaceX para procedimientos de atraque, pero considera que la tecnología es ‘inútil’ para vehículos autónomos. Musk sugiere que una longitud de onda que penetre las occlusiones, como la precisión radar de ~4mm, sería más útil.

Sin embargo, a partir de junio de 2021, los vehículos Tesla no están equipados con radar. No parece haber muchos proyectos diseñados para generar flujos de imágenes a partir de radar de la misma manera que el proyecto israelí actual intenta (aunque el Departamento de Energía de EE. UU. patrocinó un intento de imaginería GAN con radar en 2018).

Publicado por primera vez el 23 de diciembre de 2021.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.