Inteligencia artificial

Síntesis de imágenes humanas a partir de ondas de radio reflejadas

Actualizado on 9 de diciembre de 2022

Investigadores de China han desarrollado un método para sintetizar imágenes casi fotorrealistas de personas sin cámaras, mediante el uso de ondas de radio y Redes generativas antagónicas (GAN). El sistema que han ideado se basa en imágenes reales tomadas con buena luz, pero es capaz de capturar "instantáneas" relativamente auténticas de humanos incluso cuando las condiciones son oscuras, e incluso a través de obstrucciones importantes que ocultarían a las personas de las cámaras convencionales.

Las imágenes se basan en "mapas de calor" de dos antenas de radio, una que captura datos desde el techo hacia abajo y otra que registra perturbaciones de ondas de radio desde una posición "de pie".

Las fotos resultantes de los experimentos de prueba de concepto de los investigadores tienen un aspecto de 'J-Horror' sin rostro:

Basado en el entrenamiento de imágenes reales de personas en el mismo entorno, RFGAN utiliza mapas de calor de ondas de radio para registrar la actividad humana y generar instantáneas que se aproximan a lo que percibe la resolución limitada de las señales de RF de baja frecuencia. Las luces no son necesarias, ya que los colores se perciben (aparentemente) por la forma en que las ondas de radio son perturbadas por la presencia de personas y por las variaciones en la frecuencia a medida que las ondas de radio regresan con una variedad de intensidades de señal y con diferentes características. Fuente: https://arxiv.org/pdf/2112.03727.pdf

RFGAN está entrenado en imágenes de personas reales en entornos controlados y en mapas de calor de ondas de radio que registran la actividad humana. Habiendo aprendido las características de los datos, RFGAN puede generar instantáneas basadas en nuevos datos de RF. La imagen resultante es una aproximación, basada en la resolución limitada de las señales de RF de baja frecuencia disponibles. Este proceso funciona incluso en entornos oscuros y a través de una variedad de obstáculos potenciales. Fuente: https://arxiv.org/pdf/2112.03727.pdf

Para entrenar el GAN, denominado RFGAN, los investigadores utilizaron datos combinados de una cámara RGB estándar y de los mapas de calor de radio correspondientes concatenados que se produjeron en el momento exacto de la captura. Las imágenes de personas sintetizadas en el nuevo proyecto tienden a verse borrosas de manera similar a la fotografía de daguerrotipo temprana, porque la resolución de las ondas de radio utilizadas es muy baja, con una resolución de profundidad de 7.5 cm y una resolución angular de aproximadamente 1.3 grados.

Arriba, la imagen enviada a la red GAN; abajo, los dos mapas de calor, horizontal y vertical, que caracterizan a la persona en la habitación y que se sintetizan dentro de la arquitectura en una representación 3D de los datos perturbados.

El nuevo , Titulado RFGAN: Síntesis humana basada en RF, proviene de seis investigadores de la Universidad de Ciencia y Tecnología Electrónica de China.

Datos y Arquitectura

Debido a la falta de conjuntos de datos o proyectos anteriores que compartieran este alcance, y al hecho de que las señales de RF no se habían utilizado antes en un marco de síntesis de imágenes GAN, los investigadores tuvieron que desarrollar metodologías novedosas.

La arquitectura central de RFGAN.

Se usó la normalización adaptativa para interpretar las imágenes gemelas del mapa de calor durante el entrenamiento, de modo que se correspondan espacialmente con los datos de la imagen capturada.

Los dispositivos de captura de RF eran radares de ondas milimétricas (mmWave) configurados como dos conjuntos de antenas, horizontal y vertical. Para el transceptor se utilizaron antenas lineales y de onda continua modulada en frecuencia (FMCW).

El Generador recibe un marco de origen como una capa de entrada, con la representación fusionada de RF (mapa de calor) orquestando la red a través de la normalización al nivel de las capas convolucionales.

Datos

Los datos se recopilaron a partir de reflejos de la señal de RF de la antena mmWave a solo 20 Hz, con video humano simultáneo capturado a 10 fps muy bajos. Se capturaron nueve escenas de interior, utilizando seis voluntarios, cada uno de los cuales vestía ropa diferente para varias sesiones de recopilación de datos.

El resultado fueron dos conjuntos de datos distintos, RF-Actividad y RF-Paseo, el primero contiene 68,860 imágenes de personas en diferentes posiciones (como cuclillas y caminar), junto con 137,760 67,860 marcos de mapas de calor correspondientes; y el último contiene 135,720 marcos de caminata aleatorios humanos, junto con XNUMX pares de mapas de calor asociados.

Los datos, según la convención, se dividieron de manera desigual entre entrenamiento y prueba, con 55,225 110 cuadros de imagen y 450 320 pares de mapas de calor utilizados para entrenamiento, y el resto retenido para prueba. Los marcos de captura RGB se redimensionaron a 180 × 201 y los mapas de calor se redimensionaron a 160 × XNUMX.

Luego, el modelo se entrenó con Adam a una tasa de aprendizaje constante de 0.0002 tanto para el generador como para el discriminador, en una época de 80 y un tamaño de lote (muy escaso) de 2. El entrenamiento se llevó a cabo a través de PyTorch en un único GTX de nivel de consumidor. -1080 GPU, cuyos 8 gb de VRAM generalmente se considerarían bastante modestos para tal tarea (lo que explica el bajo tamaño del lote).

Aunque los investigadores adaptaron algunas métricas convencionales para probar el realismo de la salida (detalladas en el documento) y realizaron las pruebas de ablación habituales, no hubo un trabajo previo equivalente contra el cual medir el rendimiento de RFGAN.

Interés abierto en señales secretas

RFGAN no es el primer proyecto que intenta usar frecuencias de radio para construir una imagen volumétrica de lo que sucede en una habitación. En 2019, investigadores del MIT CSAIL desarrollaron una arquitectura llamada RF-Avatar, capaz de reconstrucción de humanos en 3D basado en señales de radiofrecuencia en el rango de Wi-Fi, en condiciones severas de oclusión.

En el proyecto MIT CSAIL de 2019, se utilizaron ondas de radio para eliminar oclusiones, incluso paredes y ropa, para recrear sujetos capturados en un flujo de trabajo basado en CGI más tradicional. Fuente: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

Los investigadores del nuevo artículo también reconocen trabajos previos vagamente relacionados con el mapeo del entorno con ondas de radio (ninguno de los cuales intenta recrear humanos fotorrealistas), que buscaba estimar la velocidad humana; ver a través de las paredes con wifi; evaluar poses humanas; e incluso reconocer los gestos humanos, entre varios otros objetivos.

Transferibilidad y aplicabilidad más amplia

Luego, los investigadores se propusieron ver si su descubrimiento se ajustaba demasiado al entorno de captura inicial y las circunstancias de entrenamiento, aunque el documento ofrece pocos detalles sobre esta fase del experimento. Ellos afirman:

'Para implementar nuestro modelo en una nueva escena, no necesitamos volver a entrenar todo el modelo desde el principio. Podemos ajustar el RFGAN preentrenado utilizando muy pocos datos (alrededor de 40 s) para obtener resultados similares.'

Y continúa:

'Las funciones de pérdida y los hiperparámetros son los mismos que en la etapa de entrenamiento. A partir de los resultados cuantitativos, encontramos que el modelo RFGAN preentrenado puede generar marcos de actividad humana deseables en la nueva escena después de un ajuste fino con solo unos pocos datos, lo que significa que nuestro modelo propuesto tiene el potencial de ser ampliamente utilizado.'

Con base en los detalles del artículo sobre esta aplicación fundamental de una nueva técnica, no está claro si la red que los investigadores han creado está 'entrenada en forma' exclusivamente para los sujetos originales, o si los mapas de calor de RF pueden deducir detalles como el color de la ropa. , ya que esto parece estar a caballo entre los dos tipos diferentes de frecuencias involucradas en los métodos de captura óptica y de radio.

De cualquier manera, RFGAN es una forma novedosa de utilizar los poderes imitativos y representativos de las redes adversarias generativas para crear una nueva e intrigante forma de vigilancia, una que potencialmente podría operar en la oscuridad y a través de las paredes, de una manera aún más impresionante que los esfuerzos recientes. a ver esquinas redondeadas con luz reflejada.

8 de diciembre de 2021 (día de la primera publicación), 8:04 GMT+2: palabra repetida eliminada. – MA

Temas relacionados:China la seguridad cibernética síntesis de imagen la investigación vigilancia

Hasta la próxima

Entrenamiento de modelos de visión artificial con ruido aleatorio en lugar de imágenes reales

No Te Lo

Orquestando la síntesis facial con la segmentación semántica

Martin anderson

Escritor sobre aprendizaje automático, inteligencia artificial y big data.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai

Unir.AI

Síntesis de imágenes humanas a partir de ondas de radio reflejadas

Inteligencia artificial