Inteligência artificial

Síntese de Imagem Humana a Partir de Ondas de Rádio Refletidas

Published December 8, 2021

Updated April 5, 2026

Martin Anderson

Pesquisadores da China desenvolveram um método para sintetizar imagens quase fotorealistas de pessoas sem câmeras, utilizando ondas de rádio e Redes Adversárias Generativas (GANs). O sistema que eles conceberam é treinado em imagens reais tiradas em boa luz, mas é capaz de capturar ‘fotos’ relativamente autênticas de humanos mesmo quando as condições são escuras – e mesmo através de obstruções significativas que esconderiam as pessoas de câmeras convencionais.

As imagens dependem de ‘mapas de calor’ de duas antenas de rádio, uma capturando dados do teto para baixo, e outra registrando perturbações de ondas de rádio a partir de uma posição ’em pé’.

As fotos resultantes dos experimentos de prova de conceito dos pesquisadores têm um aspecto ‘faceless’, ‘J-Horror’:

Com base no treinamento de imagens reais de pessoas no mesmo ambiente, RFGAN usa mapas de calor de ondas de rádio para registrar atividade humana e gerar fotos que aproximam o que a resolução limitada dos sinais de RF de baixa frequência percebeu. Luzes não são necessárias, desde que as cores sejam (aparentemente) percebidas pela forma como as ondas de rádio são perturbadas pela presença das pessoas, e por variações de frequência à medida que as ondas de rádio retornam com uma variedade de forças de sinal e com características diferentes. Fonte: https://arxiv.org/pdf/2112.03727.pdf

RFGAN é treinado em imagens de pessoas reais em ambientes controlados e em mapas de calor de ondas de rádio que registram atividade humana. Tendo aprendido recursos dos dados, RFGAN pode então gerar fotos com base em novos dados de RF. A imagem resultante é uma aproximação, com base na resolução limitada dos sinais de RF de baixa frequência disponíveis. Esse processo funciona mesmo em ambientes escurecidos, e através de uma variedade de obstáculos potenciais. Fonte: https://arxiv.org/pdf/2112.03727.pdf

Para treinar a GAN, apelidada de RFGAN, os pesquisadores usaram dados combinados de uma câmera RGB padrão e das correspondentes tramas de calor de ondas de rádio que foram produzidas no exato momento da captura. Imagens de pessoas sintetizadas no novo projeto tendem a ser borradas de uma maneira semelhante à fotografia Daguerreotype inicial, porque a resolução das ondas de rádio usadas é muito baixa, com uma resolução de profundidade de 7,5 cm e uma resolução angular de cerca de 1,3 graus.

Acima, a imagem alimentada à rede GAN – abaixo, as duas tramas de calor, horizontal e vertical, que caracterizam a pessoa no quarto, e que são sintetizadas dentro da arquitetura em uma representação 3D dos dados perturbados.

O novo artigo, intitulado RFGAN: Síntese de Humanos Baseada em RF, vem de seis pesquisadores da Universidade de Ciência e Tecnologia Eletrônica da China.

Dados e Arquitetura

Devido à falta de qualquer conjunto de dados ou projetos anteriores que compartilhassem esse escopo, e ao fato de que sinais de RF não foram usados antes em um quadro de síntese de imagem GAN, os pesquisadores tiveram que desenvolver metodologias novas.

A arquitetura central de RFGAN.

Normalização adaptativa foi usada para interpretar as imagens de trama de calor gêmeas durante o treinamento, para que elas correspondam espacialmente com os dados de imagem capturados.

Os dispositivos de captura de RF foram radars de onda milimétrica (mmWave) configurados como duas matrizes de antena, horizontal e vertical. Ondas contínuas moduladas por frequência (FMCW) e antenas lineares foram usadas para transmissão e recepção.

O Gerador recebe uma moldura de origem como uma camada de entrada, com a representação de RF fundida (mapa de calor) orquestrando a rede por meio da normalização no nível das camadas convolucionais.

Dados

Os dados foram coletados a partir de reflexos de sinais de RF da antena de onda milimétrica a uma taxa de apenas 20 Hz, com vídeo de humano capturado simultaneamente a uma taxa de quadros muito baixa de 10 fps. Nove cenas internas foram capturadas, usando seis voluntários, cada um dos quais usou roupas diferentes para várias sessões da coleta de dados.

O resultado foi dois conjuntos de dados distintos, RF-Activity e RF-Walk, o primeiro contendo 68.860 imagens de pessoas em várias posições (como agachar e caminhar), juntamente com 137.760 quadros de mapa de calor correspondentes; e o último contendo 67.860 quadros de caminhada humana aleatória, juntamente com 135.720 pares de mapas de calor associados.

Os dados, de acordo com a convenção, foram divididos de forma desigual entre treinamento e teste, com 55.225 quadros de imagem e 110.450 pares de mapa de calor usados para treinamento, e o restante reservado para teste. Quadros de captura RGB foram redimensionados para 320×180, e mapas de calor redimensionados para 201×160.

O modelo foi então treinado com Adam em uma taxa de aprendizado consistente de 0,0002 para o gerador e o discriminador, em uma época de 80 e um tamanho de lote muito esparsa de 2. O treinamento ocorreu por meio do PyTorch em um GPU de nível de consumo único GTX-1080, cujos 8 GB de VRAM seriam geralmente considerados modestos para tal tarefa (explicando o tamanho de lote baixo).

Embora os pesquisadores tenham adaptado algumas métricas convencionais para testar a realidade da saída (detalhada no artigo), e tenham realizado os testes de ablação habituais, não havia trabalho anterior equivalente com o qual medir o desempenho de RFGAN.

Interesse Aberto em Sinais Secretos

RFGAN não é o primeiro projeto a tentar usar frequências de rádio para construir uma imagem volumétrica do que está acontecendo em um quarto. Em 2019, pesquisadores do MIT CSAIL desenvolveram uma arquitetura chamada RF-Avatar, capaz de reconstruir humanos 3D com base em sinais de frequência de rádio na faixa Wi-Fi, sob condições severas de oclusão.

No projeto do MIT CSAIL de 2019, ondas de rádio foram usadas para remover oclusões, mesmo incluindo paredes e roupas, para recriar sujeitos capturados em um fluxo de trabalho CGI baseado em computador gráfico tradicional. Fonte: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

Os pesquisadores do novo artigo também reconhecem trabalhos anteriores relacionados à mapeação de ambiente com ondas de rádio (nenhum deles tentando recriar humanos fotorealistas), que buscaram estimar a velocidade humana; veja através de paredes com Wi-Fi; avaliar poses humanas; e até reconhecer gestos humanos, entre outros objetivos.

Transferibilidade e Aplicabilidade Mais Amplas

Os pesquisadores então se propuseram a ver se sua descoberta estava superajustada ao ambiente de captura inicial e às circunstâncias de treinamento, embora o artigo ofereça poucos detalhes sobre essa fase do experimento. Eles afirmam:

‘Para implantar nosso modelo em uma nova cena, não precisamos retreinar o modelo todo desde o início. Podemos ajustar o RFGAN pré-treinado usando muito pouco dados (cerca de 40 segundos de dados) para obter resultados semelhantes.’

‘As funções de perda e hiperparâmetros são os mesmos com a etapa de treinamento. A partir dos resultados quantitativos, encontramos que o modelo RFGAN pré-treinado pode gerar quadros de atividade humana desejáveis na nova cena após ajuste fino com apenas um pouco de dados, o que significa que nosso modelo proposto tem o potencial para ser amplamente usado.’

Com base nos detalhes do artigo sobre essa aplicação seminal de uma nova técnica, não está claro se a rede que os pesquisadores criaram é ‘treinada’ exclusivamente para os sujeitos originais, ou se mapas de calor de RF podem deduzir detalhes como cor de roupa, pois isso parece cavalgar os dois diferentes tipos de frequências envolvidas em métodos de captura óptica e de rádio.

De qualquer forma, RFGAN é uma nova maneira de usar os poderes imitativos e representativos de Redes Adversárias Generativas para criar uma nova e intrigante forma de vigilância – uma que poderia potencialmente operar no escuro e através de paredes, de uma maneira ainda mais impressionante do que esforços recentes para ver ao redor das esquinas com luz refletida.

8 de dezembro de 2021 (dia da primeira publicação), 20:04 – removida palavra repetida. – MA

Martin Anderson

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.

Unite.AI

Síntese de Imagem Humana a Partir de Ondas de Rádio Refletidas

Dados e Arquitetura

Dados

Interesse Aberto em Sinais Secretos

Transferibilidade e Aplicabilidade Mais Amplas

You may like