Intelligenza artificiale

Sintesi di immagini umane da onde radio riflesse

Published December 8, 2021

Updated April 5, 2026

Martin Anderson

I ricercatori della Cina hanno sviluppato un metodo per sintetizzare immagini quasi fotorealistiche di persone senza l’uso di telecamere, utilizzando onde radio e Generative Adversarial Networks (GANs). Il sistema che hanno ideato è stato addestrato su immagini reali scattate in buona luce, ma è in grado di catturare ‘istantanee’ relativamente autentiche di esseri umani anche quando le condizioni sono buie – e anche attraverso ostacoli importanti che nasconderebbero le persone alle telecamere convenzionali.

Le immagini si basano su ‘mappe di calore’ di due antenne radio, una che cattura i dati dal soffitto verso il basso e un’altra che registra le perturbazioni delle onde radio da una posizione ‘in piedi’.

Le foto risultanti dagli esperimenti di prova dei ricercatori hanno un aspetto senza volto, simile a quello degli horror giapponesi:

Basato sull'addestramento di immagini reali di persone nello stesso ambiente, RFGAN utilizza mappe di calore delle onde radio per registrare l'attività umana e generare istantanee che approssimano ciò che la risoluzione limitata dei segnali RF a bassa frequenza percepisce. Le luci non sono necessarie, poiché i colori sono (apparentemente) percepiti dal modo in cui le onde radio sono perturbate dalla presenza delle persone e dalle variazioni di frequenza mentre le onde radio ritornano con una varietà di intensità del segnale e con caratteristiche diverse. Fonte: https://arxiv.org/pdf/2112.03727.pdf

RFGAN è stato addestrato su immagini di persone reali in ambienti controllati e su mappe di calore delle onde radio che registrano l’attività umana. Avendo appreso caratteristiche dai dati, RFGAN può quindi generare istantanee in base a nuovi dati RF. L’immagine risultante è un’approssimazione, basata sulla risoluzione limitata dei segnali RF a bassa frequenza disponibili. Questo processo funziona anche in ambienti bui e attraverso una varietà di potenziali ostacoli. Fonte: https://arxiv.org/pdf/2112.03727.pdf

Per addestrare il GAN, chiamato RFGAN, i ricercatori hanno utilizzato dati abbinati da una telecamera RGB standard e dalle mappe di calore delle onde radio concatenate prodotte nell’istante esatto della cattura. Le immagini di persone sintetizzate nel nuovo progetto tendono a essere sfocate in modo simile alla fotografia Daguerreotype dei primi tempi, poiché la risoluzione delle onde radio utilizzate è molto bassa, con una risoluzione di profondità di 7,5 cm e una risoluzione angolare di circa 1,3 gradi.

Sopra, l’immagine alimentata alla rete GAN – sotto, le due mappe di calore, orizzontale e verticale, che caratterizzano la persona nella stanza e che vengono sintetizzate all’interno dell’architettura in una rappresentazione 3D dei dati perturbati.

Il nuovo documento, intitolato RFGAN: sintesi umana basata su RF, proviene da sei ricercatori dell’Università di Scienza e Tecnologia Elettronica della Cina.

Dati e architettura

A causa della mancanza di qualsiasi dataset o progetto precedente che condivida questo scopo e del fatto che i segnali RF non sono stati utilizzati prima in un framework di sintesi di immagini GAN, i ricercatori hanno dovuto sviluppare metodologie nuove.

L’architettura principale di RFGAN.

È stata utilizzata la normalizzazione adattiva per interpretare le immagini delle mappe di calore gemelle durante l’addestramento, in modo che corrispondano spazialmente con i dati dell’immagine catturata.

I dispositivi di cattura RF erano radar a onde millimetriche (mmWave) configurati come due array di antenne, orizzontale e verticale. Sono stati utilizzati Frequency Modulated Continuous Wave (FMCW) e antenne lineari per la trasmissione e la ricezione.

Il generatore riceve un frame di origine come layer di input, con la rappresentazione RF fusa (mappa di calore) che orchestra la rete attraverso la normalizzazione al livello dei layer convoluzionali.

Dati

I dati sono stati raccolti da riflessi di segnali RF dall’antenna mmWave a soli 20 Hz, con video umano catturato simultaneamente a un frame rate molto basso di 10 fps. Sono state catturate nove scene interne, utilizzando sei volontari, ciascuno dei quali indossava abiti diversi per varie sessioni della raccolta dei dati.

Il risultato è stato due dataset distinti, RF-Activity e RF-Walk, il primo contenente 68.860 immagini di persone in posizioni diverse (come squat e walk), insieme a 137.760 frame di mappe di calore corrispondenti; e il secondo contenente 67.860 frame di camminata umana casuale, insieme a 135.720 paia di mappe di calore associate.

I dati, secondo la convenzione, sono stati divisi in modo diseguale tra addestramento e testing, con 55.225 frame di immagine e 110.450 paia di mappe di calore utilizzati per l’addestramento e il resto trattenuto per il testing. I frame di cattura RGB sono stati ridimensionati a 320×180 e le mappe di calore ridimensionate a 201×160.

Il modello è stato quindi addestrato con Adam a un tasso di apprendimento costante di 0,0002 per sia il generatore che il discriminatore, a un’epoca di 80 e a un batch size (molto scarso) di 2. L’addestramento ha avuto luogo tramite PyTorch su una GPU GTX-1080 di livello consumer, il cui 8 GB di VRAM sarebbero generalmente considerati modesti per un tale compito (spiegando il basso batch size).

Sebbene i ricercatori abbiano adattato alcune metriche convenzionali per testare la realismo dell’output (dettagliate nel documento), e abbiano condotto i test di ablazione consueti, non c’è stato alcun lavoro precedente equivalente con cui misurare le prestazioni di RFGAN.

Interesse aperto per segnali segreti

RFGAN non è il primo progetto a tentare di utilizzare frequenze radio per costruire un’immagine volumetrica di ciò che sta succedendo in una stanza. Nel 2019, ricercatori del MIT CSAIL hanno sviluppato un’architettura chiamata RF-Avatar, in grado di ricostruire esseri umani 3D in base a segnali di frequenza radio nella gamma Wi-Fi, in condizioni di occlusione severe.

Nel progetto del MIT CSAIL del 2019, le onde radio sono state utilizzate per rimuovere le occlusioni, anche incluse pareti e abiti, al fine di ricreare soggetti catturati in un flusso di lavoro CGI tradizionale. Fonte: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

I ricercatori del nuovo documento riconoscono anche lavori precedenti correlati intorno alla mappatura dell’ambiente con onde radio (nessuno dei quali ha tentato di ricreare esseri umani fotorealistici), che hanno cercato di stimare la velocità umana; vedere attraverso le pareti con Wi-Fi; valutare le pose umane; e anche riconoscere i gesti umani, tra altri obiettivi.

Trasferibilità e applicabilità più ampia

I ricercatori hanno quindi cercato di vedere se la loro scoperta era sovrapposta all’ambiente di cattura iniziale e alle circostanze di addestramento, sebbene il documento offra pochi dettagli su questa fase dell’esperimento. Affermano:

‘Per distribuire il nostro modello in una nuova scena, non dobbiamo ritrattare l’intero modello dall’inizio. Possiamo regolare il RFGAN pre-addestrato utilizzando pochi dati (circa 40 secondi di dati) per ottenere risultati simili.’

‘Le funzioni di perdita e gli iperparametri sono gli stessi della fase di addestramento. Dai risultati quantitativi, troviamo che il modello RFGAN pre-addestrato può generare frame di attività umana desiderabili nella nuova scena dopo la regolazione con solo un po’ di dati, il che significa che il nostro modello proposto ha il potenziale per essere ampiamente utilizzato.’

Sulla base dei dettagli del documento su questa applicazione seminale di una nuova tecnica, non è chiaro se la rete che i ricercatori hanno creato sia ‘addestrata’ esclusivamente ai soggetti originali, o se le mappe di calore RF possano dedurre dettagli come il colore degli abiti, poiché ciò sembra attraversare i due diversi tipi di frequenze coinvolti nei metodi di cattura ottica e radio.

In ogni caso, RFGAN è un modo nuovo di utilizzare i poteri imitativi e rappresentativi delle reti avversarie generative per creare una nuova e intrigante forma di sorveglianza – una che potrebbe potenzialmente operare al buio e attraverso le pareti, in un modo anche più impressionante dei recenti sforzi per vedere dietro gli angoli con la luce riflessa.

8 dicembre 2021 (giorno della prima pubblicazione), 20:04 GMT+2 – rimosso la parola ripetuta. – MA

Martin Anderson

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.

Unite.AI

Sintesi di immagini umane da onde radio riflesse

Dati e architettura

Dati

Interesse aperto per segnali segreti

Trasferibilità e applicabilità più ampia

You may like