mozzicone Sintesi di immagini umane da onde radio riflesse - Unite.AI
Seguici sui social

Intelligenza Artificiale

Sintesi di immagini umane da onde radio riflesse

mm
aggiornato on

I ricercatori cinesi hanno sviluppato un metodo per sintetizzare immagini quasi fotorealistiche di persone senza macchine fotografiche, utilizzando onde radio e Reti del contraddittorio generativo (GAN). Il sistema che hanno ideato è addestrato su immagini reali scattate in buona luce, ma è in grado di catturare "istantanee" relativamente autentiche di esseri umani anche quando le condizioni sono buie e anche attraverso grandi ostacoli che nasconderebbero le persone alle telecamere convenzionali.

Le immagini si basano su "mappe di calore" di due antenne radio, una che cattura i dati dal soffitto verso il basso e un'altra che registra le perturbazioni delle onde radio da una posizione "in piedi".

Le foto risultanti dagli esperimenti proof-of-concept dei ricercatori hanno un aspetto "J-Horror" senza volto:

Sulla base dell'addestramento di immagini reali di persone nello stesso ambiente, RFGAN utilizza mappe di calore delle onde radio per registrare l'attività umana e generare istantanee che si avvicinano a ciò che viene percepito dalla risoluzione limitata dei segnali RF a bassa frequenza. Le luci non sono necessarie, poiché i colori sono (apparentemente) percepiti dal modo in cui le onde radio sono perturbate dalla presenza delle persone e dalle variazioni di frequenza man mano che le onde radio ritornano con una varietà di intensità del segnale e con caratteristiche differenti. Fonte: https://arxiv.org/pdf/2112.03727.pdf

RFGAN è addestrato su immagini di persone reali in ambienti controllati e su mappe di calore a onde radio che registrano l'attività umana. Dopo aver appreso le funzionalità dai dati, RFGAN può quindi generare istantanee basate su nuovi dati RF. L'immagine risultante è un'approssimazione, basata sulla risoluzione limitata dei segnali RF a bassa frequenza disponibili. Questo processo funziona anche in ambienti bui e attraverso una varietà di potenziali ostacoli. Fonte: https://arxiv.org/pdf/2112.03727.pdf

Per addestrare il GAN, soprannominato RFGAN, i ricercatori hanno utilizzato dati corrispondenti da una fotocamera RGB standard e dalle mappe di calore radio corrispondenti concatenate che sono state prodotte nel momento esatto dell'acquisizione. Le immagini di persone sintetizzate nel nuovo progetto tendono ad essere sfocate in un modo simile alla prima fotografia dagherrotipica, perché la risoluzione delle onde radio utilizzate è molto bassa, con una risoluzione in profondità di 7.5 cm e una risoluzione angolare di circa 1.3 gradi.

In alto, l'immagine inviata alla rete GAN – in basso, le due mappe di calore, orizzontale e verticale, che caratterizzano la persona nella stanza, e che si sintetizzano all'interno dell'architettura in una rappresentazione 3D dei dati perturbati.

In alto, l'immagine inviata alla rete GAN – in basso, le due mappe di calore, orizzontale e verticale, che caratterizzano la persona nella stanza, e che si sintetizzano all'interno dell'architettura in una rappresentazione 3D dei dati perturbati.

Il nuovo carta, dal titolo RFGAN: sintesi umana basata su RF, proviene da sei ricercatori dell'Università di Scienze e Tecnologie Elettroniche della Cina.

Dati e architettura

A causa della mancanza di set di dati o progetti precedenti che condividessero questo ambito e del fatto che i segnali RF non fossero mai stati utilizzati in precedenza in un framework di sintesi di immagini GAN, i ricercatori hanno dovuto sviluppare nuove metodologie.

L'architettura di base di RFGAN.

L'architettura di base di RFGAN.

La normalizzazione adattiva è stata utilizzata per interpretare le immagini della mappa termica gemella durante l'addestramento, in modo che corrispondano spazialmente ai dati dell'immagine acquisita.

I dispositivi di cattura RF erano radar a onde millimetriche (mmWave) configurati come due schiere di antenne, orizzontale e verticale. Per la ricetrasmissione sono state utilizzate onde continue modulate in frequenza (FMCW) e antenne lineari.

Il generatore riceve un frame sorgente come livello di input, con la rappresentazione fusa RF (mappa termica) che orchestra la rete attraverso la normalizzazione a livello dei livelli convoluzionali.

Dati

I dati sono stati raccolti dai riflessi del segnale RF dall'antenna mmWave a soli 20 Hz, con video umano simultaneo catturato a 10 fps molto bassi. Sono state catturate nove scene in interni, utilizzando sei volontari, ognuno dei quali indossava abiti diversi per varie sessioni di raccolta dati.

Il risultato sono stati due set di dati distinti, Attività RF ed RF-Camminata, il primo contenente 68,860 immagini di persone in varie posizioni (come ad esempio occupazione ed camminare), insieme a 137,760 frame heatmap corrispondenti; e quest'ultimo contenente 67,860 frame di camminata casuale umana, insieme a 135,720 coppie di mappe di calore associate.

I dati, secondo la convenzione, sono stati suddivisi in modo non uniforme tra addestramento e test, con 55,225 fotogrammi di immagini e 110 coppie di mappe di calore utilizzate per l'addestramento e il resto trattenuto per i test. I fotogrammi di acquisizione RGB sono stati ridimensionati a 450×320 e le mappe di calore ridimensionate a 180×201.

Il modello è stato quindi addestrato con Adam a un tasso di apprendimento costante di 0.0002 sia per il generatore che per il discriminatore, a un'epoca di 80 e una dimensione batch (molto scarsa) di 2. L'addestramento è avvenuto tramite PyTorch su una suola GTX di livello consumer -1080 GPU, i cui 8 GB di VRAM sarebbero generalmente considerati piuttosto modesti per un'attività del genere (spiegando le ridotte dimensioni del batch).

Sebbene i ricercatori abbiano adattato alcune metriche convenzionali per testare il realismo dell'output (dettagliato nel documento) e condotto i consueti test di ablazione, non esisteva un lavoro precedente equivalente rispetto al quale misurare le prestazioni di RFGAN.

Interesse aperto nei segnali segreti

RFGAN non è il primo progetto che tenta di utilizzare le frequenze radio per costruire un'immagine volumetrica di ciò che accade in una stanza. Nel 2019 i ricercatori del MIT CSAIL hanno sviluppato un'architettura chiamata Avatar RF, capace di ricostruire esseri umani 3D basato su segnali in radiofrequenza nel raggio Wi-Fi, in condizioni di occlusione severe.

Nel progetto MIT CSAIL del 2019, le onde radio sono state utilizzate per rimuovere le occlusioni, inclusi anche muri e vestiti, al fine di ricreare i soggetti catturati in un flusso di lavoro più tradizionale basato su CGI. Fonte: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

Nel progetto MIT CSAIL del 2019, le onde radio sono state utilizzate per rimuovere le occlusioni, inclusi anche muri e vestiti, al fine di ricreare i soggetti catturati in un flusso di lavoro più tradizionale basato su CGI. Fonte: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

I ricercatori del nuovo documento riconoscono anche il lavoro precedente vagamente correlato sulla mappatura dell'ambiente con le onde radio (nessuno dei quali tentava di ricreare esseri umani fotorealistici), che cercava di stimare la velocità umana; vedere attraverso i muri con Wi-Fi; valutare le pose umane; e persino riconoscere i gesti umani, tra vari altri obiettivi.

Trasferibilità e più ampia applicabilità

I ricercatori hanno quindi deciso di vedere se la loro scoperta fosse troppo adatta all'ambiente di cattura iniziale e alle circostanze di addestramento, sebbene il documento offra pochi dettagli su questa fase dell'esperimento. Affermano:

'Per implementare il nostro modello in una nuova scena, non abbiamo bisogno di riaddestrare l'intero modello dall'inizio. Possiamo mettere a punto l'RFGAN pre-addestrato utilizzando pochissimi dati (circa 40 dati) per ottenere risultati simili.'

E continua:

'Le funzioni di perdita e gli iperparametri sono gli stessi della fase di addestramento. Dai risultati quantitativi, scopriamo che il modello RFGAN pre-addestrato può generare fotogrammi di attività umana desiderabili nella nuova scena dopo la messa a punto con solo pochi dati, il che significa che il nostro modello proposto ha il potenziale per essere ampiamente utilizzato.'

Sulla base dei dettagli dell'articolo su questa fondamentale applicazione di una nuova tecnica, non è chiaro se la rete che i ricercatori hanno creato sia "adattata" esclusivamente ai soggetti originali o se le mappe di calore RF possano dedurre dettagli come il colore dei vestiti , poiché questo sembra essere a cavallo tra i due diversi tipi di frequenze coinvolte nei metodi di cattura ottica e radio.

Ad ogni modo, RFGAN è un nuovo modo di utilizzare i poteri imitativi e rappresentativi delle reti generative avversarie per creare una nuova e intrigante forma di sorveglianza, che potrebbe potenzialmente operare nell'oscurità e attraverso i muri, in un modo ancora più impressionante dei recenti sforzi A vedi angoli arrotondati con luce riflessa.

 

 

8 dicembre 2021 (giorno della prima pubblicazione), 8:04 GMT+2 – parola ripetuta rimossa. –MA