Inteligență artificială

Sinteză de imagine umană din unde radio reflectate

Published December 8, 2021

Updated April 5, 2026

Martin Anderson

Cercetători din China au dezvoltat o metodă pentru a sintetiza imagini aproape fotoreale ale oamenilor fără camere, utilizând unde radio și Rețele Adversative Generative (GAN). Sistemul pe care l-au conceput este antrenat pe imagini reale luate în lumină bună, dar este capabil să capteze “instantanee” relativ autentice ale oamenilor, chiar și atunci când condițiile sunt întunecate – și chiar prin obstacole majore care ar ascunde oamenii de camerele convenționale.

Imaginile se bazează pe “hărți de căldură” de la două antene radio, una care captează date de la tavan în jos, și alta care înregistrează perturbațiile undelor radio dintr-o poziție “în picioare”.

Imaginile rezultate din experimentele de concept ale cercetătorilor au un aspect fără față, “J-Horror”:

Pe baza antrenării unor imagini reale ale oamenilor în același mediu, RFGAN utilizează hărți de căldură ale undelor radio pentru a înregistra activitatea umană și a genera instantanee care aproximează ceea ce percep semnalele RF de rezoluție joasă. Luminile nu sunt necesare, deoarece culorile (aparent) sunt percepute de modul în care unde radio sunt perturbate de prezența oamenilor, și de variațiile de frecvență pe măsură ce unde radio se întorc la o varietate de intensități ale semnalului, și cu caracteristici diferite. Sursă: https://arxiv.org/pdf/2112.03727.pdf

RFGAN este antrenat pe imagini de oameni reali în medii controlate și pe hărți de căldură ale undelor radio care înregistrează activitatea umană. După ce a învățat caracteristicile din date, RFGAN poate genera instantanee pe baza unor noi date RF. Imaginea rezultată este o aproximație, pe baza rezoluției limitate a semnalelor RF de frecvență joasă disponibile. Acest proces funcționează chiar și în medii întunecate, și prin diverse obstacole potențiale. Sursă: https://arxiv.org/pdf/2112.03727.pdf

Pentru a antrena GAN, denumit RFGAN, cercetătorii au utilizat date împerecheate de la o cameră RGB standard și de la hărțile de căldură ale undelor radio corespunzătoare, care au fost produse în momentul exact al capturii. Imaginile sintetizate ale oamenilor în noul proiect tind să fie estompate într-un mod similar cu fotografia Daguerreotype timpurie, deoarece rezoluția undelor radio utilizate este foarte joasă, cu o rezoluție de adâncime de 7,5 cm și o rezoluție unghiulară de aproximativ 1,3 grade.

Mai sus, imaginea alimentată rețelei GAN – mai jos, cele două hărți de căldură, orizontală și verticală, care caracterizează persoana din cameră, și care sunt sintetizate ele însele în interiorul arhitecturii într-o reprezentare 3D a datelor perturbate.

Noul articol, intitulat RFGAN: Sinteză Umană pe Baza Undelor Radio, provine de la șase cercetători de la Universitatea de Știință și Tehnologie Electronică din China.

Date și Arhitectură

Din cauza lipsei oricăror seturi de date sau proiecte anterioare care au împărtășit acest scop, și a faptului că semnalele RF nu au fost utilizate anterior într-un cadru de sinteză de imagine GAN, cercetătorii au trebuit să dezvolte metodologii noi.

Arhitectura de bază a RFGAN.

Normalizarea adaptivă a fost utilizată pentru a interpreta imaginile cu hărți de căldură gemene în timpul antrenării, astfel încât acestea să corespundă spațial cu datele imaginilor capturate.

Dispozitivele de captură RF au fost radare cu undă milimetrică (mmWave) configurate ca două matrice de antene, orizontală și verticală. S-au utilizat unde continue modulate în frecvență (FMCW) și antene liniare pentru transmisie și recepție.

Generatorul primește un cadru sursă ca strat de intrare, cu reprezentarea RF fuzionată (hărți de căldură) orchestrând rețeaua prin normalizare la nivelul straturilor convoluționale.

Date

Datele au fost colectate de la reflexiile semnalelor RF de la antena mmWave la o frecvență de doar 20 Hz, cu captură video umană simultană la o rată foarte joasă de 10 fps. S-au capturat nouă scene interioare, utilizând șase voluntari, fiecare purtând haine diferite pentru diverse sesiuni de colectare a datelor.

Rezultatul a fost două seturi de date distincte, RF-Activity și RF-Walk, primul conținând 68.860 de imagini cu oameni în diverse poziții (cum ar fi în genunchi și mers), împreună cu 137.760 de cadre de hărți de căldură corespunzătoare; și al doilea conținând 67.860 de cadre de mers ale oamenilor, împreună cu 135.720 de perechi de hărți de căldură asociate.

Datele, conform convenției, au fost împărțite inegal între antrenare și testare, cu 55.225 de cadre de imagine și 110.450 de perechi de hărți de căldură utilizate pentru antrenare, și restul păstrate pentru testare. Cadrele de captură RGB au fost redimensionate la 320×180, și hărțile de căldură redimensionate la 201×160.

Modelul a fost apoi antrenat cu Adam la o rată de învățare constantă de 0,0002 pentru atât generator, cât și pentru discriminator, la o epocă de 80 și o dimensiune de lot (foarte rară) de 2. Antrenarea a avut loc prin PyTorch pe un GPU GTX-1080 de nivel consumator, a cărui memorie video de 8 GB ar fi considerată în general modestă pentru o astfel de sarcină (explicând dimensiunea mică a lotului).

Deși cercetătorii au adaptat unele metrice convenționale pentru testarea realismului ieșirii (detaliate în articol), și au efectuat testele de ablație obișnuite, nu a existat niciun lucru anterior cu care să se poată măsura performanța RFGAN.

Interes Deschis pentru Semnale Secrete

RFGAN nu este primul proiect care încearcă să utilizeze frecvențele radio pentru a construi o imagine volumetrică a ceea ce se întâmplă într-o cameră. În 2019, cercetători de la MIT CSAIL au dezvoltat o arhitectură numită RF-Avatar, capabilă de a reconstrui oameni 3D pe baza semnalelor de frecvență radio în gama Wi-Fi, în condiții severe de occluzie.

În proiectul MIT CSAIL din 2019, unde radio au fost utilizate pentru a îndepărta occluziile, chiar și pereți și haine, pentru a recrea subiecții capturați într-un flux de lucru CGI tradițional. Sursă: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

Cercetătorii noului articol recunosc, de asemenea, lucrări anterioare legate de cartografierea mediului cu unde radio (niciuna dintre ele încercând să recrieze oameni fotoreali), care au încercat să estimeze viteza umană; a detecta oameni prin pereți cu Wi-Fi; evalua pozițiile oamenilor; și chiar recunoaște gesturile umane, printre alte obiective.

Transferabilitate și Aplicabilitate Mai Lară

Cercetătorii au încercat apoi să vadă dacă descoperirea lor a fost supraantrenată pe mediul de captură inițial și circumstanțele de antrenare, deși articolul oferă puține detalii despre această fază a experimentului. Ei afirmă:

‘Pentru a utiliza modelul nostru într-o nouă scenă, nu avem nevoie să reantrenăm întregul model de la început. Putem ajusta RFGAN preantrenat utilizând foarte puține date (aproximativ 40 de secunde de date) pentru a obține rezultate similare.’

Și continuă:

‘Funcțiile de pierdere și hiperparametrii sunt aceiași cu etapa de antrenare. Din rezultatele cantitative, constatăm că modelul RFGAN preantrenat poate genera cadre de activitate umană de dorit în noua scenă după ajustare cu doar puține date, ceea ce înseamnă că modelul nostru propus are potențial pentru a fi utilizat pe scară largă.’

Pe baza detaliilor articolului despre această aplicație seminală a unei tehnici noi, nu este clar dacă rețeaua pe care au creat-o cercetătorii este “antrenată exclusiv” pentru subiecții originali, sau dacă hărțile de căldură RF pot deduce detalii cum ar fi culoarea hainelor, deoarece acest lucru pare să se situeze între cele două tipuri de frecvențe implicate în metodele de captură optică și radio.

În orice caz, RFGAN este o modalitate nouă de a utiliza puterile imitative și reprezentative ale Rețelelor Adversative Generative pentru a crea o formă nouă și interesantă de supraveghere – una care ar putea opera potențial în întuneric și prin pereți, într-un mod și mai impresionant decât eforturile recente de a vedea în jurul colțurilor cu lumina reflectată.

8 decembrie 2021 (ziua primei publicări), 20:04 GMT+2 – s-a eliminat cuvântul repetat. – MA

Martin Anderson

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.

Unite.AI

Sinteză de imagine umană din unde radio reflectate

Date și Arhitectură

Date

Interes Deschis pentru Semnale Secrete

Transferabilitate și Aplicabilitate Mai Lară

You may like