Artificiell intelligens

Mänsklig bildsyntes från reflekterade radiovågor

Published December 8, 2021

Updated April 5, 2026

Martin Anderson

Forskare från Kina har utvecklat en metod för att syntetisera nästan fotorealistiska bilder av människor utan kameror, genom att använda radiovågor och Generative Adversarial Networks (GANs). Systemet de har utvecklat är tränat på riktiga bilder tagna i gott ljus, men kan fånga relativt autentiska “ögonblicksbilder” av människor även när förhållandena är mörka – och även genom stora hinder som skulle dölja människor för konventionella kameror.

Bilderna förlitar sig på “värmekartor” från två radioantenner, en som fångar data från taket ned och en annan som registrerar radiovågsstörningar från en “ställning”.

De resulterande fotona från forskarnas proof-of-concept-experiment har ett ansiktslöst, “J-Horror”-aspekt:

Baserat på träning av riktiga bilder av människor i samma miljö, använder RFGAN radiovågsvärmekartor för att spela in mänsklig aktivitet och generera ögonblicksbilder som approximerar den begränsade upplösningen av de lågfrekventa RF-signalerna som uppfattas. Lampor är inte nödvändiga, eftersom färger uppenbarligen uppfattas av hur radiovågor störs av människors närvaro, och av variationer i frekvens som radiovågorna återvänder med varierande signalstyrka och med olika egenskaper. Källa: https://arxiv.org/pdf/2112.03727.pdf

RFGAN är tränat på bilder av riktiga människor i kontrollerade miljöer och på radiovågsvärmekartor som spelar in mänsklig aktivitet. Efter att ha lärt sig funktioner från data kan RFGAN sedan generera ögonblicksbilder baserat på nya RF-data. Den resulterande bilden är en approximation, baserat på den begränsade upplösningen av de lågfrekventa RF-signalerna som finns tillgängliga. Denna process fungerar även i mörka miljöer och genom en mängd olika hinder. Källa: https://arxiv.org/pdf/2112.03727.pdf

För att träna GAN, som kallas RFGAN, använde forskarna matchade data från en standard RGB-kamera och från de sammanfogade motsvarande radiovärmekartor som producerades vid exakt samma tidpunkt som bilderna togs. Bilderna av syntetiserade människor i det nya projektet tenderar att vara suddiga på ett sätt som liknar tidig Daguerreotype-fotografi, eftersom upplösningen av de radiovågor som används är mycket låg, med en djupupplösning på 7,5 cm och en vinkelupplösning på cirka 1,3 grader.

Ovan, bilden som matas in i GAN-nätverket – nedan, de två värmekartorna, horisontell och vertikal, som karakteriserar personen i rummet, och som syntetiseras själva inom arkitekturen till en 3D-representation av de störda data.

Den nya artikeln, med titeln RFGAN: RF-baserad mänsklig syntes, kommer från sex forskare från University of Electronic Science and Technology of China.

Data och arkitektur

På grund av bristen på tidigare dataset eller projekt som delade detta syfte, och det faktum att RF-signalerna inte har använts tidigare i en GAN-bildsyntesram, var forskarna tvungna att utveckla nya metoder.

Kärnarkitekturen i RFGAN.

Adaptiv normalisering användes för att tolka de dubbla värmekartorna under träning, så att de korresponderar rumsligt med de inspelade bilderna.

RF-kapplingsenheterna var millimeter-vågsradar (mmWave) konfigurerade som två antennmatriser, horisontell och vertikal. Frekvensmodulerad kontinuerlig våg (FMCW) och linjära antenn användes för sändning och mottagning.

Generatoren tar emot en källram som inmatningslager, med RF-sammanslagen (värmekarts) representation som orkestrerar nätverket genom normalisering på nivån av de konvolutionslager.

Data

Data samlades in från RF-signalreflektioner från mmWave-antennen vid en hastighet av 20 Hz, med samtidig mänsklig videoinspelning vid en mycket låg hastighet av 10 fps. Nio inomhusmiljöer samlades in, med sex frivilliga, var och en som bar olika kläder under olika sessioner av datainsamlingen.

Resultatet var två distinkta dataset, RF-Aktivitet och RF-Gång, den förra innehållande 68 860 bilder av människor i varierande positioner (såsom knäböj och gång), tillsammans med 137 760 motsvarande värmekartsramar; och den senare innehållande 67 860 mänskliga slumpmässiga gång-ramar, tillsammans med 135 720 par associerade värmekartor.

Data delades, enligt konvention, ojämnt mellan träning och testning, med 55 225 bildramar och 110 450 värmekartspar använda för träning, och resten hölls tillbaka för testning. RGB-inspelade ramar storleksändrades till 320×180, och värmekartor storleksändrades till 201×160.

Modellen tränades sedan med Adam vid en konstant inlärningshastighet på 0,0002 för både generatoren och diskriminatoren, vid en epok på 80 och en (mycket gles) batchstorlek på 2. Träning skedde via PyTorch på en konsumentnivå ensam GTX-1080 GPU, vars 8 GB VRAM generellt skulle anses ganska blygsamt för en sådan uppgift (vilket förklarar den låga batchstorleken).

Även om forskarna anpassade några konventionella mått för att testa realismen i utdata (detaljerat i artikeln), och genomförde de sedvanliga ablations-testerna, fanns det inget liknande tidigare arbete att mäta prestandan för RFGAN mot.

Öppet intresse för hemliga signaler

RFGAN är inte det första projektet som försökt använda radiofrekvenser för att bygga en volymetrisk bild av vad som händer i ett rum. 2019 utvecklade forskare från MIT CSAIL en arkitektur som kallades RF-Avatar, kapabel att rekonstruera 3D-människor baserat på radiofrekvenssignaler i Wi-Fi-området, under svåra förhållanden av döljande.

I MIT CSAIL-projektet från 2019 användes radiovågor för att ta bort döljande, även inklusive väggar och kläder, för att återskapa inspelade ämnen i en mer traditionell CGI-baserad arbetsflöde. Källa: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

Forskarna i den nya artikeln erkänner också löst relaterat tidigare arbete runt miljökartläggning med radiovågor (inget av det försöker återskapa fotorealistiska människor), som sökte uppskatta mänsklig hastighet; se genom väggar med Wi-Fi; utvärdera mänskliga poser; och till och med känna igen mänskliga gester, bland andra mål.

Överförbarhet och vidare tillämpbarhet

Forskarna satte sedan ut för att se om deras upptäckt var överanpassad till den initiala insamlingsmiljön och träningsomständigheterna, även om artikeln erbjuder få detaljer om denna fas av experimentet. De hävdar:

‘För att distribuera vår modell i en ny scen, behöver vi inte träna hela modellen från början. Vi kan finjustera den förtränade RFGAN med mycket lite data (cirka 40 sekunders data) för att få liknande resultat.’

Och fortsätter:

‘Förlustfunktionerna och hyperparametrarna är desamma som under träningssteget. Från de kvantitativa resultaten finner vi att den förtränade RFGAN-modellen kan generera önskvärda mänskliga aktivitetssidor i den nya scenen efter finjustering med bara lite data, vilket betyder att vår föreslagna modell har potentialen för att användas brett.’

Baserat på artikeln detaljer om denna banbrytande tillämpning av en ny teknik, är det inte tydligt om nätverket som forskarna har skapat är “fit-tränat” exklusivt till de ursprungliga ämnena, eller om RF-värmekartor kan utläsa detaljer som färgen på kläder, eftersom detta verkar sträcka sig över de två olika typerna av frekvenser som är inblandade i optisk och radioinspelningsmetoder.

Antingen väg, RFGAN är en ny metod för att använda de imiterande och representativa krafterna i Generative Adversarial Networks för att skapa en ny och intressant form av övervakning – en som potentiellt kan fungera i mörker och genom väggar, på ett sätt som är ännu mer imponerande än nyliga ansträngningar för att se runt hörn med reflekterat ljus.

8:e december 2021 (dag för första publicering), 8:04 pm GMT+2 – borttagen upprepad ord. – MA