Kontakt med oss

Kunstig intelligens

Menneskelig bildesyntese fra reflekterte radiobølger

mm

Forskere fra Kina har utviklet en metode for å syntetisere nær fotorealistiske bilder av mennesker uten kamera, ved å bruke radiobølger og Generative motstandernettverk (GAN-er). Systemet de har utviklet er trent på ekte bilder tatt i godt lys, men er i stand til å fange relativt autentiske "snapshots" av mennesker selv når forholdene er mørke - og til og med gjennom store hindringer som vil skjule folk fra konvensjonelle kameraer.

Bildene er avhengige av "varmekart" fra to radioantenner, en som fanger data fra taket og ned, og en annen registrerer radiobølgeforstyrrelser fra en "stående" posisjon.

De resulterende bildene fra forskernes proof-of-concept-eksperimenter har et ansiktsløst, 'J-Horror'-aspekt:

Basert på trening av ekte bilder av mennesker i samme miljø, bruker RFGAN radiobølgevarmekart for å registrere menneskelig aktivitet og generere øyeblikksbilder som tilnærmer den begrensede oppløsningen til de lavfrekvente RF-signalene som oppfattes. Lys er ikke nødvendig, siden farger (tilsynelatende) oppfattes av måten radiobølger forstyrres av menneskers tilstedeværelse, og av variasjoner i frekvens når radiobølgene vender tilbake med en rekke signalstyrker, og med forskjellige egenskaper. Kilde: https://arxiv.org/pdf/2112.03727.pdf

RFGAN er trent på bilder av ekte mennesker i kontrollerte miljøer og på radiobølgevarmekart som registrerer menneskelig aktivitet. Etter å ha lært funksjoner fra dataene, kan RFGAN deretter generere øyeblikksbilder basert på nye RF-data. Det resulterende bildet er en tilnærming, basert på den begrensede oppløsningen til de tilgjengelige lavfrekvente RF-signalene. Denne prosessen fungerer selv i mørke omgivelser, og gjennom en rekke potensielle hindringer. Kilde: https://arxiv.org/pdf/2112.03727.pdf

Å trene GAN, kalt RFGAN, brukte forskerne samsvarende data fra et standard RGB-kamera, og fra de sammenkoblede tilsvarende radiovarmekartene som ble produsert i det nøyaktige øyeblikket av fangst. Bilder av syntetiserte mennesker i det nye prosjektet har en tendens til å bli uskarpe på en måte som ligner på tidlig Daguerreotypi-fotografering, fordi oppløsningen til radiobølgene som brukes er svært lav, med en dybdeoppløsning på 7.5 cm og en vinkeloppløsning på omtrent 1.3 grader.

Over, bildet matet til GAN-nettverket – under, de to varmekartene, horisontale og vertikale, som karakteriserer personen i rommet, og som syntetiseres selv inne i arkitekturen til en 3D-representasjon av de forstyrrede dataene.

Over, bildet matet til GAN-nettverket – under, de to varmekartene, horisontale og vertikale, som karakteriserer personen i rommet, og som syntetiseres selv inne i arkitekturen til en 3D-representasjon av de forstyrrede dataene.

Den nye papir, med tittelen RFGAN: RF-basert menneskelig syntese, kommer fra seks forskere fra University of Electronic Science and Technology i Kina.

Data og arkitektur

På grunn av mangelen på tidligere datasett eller prosjekter som delte dette omfanget, og det faktum at RF-signaler ikke har blitt brukt før i et GAN-bildesynteserammeverk, måtte forskerne utvikle nye metoder.

Kjernearkitekturen til RFGAN.

Kjernearkitekturen til RFGAN.

Adaptiv normalisering ble brukt til å tolke tvillingvarmekartbildene under trening, slik at de samsvarer romlig med de fangede bildedataene.

RF-fangstenhetene var millimeterbølgeradarer (mmWave) konfigurert som to antenner, horisontale og vertikale. Frequency Modulated Continuous Wave (FMCW) og lineære antenner ble brukt for transceiving.

Generatoren mottar en kilderamme som et inngangslag, med RF-sammensmeltet (varmekart)-representasjon som orkestrerer nettverket gjennom normalisering på nivået til konvolusjonslagene.

Data

Dataene ble samlet inn fra RF-signalrefleksjoner fra mmWave-antennen på bare 20hz, med samtidig menneskelig video tatt med svært lave 10fps. Ni innendørsscener ble fanget ved bruk av seks frivillige, som hver hadde på seg forskjellige klær for ulike økter av datainnsamlingen.

Resultatet ble to forskjellige datasett, RF-aktivitet og RF-Walk, den førstnevnte inneholder 68,860 XNUMX bilder av mennesker i forskjellige posisjoner (som f.eks husokkupasjon og ), sammen med 137,760 67,860 tilsvarende heatmap-rammer; og sistnevnte inneholder 135,720 XNUMX menneskelige tilfeldige gangrammer, sammen med XNUMX XNUMX par tilhørende varmekart.

Dataene ble i henhold til konvensjonen delt ujevnt mellom trening og testing, med 55,225 110 bilderammer og 450 320 heatmap-par brukt til trening, og resten holdt tilbake for testing. RGB-opptaksrammer ble endret til 180 × 201, og størrelsen på varmekart ble endret til 160 × XNUMX.

Modellen ble deretter trent med Adam med en konsistent læringshastighet på 0.0002 for både generatoren og diskriminatoren, i en epoke på 80 og en (veldig sparsom) batchstørrelse på 2. Trening fant sted via PyTorch på en GTX-såle på forbrukernivå -1080 GPU, hvis 8 GB VRAM generelt vil bli ansett som ganske beskjeden for en slik oppgave (forklarer den lave batchstørrelsen).

Selv om forskerne tilpasset noen konvensjonelle beregninger for å teste realismen til utdataene (detaljert i artikkelen), og utførte de vanlige ablasjonstestene, var det ikke tilsvarende tidligere arbeid å måle ytelsen til RFGAN mot.

Åpen interesse for hemmelige signaler

RFGAN er ikke det første prosjektet som forsøker å bruke radiofrekvenser til å bygge et volumetrisk bilde av hva som skjer i et rom. I 2019 utviklet forskere fra MIT CSAIL en arkitektur kalt RF-Avatar, i stand til rekonstruere 3D-mennesker basert på radiofrekvenssignaler i Wi-Fi-området, under alvorlige okklusjonsforhold.

I MIT CSAIL-prosjektet fra 2019 ble radiobølger brukt til å fjerne okklusjoner, også inkludert vegger og klær, for å gjenskape fangede motiver i en mer tradisjonell CGI-basert arbeidsflyt. Kilde: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

I MIT CSAIL-prosjektet fra 2019 ble radiobølger brukt til å fjerne okklusjoner, også inkludert vegger og klær, for å gjenskape fangede motiver i en mer tradisjonell CGI-basert arbeidsflyt. Kilde: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

Forskerne i den nye artikkelen erkjenner også løst relatert tidligere arbeid rundt miljøkartlegging med radiobølger (ingen av det forsøkte å gjenskape fotorealistiske mennesker), som forsøkte å estimere menneskelig hastighet; se gjennom vegger med Wi-Fi; vurdere menneskelige positurer; Til og med gjenkjenne menneskelige gester, blant forskjellige andre mål.

Overførbarhet og bredere anvendelighet

Forskerne satte deretter ut for å se om oppdagelsen deres var overtilpasset til det første fangstmiljøet og treningsforholdene, selv om papiret gir få detaljer om denne fasen av eksperimentet. De hevder:

«For å distribuere modellen vår i en ny scene, trenger vi ikke å omskolere hele modellen fra starten. Vi kan finjustere den forhåndstrente RFGAN ved å bruke svært lite data (ca. 40-tallsdata) for å få lignende resultater.'

Og fortsett:

«Tapfunksjonene og hyperparametrene er de samme med treningsstadiet. Fra de kvantitative resultatene finner vi at den forhåndstrente RFGAN-modellen kan generere ønskelige menneskelige aktivitetsrammer i den nye scenen etter finjustering med bare litt data, noe som betyr at vår foreslåtte modell har potensial til å bli mye brukt.'

Basert på avisens detaljer om denne banebrytende anvendelsen av en ny teknikk, er det ikke klart om nettverket som forskerne har opprettet er "fit-trent" utelukkende for de originale fagene, eller om RF-varmekart kan utlede detaljer som farge på klær , da dette ser ut til å strekke seg over de to forskjellige typene frekvenser som er involvert i optiske og radiofangstmetoder.

Uansett er RFGAN en ny måte å bruke de imiterende og representative kreftene til Generative Adversarial Networks for å skape en ny og spennende form for overvåking – en som potensielt kan operere i mørket og gjennom vegger, på en måte som er enda mer imponerende enn nylige anstrengelser. til se runde hjørner med reflektert lys.

 

 

8. desember 2021 (dagen for første publisering), 8:04 GMT+2 – fjernet gjentatte ord. – MA

Forfatter på maskinlæring, domenespesialist i menneskelig bildesyntese. Tidligere leder for forskningsinnhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-postbeskyttet]
Twitter: @manders_ai