Tekoäly

Ihmiskuvan synteesi heijastuneista radioaalloista

Päivitetty on Joulukuu 9, 2022

Kiinalaiset tutkijat ovat kehittäneet menetelmän, jolla syntetisoidaan lähes valokuvia ihmisistä ilman kameroita käyttämällä radioaaltoja ja Generatiiviset kilpailevat verkot (GAN:t). Heidän kehittämänsä järjestelmä on koulutettu oikeisiin kuviin, jotka on otettu hyvässä valossa, mutta se pystyy ottamaan suhteellisen autenttisia "otoksia" ihmisistä myös pimeissä olosuhteissa – ja jopa suurten esteiden kautta, jotka piilottaisivat ihmiset tavallisilta kameroilta.

Kuvat perustuvat kahden radioantennin "lämpökarttoihin", joista toinen kaappaa dataa katosta alaspäin ja toinen radioaaltohäiriöitä "seisoma-asennosta".

Tutkijoiden konseptikokeista saaduissa kuvissa on kasvoton, "J-Horror" -näkökulma:

Perustuu oikeiden kuvien harjoitteluun samassa ympäristössä olevista ihmisistä, RFGAN käyttää radioaaltolämpökarttoja ihmistoiminnan tallentamiseen ja tilannekuvien luomiseen, jotka vastaavat matalien taajuuksien RF-signaalien rajallista resoluutiota. Valot eivät ole välttämättömiä, koska värit havaitaan (ilmeisesti) sillä tavalla, että ihmisten läsnäolo häiritsee radioaallot ja taajuuden vaihtelut, kun radioaallot palaavat takaisin eri signaalinvoimakkuuksilla ja erilaisilla ominaisuuksilla. Lähde: https://arxiv.org/pdf/2112.03727.pdf

RFGAN on koulutettu kuviin oikeista ihmisistä kontrolloiduissa ympäristöissä ja radioaaltolämpökartoista, jotka tallentavat ihmisen toimintaa. Kun RFGAN on oppinut tiedoista ominaisuuksia, se voi luoda tilannekuvia uuden RF-datan perusteella. Tuloksena oleva kuva on likiarvo, joka perustuu saatavilla olevien matalataajuisten RF-signaalien rajoitettuun resoluutioon. Tämä prosessi toimii jopa pimeässä ympäristössä ja useiden mahdollisten esteiden läpi. Lähde: https://arxiv.org/pdf/2112.03727.pdf

Kouluttaa GANia, dubattu RFGAN, tutkijat käyttivät yhteensopivia tietoja tavallisesta RGB-kamerasta ja ketjutetuista vastaavista radiolämpökartoista, jotka tuotettiin tarkalleen kuvaushetkellä. Syntetisoitujen ihmisten kuvat uudessa projektissa hämärtyvät samalla tavalla kuin varhaisessa dagerrotypiakuvauksessa, koska käytettyjen radioaaltojen resoluutio on erittäin alhainen, syvyysresoluutio 7.5 cm ja kulmaresoluutio noin 1.3 astetta.

Yllä GAN-verkkoon syötetty kuva – alla kaksi lämpökarttaa, vaaka- ja pystysuora, jotka kuvaavat huoneessa olevaa henkilöä ja jotka syntetisoidaan itse arkkitehtuurin sisällä 3D-esityksenä häiriintyneestä datasta.

Uusi paperi, nimeltään RFGAN: RF-pohjainen ihmisen synteesi, tulee kuudelta Kiinan elektroniikan ja teknologian yliopiston tutkijalta.

Data ja arkkitehtuuri

Koska aiempia tietojoukkoja tai projekteja ei ollut jaettu tähän laajuuteen, ja koska RF-signaaleja ei ole aiemmin käytetty GAN-kuvasynteesikehyksessä, tutkijoiden oli kehitettävä uusia menetelmiä.

RFGANin ydinarkkitehtuuri.

Mukautuvaa normalisointia käytettiin tulkitsemaan kaksoislämpökartan kuvia harjoituksen aikana siten, että ne vastaavat avaruudellisesti otettua kuvadataa.

RF-kaappauslaitteet olivat millimetriaaltotutkat (mmWave), jotka oli konfiguroitu kahdeksi antenniryhmäksi, vaaka- ja pystysuoraksi. Lähetyksessä käytettiin taajuusmoduloitua jatkuvaa aaltoa (FMCW) ja lineaarisia antenneja.

Generaattori vastaanottaa lähdekehyksen syöttökerroksena, jolloin RF-fuusioitu (lämpökartta) -esitys organisoi verkkoa normalisoimalla konvoluutiokerrosten tasolla.

Päiväys

Tiedot kerättiin mmWave-antennin RF-signaalien heijastuksista vain 20 Hz:n taajuudella, ja samanaikainen ihmisvideo kaapattiin erittäin alhaisella 10 fps:n nopeudella. Yhdeksän sisäkohtausta kuvattiin kuudella vapaaehtoisella, jotka kukin pukeutuivat erilaisiin vaatteisiin tiedonkeruun eri istuntoihin.

Tuloksena oli kaksi erillistä tietojoukkoa, RF-aktiivisuus ja RF-Walk, edellinen sisältää 68,860 XNUMX kuvaa ihmisistä eri asemissa (esim kyykyssä ja kävellä) yhdessä 137,760 67,860 vastaavan lämpökarttakehyksen kanssa; ja jälkimmäinen sisältää 135,720 XNUMX ihmisen satunnaista kävelykehystä sekä XNUMX XNUMX paria niihin liittyviä lämpökarttoja.

Data jakautui sopimuksen mukaan epätasaisesti harjoittelun ja testauksen kesken, 55,225 110 kuvakehystä ja 450 320 lämpökarttaparia käytettiin harjoitteluun, ja loput pidätettiin testausta varten. RGB-kaappauskehysten koko muutettiin 180 × 201:aan ja lämpökarttojen koko 160 × XNUMX:aan.

Sitten mallia koulutettiin Adamin kanssa johdonmukaisella oppimisnopeudella 0.0002 sekä generaattorille että erottimelle 80:n aikakaudella ja (erittäin harvalla) 2:n eräkoolla. Koulutus tapahtui PyTorchin kautta kuluttajatason GTX-pohjalla. -1080 GPU, jonka 8gb VRAM-muistia pidettäisiin yleensä melko vaatimattomana sellaiseen tehtävään (selittää pienen eräkoon).

Vaikka tutkijat mukauttivat joitain tavanomaisia mittareita tulosten realistisuuden testaamiseen (yksityiskohtaisesti paperissa) ja suorittivat tavanomaisia ablaatiotestejä, ei ollut vastaavaa aikaisempaa työtä, jonka perusteella RFGAN:n suorituskykyä voitaisiin mitata.

Avoin kiinnostus salaisia signaaleja kohtaan

RFGAN ei ole ensimmäinen projekti, jossa yritetään käyttää radiotaajuuksia rakentamaan tilavuuskuva siitä, mitä huoneessa tapahtuu. Vuonna 2019 MIT CSAILin tutkijat kehittivät arkkitehtuurin nimeltä RF-avatar, kykenevä rekonstruoida 3D-ihmisiä perustuu radiotaajuisiin signaaleihin Wi-Fi-alueella, vaikeissa tukosolosuhteissa.

Vuoden 2019 MIT CSAIL -projektissa radioaaltoja käytettiin poistamaan tukkeumia, jopa seiniä ja vaatteita, jotta kaapatut kohteet luotiin uudelleen perinteisemmässä CGI-pohjaisessa työnkulussa. Lähde: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

Uuden artikkelin tutkijat tunnustavat myös löyhästi liittyvät aikaisemmat työt ympäristön kartoittamisesta radioaaltojen avulla (mikään niistä ei yritä luoda valotodellisia ihmisiä), jolla pyrittiin arvioi ihmisen nopeutta; nähdä seinien läpi Wi-Fi-yhteydellä; arvioida ihmisen asentoja; ja jopa tunnistaa ihmisen eleitä, monien muiden tavoitteiden joukossa.

Siirrettävyys ja laajempi sovellettavuus

Tämän jälkeen tutkijat lähtivät näkemään, soveltuiko heidän löytönsä liikaa alkuperäiseen sieppausympäristöön ja harjoitusolosuhteisiin, vaikka paperi tarjoaa vain vähän yksityiskohtia kokeen tästä vaiheesta. He väittävät:

"Meidän ei tarvitse kouluttaa koko mallia uudelleen alusta alkaen, jotta voimme ottaa mallin käyttöön uudessa tilanteessa. Voimme hienosäätää esikoulutettua RFGAN:ia käyttämällä hyvin vähän dataa (noin 40 sekunnin data) saadaksemme samanlaisia tuloksia.

Ja jatka:

– Häviöfunktiot ja hyperparametrit ovat samat harjoitusvaiheen kanssa. Kvantitatiivisten tulosten perusteella havaitsemme, että esikoulutettu RFGAN-malli voi luoda haluttuja ihmisen toimintakehyksiä uudessa kohtauksessa hienosäädön jälkeen vain pienellä tiedolla, mikä tarkoittaa, että ehdottamamme mallimme voi tulla laajalti käyttöön.

Paperin yksityiskohtien perusteella tästä uuden tekniikan merkittävästä sovelluksesta ei ole selvää, onko tutkijoiden luoma verkosto "sovitettu" yksinomaan alkuperäisille kohteille vai voivatko RF-lämpökartat päätellä yksityiskohtia, kuten vaatteiden väriä. , koska tämä näyttää olevan hajallaan optisissa ja radiokaappausmenetelmissä mukana olevien kahden eri taajuuden välillä.

Joka tapauksessa RFGAN on uusi tapa käyttää Generative Adversarial Networksin jäljitteleviä ja edustavia voimia luodakseen uusi ja kiehtova valvontamuoto – sellaisen, joka voisi mahdollisesti toimia pimeässä ja seinien läpi, tavalla, joka on vieläkin vaikuttavampi kuin viimeaikaiset pyrkimykset. to katso pyöreät kulmat heijastuneella valolla.

8. joulukuuta 2021 (ensimmäisen julkaisun päivä), 8 GMT+04 – poistettu toistuva sana. – MA

Seuraavaksi

Tietokonenäkömallien harjoitteleminen satunnaiskohinalla oikeiden kuvien sijaan

Älä missaa

Kasvojen synteesin järjestäminen semanttisella segmentoinnilla

Martin Anderson

Kirjoittaja koneoppimisesta, tekoälystä ja big datasta.
Henkilökohtainen sivusto: martinanderson.ai
Ottaa yhteyttä: [sähköposti suojattu]
Twitter: @manders_ai

Unite.AI

Ihmiskuvan synteesi heijastuneista radioaalloista

Tekoäly