Umjetna inteligencija
Sinteza ljudske slike iz reflektiranih radio valova
Istraživači iz Kine razvili su metodu za sintetiziranje gotovo fotorealnih slika ljudi bez kamera, korištenjem radiovalova i Generativne suparničke mreže (GAN-ovi). Sustav koji su osmislili je uvježban na stvarnim slikama snimljenim pri dobrom svjetlu, ali je sposoban uhvatiti relativno autentične 'snimke' ljudi čak i kada su uvjeti mračni – pa čak i kroz velike prepreke koje bi sakrile ljude od konvencionalnih kamera.
Slike se oslanjaju na 'toplinske karte' dviju radijskih antena, jedna hvata podatke od stropa prema dolje, a druga bilježi poremećaje radiovalova iz 'stojećeg' položaja.
Rezultirajuće fotografije iz istraživačkih eksperimenata za dokazivanje koncepta imaju bezličan, 'J-Horror' aspekt:
Za obuku GAN-a, sinkronizirano RFGAN, istraživači su koristili podudarne podatke sa standardne RGB kamere i iz spojenih odgovarajućih radijskih toplinskih karti koje su proizvedene u točnom trenutku snimanja. Slike sintetiziranih ljudi u novom projektu imaju tendenciju da budu zamućene na način sličan ranoj dagerotipskoj fotografiji, jer je rezolucija korištenih radio valova vrlo niska, s dubinskom rezolucijom od 7.5 cm i kutnom rezolucijom od oko 1.3 stupnja.
Novo papir, Pod naslovom RFGAN: RF-bazirana ljudska sinteza, dolazi od šest istraživača sa Sveučilišta elektroničke znanosti i tehnologije Kine.
Podaci i arhitektura
Zbog nedostatka prethodnih skupova podataka ili projekata koji su dijelili ovaj opseg i činjenice da RF signali nisu ranije korišteni u GAN okviru za sintezu slike, istraživači su morali razviti nove metodologije.
Prilagodljiva normalizacija korištena je za tumačenje slika dvostruke toplinske karte tijekom treninga, tako da prostorno odgovaraju podacima snimljene slike.
Uređaji za hvatanje RF bili su radari milimetarskih valova (mmWave) konfigurirani kao dva antenska niza, vodoravna i okomita. Za prijenos su korišteni frekvencijski modulirani kontinuirani val (FMCW) i linearne antene.
Generator prima izvorni okvir kao ulazni sloj, s RF spojenom (heatmap) reprezentacijom koja orkestrira mrežu kroz normalizaciju na razini konvolucijskih slojeva.
Datum
Podaci su prikupljeni refleksijom RF signala od mmWave antene na samo 20 Hz, uz istovremeni ljudski video snimljen na vrlo niskih 10 fps. Snimljeno je devet scena u zatvorenom prostoru, uz pomoć šest volontera, od kojih je svaki nosio različitu odjeću za različite sesije prikupljanja podataka.
Rezultat su bila dva različita skupa podataka, RF-aktivnost i RF-hod, prvi sadrži 68,860 slika ljudi u različitim položajima (kao što je squatting i hodati), zajedno sa 137,760 odgovarajućih okvira mape topline; a potonji sadrži 67,860 ljudskih okvira slučajnog hoda, zajedno sa 135,720 parova povezanih toplinskih karti.
Podaci su, prema konvenciji, bili neravnomjerno podijeljeni između obuke i testiranja, s 55,225 110 okvira slike i 450 320 parova toplinskih karti korištenih za obuku, a ostatak je zadržan za testiranje. Veličina RGB okvira za snimanje promijenjena je na 180×201, a toplinske karte na 160×XNUMX.
Model je zatim treniran s Adamom pri dosljednoj stopi učenja od 0.0002 i za generator i za diskriminator, u epohi od 80 i (vrlo rijetkoj) veličini serije od 2. Obuka se odvijala putem PyTorcha na potplatu GTX na razini potrošača -1080 GPU, čijih bi se 8 GB VRAM-a općenito smatralo prilično skromnim za takav zadatak (što objašnjava malu veličinu serije).
Iako su istraživači prilagodili neke konvencionalne metrike za testiranje realističnosti izlaza (detaljnije u radu) i proveli uobičajene testove ablacije, nije bilo ekvivalentnog prethodnog rada prema kojem bi se mjerila izvedba RFGAN-a.
Otvoreni interes za tajne signale
RFGAN nije prvi projekt koji pokušava koristiti radio frekvencije za izgradnju volumetrijske slike onoga što se događa u prostoriji. Godine 2019. istraživači s MIT CSAIL razvili su arhitekturu tzv RF-avatar, sposoban za rekonstruiranje 3D ljudi na temelju radiofrekventnih signala u Wi-Fi rasponu, u teškim uvjetima okluzije.
Istraživači novog rada također priznaju labavo povezan prethodni rad oko mapiranja okoliša s radiovalovima (nijedan od njih ne pokušava rekreirati fotorealne ljude), koji su nastojali procijeniti ljudsku brzinu; vidjeti kroz zidove s Wi-Fi; procijeniti ljudske poze; pa čak i prepoznati ljudske geste, između raznih drugih ciljeva.
Prenosivost i šira primjenjivost
Istraživači su zatim krenuli vidjeti je li njihovo otkriće bilo previše prilagođeno početnom okruženju hvatanja i okolnostima obuke, iako rad nudi nekoliko detalja o ovoj fazi eksperimenta. Oni tvrde:
'Da bismo implementirali naš model na novu scenu, ne trebamo ponovno uvježbavati cijeli model od početka. Možemo fino podesiti prethodno obučeni RFGAN koristeći vrlo malo podataka (oko 40 s podataka) kako bismo dobili slične rezultate.'
I nastavi:
'Funkcije gubitka i hiperparametri isti su s fazom obuke. Iz kvantitativnih rezultata otkrivamo da unaprijed obučeni RFGAN model može generirati poželjne okvire ljudske aktivnosti u novoj sceni nakon finog podešavanja sa samo malo podataka, što znači da naš predloženi model ima potencijal za široku upotrebu.'
Na temelju pojedinosti u radu o ovoj početnoj primjeni nove tehnike, nije jasno je li mreža koju su istraživači stvorili "osposobljena" isključivo za izvorne subjekte ili RF-toplinske karte mogu zaključiti detalje poput boje odjeće , budući da se čini da ovo povezuje dvije različite vrste frekvencija uključenih u optičke i radio metode snimanja.
U svakom slučaju, RFGAN je novi način korištenja imitacijskih i reprezentativnih moći Generative Adversarial Networks za stvaranje novog i intrigantnog oblika nadzora – onog koji bi potencijalno mogao djelovati u mraku i kroz zidove, na način još impresivniji od nedavnih pokušaja do vidjeti okrugle kutove s reflektiranom svjetlošću.
8. prosinca 2021. (dan prve objave), 8:04 GMT+2 – uklonjena ponovljena riječ. – MA