Umjetna inteligencija

Sinteza ljudske slike iz reflektiranih radio valova

Ažurirano on Prosinac 9, 2022

Istraživači iz Kine razvili su metodu za sintetiziranje gotovo fotorealnih slika ljudi bez kamera, korištenjem radiovalova i Generativne suparničke mreže (GAN-ovi). Sustav koji su osmislili je uvježban na stvarnim slikama snimljenim pri dobrom svjetlu, ali je sposoban uhvatiti relativno autentične 'snimke' ljudi čak i kada su uvjeti mračni – pa čak i kroz velike prepreke koje bi sakrile ljude od konvencionalnih kamera.

Slike se oslanjaju na 'toplinske karte' dviju radijskih antena, jedna hvata podatke od stropa prema dolje, a druga bilježi poremećaje radiovalova iz 'stojećeg' položaja.

Rezultirajuće fotografije iz istraživačkih eksperimenata za dokazivanje koncepta imaju bezličan, 'J-Horror' aspekt:

Na temelju uvježbavanja stvarnih slika ljudi u istom okruženju, RFGAN koristi toplinske karte radiovalova za snimanje ljudske aktivnosti i generiranje snimaka koji su približni ograničenoj razlučivosti niskofrekventnih RF signala. Svjetla nisu potrebna, budući da se boje (očigledno) percipiraju na način na koji su radio valovi poremećeni prisutnošću ljudi i varijacijama u frekvenciji jer se radio valovi vraćaju natrag pri različitim snagama signala i s različitim karakteristikama. Izvor: https://arxiv.org/pdf/2112.03727.pdf

RFGAN je obučen na slikama stvarnih ljudi u kontroliranim okruženjima i na toplinskim kartama radio valova koje bilježe ljudsku aktivnost. Nakon što je naučio značajke iz podataka, RFGAN zatim može generirati snimke na temelju novih RF podataka. Dobivena slika je aproksimacija, temeljena na ograničenoj rezoluciji dostupnih RF signala niske frekvencije. Ovaj proces funkcionira čak iu zamračenim okruženjima i kroz niz potencijalnih prepreka. Izvor: https://arxiv.org/pdf/2112.03727.pdf

Za obuku GAN-a, sinkronizirano RFGAN, istraživači su koristili podudarne podatke sa standardne RGB kamere i iz spojenih odgovarajućih radijskih toplinskih karti koje su proizvedene u točnom trenutku snimanja. Slike sintetiziranih ljudi u novom projektu imaju tendenciju da budu zamućene na način sličan ranoj dagerotipskoj fotografiji, jer je rezolucija korištenih radio valova vrlo niska, s dubinskom rezolucijom od 7.5 cm i kutnom rezolucijom od oko 1.3 stupnja.

Iznad, slika koja se šalje GAN mreži – ispod, dvije toplinske karte, horizontalna i vertikalna, koje karakteriziraju osobu u prostoriji, a koje se same sintetiziraju unutar arhitekture u 3D prikaz poremećenih podataka.

Novo papir, Pod naslovom RFGAN: RF-bazirana ljudska sinteza, dolazi od šest istraživača sa Sveučilišta elektroničke znanosti i tehnologije Kine.

Podaci i arhitektura

Zbog nedostatka prethodnih skupova podataka ili projekata koji su dijelili ovaj opseg i činjenice da RF signali nisu ranije korišteni u GAN okviru za sintezu slike, istraživači su morali razviti nove metodologije.

Temeljna arhitektura RFGAN-a.

Prilagodljiva normalizacija korištena je za tumačenje slika dvostruke toplinske karte tijekom treninga, tako da prostorno odgovaraju podacima snimljene slike.

Uređaji za hvatanje RF bili su radari milimetarskih valova (mmWave) konfigurirani kao dva antenska niza, vodoravna i okomita. Za prijenos su korišteni frekvencijski modulirani kontinuirani val (FMCW) i linearne antene.

Generator prima izvorni okvir kao ulazni sloj, s RF spojenom (heatmap) reprezentacijom koja orkestrira mrežu kroz normalizaciju na razini konvolucijskih slojeva.

Datum

Podaci su prikupljeni refleksijom RF signala od mmWave antene na samo 20 Hz, uz istovremeni ljudski video snimljen na vrlo niskih 10 fps. Snimljeno je devet scena u zatvorenom prostoru, uz pomoć šest volontera, od kojih je svaki nosio različitu odjeću za različite sesije prikupljanja podataka.

Rezultat su bila dva različita skupa podataka, RF-aktivnost i RF-hod, prvi sadrži 68,860 slika ljudi u različitim položajima (kao što je squatting i hodati), zajedno sa 137,760 odgovarajućih okvira mape topline; a potonji sadrži 67,860 ljudskih okvira slučajnog hoda, zajedno sa 135,720 parova povezanih toplinskih karti.

Podaci su, prema konvenciji, bili neravnomjerno podijeljeni između obuke i testiranja, s 55,225 110 okvira slike i 450 320 parova toplinskih karti korištenih za obuku, a ostatak je zadržan za testiranje. Veličina RGB okvira za snimanje promijenjena je na 180×201, a toplinske karte na 160×XNUMX.

Model je zatim treniran s Adamom pri dosljednoj stopi učenja od 0.0002 i za generator i za diskriminator, u epohi od 80 i (vrlo rijetkoj) veličini serije od 2. Obuka se odvijala putem PyTorcha na potplatu GTX na razini potrošača -1080 GPU, čijih bi se 8 GB VRAM-a općenito smatralo prilično skromnim za takav zadatak (što objašnjava malu veličinu serije).

Iako su istraživači prilagodili neke konvencionalne metrike za testiranje realističnosti izlaza (detaljnije u radu) i proveli uobičajene testove ablacije, nije bilo ekvivalentnog prethodnog rada prema kojem bi se mjerila izvedba RFGAN-a.

Otvoreni interes za tajne signale

RFGAN nije prvi projekt koji pokušava koristiti radio frekvencije za izgradnju volumetrijske slike onoga što se događa u prostoriji. Godine 2019. istraživači s MIT CSAIL razvili su arhitekturu tzv RF-avatar, sposoban za rekonstruiranje 3D ljudi na temelju radiofrekventnih signala u Wi-Fi rasponu, u teškim uvjetima okluzije.

U projektu MIT CSAIL iz 2019. radiovalovi su korišteni za uklanjanje okluzija, uključujući zidove i odjeću, kako bi se ponovno stvorili snimljeni subjekti u tradicionalnijem tijeku rada temeljenom na CGI-ju. Izvor: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

Istraživači novog rada također priznaju labavo povezan prethodni rad oko mapiranja okoliša s radiovalovima (nijedan od njih ne pokušava rekreirati fotorealne ljude), koji su nastojali procijeniti ljudsku brzinu; vidjeti kroz zidove s Wi-Fi; procijeniti ljudske poze; pa čak i prepoznati ljudske geste, između raznih drugih ciljeva.

Prenosivost i šira primjenjivost

Istraživači su zatim krenuli vidjeti je li njihovo otkriće bilo previše prilagođeno početnom okruženju hvatanja i okolnostima obuke, iako rad nudi nekoliko detalja o ovoj fazi eksperimenta. Oni tvrde:

'Da bismo implementirali naš model na novu scenu, ne trebamo ponovno uvježbavati cijeli model od početka. Možemo fino podesiti prethodno obučeni RFGAN koristeći vrlo malo podataka (oko 40 s podataka) kako bismo dobili slične rezultate.'

I nastavi:

'Funkcije gubitka i hiperparametri isti su s fazom obuke. Iz kvantitativnih rezultata otkrivamo da unaprijed obučeni RFGAN model može generirati poželjne okvire ljudske aktivnosti u novoj sceni nakon finog podešavanja sa samo malo podataka, što znači da naš predloženi model ima potencijal za široku upotrebu.'

Na temelju pojedinosti u radu o ovoj početnoj primjeni nove tehnike, nije jasno je li mreža koju su istraživači stvorili "osposobljena" isključivo za izvorne subjekte ili RF-toplinske karte mogu zaključiti detalje poput boje odjeće , budući da se čini da ovo povezuje dvije različite vrste frekvencija uključenih u optičke i radio metode snimanja.

U svakom slučaju, RFGAN je novi način korištenja imitacijskih i reprezentativnih moći Generative Adversarial Networks za stvaranje novog i intrigantnog oblika nadzora – onog koji bi potencijalno mogao djelovati u mraku i kroz zidove, na način još impresivniji od nedavnih pokušaja do vidjeti okrugle kutove s reflektiranom svjetlošću.

8. prosinca 2021. (dan prve objave), 8:04 GMT+2 – uklonjena ponovljena riječ. – MA

Sljedeći

Uvježbavanje modela računalnog vida na nasumičnim šumovima umjesto stvarnih slika

Ne propustite

Orkestriranje sinteze lica sa semantičkom segmentacijom

Martin Anderson

Pisac o strojnom učenju, umjetnoj inteligenciji i velikim podacima.
Osobna stranica: martinanderson.ai
Kontaktirajte nas na: [e-pošta zaštićena]
Twitter: @manders_ai

Ujedinite se.AI

Sinteza ljudske slike iz reflektiranih radio valova

Umjetna inteligencija