Umetna inteligenca

Sinteza človeške slike iz odbitih radijskih valov

Posodobljeno on December 9, 2022

Raziskovalci s Kitajske so razvili metodo za sintezo skoraj fotorealističnih slik ljudi brez kamer z uporabo radijskih valov in Generativne adversarne mreže (GAN-ji). Sistem, ki so ga izdelali, je učen na resničnih slikah, posnetih pri dobri svetlobi, vendar je sposoben zajeti razmeroma verodostojne 'podobe' ljudi tudi v temnih razmerah – in celo skozi velike ovire, ki bi ljudi skrile pred običajnimi kamerami.

Slike temeljijo na "toplotnih zemljevidih" dveh radijskih anten, pri čemer ena zajema podatke od stropa navzdol, druga pa beleži motnje radijskih valov iz "stoječega" položaja.

Fotografije, ki izhajajo iz poskusov dokazovanja koncepta raziskovalcev, imajo brezličen vidik "J-Horror":

RFGAN na podlagi urjenja resničnih slik ljudi v istem okolju uporablja toplotne zemljevide radijskih valov za snemanje človeške dejavnosti in ustvarjanje posnetkov, ki so približno enaki omejeni ločljivosti nizkofrekvenčnih RF signalov. Luči niso potrebne, saj se barve (očitno) zaznavajo zaradi načina, kako radijske valove moti prisotnost ljudi, in zaradi variacij v frekvenci, ko se radijski valovi vračajo nazaj pri različnih jakostih signala in z različnimi značilnostmi. Vir: https://arxiv.org/pdf/2112.03727.pdf

RFGAN se usposablja na slikah resničnih ljudi v nadzorovanih okoljih in na toplotnih zemljevidih radijskih valov, ki beležijo človeško dejavnost. Ko se iz podatkov nauči funkcij, lahko RFGAN nato ustvari posnetke na podlagi novih podatkov RF. Dobljena slika je približek, ki temelji na omejeni ločljivosti razpoložljivih nizkofrekvenčnih RF signalov. Ta postopek deluje tudi v zatemnjenih okoljih in skozi različne možne ovire. Vir: https://arxiv.org/pdf/2112.03727.pdf

Usposobiti GAN, sinhronizirano RFGAN, so raziskovalci uporabili ujemajoče se podatke iz standardne RGB kamere in povezanih ustreznih radijskih toplotnih zemljevidov, ki so bili izdelani v točnem trenutku zajema. Slike sintetiziranih ljudi v novem projektu so ponavadi zamegljene na način, podoben zgodnji dagerotipski fotografiji, ker je ločljivost uporabljenih radijskih valov zelo nizka, z globinsko ločljivostjo 7.5 cm in kotno ločljivostjo približno 1.3 stopinje.

Zgoraj slika, ki se napaja v omrežje GAN – spodaj dva toplotna zemljevida, vodoravni in navpični, ki označujeta osebo v prostoru in ki se znotraj arhitekture sintetizirata v 3D predstavitev motečih podatkov.

Novi papirja, z naslovom RFGAN: RF-osnovana človeška sinteza, prihaja od šestih raziskovalcev s Kitajske univerze za elektronsko znanost in tehnologijo.

Podatki in arhitektura

Zaradi pomanjkanja kakršnih koli predhodnih naborov podatkov ali projektov, ki bi delili ta obseg, in dejstva, da RF signali še niso bili uporabljeni v ogrodju za sintezo slike GAN, so morali raziskovalci razviti nove metodologije.

Osnovna arhitektura RFGAN.

Prilagodljiva normalizacija je bila uporabljena za interpretacijo slik dvojnega toplotnega zemljevida med treningom, tako da se prostorsko ujemajo z zajetimi slikovnimi podatki.

Naprave za zajem RF so bili radarji z milimetrskimi valovi (mmWave), konfigurirani kot dve antenski nizi, vodoravni in navpični. Za oddajanje so bile uporabljene frekvenčno modulirane neprekinjene valove (FMCW) in linearne antene.

Generator prejme izvorni okvir kot vhodno plast, pri čemer RF zlita predstavitev (toplotni zemljevid) orkestrira omrežje z normalizacijo na ravni konvolucijskih plasti.

datum

Podatki so bili zbrani iz odbojev radiofrekvenčnega signala od antene mmWave pri samo 20 Hz, s hkratnim človeškim videom, zajetim pri zelo nizkih 10 sličicah na sekundo. Zajetih je bilo devet prizorov v zaprtih prostorih, pri čemer je sodelovalo šest prostovoljcev, od katerih je vsak nosil drugačna oblačila za različne seje zbiranja podatkov.

Rezultat sta bila dva različna niza podatkov, RF-dejavnost in RF-Sprehod, prva vsebuje 68,860 slik ljudi v različnih položajih (kot npr čepenje in sprehod), skupaj s 137,760 ustreznimi okvirji toplotne karte; in slednji vsebuje 67,860 človeških naključnih hodečih okvirjev, skupaj s 135,720 pari povezanih toplotnih kart.

Podatki so bili v skladu s konvencijo neenakomerno razdeljeni med usposabljanje in testiranje, s 55,225 slikovnimi okvirji in 110 pari toplotnih zemljevidov, ki so bili uporabljeni za usposabljanje, preostali del pa je bil zadržan za testiranje. Velikost okvirjev za zajem RGB je bila spremenjena na 450×320, toplotni zemljevidi pa na 180×201.

Model je bil nato učen z Adamom pri dosledni stopnji učenja 0.0002 tako za generator kot za diskriminator, pri epohi 80 in (zelo redki) velikosti serije 2. Usposabljanje je potekalo prek PyTorcha na podplatu GTX na ravni potrošnika. -1080 GPU, katerega 8 GB VRAM-a bi na splošno veljalo za precej skromnega za takšno nalogo (kar pojasnjuje nizko velikost serije).

Čeprav so raziskovalci prilagodili nekatere običajne meritve za testiranje realističnosti izhoda (podrobno v prispevku) in izvedli običajne ablacijske teste, ni bilo enakovrednega predhodnega dela, s katerim bi lahko izmerili učinkovitost RFGAN.

Odprto zanimanje za tajne signale

RFGAN ni prvi projekt, ki poskuša uporabiti radijske frekvence za izgradnjo volumetrične slike dogajanja v sobi. Leta 2019 so raziskovalci z MIT CSAIL razvili arhitekturo, imenovano RF-Avatar, zmožen rekonstrukcija 3D ljudi na podlagi radiofrekvenčnih signalov v območju Wi-Fi, v hudih pogojih okluzije.

V projektu MIT CSAIL iz leta 2019 so bili radijski valovi uporabljeni za odstranjevanje okluzij, vključno s stenami in oblačili, da bi ponovno ustvarili ujete subjekte v bolj tradicionalnem delovnem procesu, ki temelji na CGI. Vir: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

Raziskovalci novega prispevka prav tako priznavajo ohlapno povezano predhodno delo v zvezi s kartiranjem okolja z radijskimi valovi (nobeden od njih ni poskušal poustvariti fotorealnih ljudi), ki so si prizadevali oceni človeško hitrost; glej skozi stene z Wi-Fi; oceniti človeške poze; in celo prepoznati človeške kretnje, med različnimi drugimi cilji.

Prenosljivost in širša uporabnost

Raziskovalci so se nato odločili ugotoviti, ali je bilo njihovo odkritje preveč prilagojeno začetnemu okolju zajemanja in okoliščinam usposabljanja, čeprav dokument ponuja nekaj podrobnosti o tej fazi poskusa. Trdijo:

„Za uvedbo našega modela v novo sceno nam ni treba ponovno usposobiti celotnega modela od začetka. Vnaprej usposobljen RFGAN lahko natančno nastavimo z uporabo zelo malo podatkov (približno 40 s podatkov), da dobimo podobne rezultate.'

In nadaljujte:

„Funkcije izgube in hiperparametri so enaki kot pri stopnji usposabljanja. Iz kvantitativnih rezultatov smo ugotovili, da lahko predhodno usposobljeni model RFGAN ustvari zaželene okvire človeške dejavnosti v novem prizorišču po fini nastavitvi z le malo podatkov, kar pomeni, da ima naš predlagani model potencial za široko uporabo.'

Glede na podrobnosti v članku o tej začetni uporabi nove tehnike ni jasno, ali je omrežje, ki so ga ustvarili raziskovalci, "usposobljeno" izključno za prvotne subjekte ali pa lahko RF-toplotni zemljevidi izpeljejo podrobnosti, kot je barva oblačil , saj se zdi, da to prečka dve različni vrsti frekvenc, vključenih v optične in radijske metode zajemanja.

Kakor koli že, RFGAN je nov način uporabe posnemalnih in reprezentativnih moči Generative Adversarial Networks za ustvarjanje nove in zanimive oblike nadzora – takšne, ki bi potencialno lahko delovala v temi in skozi zidove, na način, ki je še bolj impresiven kot nedavna prizadevanja do videti okrogle vogale z odbito svetlobo.

8. december 2021 (dan prve objave), 8:04 GMT+2 – odstranjena ponovljena beseda. – MA

Up Next

Usposabljanje modelov računalniškega vida na naključnem šumu namesto resničnih slik

Ne zamudite

Orkestriranje obrazne sinteze s semantično segmentacijo

Martin Anderson

Pisec o strojnem učenju, umetni inteligenci in velikih podatkih.
Osebno spletno mesto: martinanderson.ai
Kontakt: [e-pošta zaščitena]
Twitter: @manders_ai

Unite.AI

Sinteza človeške slike iz odbitih radijskih valov

Umetna inteligenca