Umělá inteligence
Syntéza lidského obrazu z odražených rádiových vln

Výzkumníci z Číny vyvinuli metodu pro syntézu téměř fotorealistických obrazů lidí bez použití kamer, pomocí rádiových vln a Generative Adversarial Networks (GANs). Systém, který vytvořili, je trénován na skutečných obrazech pořízených za dobrého osvětlení, ale je schopen zachytit relativně autentické “snímky” lidí i za tmavých podmínek – a dokonce i přes významné překážky, které by skryly lidi před konvenčními kamerami.
Obrazy závisí na “teplotních mapách” ze dvou rádiových antén, jedné zachycující data ze stropu dolů a druhé zaznamenávající perturbace rádiových vln z “stojící” pozice.
Vzniklé fotografie z experimentů výzkumníků mají faceless, “J-Horror” aspekt:

RFGAN je trénován na obrazech skutečných lidí v kontrolovaném prostředí a na rádiových vlnových mapách, které zaznamenávají lidskou činnost. Díky naučeným funkcím z dat, RFGAN může poté generovat snímky na základě nových RF dat. Výsledný obraz je aproximace, založená na omezeném rozlišení nízkofrekvenčních RF signálů. Tento proces funguje i v tmavých prostředích a prostřednictvím různých potenciálních překážek. Source: https://arxiv.org/pdf/2112.03727.pdf
Pro trénování GAN, nazvaného RFGAN, výzkumníci použili shodná data ze standardní RGB kamery a ze spojených odpovídajících rádiových teplých map, které byly vyprodukovány v exact okamžiku zachycení. Obrazy syntetizovaných lidí v novém projektu tendují být rozmazané způsobem podobným rané daguerrotypické fotografii, protože rozlišení rádiových vln použitých je velmi nízké, s hloubkovým rozlišením 7,5 cm a úhlovým rozlišením asi 1,3 stupňů.

Nahoře, obraz, který je krmen do GAN sítě – dole, dvě teplé mapy, horizontální a vertikální, které charakterizují osobu v místnosti, a které jsou syntetizovány samy o sobě uvnitř architektury do 3D reprezentace perturbovaných dat.
Nová práce, nazvaná RFGAN: RF-Based Human Synthesis, pochází od šesti výzkumníků z University of Electronic Science and Technology of China.
Data a Architektura
Vzhledem k absenci jakýchkoli předchozích datových sad nebo projektů, které sdílejí tento rozsah, a skutečnosti, že RF signály nebyly dříve použity v rámci GAN obrazové syntézy, výzkumníci museli vyvinout nové metodologie.

Jádro architektury RFGAN.
Adaptivní normalizace byla použita pro interpretaci dvojích teplých map během trénování, aby odpovídaly prostorově se zachycenými obrazovými daty.
RF záchytná zařízení byla millimetrová vlnová (mmWave) radary konfigurovaná jako dvě anténní pole, horizontální a vertikální. Frekvenčně modulované kontinuální vlny (FMCW) a lineární antény byly použity pro transceiving.
Generátor dostává zdroj rámečku jako vstupní vrstvu, s RF fúzovaným (teplou mapou) reprezentací, která orchestruje síť prostřednictvím normalizace na úrovni konvolučních vrstev.
Data
Data byla shromážděna z RF signálových odrazů z mmWave antény při pouhých 20 Hz, se současným lidským videem zachyceným při velmi nízkém 10 fps. Bylo zachyceno devět vnitřních scén, pomocí šesti dobrovolníků, z nichž každý nosil různé oblečení pro různé sezení sběru dat.
Výsledkem byly dvě odlišné datové sady, RF-Activity a RF-Walk, první obsahující 68 860 obrazů lidí v různých pozicích (jako squat a walk), spolu s 137 760 odpovídajícími teplými mapami; a druhá obsahující 67 860 lidských náhodných chodeckých rámečků, spolu s 135 720 páry spojených teplých map.
Data, podle konvence, byla rozdělena nerovnoměrně mezi trénování a testování, s 55 225 obrazovými rámečky a 110 450 páry teplých map použitých pro trénování, a zbytek byl držen zpět pro testování. RGB záchytné rámečky byly přepočteny na 320×180, a teplé mapy přepočteny na 201×160.
Model byl poté trénován s Adamem při stálé učící rychlosti 0,0002 pro generátor i diskriminátor, při epochě 80 a (velmi řídké) velikosti dávky 2. Trénování probíhalo prostřednictvím PyTorch na spotřebitelské úrovni jediné GTX-1080 GPU, jehož 8 GB VRAM by obecně bylo považováno za bastante skromné pro takovou úlohu (což vysvětluje nízkou velikost dávky).
Ačkoli výzkumníci přizpůsobili některé konvenční metriky pro testování realismu výstupu (podrobně popsáno v práci), a provedli obvyklé ablační testy, neexistovala žádná předchozí práce, proti které by se dala měřit výkonnost RFGAN.
Otevřený zájem o tajné signály
RFGAN není prvním projektem, který se pokusil použít rádiové frekvence pro vytvoření objemového obrazu toho, co se děje v místnosti. V roce 2019 výzkumníci z MIT CSAIL vyvinuli architekturu nazvanou RF-Avatar, schopnou rekonstruovat 3D lidi na základě rádiových frekvencí v rozsahu Wi-Fi, za podmínek závažného zakrytí.

V projektu MIT CSAIL z roku 2019 byly rádiové vlny použity pro odstranění zakrytí, včetně stěn a oděvů, za účelem rekonstrukce zachycených subjektů v tradičním CGI-založeném pracovním postupu. Source: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf
Výzkumníci nové práce také uznávají volně související předchozí práci kolem mapování prostředí s rádiovými vlnami (žádná z nich se nepokoušela rekonstruovat fotorealistické lidi), která se snažila odhadnout lidskou rychlost; vidět prostřednictvím stěn s Wi-Fi; hodnotit lidské pózy; a dokonce rozpoznat lidské gesta, mezi mnoha jinými cíli.
Přenositelnost a širší použitelnost
Výzkumníci se poté pokusili zjistit, zda jejich objev byl nadměrně přizpůsoben počátečnímu zachytávacímu prostředí a trénovacím okolnostem, i když práce nabízí málo detailů o této fázi experimentu. Tvrdí:
‘Pro nasazení našeho modelu v novém scénáři nemusíme znovu trénovat celý model od začátku. Můžeme jemně upravit předtrénovaný RFGAN pomocí velmi málo dat (asi 40s dat) a získat podobné výsledky.’
A pokračují:
‘Funkce ztrát a hyperparametry jsou stejné jako ve fázi trénování. Z kvantitativních výsledků zjistíme, že předtrénovaný model RFGAN může generovat žádoucí lidské aktivity ve nového scénáři po jemné úpravě s velmi málo daty, což znamená, že náš navrhovaný model má potenciál pro široké použití.’
Na základě detailů v práci o tomto seminárním použití nové techniky není jasné, zda síť, kterou výzkumníci vytvořili, je “fit-trénována” výhradně na původní subjekty, nebo zda RF-teplé mapy mohou odvodit detaily, jako je barva oblečení, protože to parece hraničí mezi dvěma různými typy frekvencí zapojených do optických a rádiových metod zachycení.
Každopádně, RFGAN je novým způsobem použití imitačních a reprezentačních sil Generative Adversarial Networks pro vytvoření nové a fascinující formy dohledu – jedné, která by mohla potenciálně fungovat ve tmě a přes zdi, způsobem ještě působivějším než nedávné úsilí vidět kolem rohů s odraženým světlem.
8. prosince 2021 (den první publikace), 20:04 GMT+2 – odstraněno opakované slovo. – MA












