Umělá inteligence

Syntéza lidského obrazu z odražených rádiových vln

Published December 8, 2021

Updated April 5, 2026

Martin Anderson

Výzkumníci z Číny vyvinuli metodu pro syntézu téměř fotorealistických obrazů lidí bez použití kamer, pomocí rádiových vln a Generative Adversarial Networks (GANs). Systém, který vytvořili, je trénován na skutečných obrazech pořízených za dobrého osvětlení, ale je schopen zachytit relativně autentické “snímky” lidí i za tmavých podmínek – a dokonce i přes významné překážky, které by skryly lidi před konvenčními kamerami.

Obrazy závisí na “teplotních mapách” ze dvou rádiových antén, jedné zachycující data ze stropu dolů a druhé zaznamenávající perturbace rádiových vln z “stojící” pozice.

Vzniklé fotografie z experimentů výzkumníků mají faceless, “J-Horror” aspekt:

Na základě trénování skutečných obrazů lidí ve stejném prostředí, RFGAN používá rádiové vlny pro záznam lidské činnosti a generování snímků, které aproximují omezené rozlišení nízkofrekvenčních RF signálů. Světla nejsou nutná, protože barvy jsou (zjevně) vnímány způsobem, jakým jsou rádiové vlny perturbovány přítomností lidí a variacemi frekvence, jak se rádiové vlny vracejí zpět s různou sílou signálu a s rozdílnými charakteristikami. Source: https://arxiv.org/pdf/2112.03727.pdf

RFGAN je trénován na obrazech skutečných lidí v kontrolovaném prostředí a na rádiových vlnových mapách, které zaznamenávají lidskou činnost. Díky naučeným funkcím z dat, RFGAN může poté generovat snímky na základě nových RF dat. Výsledný obraz je aproximace, založená na omezeném rozlišení nízkofrekvenčních RF signálů. Tento proces funguje i v tmavých prostředích a prostřednictvím různých potenciálních překážek. Source: https://arxiv.org/pdf/2112.03727.pdf

Pro trénování GAN, nazvaného RFGAN, výzkumníci použili shodná data ze standardní RGB kamery a ze spojených odpovídajících rádiových teplých map, které byly vyprodukovány v exact okamžiku zachycení. Obrazy syntetizovaných lidí v novém projektu tendují být rozmazané způsobem podobným rané daguerrotypické fotografii, protože rozlišení rádiových vln použitých je velmi nízké, s hloubkovým rozlišením 7,5 cm a úhlovým rozlišením asi 1,3 stupňů.

Nahoře, obraz, který je krmen do GAN sítě – dole, dvě teplé mapy, horizontální a vertikální, které charakterizují osobu v místnosti, a které jsou syntetizovány samy o sobě uvnitř architektury do 3D reprezentace perturbovaných dat.

Nová práce, nazvaná RFGAN: RF-Based Human Synthesis, pochází od šesti výzkumníků z University of Electronic Science and Technology of China.

Data a Architektura

Vzhledem k absenci jakýchkoli předchozích datových sad nebo projektů, které sdílejí tento rozsah, a skutečnosti, že RF signály nebyly dříve použity v rámci GAN obrazové syntézy, výzkumníci museli vyvinout nové metodologie.

Jádro architektury RFGAN.

Adaptivní normalizace byla použita pro interpretaci dvojích teplých map během trénování, aby odpovídaly prostorově se zachycenými obrazovými daty.

RF záchytná zařízení byla millimetrová vlnová (mmWave) radary konfigurovaná jako dvě anténní pole, horizontální a vertikální. Frekvenčně modulované kontinuální vlny (FMCW) a lineární antény byly použity pro transceiving.

Generátor dostává zdroj rámečku jako vstupní vrstvu, s RF fúzovaným (teplou mapou) reprezentací, která orchestruje síť prostřednictvím normalizace na úrovni konvolučních vrstev.

Data

Data byla shromážděna z RF signálových odrazů z mmWave antény při pouhých 20 Hz, se současným lidským videem zachyceným při velmi nízkém 10 fps. Bylo zachyceno devět vnitřních scén, pomocí šesti dobrovolníků, z nichž každý nosil různé oblečení pro různé sezení sběru dat.

Výsledkem byly dvě odlišné datové sady, RF-Activity a RF-Walk, první obsahující 68 860 obrazů lidí v různých pozicích (jako squat a walk), spolu s 137 760 odpovídajícími teplými mapami; a druhá obsahující 67 860 lidských náhodných chodeckých rámečků, spolu s 135 720 páry spojených teplých map.

Data, podle konvence, byla rozdělena nerovnoměrně mezi trénování a testování, s 55 225 obrazovými rámečky a 110 450 páry teplých map použitých pro trénování, a zbytek byl držen zpět pro testování. RGB záchytné rámečky byly přepočteny na 320×180, a teplé mapy přepočteny na 201×160.

Model byl poté trénován s Adamem při stálé učící rychlosti 0,0002 pro generátor i diskriminátor, při epochě 80 a (velmi řídké) velikosti dávky 2. Trénování probíhalo prostřednictvím PyTorch na spotřebitelské úrovni jediné GTX-1080 GPU, jehož 8 GB VRAM by obecně bylo považováno za bastante skromné pro takovou úlohu (což vysvětluje nízkou velikost dávky).

Ačkoli výzkumníci přizpůsobili některé konvenční metriky pro testování realismu výstupu (podrobně popsáno v práci), a provedli obvyklé ablační testy, neexistovala žádná předchozí práce, proti které by se dala měřit výkonnost RFGAN.

Otevřený zájem o tajné signály

RFGAN není prvním projektem, který se pokusil použít rádiové frekvence pro vytvoření objemového obrazu toho, co se děje v místnosti. V roce 2019 výzkumníci z MIT CSAIL vyvinuli architekturu nazvanou RF-Avatar, schopnou rekonstruovat 3D lidi na základě rádiových frekvencí v rozsahu Wi-Fi, za podmínek závažného zakrytí.

V projektu MIT CSAIL z roku 2019 byly rádiové vlny použity pro odstranění zakrytí, včetně stěn a oděvů, za účelem rekonstrukce zachycených subjektů v tradičním CGI-založeném pracovním postupu. Source: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

Výzkumníci nové práce také uznávají volně související předchozí práci kolem mapování prostředí s rádiovými vlnami (žádná z nich se nepokoušela rekonstruovat fotorealistické lidi), která se snažila odhadnout lidskou rychlost; vidět prostřednictvím stěn s Wi-Fi; hodnotit lidské pózy; a dokonce rozpoznat lidské gesta, mezi mnoha jinými cíli.

Přenositelnost a širší použitelnost

Výzkumníci se poté pokusili zjistit, zda jejich objev byl nadměrně přizpůsoben počátečnímu zachytávacímu prostředí a trénovacím okolnostem, i když práce nabízí málo detailů o této fázi experimentu. Tvrdí:

‘Pro nasazení našeho modelu v novém scénáři nemusíme znovu trénovat celý model od začátku. Můžeme jemně upravit předtrénovaný RFGAN pomocí velmi málo dat (asi 40s dat) a získat podobné výsledky.’

A pokračují:

‘Funkce ztrát a hyperparametry jsou stejné jako ve fázi trénování. Z kvantitativních výsledků zjistíme, že předtrénovaný model RFGAN může generovat žádoucí lidské aktivity ve nového scénáři po jemné úpravě s velmi málo daty, což znamená, že náš navrhovaný model má potenciál pro široké použití.’

Na základě detailů v práci o tomto seminárním použití nové techniky není jasné, zda síť, kterou výzkumníci vytvořili, je “fit-trénována” výhradně na původní subjekty, nebo zda RF-teplé mapy mohou odvodit detaily, jako je barva oblečení, protože to parece hraničí mezi dvěma různými typy frekvencí zapojených do optických a rádiových metod zachycení.

Každopádně, RFGAN je novým způsobem použití imitačních a reprezentačních sil Generative Adversarial Networks pro vytvoření nové a fascinující formy dohledu – jedné, která by mohla potenciálně fungovat ve tmě a přes zdi, způsobem ještě působivějším než nedávné úsilí vidět kolem rohů s odraženým světlem.

8. prosince 2021 (den první publikace), 20:04 GMT+2 – odstraněno opakované slovo. – MA

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai

Unite.AI

Syntéza lidského obrazu z odražených rádiových vln

Data a Architektura

Data

Otevřený zájem o tajné signály

Přenositelnost a širší použitelnost

You may like