Mesterséges Intelligencia

Emberi képszintézis visszavert rádióhullámokból

korszerűsített on December 9, 2022

Kínai kutatók olyan módszert fejlesztettek ki, amellyel közel fotorealisztikus képeket szintetizálhatnak az emberekről kamera nélkül, rádióhullámok és Generatív kontradiktórius hálózatok (GAN-ok). Az általuk kidolgozott rendszer jó fényben készült valós képekre van kiképezve, de még sötét körülmények között is képes viszonylag hiteles „pillanatfelvételeket” készíteni az emberekről – és még olyan jelentős akadályok esetén is, amelyek elrejtik az embereket a hagyományos kamerák elől.

A képek két rádióantenna „hőtérképére” támaszkodnak, az egyik a mennyezetről lefelé rögzíti az adatokat, a másik pedig „álló” helyzetből rögzíti a rádióhullám-zavarokat.

A kutatók koncepcióbizonyítási kísérleteiből készült fényképek arctalan, „J-Horror” vonatkozással rendelkeznek:

Az azonos környezetben élő emberek valós képeinek betanítása alapján az RFGAN rádióhullám-hőtérképeket használ az emberi tevékenység rögzítésére, és olyan pillanatfelvételeket készít, amelyek megközelítik az alacsony frekvenciájú RF jelek korlátozott felbontását. Fényekre nincs szükség, mivel a színeket (látszólag) úgy érzékelik, ahogyan a rádióhullámokat zavarják az emberek jelenléte, és a frekvencia változása, ahogy a rádióhullámok különböző jelerősségekkel és eltérő tulajdonságokkal térnek vissza. Forrás: https://arxiv.org/pdf/2112.03727.pdf

Az RFGAN képzésben részesült valódi emberek ellenőrzött környezetben lévő képei és az emberi tevékenységet rögzítő rádióhullám-hőtérképek. Miután megtanulta a funkciókat az adatokból, az RFGAN pillanatképeket tud generálni az új RF adatok alapján. Az eredményül kapott kép egy közelítés, amely a rendelkezésre álló alacsony frekvenciájú RF jelek korlátozott felbontásán alapul. Ez a folyamat még sötét környezetben is működik, és számos lehetséges akadályon keresztül. Forrás: https://arxiv.org/pdf/2112.03727.pdf

Képezni a GAN-t, szinkronizált RFGAN, a kutatók egy szabványos RGB-kamerából és a rögzítés pontos pillanatában előállított megfelelő rádiós hőtérképek egyező adatait használták. Az új projektben a szintetizált emberekről készült képek a korai dagerrotípiához hasonlóan elmosódnak, mivel a használt rádióhullámok felbontása nagyon alacsony, mélységi felbontása 7.5 cm, szögfelbontása pedig körülbelül 1.3 fok.

Fent a GAN hálózatba betáplált kép – lent a két hőtérkép, a vízszintes és a függőleges, amelyek a helyiségben tartózkodó személyt jellemzik, és amelyek az architektúrán belül szintetizálódnak a megzavart adatok 3D-s megjelenítésévé.

Az új papír, címe RFGAN: RF-alapú emberi szintézis, a Kínai Elektronikai Tudományos és Technológiai Egyetem hat kutatójától származik.

Adatok és architektúra

Mivel nem álltak rendelkezésre olyan korábbi adatkészletek vagy projektek, amelyek megosztották ezt a hatókört, és mivel korábban nem használtak RF jeleket GAN képszintézis keretrendszerben, a kutatóknak új módszertanokat kellett kidolgozniuk.

Az RFGAN alapvető architektúrája.

Adaptív normalizálást alkalmaztunk az iker hőtérképes képek értelmezésére az edzés során, hogy azok térben megfeleljenek a rögzített képadatoknak.

Az RF-elfogó eszközök milliméterhullámú (mmWave) radarok voltak, amelyek két, vízszintes és függőleges antennatömbként voltak konfigurálva. Az adásvételhez Frequency Modulated Continuous Wave (FMCW) és lineáris antennákat használtunk.

A generátor bemeneti rétegként egy forráskeretet kap, az RF fuzionált (hőtérkép) reprezentációval pedig a konvolúciós rétegek szintjén történő normalizálással hangszereli a hálózatot.

dátum

Az adatokat az mmWave antenna rádiófrekvenciás jelének visszaverődéseiből gyűjtöttük össze, mindössze 20 Hz-en, miközben az egyidejű emberi videót nagyon alacsony 10 képkocka/mp sebességgel rögzítették. Kilenc beltéri jelenetet rögzítettek hat önkéntes segítségével, akik mindegyike más-más ruhát viselt az adatgyűjtés különböző részein.

Az eredmény két különálló adatkészlet, RF-aktivitás és a RF-Walk, az előbbi 68,860 XNUMX képet tartalmaz különböző pozícióban lévő emberekről (pl zömök és a séta), 137,760 67,860 megfelelő hőtérkép-kerettel együtt; az utóbbi pedig 135,720 XNUMX véletlenszerű emberi sétáló keretet tartalmaz, valamint XNUMX XNUMX pár kapcsolódó hőtérképet.

Az adatok a megegyezés szerint egyenlőtlenül oszlottak meg a képzés és a tesztelés között, 55,225 110 képkockát és 450 320 hőtérképpárt használtak az edzéshez, a többit pedig visszatartották a teszteléshez. Az RGB rögzítési képkockákat 180 × 201-ra, a hőtérképeket 160 × XNUMX-ra méretezték át.

A modellt ezután Ádámmal betanították 0.0002-es konzisztens tanulási sebességgel mind a generátor, mind a diszkriminátor esetében, 80-as korszakban és (nagyon ritka) 2-es kötegmérettel. A képzés PyTorch-en keresztül, fogyasztói szintű GTX-talpon történt -1080 GPU, amelynek 8 GB VRAM-ja általában elég szerénynek számít egy ilyen feladathoz (ez az alacsony kötegméret magyarázata).

Bár a kutatók adaptáltak néhány hagyományos mérőszámot a kimenet valósághűségének tesztelésére (részletesen a cikkben), és elvégezték a szokásos ablációs teszteket, nem volt egyenértékű korábbi munka, amelyhez képest mérni lehetett volna az RFGAN teljesítményét.

Nyílt érdeklődés a titkos jelek iránt

Az RFGAN nem az első olyan projekt, amely rádiófrekvenciák felhasználásával próbálja felépíteni térfogati képét arról, hogy mi történik egy szobában. 2019-ben az MIT CSAIL kutatói kifejlesztettek egy architektúrát, az úgynevezett RF-Avatar, képes 3D-s emberek rekonstrukciója rádiófrekvenciás jelek alapján a Wi-Fi tartományban, súlyos elzáródási körülmények között.

A 2019-es MIT CSAIL projektben rádióhullámokat használtak az elzáródások eltávolítására, még a falak és a ruhák eltávolítására is, hogy a rögzített témákat egy hagyományosabb CGI-alapú munkafolyamatban újrateremtsék. Forrás: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

Az új tanulmány kutatói elismerik a rádióhullámokkal történő környezettérképezéssel kapcsolatos, lazán kapcsolódó korábbi munkákat (egyik sem próbált újjáteremteni a fotorealisztikus embert), amely arra törekedett, hogy becsülje meg az emberi sebességet; lát falakon keresztül Wi-Fi-vel; értékelje az emberi pózokat; sőt még felismerni az emberi gesztusokat, számos egyéb cél mellett.

Átvihetőség és szélesebb körű alkalmazhatóság

A kutatók ezután azt vizsgálták, hogy felfedezésük túlzottan illeszkedett-e a kezdeti rögzítési környezethez és a képzési körülményekhez, bár a tanulmány kevés részletet közöl a kísérlet ezen szakaszáról. Azt állítják:

„Ahhoz, hogy a modellünket egy új színtéren bevethessük, nem kell az egész modellt a kezdetektől áttanítani. Nagyon kevés adat (kb. 40 másodperces adat) felhasználásával finomhangolhatjuk az előre betanított RFGAN-t, hogy hasonló eredményeket kapjunk.

És folytassa:

„A veszteségfüggvények és a hiperparaméterek ugyanazok, mint a képzési szakaszban. A kvantitatív eredményekből azt találjuk, hogy az előre betanított RFGAN modell az új színtéren kívánatos emberi tevékenységi kereteket tud generálni, miután finomhangolták csupán kevés adattal, ami azt jelenti, hogy a javasolt modellünk széles körben használható.

Az új technika alapvető alkalmazásáról szóló cikk részletei alapján nem világos, hogy a kutatók által létrehozott hálózat kizárólag az eredeti alanyok számára készült-e, vagy az RF-hőtérképek képesek-e következtetni olyan részletekre, mint például a ruházat színe. , mivel úgy tűnik, hogy ez az optikai és rádiórögzítési módszerekben használt két különböző típusú frekvencia között van.

Akárhogy is legyen, az RFGAN egy újszerű módja a Generatív Adversarial Networks utánzó és reprezentatív hatalmának felhasználásának egy új és izgalmas felügyeleti forma létrehozására – olyat, amely potenciálisan sötétben és falakon keresztül is működhet, még a legutóbbi erőfeszítéseknél is lenyűgözőbb módon. nak nek lásd a lekerekített sarkokat visszavert fénnyel.

8. december 2021. (az első megjelenés napja), 8:04 GMT+2 – ismétlődő szó eltávolítva. – MA

Kapcsolódó témák:Kína kiberbiztonság képszintézis kutatás felügyelet

Up Next

Számítógépes látásmodellek képzése véletlenszerű zajon valós képek helyett

Ne hagyd ki

Arcszintézis összehangolása szemantikus szegmentálással

Martin Anderson

Író a gépi tanulásról, a mesterséges intelligenciáról és a big data-ról.
Személyes oldal: Martinanderson.ai
Kapcsolat [e-mail védett]
Twitter: @manders_ai

Egyesül.AI

Emberi képszintézis visszavert rádióhullámokból

Mesterséges Intelligencia