Mesterséges Intelligencia
Emberi képszintézis visszavert rádióhullámokból
Kínai kutatók olyan módszert fejlesztettek ki, amellyel közel fotorealisztikus képeket szintetizálhatnak az emberekről kamera nélkül, rádióhullámok és Generatív kontradiktórius hálózatok (GAN-ok). Az általuk kidolgozott rendszer jó fényben készült valós képekre van kiképezve, de még sötét körülmények között is képes viszonylag hiteles „pillanatfelvételeket” készíteni az emberekről – és még olyan jelentős akadályok esetén is, amelyek elrejtik az embereket a hagyományos kamerák elől.
A képek két rádióantenna „hőtérképére” támaszkodnak, az egyik a mennyezetről lefelé rögzíti az adatokat, a másik pedig „álló” helyzetből rögzíti a rádióhullám-zavarokat.
A kutatók koncepcióbizonyítási kísérleteiből készült fényképek arctalan, „J-Horror” vonatkozással rendelkeznek:
Képezni a GAN-t, szinkronizált RFGAN, a kutatók egy szabványos RGB-kamerából és a rögzítés pontos pillanatában előállított megfelelő rádiós hőtérképek egyező adatait használták. Az új projektben a szintetizált emberekről készült képek a korai dagerrotípiához hasonlóan elmosódnak, mivel a használt rádióhullámok felbontása nagyon alacsony, mélységi felbontása 7.5 cm, szögfelbontása pedig körülbelül 1.3 fok.
Az új papír, címe RFGAN: RF-alapú emberi szintézis, a Kínai Elektronikai Tudományos és Technológiai Egyetem hat kutatójától származik.
Adatok és architektúra
Mivel nem álltak rendelkezésre olyan korábbi adatkészletek vagy projektek, amelyek megosztották ezt a hatókört, és mivel korábban nem használtak RF jeleket GAN képszintézis keretrendszerben, a kutatóknak új módszertanokat kellett kidolgozniuk.
Adaptív normalizálást alkalmaztunk az iker hőtérképes képek értelmezésére az edzés során, hogy azok térben megfeleljenek a rögzített képadatoknak.
Az RF-elfogó eszközök milliméterhullámú (mmWave) radarok voltak, amelyek két, vízszintes és függőleges antennatömbként voltak konfigurálva. Az adásvételhez Frequency Modulated Continuous Wave (FMCW) és lineáris antennákat használtunk.
A generátor bemeneti rétegként egy forráskeretet kap, az RF fuzionált (hőtérkép) reprezentációval pedig a konvolúciós rétegek szintjén történő normalizálással hangszereli a hálózatot.
dátum
Az adatokat az mmWave antenna rádiófrekvenciás jelének visszaverődéseiből gyűjtöttük össze, mindössze 20 Hz-en, miközben az egyidejű emberi videót nagyon alacsony 10 képkocka/mp sebességgel rögzítették. Kilenc beltéri jelenetet rögzítettek hat önkéntes segítségével, akik mindegyike más-más ruhát viselt az adatgyűjtés különböző részein.
Az eredmény két különálló adatkészlet, RF-aktivitás és a RF-Walk, az előbbi 68,860 XNUMX képet tartalmaz különböző pozícióban lévő emberekről (pl zömök és a séta), 137,760 67,860 megfelelő hőtérkép-kerettel együtt; az utóbbi pedig 135,720 XNUMX véletlenszerű emberi sétáló keretet tartalmaz, valamint XNUMX XNUMX pár kapcsolódó hőtérképet.
Az adatok a megegyezés szerint egyenlőtlenül oszlottak meg a képzés és a tesztelés között, 55,225 110 képkockát és 450 320 hőtérképpárt használtak az edzéshez, a többit pedig visszatartották a teszteléshez. Az RGB rögzítési képkockákat 180 × 201-ra, a hőtérképeket 160 × XNUMX-ra méretezték át.
A modellt ezután Ádámmal betanították 0.0002-es konzisztens tanulási sebességgel mind a generátor, mind a diszkriminátor esetében, 80-as korszakban és (nagyon ritka) 2-es kötegmérettel. A képzés PyTorch-en keresztül, fogyasztói szintű GTX-talpon történt -1080 GPU, amelynek 8 GB VRAM-ja általában elég szerénynek számít egy ilyen feladathoz (ez az alacsony kötegméret magyarázata).
Bár a kutatók adaptáltak néhány hagyományos mérőszámot a kimenet valósághűségének tesztelésére (részletesen a cikkben), és elvégezték a szokásos ablációs teszteket, nem volt egyenértékű korábbi munka, amelyhez képest mérni lehetett volna az RFGAN teljesítményét.
Nyílt érdeklődés a titkos jelek iránt
Az RFGAN nem az első olyan projekt, amely rádiófrekvenciák felhasználásával próbálja felépíteni térfogati képét arról, hogy mi történik egy szobában. 2019-ben az MIT CSAIL kutatói kifejlesztettek egy architektúrát, az úgynevezett RF-Avatar, képes 3D-s emberek rekonstrukciója rádiófrekvenciás jelek alapján a Wi-Fi tartományban, súlyos elzáródási körülmények között.
Az új tanulmány kutatói elismerik a rádióhullámokkal történő környezettérképezéssel kapcsolatos, lazán kapcsolódó korábbi munkákat (egyik sem próbált újjáteremteni a fotorealisztikus embert), amely arra törekedett, hogy becsülje meg az emberi sebességet; lát falakon keresztül Wi-Fi-vel; értékelje az emberi pózokat; sőt még felismerni az emberi gesztusokat, számos egyéb cél mellett.
Átvihetőség és szélesebb körű alkalmazhatóság
A kutatók ezután azt vizsgálták, hogy felfedezésük túlzottan illeszkedett-e a kezdeti rögzítési környezethez és a képzési körülményekhez, bár a tanulmány kevés részletet közöl a kísérlet ezen szakaszáról. Azt állítják:
„Ahhoz, hogy a modellünket egy új színtéren bevethessük, nem kell az egész modellt a kezdetektől áttanítani. Nagyon kevés adat (kb. 40 másodperces adat) felhasználásával finomhangolhatjuk az előre betanított RFGAN-t, hogy hasonló eredményeket kapjunk.
És folytassa:
„A veszteségfüggvények és a hiperparaméterek ugyanazok, mint a képzési szakaszban. A kvantitatív eredményekből azt találjuk, hogy az előre betanított RFGAN modell az új színtéren kívánatos emberi tevékenységi kereteket tud generálni, miután finomhangolták csupán kevés adattal, ami azt jelenti, hogy a javasolt modellünk széles körben használható.
Az új technika alapvető alkalmazásáról szóló cikk részletei alapján nem világos, hogy a kutatók által létrehozott hálózat kizárólag az eredeti alanyok számára készült-e, vagy az RF-hőtérképek képesek-e következtetni olyan részletekre, mint például a ruházat színe. , mivel úgy tűnik, hogy ez az optikai és rádiórögzítési módszerekben használt két különböző típusú frekvencia között van.
Akárhogy is legyen, az RFGAN egy újszerű módja a Generatív Adversarial Networks utánzó és reprezentatív hatalmának felhasználásának egy új és izgalmas felügyeleti forma létrehozására – olyat, amely potenciálisan sötétben és falakon keresztül is működhet, még a legutóbbi erőfeszítéseknél is lenyűgözőbb módon. nak nek lásd a lekerekített sarkokat visszavert fénnyel.
8. december 2021. (az első megjelenés napja), 8:04 GMT+2 – ismétlődő szó eltávolítva. – MA