Anderson का एंगल

मानव इमेज सिंथेसिस रिफ्लेक्टेड रेडियो तरंगों से

प्रकाशित 8 दिसंबर 2021

अपडेट किया गया 24 मई 2026

Martin Anderson

चीन के शोधकर्ताओं ने एक ऐसी विधि विकसित की है जिससे कैमरों के बिना लोगों की लगभग फोटोरियलिस्टिक छवियों को सिंथेसाइज किया जा सकता है, रेडियो तरंगों और जनरेटिव एडवर्सेरियल नेटवर्क (GANs) का उपयोग करके। उन्होंने जिस प्रणाली को विकसित किया है वह अच्छी रोशनी में ली गई वास्तविक छवियों पर प्रशिक्षित है, लेकिन यह अपेक्षाकृत वास्तविक ‘स्नैपशॉट’ को पकड़ सकता है लोगों की यहां तक कि जब स्थितियां अंधेरे में होती हैं – और यहां तक कि प्रमुख बाधाओं के माध्यम से भी जो पारंपरिक कैमरों से लोगों को छुपा सकती हैं।

छवियां दो रेडियो एंटेना से ‘हीट मैप’ पर निर्भर करती हैं, एक डेटा को छत से नीचे की ओर पकड़ता है, और दूसरा ‘खड़े’ स्थिति से रेडियो तरंग विकृतियों को रिकॉर्ड करता है।

शोधकर्ताओं के प्रूफ-ऑफ-कॉन्सेप्ट प्रयोगों से परिणामी फोटो में एक चेहराहीन, ‘जे-हॉरर’ पहलू है:

वास्तविक छवियों के प्रशिक्षण पर आधारित, RFGAN रेडियो तरंग हीटमैप का उपयोग करके मानव गतिविधि को रिकॉर्ड करता है और स्नैपशॉट को अनुमानित करता है जो कम आवृत्ति रेडियो संकेतों के सीमित रिज़ॉल्यूशन को अनुमानित करता है। प्रकाश की आवश्यकता नहीं है, क्योंकि रंग (अभी भी) रेडियो तरंगों के विकृति के तरीके से और विभिन्न संकेत ताकत और विशिष्टताओं के साथ वापस आने वाली रेडियो तरंगों में परिवर्तन के साथ अनुमानित होते हैं। स्रोत: https://arxiv.org/pdf/2112.03727.pdf

RFGAN को नियंत्रित वातावरण में वास्तविक लोगों की छवियों और रेडियो तरंग हीटमैप पर प्रशिक्षित किया जाता है जो मानव गतिविधि को रिकॉर्ड करते हैं। डेटा से सीखे गए विशेषताओं के साथ, RFGAN तब नए आरएफ डेटा पर आधारित स्नैपशॉट उत्पन्न कर सकता है। परिणामी छवि कम आवृत्ति रेडियो संकेतों के सीमित रिज़ॉल्यूशन का एक अनुमान है। यह प्रक्रिया अंधेरे वाले वातावरण में और विभिन्न संभावित बाधाओं के माध्यम से काम करती है। स्रोत: https://arxiv.org/pdf/2112.03727.pdf

GAN को प्रशिक्षित करने के लिए, जिसे RFGAN कहा जाता है, शोधकर्ताओं ने मानक आरजीबी कैमरे से मिलान वाले डेटा का उपयोग किया, और सटीक समय पर कब्जा किए गए संबंधित रेडियो हीटमैप को जोड़ दिया। नए परियोजना में सिंथेसाइज्ड लोगों की छवियां आमतौर पर प्रारंभिक डागुएरियोटाइप फोटोग्राफी के समान तरीके से धुंधली होती हैं, क्योंकि उपयोग की जाने वाली रेडियो तरंगों का रिज़ॉल्यूशन बहुत कम है, 7.5 सेमी का गहराई रिज़ॉल्यूशन और लगभग 1.3 डिग्री का कोणीय रिज़ॉल्यूशन है।

ऊपर, जीएनएन नेटवर्क को खिलाया गया छवि – नीचे, दो हीटमैप, क्षैतिज और ऊर्ध्वाधर, जो कमरे में व्यक्ति की विशेषता है और जो स्वयं वास्तुकला में विकृत डेटा के 3डी प्रतिनिधित्व में सिंथेसाइज़ किए जाते हैं।

नई पेपर, जिसका शीर्षक RFGAN: आरएफ-आधारित मानव सिंथेसिस है, चीन के इलेक्ट्रॉनिक साइंस एंड टेक्नोलॉजी यूनिवर्सिटी के छह शोधकर्ताओं से आया है।

डेटा और वास्तुकला

इस दायरे में किसी भी पिछले डेटासेट या परियोजनाओं की कमी के कारण, और यह तथ्य कि आरएफ संकेतों का उपयोग पहले जीएनएन छवि सिंथेसिस फ्रेमवर्क में नहीं किया गया है, शोधकर्ताओं को नए तरीकों को विकसित करना पड़ा।

आरएफजीएएन का मूल वास्तुकला।

प्रशिक्षण के दौरान जुड़वां हीटमैप छवियों की व्याख्या करने के लिए अनुकूली सामान्यीकरण का उपयोग किया गया था, ताकि वे कब्जा किए गए छवि डेटा के साथ स्थानिक रूप से मेल खाएं।

आरएफ कैप्चर डिवाइस मिलीमीटर तरंग (मिमी तरंग) रडार थे जो दो एंटेना सरणियों के रूप में कॉन्फ़िगर किए गए थे, क्षैतिज और ऊर्ध्वाधर। फ्रीक्वेंसी मॉड्यूलेटेड कंटिन्यूस वेव (एफएमसीडब्ल्यू) और रैखिक एंटेना को ट्रांससीविंग के लिए उपयोग किया गया था।

जेनरेटर एक स्रोत फ्रेम को इनपुट लेयर के रूप में प्राप्त करता है, जिसमें आरएफ फ्यूज्ड (हीटमैप) प्रतिनिधित्व समग्र नेटवर्क के माध्यम से संवोल्यूशनल परतों के स्तर पर सामान्यीकरण के माध्यम से निर्देशित करता है।

डेटा

डेटा को मिमी तरंग एंटेना से रेडियो संकेत प्रतिबिंब से एक मात्र 20hz पर एकत्र किया गया था, मानव वीडियो को बहुत कम 10fps पर कब्जा किया गया था। नौ इनडोर दृश्यों को छह स्वयंसेवकों का उपयोग करके कब्जा किया गया था, जिनमें से प्रत्येक ने विभिन्न सत्रों के लिए अलग-अलग कपड़े पहने थे।

परिणाम दो विशिष्ट डेटासेट थे, आरएफ-एक्टिविटी और आरएफ-वॉक, जिसमें से पहले में 68,860 लोगों की छवियां विभिन्न स्थितियों में (जैसे स्क्वाट और वॉक) थीं, साथ ही 137,760 संबंधित हीटमैप फ्रेम; और बाद में में 67,860 मानव यादृच्छिक चलने वाले फ्रेम थे, साथ ही 135,720 जोड़े संबंधित हीटमैप।

डेटा को परंपरा के अनुसार असमान रूप से प्रशिक्षण और परीक्षण के बीच विभाजित किया गया था, 55,225 छवि फ्रेम और 110,450 हीटमैप जोड़े का उपयोग प्रशिक्षण के लिए किया गया था, और शेष को परीक्षण के लिए रखा गया था। आरजीबी कैप्चर फ्रेम को 320×180 में बदल दिया गया था, और हीटमैप को 201×160 में बदल दिया गया था।

मॉडल को एडम के साथ एक सुसंगत लर्निंग दर 0.0002 पर प्रशिक्षित किया गया था, दोनों जेनरेटर और विवेचक के लिए, 80 के एक युग और 2 के एक (बहुत पतला) बैच आकार के साथ। प्रशिक्षण पायटोर्च के माध्यम से एक उपभोक्ता-स्तर के एकल जीटीएक्स-1080 जीपीयू पर हुआ था, जिसके 8gb के वीआरएएम को आमतौर पर इस तरह के कार्य के लिए बहुत कम माना जाता है (कम बैच आकार की व्याख्या करता है)।
हालांकि शोधकर्ताओं ने आउटपुट की वास्तविकता का परीक्षण करने के लिए कुछ पारंपरिक मेट्रिक्स को अनुकूलित किया (विवरण पत्र में विस्तृत), और सामान्य अभ्यास के रूप में अभ्यास परीक्षण किए, कोई पूर्व कार्य नहीं था जिसके खिलाफ आरएफजीएन के प्रदर्शन को मापा जा सके।

गुप्त संकेतों में खुला हित

आरएफजीएन पहली परियोजना नहीं है जो कमरे में क्या हो रहा है इसकी मात्रा की तस्वीर बनाने के लिए रेडियो आवृत्तियों का उपयोग करने का प्रयास करती है। 2019 में एमआईटी सीएसएआईएल के शोधकर्ताओं ने एक वास्तुकला विकसित की जिसे आरएफ-अवतार कहा जाता है, जो वाई-फाई श्रेणी में रेडियो आवृत्ति संकेतों पर आधारित 3डी मानवों का पुनर्निर्माण करने में सक्षम थी, गंभीर रूप से अवरोधन की स्थिति में।

2019 की एमआईटी सीएसएआईएल परियोजना में, रेडियो तरंगों का उपयोग दीवारों और कपड़ों सहित अवरोधन को दूर करने के लिए किया गया ताकि पारंपरिक सीजीआइ-आधारित कार्य प्रवाह में कब्जा किए गए विषयों को पुनः बनाया जा सके। स्रोत: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

मानव इमेज सिंथेसिस रिफ्लेक्टेड रेडियो तरंगों से

डेटा और वास्तुकला

डेटा

गुप्त संकेतों में खुला हित

और जानें