Connect with us

मानव इमेज सिंथेसिस रिफ्लेक्टेड रेडियो वेव्स से

कृत्रिम बुद्धिमत्ता

मानव इमेज सिंथेसिस रिफ्लेक्टेड रेडियो वेव्स से

mm

चीन के शोधकर्ताओं ने एक विधि विकसित की है जो कैमरों के बिना लोगों की लगभग फोटोरियल इमेजेस को सिंथेसाइज़ करने के लिए रेडियो वेव्स और जेनरेटिव एडवर्सेरियल नेटवर्क्स (GANs) का उपयोग करती है। उन्होंने जिस सिस्टम को विकसित किया है, वह वास्तविक इमेजेस पर प्रशिक्षित किया गया है जो अच्छी रोशनी में ली गई हैं, लेकिन यह अंधेरे में भी और बड़े अवरोधों के माध्यम से लोगों की अपेक्षाकृत वास्तविक ‘स्नैपशॉट’ को कैप्चर करने में सक्षम है, जो पारंपरिक कैमरों से छिपे हुए होंगे।

इमेजेस दो रेडियो एंटेना से ‘हीट मैप्स’ पर निर्भर करती हैं, एक जो सीलिंग से नीचे की ओर डेटा को कैप्चर करता है, और दूसरा जो एक ‘स्टैंडिंग’ पोज़िशन से रेडियो वेव पेर्टुर्बेशन को रिकॉर्ड करता है।

शोधकर्ताओं के प्रूफ-ऑफ-कॉन्सेप्ट प्रयोगों से परिणामी फोटो में एक फेसलेस, ‘जे-हॉरर’ पहलू है:

वास्तविक इमेजेस को प्रशिक्षित करने के बाद, RFGAN रेडियो वेव हीटमैप्स का उपयोग करके मानव गतिविधि को रिकॉर्ड करता है और स्नैपशॉट्स को जनरेट करता है जो कम रेजोल्यूशन के लो-फ्रीक्वेंसी आरएफ सिग्नल्स द्वारा देखे गए को लगभग करता है। लाइट्स की आवश्यकता नहीं है, क्योंकि रंग रेडियो वेव्स के पेर्टुर्बेशन के तरीके से और विभिन्न सिग्नल स्ट्रेंथ्स के साथ वापस आने वाली रेडियो वेव्स की विविधताओं के कारण महसूस किए जाते हैं। स्रोत: https://arxiv.org/pdf/2112.03727.pdf

RFGAN को नियंत्रित वातावरण में वास्तविक लोगों की इमेजेस और रेडियो वेव हीटमैप्स पर प्रशिक्षित किया गया है जो मानव गतिविधि को रिकॉर्ड करते हैं। डेटा से सीखे गए फीचर्स के साथ, RFGAN नए आरएफ डेटा के आधार पर स्नैपशॉट्स को जनरेट कर सकता है। परिणामी इमेज कम रेजोल्यूशन के लो-फ्रीक्वेंसी आरएफ सिग्नल्स के आधार पर एक अनुमान है। यह प्रक्रिया अंधेरे वाले वातावरण में और विभिन्न प्रकार के संभावित बाधाओं के माध्यम से काम करती है। स्रोत: https://arxiv.org/pdf/2112.03727.pdf

GAN को प्रशिक्षित करने के लिए, जिसे RFGAN कहा जाता है, शोधकर्ताओं ने एक मानक आरजीबी कैमरा और संगत रेडियो हीटमैप्स से मिलान डेटा का उपयोग किया, जो कैप्चर के exact मोमेंट पर उत्पादित किए गए थे। नए प्रोजेक्ट में सिंथेसाइज्ड लोगों की इमेजेस आमतौर पर एक तरह से धुंधली होती हैं जो शुरुआती डागुएर्रोटाइप फोटोग्राफी के समान है, क्योंकि उपयोग की जाने वाली रेडियो वेव्स का रेजोल्यूशन बहुत कम है, जिसमें 7.5 सेमी का डेप्थ रेजोल्यूशन और लगभग 1.3 डिग्री का एंगुलर रेजोल्यूशन है।

उपर, जीएनएन नेटवर्क को खिलाया गया इमेज - नीचे, दो हीटमैप्स, क्षैतिज और ऊर्ध्वाधर, जो कमरे में व्यक्ति की विशेषता हैं और जो स्वयं आर्किटेक्चर के भीतर पेर्टुर्ब्ड डेटा के 3डी प्रतिनिधित्व में सिंथेसाइज़ किए जाते हैं। स्रोत: https://arxiv.org/pdf/2112.03727.pdf

उपर, जीएनएन नेटवर्क को खिलाया गया इमेज – नीचे, दो हीटमैप्स, क्षैतिज और ऊर्ध्वाधर, जो कमरे में व्यक्ति की विशेषता हैं और जो स्वयं आर्किटेक्चर के भीतर पेर्टुर्ब्ड डेटा के 3डी प्रतिनिधित्व में सिंथेसाइज़ किए जाते हैं।

नई पेपर, जिसका शीर्षक RFGAN: आरएफ-आधारित मानव सिंथेसिस है, चीन के इलेक्ट्रॉनिक साइंस एंड टेक्नोलॉजी यूनिवर्सिटी के छह शोधकर्ताओं से आया है।

डेटा और आर्किटेक्चर

इस स्कोप के किसी भी पिछले डेटासेट या परियोजनाओं की अनुपस्थिति के कारण, और यह तथ्य कि आरएफ सिग्नल्स का उपयोग पहले जीएनएन इमेज सिंथेसिस फ्रेमवर्क में नहीं किया गया है, शोधकर्ताओं को नए तरीकों को विकसित करना पड़ा।

आरएफजीएन का कोर आर्किटेक्चर। स्रोत: https://arxiv.org/pdf/2112.03727.pdf

आरएफजीएन का कोर आर्किटेक्चर।

प्रशिक्षण के दौरान जुड़वां हीटमैप इमेजेस की व्याख्या करने के लिए एडाप्टिव नॉर्मलाइजेशन का उपयोग किया गया था, ताकि वे स्थानिक रूप से कैप्चर्ड इमेज डेटा के साथ मेल खाएं।

आरएफ कैप्चर डिवाइस मिलीमीटर वेव (मिमीवेव) रडार थे जो दो एंटेना एरे के रूप में कॉन्फ़िगर किए गए थे, क्षैतिज और ऊर्ध्वाधर। फ्रीक्वेंसी मॉड्यूलेटेड कंटिन्यूअस वेव (एफएमसीडब्ल्यू) और लीनियर एंटेना को ट्रांससीविंग के लिए उपयोग किया गया था।

जेनरेटर एक सोर्स फ्रेम को इनपुट लेयर के रूप में प्राप्त करता है, जिसमें आरएफ फ्यूज्ड (हीटमैप) प्रतिनिधित्व नेटवर्क के माध्यम से कन्वोल्यूशनल लेयर्स के स्तर पर नॉर्मलाइजेशन के माध्यम से नेटवर्क को ऑर्केस्ट्रेट करता है।

डेटा

डेटा को मिमीवेव एंटेना से 20hz पर आरएफ सिग्नल रिफ्लेक्शन से एकत्र किया गया था, जिसमें मानव वीडियो 10fps पर एकत्र किया गया था। नौ इनडोर दृश्यों को छह स्वयंसेवकों का उपयोग करके कैप्चर किया गया था, जिनमें से प्रत्येक ने विभिन्न सत्रों के लिए अलग-अलग कपड़े पहने थे।

परिणाम दो विशिष्ट डेटासेट थे, आरएफ-एक्टिविटी और आरएफ-वॉक, जिसमें पहले में 68,860 लोगों की इमेजेस विभिन्न स्थितियों में (जैसे स्क्वाट और वॉक) शामिल थीं, साथ ही 137,760 संबंधित हीटमैप फ्रेम; और बाद में 67,860 मानव रैंडम वॉक फ्रेम, साथ ही 135,720 जोड़े संबंधित हीटमैप्स।

डेटा को प्रशिक्षण और परीक्षण के बीच असमान रूप से विभाजित किया गया था, जिसमें 55,225 इमेज फ्रेम और 110,450 हीटमैप जोड़े प्रशिक्षण के लिए उपयोग किए गए थे, और बाकी परीक्षण के लिए आरक्षित थे। आरजीबी कैप्चर फ्रेम को 320×180 तक कम किया गया था, और हीटमैप्स को 201×160 तक कम किया गया था।

मॉडल को एडम के साथ एक स्थिर लर्निंग रेट 0.0002 पर प्रशिक्षित किया गया था, जो जेनरेटर और डिस्क्रिमिनेटर दोनों के लिए था, 80 के एक युग और एक (बहुत ही पतली) बैच आकार 2 के साथ। प्रशिक्षण पायटोर्च पर एक उपभोक्ता-स्तर के एकल जीटीएक्स-1080 जीपीयू पर हुआ था, जिसका 8gb का वीआरएएम आमतौर पर इस तरह के कार्य के लिए बहुत ही मामूली माना जाता है (निम्न बैच आकार की व्याख्या करता है)।

हालांकि शोधकर्ताओं ने आउटपुट की वास्तविकता का परीक्षण करने के लिए पारंपरिक मेट्रिक्स को अनुकूलित किया (पेपर में विस्तृत), और अभ्यास के अनुसार ablation परीक्षण किए, कोई पूर्व कार्य नहीं था जिसके खिलाफ आरएफजीएन के प्रदर्शन को मापा जा सके।

ओपन इंटरेस्ट इन सीक्रेट सिग्नल्स

आरएफजीएन पहला प्रोजेक्ट नहीं है जो रेडियो फ्रीक्वेंसी का उपयोग करके एक कमरे में क्या हो रहा है इसका एक वॉल्यूमेट्रिक चित्र बनाने का प्रयास करता है। 2019 में एमआईटी सीएसएआईएल के शोधकर्ताओं ने एक आर्किटेक्चर विकसित किया था जिसे आरएफ-अवतार कहा जाता है, जो वाई-फाई श्रेणी में रेडियो फ्रीक्वेंसी सिग्नल्स के आधार पर 3डी मानवों का पुनर्निर्माण करने में सक्षम था, जो गंभीर रूप से अवरोधन की स्थिति में था।

एमआईटी सीएसएआईएल प्रोजेक्ट में 2019 में, रेडियो वेव्स का उपयोग दीवारों और कपड़ों सहित अवरोधों को हटाने के लिए किया गया था, ताकि पारंपरिक सीजीआई-आधारित वर्कफ्लो में कैप्चर किए गए विषयों को पुनः बनाया जा सके। स्रोत: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

एमआईटी सीएसएआईएल प्रोजेक्ट में 2019 में, रेडियो वेव्स का उपयोग दीवारों और कपड़ों सहित अवरोधों को हटाने के लिए किया गया था, ताकि पारंपरिक सीजीआई-आधारित वर्कफ्लो में कैप्चर किए गए विषयों को पुनः बनाया जा सके। स्रोत: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

नई पेपर के शोधकर्ता भी रेडियो वेव्स के साथ पर्यावरण मैपिंग (जो फोटोरियल मानवों को पुनर्निर्माण का प्रयास नहीं करता है) के बारे में पूर्व कार्य को स्वीकार करते हैं, जो मानव गति का अनुमान लगाने का प्रयास करता है; दीवारों के माध्यम से मानव गति का पता लगाने के लिए; मानव मुद्राओं का मूल्यांकन करने के लिए; और यहां तक कि मानव इशारों को पहचानने के लिए, अन्य लक्ष्यों के बीच।

ट्रांसफरेबिलिटी और वाइडर एप्लिकेबिलिटी

शोधकर्ताओं ने तब यह देखने का प्रयास किया कि क्या उनकी खोज शुरुआती कैप्चर वातावरण और प्रशिक्षण परिस्थितियों के लिए ओवर-फिट थी, हालांकि पेपर इस प्रयोग के चरण में बहुत कम विवरण प्रदान करता है। वे दावा करते हैं:

‘हमारे मॉडल को एक नए दृश्य में तैनात करने के लिए, हमें पूरे मॉडल को शुरू से प्रशिक्षित करने की आवश्यकता नहीं है। हम थोड़े से डेटा (लगभग 40 सेकंड डेटा) का उपयोग करके पूर्व-प्रशिक्षित आरएफजीएन को फाइन-ट्यून कर सकते हैं और समान परिणाम प्राप्त कर सकते हैं। ‘

और जारी रखते हैं:

‘हानि फंक्शन और हाइपरपैरामीटर प्रशिक्षण चरण के साथ समान हैं। गुणात्मक परिणामों से, हम पाते हैं कि पूर्व-प्रशिक्षित आरएफजीएन मॉडल एक नए दृश्य में मानव गतिविधि फ्रेम को वांछनीय परिणाम देने में सक्षम है, जो कि थोड़े से डेटा के साथ फाइन-ट्यून किया जाता है, जो दर्शाता है कि हमारे प्रस्तावित मॉडल का व्यापक रूप से उपयोग किया जा सकता है। ‘

पेपर के विवरण के आधार पर इस नए तकनीक के सेमिनल अनुप्रयोग के बारे में, यह स्पष्ट नहीं है कि शोधकर्ताओं द्वारा बनाई गई नेटवर्क मूल रूप से मूल विषयों के लिए ‘फिट-ट्रेंड’ है या नहीं, या क्या आरएफ-हीटमैप्स कपड़ों के रंग जैसे विवरण का अनुमान लगा सकते हैं, क्योंकि यह दो अलग-अलग आवृत्तियों को शामिल करता है जो ऑप्टिकल और रेडियो कैप्चर विधियों में शामिल हैं।

एक तरह से, आरएफजीएन जेनरेटिव एडवर्सेरियल नेटवर्क्स की अनुकरण और प्रतिनिधित्व शक्तियों का उपयोग करके एक नए और रोमांचक प्रकार की निगरानी बनाने का एक नवाचारी तरीका है – एक जो संभावित रूप से अंधेरे में और दीवारों के माध्यम से भी काम कर सकता है, जो हाल के प्रयासों से भी अधिक प्रभावशाली हो सकता है जो प्रतिबिंबित प्रकाश के साथ कोनों को देखें

 

 

8 दिसंबर 2021 (पहले प्रकाशन का दिन), 8:04 pm जीएमटी + 2 – दोहराए गए शब्द को हटा दिया। – एमए

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai