الذكاء الاصطناعي

合성 من الإنسان من الموجات الراديوية المنعكسة

Published December 8, 2021

Updated April 5, 2026

Martin Anderson

قام باحثون من الصين بتطوير طريقة ل合성 صور قريبة من الواقع الفوتوغرافي للأشخاص بدون كاميرات، عن طريق استخدام الموجات الراديوية و الشبكات التوليدية المعارضة (GANs). النظام الذي صممه الباحثون مدرب على صور حقيقية التقطت في ضوء جيد، ولكن يمكنه التقاط صور متوافقة نسبيًا مع الأشخاص حتى في ظروف مظلمة – وحتى من خلال عوائق كبيرة التي ستخفي الأشخاص من الكاميرات التقليدية.

تعتمد الصور على “خرائط حرارية” من两个 هوائي راديوي، واحد يلتقط البيانات من السقف إلى الأسفل، والآخر يسجل اضطرابات الموجات الراديوية من موقف “واقف”.

الصور الناتجة من تجارب البرهان التي أجراها الباحثون لها جانب بدون وجه، “جورور” مثل أفلام الرعب اليابانية:

باستخدام الصور الحقيقية للأشخاص في نفس البيئة، يستخدم RFGAN خرائط حرارية الموجات الراديوية لتسجيل النشاط البشري وتوليد لقطات تقترب من ما يُدركه限 الدقة المنخفضة لإشارات الموجات الراديوية منخفضة التردد. لا حاجة للضوء، لأن الألوان (على ما يبدو) تُدرك بالطريقة التي تُضطرب بها الموجات الراديوية بوجود الأشخاص، وتغيرات التردد عند عودة الموجات الراديوية بمتغيرات قوة الإشارة، وخصائص مختلفة. مصدر: https://arxiv.org/pdf/2112.03727.pdf

RFGAN مدرب على صور حقيقية للأشخاص في بيئات خاضعة للرقابة وعلى خرائط حرارية للموجات الراديوية التي تسجل النشاط البشري. بعد تعلم الميزات من البيانات، يمكن لـ RFGAN توليد لقطات بناءً على بيانات الموجات الراديوية الجديدة. الصورة الناتجة هي تقريب، بناءً على الدقة المنخفضة لإشارات الموجات الراديوية منخفضة التردد المتاحة. هذا العملية تعمل حتى في البيئات المظلمة، ومن خلال مجموعة متنوعة من العوائق المحتملة. مصدر: https://arxiv.org/pdf/2112.03727.pdf

لتدريب GAN، الذي يُطلق عليه RFGAN، استخدم الباحثون بيانات متطابقة من كاميرا RGB قياسية، ومن خرائط حرارية الموجات الراديوية المترابطة التي تم إنتاجها في اللحظة نفسها للالتقاط. الصور الم合صة للأشخاص في المشروع الجديد تميل إلى أن تكون محددة بدرجة مشابهة للتصوير الفوتوغرافي المبكر، لأن دقة الموجات الراديوية المستخدمة منخفضة جدًا، مع دقة عمق 7.5 سم، ودقة زاوية حوالي 1.3 درجة.

في الأعلى، الصورة التي يتم تغذيتها إلى شبكة GAN – في الأسفل، الخرائط الحرارية الأفقية والرأسية، التي تميز الشخص في الغرفة، والتي يتم合ها داخل الهيكل إلى تمثيل ثلاثي الأبعاد للبيانات المضطربة.

الورقة الجديدة الورقة، التي تحمل عنوان RFGAN: RF-Based Human Synthesis، تأتي من ستة باحثين من جامعة العلوم والإلكترونيات في الصين.

البيانات والهيكل

نظرًا لعدم وجود أي مجموعات بيانات أو مشاريع سابقة تشترك في نفس النطاق، وحقيقة أن إشارات الموجات الراديوية لم تُستخدم من قبل في إطار合Synopsis لصور GAN، كان على الباحثين تطوير منهجيات جديدة.

الهيكل الأساسي لـ RFGAN.

تم استخدام التطبيع التكيفي لتفسير صور الخرائط الحرارية المزدوجة أثناء التدريب، بحيث تتوافق مكانيًا مع بيانات الصور الملتقطة.

كانت أجهزة التقاط الموجات الراديوية عبارة عن радارات مليمترية (mmWave) مخططت كأصفار هوائية أفقية وعمودية. تم استخدام Frequency Modulated Continuous Wave (FMCW) و هوائيات خطية للبث والإرسال.

يستقبل المولد إطار مصدر كطبقة إدخال، مع تمثيل الموجات الراديوية المدمجة (خريطة حرارية) يوجه الشبكة من خلال التطبيع على مستوى طبقات التconvolutional.

البيانات

تم جمع البيانات من انعكاسات إشارات الموجات الراديوية من هوائي المليمترات عند 20hz، مع التقاط فيديو بشري في وقت واحد عند 10 إطار في الثانية. تم التقاط تسع مشاهد داخلية، باستخدام ستة متطوعين، كل منهم يرتدي ملابس مختلفة في جلسات مختلفة لجمع البيانات.

كان النتيجة مجموعتين متميزتين من البيانات، RF-Activity و RF-Walk، الأولى تحتوي على 68,860 صورة لاشخاص في مواقف مختلفة (مثل الوقوف و المشي)، جنبًا إلى جنب مع 137,760 إطار حراري؛ والثانية تحتوي على 67,860 إطار مشي بشري عشوائي، جنبًا إلى جنب مع 135,720 زوجًا من الخرائط الحرارية المرتبطة.

تم تقسيم البيانات، وفقًا للاتفاقية، بشكل غير متساو بين التدريب والاختبار، مع استخدام 55,225 إطار صورة و 110,450 زوجًا من الخرائط الحرارية للتدريب، والباقي احتفظ للاختبار. تم تحجيم إطارات التقاط RGB إلى 320×180، وخرائط الحرارة إلى 201×160.

تم تدريب النموذج بعد ذلك ب Adam عند معدل تعلم ثابت من 0.0002 لكلا المولد والمتميز، عند فترة زمنية من 80 وبatches بحجم 2. تم إجراء التدريب عبر PyTorch على جهاز كمبيوتر شخصي مستهلك وحيد من نوع GTX-1080، الذي يحتوي على 8 جيجابايت من VRAM، والذي يُعتبر متواضعًا جدًا لمثل هذه المهمة (مما يفسر حجم الباتش المنخفض).

على الرغم من أن الباحثين قاموا بتعديل بعض المقاييس التقليدية لاختبار واقعية الإخراج (مفصلة في الورقة)، وأجروا اختبارات التمزق المعتادة، لم يكن هناك عمل سابق يمكن مقارنة أداء RFGAN به.

الاهتمام المفتوح بالإشارات السرية

RFGAN ليس أول مشروع يحاول استخدام ترددات الموجات الراديوية لبناء صورة حجمية لما يحدث في الغرفة. في عام 2019، قام باحثون من MIT CSAIL بتطوير هيكل يسمى RF-Avatar، قادر على إعادة بناء الأشخاص ثلاثية الأبعاد بناءً على إشارات الموجات الراديوية في نطاق Wi-Fi، في ظروف غامرة.

في مشروع MIT CSAIL من عام 2019، تم استخدام الموجات الراديوية لإزالة العوائق، حتى الجدران والملابس، من أجل إعادة إنشاء الأشخاص في عملية CGI التقليدية. مصدر: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

يقر الباحثون في الورقة الجديدة أيضًا بالعمل السابق المرتبط حول رسم الخرائط البيئية بالموجات الراديوية (لا شيء منها يحاول إعادة إنشاء أشخاص فوتوغرافيين حقيقيين)، الذي سعى إلى تقدير سرعة الإنسان؛ انظر من خلال الجدران مع Wi-Fi؛ تقييم وضعيات الإنسان؛ وحتى تعرف الإشارات البشرية، من بين أهداف أخرى.

النقل والقابلية للتطبيق الأوسع

ثم حاول الباحثون معرفة ما إذا كان اكتشافهم مبالغًا في التكيف مع البيئة الأولية وظروف التدريب، على الرغم من أن الورقة تقدم تفاصيل قليلة عن هذه المرحلة من التجربة. يؤكدون:

‘لنشر نموذجنا في مشهد جديد، لا نحتاج إلى إعادة تدريب النموذج كله من البداية. يمكننا تحسين RFGAN المسبق التدريب باستخدام بيانات قليلة جدًا (حوالي 40 ثانية من البيانات) للحصول على نتائج مشابهة.’

ويستمر:

‘دالات الفقدان والمتغيرات هي نفسها مع مرحلة التدريب. من النتائج الكمية، نجد أن نموذج RFGAN المسبق التدريب يمكن توليد إطارات نشاط بشري مرغوب فيها في المشهد الجديد بعد التحسين الدقيق مع القليل من البيانات، مما يعني أن نموذجنا المقترح له إمكانية استخدام واسعة.’

بناءً على تفاصيل الورقة حول هذا التطبيق الرائد لتقنية جديدة، لا يبدو واضحًا ما إذا كان النموذج الذي أنشأه الباحثون “محددًا بالتدريب” حصريًا للأشخاص الأصليين، أو ما إذا كانت خرائط حرارية الموجات الراديوية يمكن أن تكتشف تفاصيل مثل لون الملابس، لأن هذا يبدو أنه يمتد بين النوعين المختلفين من الترددات المشاركة في الأساليب البصرية والراديوية.

على أي حال، RFGAN هو وسيلة جديدة لاستخدام القوى التقليدية والتمثيلية للشبكات التوليدية المعارضة لإنشاء شكل جديد ومثير للاهتمام من المراقبة – واحدة يمكن أن تعمل في الظلام ومن خلال الجدران، بطريقة أكثر إثارة من الجهود الحديثة ل رؤية الزوايا بضوء منعكس.

8 ديسمبر 2021 (يوم النشر الأول)، 8:04 مساءً بتوقيت جرينيتش +2 – تم إزالة الكلمة المكررة. – MA

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai