בינה מלאכותית

סינתזה של תמונת אדם מגלי רדיו מוחזרים

Published December 8, 2021

Updated April 5, 2026

Martin Anderson

חוקרים מסין פיתחו שיטה לסינתזה של תמונות פוטוריאליסטיות של אנשים ללא מצלמות, באמצעות גלי רדיו ו-רשתות יריבות גנרטיביות (GANs). המערכת שפיתחו מאומנת על תמונות אמיתיות שצולמו בתנאי אור טוב, אך מסוגלת לצלם ‘צילומים’ אותנטיים יחסית של בני אדם אפילו כאשר התנאים חשוכים – ואפילו דרך מכשולים משמעותיים שיחבאו את האנשים מפני מצלמות קונבנציונליות.

התמונות מסתמכות על ‘מפות חום’ משני אנטנות רדיו, אחת קולטת נתונים מהתקרה למטה, ואחרת רושמת הפרעות גלי רדיו מעמדת ‘עמידה’.

התמונות המתקבלות מניסויי ההוכחה של החוקרים הן בעלות מראה ‘חסר פנים’, ‘J-Horror’ מסוגנן:

בהתבסס על הדמיות אמיתיות של אנשים באותו סביבה, RFGAN משתמש במפות חום של גלי רדיו כדי לרשום פעילות אנושית וליצור צילומים שמתקרבים למה שתפיסת הרזולוציה המוגבלת של אותות RF בתדר נמוך. אורות אינן הכרחיות, מכיוון שצבעים (נראה) נתפסים על ידי הדרך שבה גלי רדיו מופרעים על ידי נוכחות האנשים, ועל ידי שינויים בתדר בעת שגלי הרדיו חוזרים בחזרה במגוון עוצמות אות ועם מאפיינים שונים. מקור: https://arxiv.org/pdf/2112.03727.pdf

RFGAN מאומנת על תמונות אמיתיות של אנשים בסביבות נשלטות ועל מפות חום של גלי רדיו שרושמות פעילות אנושית. לאחר שלמדה מאפיינים מהנתונים, RFGAN יכולה ליצור צילומים על בסיס נתוני RF חדשים. התוצאה היא קירוב, המבוסס על רזולוציה מוגבלת של אותות RF בתדר נמוך. תהליך זה עובד אפילו בסביבות חשוכות, ודרך מגוון מכשולים אפשריים. מקור: https://arxiv.org/pdf/2112.03727.pdf

לאמנת ה-GAN, שכונתה RFGAN, החוקרים השתמשו בנתונים מותאמים ממצלמת RGB סטנדרטית, וממפות חום הרדיו המצורפות שהופקו בדיוק ברגע הצילום. תמונות של אנשים מסונתזים בפרויקט החדש נוטות להיות מטושטשות באופן דומה לצילום דאגרוטיפ המוקדם, מכיוון שרזולוציה של גלי הרדיו ששימשו היא מאוד נמוכה, עם רזולוציית עומק של 7.5 ס”מ, ורזולוציה זוויתית של כ-1.3 מעלות.

למעלה, התמונה שהוזנה לרשת GAN – למטה, שתי מפות החום, אופקית ואנכית, המאפיינות את האדם בחדר, והמסונתזות בעצמן בתוך הארכיטקטורה לייצוג 3D של נתונים מופרעים.

המאמר החדש, המאמר, בשם RFGAN: סינתזה אנושית בתדר רדיו, מגיע משישה חוקרים מאוניברסיטת המדע והטכנולוגיה האלקטרונית של סין.

נתונים וארכיטקטורה

בגלל היעדרם של כל נתונים או פרויקטים קודמים שחלקו את ההיקף, והעובדה שאותות RF לא שימשו לפני כן במסגרת סינתזה של תמונות GAN, החוקרים נאלצו לפתח מתודולוגיות חדשות.

הארכיטקטורה המרכזית של RFGAN.

נורמליזציה אדפטיבית שימשה לפרש את תמונות מפת החום התאומות במהלך האימון, כך שהן תתאימו מרחבית עם נתוני התמונה שנלכדו.

ההתקנים ללכידת RF היו מכ”ם מילימטר (mmWave) שהותקנו כמערכי אנטנות, אופקיות ואנכיות. Frequency Modulated Continuous Wave (FMCW) ואנטנות ליניאריות שימשו לשידור וקליטה.

ה-Generator מקבל שכבת קלט של פריים מקורי, עם ייצוג RF מאוחד (מפת חום) המנצח את הרשת דרך נורמליזציה ברמת שכבות המרכול.

נתונים

הנתונים נאספו מהחזרים של אותות RF מאנטנת mmWave בתדר נמוך של 20hz, עם וידאו אנושי מקביל שנלכד ב-10fps נמוך מאוד. תשע סצנות פנים נלכדו, באמצעות שישה מתנדבים, כל אחד לבש בגדים שונים למספר סשנים של איסוף נתונים.

התוצאה הייתה שני סטים נפרדים של נתונים, RF-Activity ו-RF-Walk, הראשון מכיל 68,860 תמונות של אנשים בעמדות שונות (כגון כריעה ו-הליכה), יחד עם 137,760 פריימים של מפת חום; והאחרון מכיל 67,860 פריימים של הליכה אנושית אקראית, יחד עם 135,720 זוגות של מפות חום משויכות.

הנתונים, על פי נהוג, חולקו באופן לא שוויוני בין אימון ובדיקה, עם 55,225 פריימים של תמונה ששימשו לאימון, והשאר הוחזקו לבדיקה. פריימים של RGB הוקטנו ל-320×180, ומפות חום הוקטנו ל-201×160.

המודל אומן עם Adam בקצב למידה עקבי של 0.0002 עבור ה-Generator וה-Discriminator, ב-80 אפוק וגודל באטץ’ (very sparse) של 2. האימון התבצע דרך PyTorch על כרטיס מצג צרוכני בודד GTX-1080, ש-8gb של VRAM שלו יוחסו בדרך כלל כמודעים למשימה כזו (מה שמסביר את גודל הבאטץ’ הנמוך).

על פי המאמר, החוקרים עיבדו כמה מטריקות קונבנציונליות לבדיקת הריאליזם של הפלט (מפורט במאמר), וביצעו את הבדיקות הרגילות של ablation, אך לא היה עבודה קודמת שניתן היה להשוואת ביצועים של RFGAN.

עניין פתוח באותות סודיים

RFGAN אינה הפרויקט הראשון שמנסה להשתמש בתדרים של רדיו כדי לבנות תמונה וולומטרית של מה שקורה בחדר. ב-2019 חוקרים מ-MIT CSAIL פיתחו ארכיטקטורה בשם RF-Avatar, שמסוגלת ל-שחזור 3D של בני אדם על בסיס אותות תדר רדיו בטווח Wi-Fi, תחת תנאים קשים של הסתרה.

בפרויקט MIT CSAIL מ-2019, גלי רדיו שימשו להסרת הסתרות, כולל קירות ובגדים, כדי לשחזר נושאים שנלכדו ב- workflow CGI מסורתי יותר. מקור: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

החוקרים של המאמר החדש מכירים גם בעבודה קודמת הקשורה למיפוי סביבה עם גלי רדיו (אף אחד מהם לא ניסה לשחזר בני אדם פוטוריאליסטיים), שביקשו ל-העריך מהירות אנושית; ראו דרך קירות עם Wi-Fi; העריכו תנוחות אנושיות; ואפילו הכירו מחוות אנושיות, בין היתר.

העברה ויישומים רחבים יותר

החוקרים וידאו אם גילוים היה מותאם לסביבת הלכידה הראשונית ונסיבות האימון, אם כי המאמר מציע מעט פרטים על שלב זה של הניסוי. הם טוענים:

‘כדי לפרוש את המודל שלנו בסצנה חדשה, אין צורך לאמן מחדש את המודל כולו מההתחלה. ניתן לעדכן את RFGAN המאומנת מראש באמצעות מעט מאוד נתונים (כ-40s נתונים) כדי לקבל תוצאות דומות.’

וממשיכים:

‘פונקציות האובדן וההיפר-פרמטרים הם אותם עם אלו של שלב האימון. מהתוצאות הכמותיות, אנו מוצאים שהמודל RFGAN המאומן מסוגל ליצור פריימים של פעילות אנושית רצויה בסצנה החדשה אחרי עדכון עם מעט נתונים, מה שאומר שהמודל שהצענו הוא בעל פוטנציאל לשימוש נרחב.’

על בסיס פרטי המאמר על יישום חדשני זה של טכניקה חדשה, אין ברור אם הרשת שיצרו החוקרים ‘מאומנת’ באופן בלעדי לנושאים המקוריים, או אם מפות חום RF יכולות להסיק פרטים כגון צבע בגדים, מכיוון שזה נראה כמו שתי סוגים שונים של תדרים המעורבים בשיטות צילום אופטיות ורדיו.

בכל מקרה, RFGAN היא דרך חדשה ומרתקת להשתמש בכוחות החיקוי והייצוג של רשתות יריבות גנרטיביות כדי ליצור צורה חדשה ומרתקת של מעקב – אחת שיכולה לפעול אפילו בחושך ודרך קירות, בדרך יותר מרשימה מאמצעים אחרונים ל-ראות סביב פינות עם אור מוחזר.

8 בדצמבר 2021 (יום הפרסום הראשון), 20:04 GMT+2 – הוסרו מילים חוזרות. – MA

Martin Anderson

כותב על למידת מכונה, מומחה תחום בסינתזה של תמונות אנושיות. לשעבר ראש תוכן מחקר ב- Metaphysic.ai.
אתר אישי: martinanderson.ai
צור קשר: [email protected]
טוויטר: @manders_ai