Штучний інтелект

Синтез зображення людини з відбитих радіохвиль

Published December 8, 2021

Updated April 5, 2026

Martin Anderson

Дослідники з Китаю розробили метод синтезу майже фотореалістичних зображень людей без камер, використовуючи радіохвилі та Генеративні суперницькі мережі (GANs). Систему, яку вони створили, тренували на реальних зображеннях, зроблених при хорошому освітленні, але вона здатна захоплювати відносно автентичні “фотографії” людей навіть у темних умовах – і навіть через великі перешкоди, які б приховали людей від звичайних камер.

Зображення залежать від “теплових карт” двох радіоантен, одна з яких захоплює дані з потолка вниз, а інша реєструє радіохвильові порушення з позиції “стоячи”.

Результатні фотографії з дослідницьких експериментів мають безлике, “J-Horror” вигляду:

На основі навчання реальних зображень людей у тому ж середовищі, RFGAN використовує радіохвильові теплові карти для реєстрації діяльності людини та генерації фотографій, які приблизно відповідають обмеженій роздільній здатності низькочастотних радіосигналів. Світло не потрібно, оскільки кольори (очевидно) сприймаються шляхом порушення радіохвиль присутністю людей та варіаціями частоти при поверненні радіохвиль з різними характеристиками. Джерело: https://arxiv.org/pdf/2112.03727.pdf

RFGAN тренується на зображеннях реальних людей у контрольованих середовищах та на радіохвильових теплових картах, які реєструють діяльність людини. Після навчання особливостей з даних, RFGAN може потім генерувати фотографії на основі нових радіоданих. Результатом є апроксимація, заснована на обмеженій роздільній здатності низькочастотних радіосигналів. Цей процес працює навіть у затемнених середовищах та через різні потенційні перешкоди. Джерело: https://arxiv.org/pdf/2112.03727.pdf

Для тренування GAN, названого RFGAN, дослідники використали відповідні дані зі стандартної RGB-камери та з конкатенованих відповідних радіотеплових карт, які були створені в момент захоплення. Зображення синтезованих людей у новому проекті tend to бути розмитими у спосіб, подібному до ранньої дагерротипної фотографії, оскільки роздільна здатність радіохвиль, які використовуються, дуже низька, з роздільною здатністю глибини 7,5 см та кутовою роздільною здатністю близько 1,3 градусів.

Вгорі, зображення, яке подається у мережу GAN – внизу, дві теплові карти, горизонтальна та вертикальна, які характеризують людину в кімнаті, та які синтезуються самі собою всередині архітектури у 3D-представленні порушених даних.

Нова стаття, названа RFGAN: RF-Основний синтез людини, походить від шести дослідників з Університету електронної науки та технологій Китаю.

Дані та архітектура

Через відсутність будь-яких попередніх наборів даних або проектів, які б мали такий же обсяг, та факт, що радіосигнали не використовувалися раніше у рамках синтезу зображень GAN, дослідники мали розробити нові методи.

Основна архітектура RFGAN.

Адаптивна нормалізація була використана для інтерпретації подвійних теплових карт під час тренування, так щоб вони відповідали просторово з захопленими даними зображення.

Пристрої радіозахопу були радіолокаційними антенами міліметрового діапазону (mmWave), сконфігуровані як дві антенні масиви, горизонтальна та вертикальна. Використовувалися частотно-модульовані безперервні хвилі (FMCW) та лінійні антени для прийому та передачі.

Генератор отримує вхідний кадр як вхідний шар, з радіо-сполученим (тепловим) представленням, яке оркеструє мережу через нормалізацію на рівні卷очних шарів.

Дані

Дані були зібрані з радіосигналів, відбитих від міліметрової антени на частоті 20 Гц, з одночасним відеозаписом людини на дуже низькій частоті 10 кадрів в секунду. Було захоплено дев’ять внутрішніх сцен, використовуючи шість добровольців, кожний з яких носив різні одяги під час різних сесій збору даних.

Результатом стали два окремих набори даних, RF-Activity та RF-Walk, перший з яких містить 68 860 зображень людей у різних позиціях (таких як сquat та walk), разом з 137 760 відповідними тепловими кадрами; а другий містить 67 860 кадрів випадкової ходьби людини, разом з 135 720 парами асоційованих теплових карт.

Дані, згідно з конвенцією, були розділені нерівномірно між тренуванням та тестуванням, з 55 225 кадрами зображення, використаними для тренування, та рештою, відкладеною для тестування. Кадри RGB-захоплення були зменшені до 320×180, а теплові карти – до 201×160.

Модель була потім тренована з Adam на постійній швидкості навчання 0,0002 для генератора та дискримінатора, на епоху 80 та (дуже розрідженому) розмірі партії 2. Тренування проходило через PyTorch на споживчому рівні одиночній GTX-1080 GPU, чия 8 ГБ відеопам’яті загалом вважається досить скромною для такої задачі (що пояснює низький розмір партії).

Хоча дослідники адаптували деякі традиційні метрики для тестування реалізму виходу (подробиці наведені у статті), та провели звичайні тести абляції, не було жодної попередньої роботи, з якою можна було б порівняти продуктивність RFGAN.

Відкритий інтерес до секретних сигналів

RFGAN не є першим проектом, який намагається використовувати радіочастоти для побудови об’ємного зображення того, що відбувається в кімнаті. У 2019 році дослідники з MIT CSAIL розробили архітектуру під назвою RF-Avatar, здатну відновлювати 3D-людей на основі радіочастотних сигналів у діапазоні Wi-Fi, навіть під умовами сильної окулювання.

У проекті MIT CSAIL 2019 року радіохвилі були використані для видалення окулювання, навіть включаючи стіни та одяг, щоб відновити захоплені об’єкти у традиційному CGI-орієнтованому робочому процесі. Джерело: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

Дослідники нової статті також визнають пов’язану попередню роботу навколо картографування середовища з радіохвилями (ніяка з них не намагалася відновити фотореалістичних людей), яка мала на меті оцінити швидкість людини; див. через стіни з Wi-Fi; оцінити позу людини; та навіть визнати жести людини, серед інших цілей.

Переносимість та ширша застосовність

Дослідники потім намагалися визначити, чи їх відкриття було надмірно адаптовано до початкового середовища захоплення та умов тренування, хоча стаття пропонує мало деталей про цю фазу експерименту. Вони стверджують:

‘Для розгортання нашої моделі в новій сцені нам не потрібно перезапускати всю модель з початку. Ми можемо донастроювати попередньо треновану RFGAN, використовуючи дуже мало даних (близько 40 секунд даних), щоб отримати подібні результати.’

І продовжують:

‘Функції втрат та гіперпараметри такі самі, як і на етапі тренування. З кількісних результатів ми знаходимо, що попередньо тренована модель RFGAN може генерувати бажані кадри діяльності людини в новій сцені після донастроювання з дуже мало даних, що означає, що наш запропонований модель має потенціал для широкого використання.’

На основі деталей статті про це семінальне застосування нової техніки, не зовсім зрозуміло, чи мережа, створена дослідниками, “фіто-тренована” виключно для оригінальних суб’єктів, чи радіотеплові карти можуть вивести деталі, такі як колір одягу, оскільки це здається тим, що поєднує два різних типи частот, залучених у оптичних та радіозахопних методах.

Так чи інакше, RFGAN – це новий спосіб використання імітативних та репрезентативних можливостей Генеративних суперницьких мереж для створення нового та цікавого типу спостереження – такого, який потенційно міг би працювати у темряві та крізь стіни, ще більш вражаюче, ніж недавні зусилля бачити навколо кутів з відбитим світлом.

8 грудня 2021 року (день першої публікації), 20:04 – видалено повторене слово. – MA

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]