Искусственный интеллект

Синтез Изображений Человека Из Отраженных Радиоволн

Published December 8, 2021

Updated April 5, 2026

Martin Anderson

Исследователи из Китая разработали метод синтеза почти фотореалистичных изображений людей без камер, используя радиоволны и Генеративные Соперничающие Сети (GANs). Система, которую они разработали, обучена на реальных изображениях, сделанных в хорошем свете, но способна захватывать относительно аутентичные «снимки» людей даже в темных условиях – и даже через значительные препятствия, которые бы скрывали людей от обычных камер.

Изображения основаны на «тепловых картах» от двух радиоантенн, одна из которых захватывает данные с потолка, а другая регистрирует радиоволновые возмущения с «стоящего» положения.

Результирующие фотографии из экспериментов исследователей имеют безликий, «J-Horror» аспект:

На основе обучения реальных изображений людей в той же среде, RFGAN использует радиоволновые тепловые карты для записи человеческой деятельности и генерации снимков, которые приближаются к тому, что ограниченное разрешение низкочастотных радиосигналов воспринимает. Свет не необходим, поскольку цвета (видимо) воспринимаются путем того, как радиоволны нарушаются присутствием людей, и вариациями частоты, когда радиоволны возвращаются с разной силой сигнала и различными характеристиками. Источник: https://arxiv.org/pdf/2112.03727.pdf

RFGAN обучен на изображениях реальных людей в контролируемых средах и на радиоволновых тепловых картах, которые записывают человеческую деятельность. Получив особенности из данных, RFGAN может затем генерировать снимки на основе новых радиоданных. Результирующее изображение является приближением, основанным на ограниченном разрешении низкочастотных радиосигналов. Этот процесс работает даже в затемненных средах и через различные потенциальные препятствия. Источник: https://arxiv.org/pdf/2112.03727.pdf

Для обучения GAN, названного RFGAN, исследователи использовали сопоставленные данные из стандартной RGB-камеры и из соответствующих радиотепловых карт, которые были произведены в момент захвата. Изображения синтезированных людей в новом проекте имеют размытый вид, подобный ранней дагерротипной фотографии, потому что разрешение радиоволн, используемых очень низкое, с глубинным разрешением 7,5 см и угловым разрешением около 1,3 градусов.

Выше, изображение, поданное в сеть GAN – ниже, две тепловые карты, горизонтальная и вертикальная, которые характеризуют человека в комнате, и которые синтезируются сами внутри архитектуры в 3D-представление возмущенных данных.

Новая статья, озаглавленная RFGAN: RF-Основной Синтез Человека, исходит от шести исследователей из Университета Электронной Науки и Технологии Китая.

Данные и Архитектура

Из-за отсутствия любых предыдущих наборов данных или проектов, которые имели бы такой объем, и факта, что радиосигналы не использовались ранее в рамках GAN для синтеза изображений, исследователи должны были разработать новые методологии.

Основная архитектура RFGAN.

Адаптивная нормализация была использована для интерпретации двойных тепловых картинок во время обучения, чтобы они соответствовали пространственно захваченным данным изображений.

Устройства радиозахвата были миллиметровыми волновыми (mmWave) радарами, сконфигурированными как две антенные массивы, горизонтальные и вертикальные. Частотно-модулированная непрерывная волна (FMCW) и линейные антенны были использованы для передачи и приема.

Генератор получает исходный кадр в качестве входного слоя, с радио-синтезированным (тепловым) представлением, оркестрирующим сеть через нормализацию на уровне сверточных слоев.

Данные

Данные были собраны из радиосигнальных отражений от миллиметровой антенны на частоте 20 Гц, с одновременным видеозахватом человека на очень низкой частоте 10 кадров в секунду. Девять внутренних сцен были захвачены, используя шесть добровольцев, каждый из которых носил разную одежду для различных сессий сбора данных.

Результатом стали два различных набора данных, RF-Activity и RF-Walk, первый из которых содержал 68 860 изображений людей в различных положениях (таких как сquat и walk), вместе с 137 760 соответствующими тепловыми кадрами; и второй содержал 67 860 кадров случайной ходьбы человека, вместе с 135 720 парами ассоциированных тепловых карт.

Данные, согласно конвенции, были разделены неравномерно между обучением и тестированием, с 55 225 кадрами изображений и 110 450 парами тепловых карт, использованных для обучения, и остальным, отложенным для тестирования. Кадры RGB-захвата были изменены в размере до 320×180, и тепловые карты были изменены в размере до 201×160.

Модель была затем обучена с Adam на постоянной скорости обучения 0,0002 для генератора и дискриминатора, на эпохе 80 и очень редком размере партии 2. Обучение проходило через PyTorch на потребительском уровне единственной GTX-1080 GPU, чья 8 ГБ видеопамяти обычно считались бы довольно скромными для такой задачи (объясняя низкий размер партии).

Хотя исследователи адаптировали некоторые обычные метрики для тестирования реализма выходных данных (подробно описано в статье), и провели обычные тесты абляции, не было никакой эквивалентной предыдущей работы, с которой можно было бы сравнить производительность RFGAN.

Открытый Интерес к Секретным Сигналам

RFGAN не является первым проектом, который попытался использовать радиочастоты для построения объемного изображения того, что происходит в комнате. В 2019 году исследователи из MIT CSAIL разработали архитектуру под названием RF-Avatar, способную реконструировать 3D-человека на основе радиочастотных сигналов в диапазоне Wi-Fi, в условиях сильного заслонения.

В проекте MIT CSAIL 2019 года радиоволны были использованы для удаления заслонений, даже включая стены и одежду, для реконструкции захваченных объектов в более традиционной CGI-основанной рабочей схеме. Источник: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

Исследователи новой статьи также признают слабо связанную предыдущую работу вокруг картографирования среды с радиоволнами (ни одна из них не пыталась реконструировать фотореалистичных людей), которая стремилась оценить человеческую скорость; см. через стены с Wi-Fi; оценить человеческие позы; и даже распознавать человеческие жесты, среди различных других целей.

Переносимость и Широкая Применимость

Исследователи затем попытались выяснить, является ли их открытие переобученным для начальной среды захвата и условий обучения, хотя статья предлагает мало деталей об этой фазе эксперимента. Они утверждают:

‘Чтобы развернуть нашу модель в новой сцене, нам не нужно переобучать всю модель с начала. Мы можем дообучить предварительно обученную RFGAN, используя очень мало данных (около 40 секунд данных), чтобы получить подобные результаты.’

И продолжают:

‘Функции потерь и гиперпараметры одинаковы с этапом обучения. Из количественных результатов мы обнаруживаем, что предварительно обученная модель RFGAN может генерировать желаемые кадры человеческой деятельности в новой сцене после дообучения с небольшим количеством данных, что означает, что наша предложенная модель имеет потенциал для широкого использования.’

На основе деталей статьи об этом семинальном применении новой техники неясно, является ли сеть, созданная исследователями, «обученной» исключительно для исходных объектов, или могут ли RF-тепловые карты вывести детали, такие как цвет одежды, поскольку это, кажется, занимает промежуточное положение между двумя различными типами частот, участвующих в оптических и радиозахватных методах.

В любом случае, RFGAN является новым способом использования имитационных и представительных сил Генеративных Соперничающих Сетей для создания новой и интригующей формы слежения – одной, которая потенциально может работать в темноте и через стены, в sposób даже более впечатляющий, чем недавние усилия по видению за углами с отраженным светом.

8 декабря 2021 года (день первой публикации), 20:04 по Гринвичу+2 – удалено повторяющееся слово. – MA