Штучний Інтелект

Синтез зображення людини з відбитих радіохвиль

оновлений on 9 Грудня, 2022

Дослідники з Китаю розробили метод синтезу фотореалістичних зображень людей без камер за допомогою радіохвиль і Генеративні змагальні мережі (GANs). Система, яку вони винайшли, навчена на реальних зображеннях, зроблених при хорошому освітленні, але здатна робити відносно достовірні «миттєві знімки» людей навіть у темряві – і навіть через великі перешкоди, які приховали б людей від звичайних камер.

Зображення базуються на «теплових картах» двох радіоантен, одна з яких фіксує дані зі стелі вниз, а інша записує збурення радіохвиль із «стоячого» положення.

Фотографії, отримані в результаті дослідницьких експериментів з підтвердження концепції, мають безликий аспект «J-Horror»:

Ґрунтуючись на тренуванні реальних зображень людей у тому самому середовищі, RFGAN використовує теплові карти радіохвиль для запису людської діяльності та створення знімків, які приблизно відповідають обмеженій роздільній здатності сприйнятих низькочастотних радіочастотних сигналів. Світло не потрібне, оскільки кольори (вочевидь) сприймаються через те, як радіохвилі порушуються присутністю людей, а також змінами частоти, коли радіохвилі повертаються назад із різною силою сигналу та з різними характеристиками. Джерело: https://arxiv.org/pdf/2112.03727.pdf

RFGAN навчається на зображеннях реальних людей у контрольованому середовищі та на теплових картах радіохвиль, які записують людську діяльність. Вивчивши функції з даних, RFGAN може потім створювати знімки на основі нових радіочастотних даних. Отримане зображення є наближеним, заснованим на обмеженій роздільній здатності доступних низькочастотних радіочастотних сигналів. Цей процес працює навіть у затемненому середовищі та через низку потенційних перешкод. Джерело: https://arxiv.org/pdf/2112.03727.pdf

Тренувати ГАН, дубл РФГАН, дослідники використовували зіставлені дані зі стандартної RGB-камери та з об’єднаних відповідних радіотеплових карт, створених у точний момент зйомки. Зображення синтезованих людей у новому проекті мають тенденцію бути розмитими у спосіб, подібний до ранньої дагеротипної фотографії, оскільки роздільна здатність використовуваних радіохвиль дуже низька, з роздільною здатністю по глибині 7.5 см і кутовою роздільною здатністю приблизно 1.3 градуса.

Угорі зображення, що передається в мережу GAN, внизу дві теплові карти, горизонтальна та вертикальна, які характеризують людину в кімнаті та синтезуються всередині архітектури в тривимірне представлення спотворених даних.

Новий папір, Під назвою RFGAN: людський синтез на основі радіочастот, походить від шести дослідників з Університету електронних наук і технологій Китаю.

Дані та архітектура

Через відсутність будь-яких попередніх наборів даних або проектів, які б поділяли цю сферу, а також через те, що радіочастотні сигнали раніше не використовувалися в системі синтезу зображень GAN, дослідникам довелося розробити нові методології.

Основна архітектура RFGAN.

Адаптивна нормалізація була використана для інтерпретації подвійних зображень теплової карти під час навчання, щоб вони просторово відповідали даним захоплених зображень.

Пристроями захоплення радіочастот були радари міліметрових хвиль (mmWave), сконфігуровані у вигляді двох антенних решіток, горизонтальної та вертикальної. Частотно-модульована безперервна хвиля (FMCW) і лінійні антени використовувалися для передачі.

Генератор отримує вихідний кадр як вхідний рівень із представленням РЧ-злиття (теплова карта), що керує мережею шляхом нормалізації на рівні згорткових шарів.

дані

Дані були зібрані на основі відбитків радіочастотного сигналу від мм-хвильової антени лише з частотою 20 Гц, з одночасним записом людського відео з дуже низькою частотою 10 кадрів в секунду. Було знято дев’ять сцен у приміщенні за допомогою шести добровольців, кожен з яких носив різний одяг під час різних сеансів збору даних.

Результатом стали два різні набори даних, РЧ-активність та RF-прогулянка, перша містить 68,860 XNUMX зображень людей у різних позах (наприклад присадкуватий та ходити), разом із 137,760 67,860 відповідними кадрами теплової карти; а остання містить 135,720 XNUMX кадрів випадкової ходьби людини разом із XNUMX XNUMX парами пов’язаних теплових карт.

Дані, відповідно до умов, були нерівномірно розподілені між навчанням і тестуванням: 55,225 110 кадрів зображень і 450 320 пар теплових карт використовувалися для навчання, а решта залишалися для тестування. Розмір кадрів захоплення RGB було змінено до 180×201, а теплові карти – до 160×XNUMX.

Потім модель навчили за допомогою Адама з постійною швидкістю навчання 0.0002 як для генератора, так і для дискримінатора, в епосі 80 і (дуже рідкісному) розмірі партії 2. Навчання відбувалося через PyTorch на підошві GTX споживчого рівня. -1080 GPU, чиї 8 ГБ відеопам'яті загалом вважалися б досить скромними для такого завдання (що пояснює низький розмір партії).

Незважаючи на те, що дослідники адаптували деякі звичайні показники для перевірки реалістичності виходу (детально описано в статті) і провели звичайні тести абляції, не було еквівалентної попередньої роботи, за якою можна було б виміряти продуктивність RFGAN.

Відкритий інтерес до секретних сигналів

RFGAN - не перший проект, який намагається використовувати радіочастоти для побудови об'ємної картини того, що відбувається в кімнаті. У 2019 році дослідники з MIT CSAIL розробили архітектуру під назвою РФ-Аватар, здатний реконструкція 3D людей на основі радіочастотних сигналів у діапазоні Wi-Fi, у важких умовах оклюзії.

У проекті MIT CSAIL з 2019 року радіохвилі використовувалися для усунення оклюзій, включаючи стіни та одяг, щоб відтворити зняті об’єкти в більш традиційному робочому процесі на основі CGI. Джерело: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

Дослідники нової статті також визнають слабко пов’язану попередню роботу навколо картографування навколишнього середовища за допомогою радіохвиль (жодна з них не намагалася відтворити фотореальних людей), яка намагалася оцінити швидкість людини; подивитися через стіни з Wi-Fi; оцінити пози людини; і навіть розпізнавати людські жести, серед інших цілей.

Можливість передачі та широке застосування

Потім дослідники вирішили перевірити, чи не було їхнє відкриття занадто адаптованим до початкового середовища захоплення та обставин навчання, хоча в статті міститься небагато деталей щодо цього етапу експерименту. Вони стверджують:

«Щоб розгорнути нашу модель у новій сцені, нам не потрібно перенавчати всю модель із самого початку. Ми можемо точно налаштувати попередньо навчену RFGAN, використовуючи дуже мало даних (приблизно 40 секунд), щоб отримати подібні результати».

І продовжуйте:

«Функції втрат і гіперпараметри однакові з етапом навчання. З кількісних результатів ми виявили, що попередньо навчена модель RFGAN може генерувати бажані кадри людської діяльності в новій сцені після тонкого налаштування лише з невеликою кількістю даних, що означає, що наша запропонована модель має потенціал для широкого використання».

Виходячи з подробиць статті про це основне застосування нової методики, не ясно, чи мережа, яку створили дослідники, «пристосована» виключно до вихідних суб’єктів, чи радіочастотні теплові карти можуть вивести такі деталі, як колір одягу. , оскільки це, здається, поширює два різні типи частот, задіяних у методах оптичного та радіо захоплення.

У будь-якому випадку RFGAN — це новий спосіб використання наслідувальних і репрезентативних можливостей Generative Adversarial Networks для створення нової та інтригуючої форми стеження, яка потенційно може діяти в темряві та крізь стіни, навіть більш вражаюче, ніж останні спроби до бачити круглі кути у відбитому світлі.

8 грудня 2021 (день першої публікації), 8:04 GMT+2 – вилучено повторюване слово. – М.А

Вгору Далі

Навчання моделей комп’ютерного зору на випадковому шумі замість реальних зображень

Не пропустіть

Оркестрування синтезу обличчя за допомогою семантичної сегментації

Мартін Андерсон

Письменник про машинне навчання, штучний інтелект і великі дані.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai

Об'єднуйтесь.AI

Синтез зображення людини з відбитих радіохвиль

Штучний Інтелект

Синтез зображення людини з відбитих радіохвиль

Зміст

Дані та архітектура

дані

Відкритий інтерес до секретних сигналів

Можливість передачі та широке застосування

Об'єднуйтесь.AI

Синтез зображення людини з відбитих радіохвиль

Зміст

Дані та архітектура

дані

Відкритий інтерес до секретних сигналів

Можливість передачі та широке застосування

Вам може сподобатися