Kecerdasan buatan

Sintesis Gambar Manusia dari Gelombang Radio yang Dipantulkan

Published December 8, 2021

Updated April 5, 2026

Martin Anderson

Peneliti dari Cina telah mengembangkan metode untuk mensintesis gambar yang hampir fotorealistis dari orang tanpa menggunakan kamera, dengan menggunakan gelombang radio dan Generative Adversarial Networks (GANs). Sistem yang mereka ciptakan dilatih pada gambar asli yang diambil dalam cahaya yang baik, tetapi mampu menangkap ‘snapshots’ yang relatif autentik dari manusia bahkan dalam kondisi gelap – dan bahkan melalui penghalang besar yang akan menyembunyikan orang dari kamera konvensional.

Gambar-gambar tersebut bergantung pada ‘peta panas’ dari dua antena radio, satu menangkap data dari langit-langit ke bawah, dan yang lain merekam gangguan gelombang radio dari posisi ‘berdiri’.

Gambar-gambar yang dihasilkan dari eksperimen bukti konsep peneliti memiliki aspek ‘J-Horror’ yang tanpa wajah:

Berdasarkan pelatihan gambar asli orang di lingkungan yang sama, RFGAN menggunakan peta panas gelombang radio untuk merekam aktivitas manusia dan menghasilkan snapshot yang mendekati apa yang dilihat oleh resolusi rendah sinyal RF. Lampu tidak diperlukan, karena warna (sepertinya) dipersepsikan oleh cara gelombang radio diganggu oleh kehadiran orang, dan oleh variasi frekuensi ketika gelombang radio kembali dengan berbagai kekuatan sinyal, dan dengan karakteristik yang berbeda. Sumber: https://arxiv.org/pdf/2112.03727.pdf

RFGAN dilatih pada gambar asli orang di lingkungan yang terkendali dan pada peta panas gelombang radio yang merekam aktivitas manusia. Setelah mempelajari fitur dari data, RFGAN dapat menghasilkan snapshot berdasarkan data RF baru. Gambar yang dihasilkan adalah perkiraan, berdasarkan resolusi rendah sinyal RF yang tersedia. Proses ini bekerja bahkan dalam lingkungan yang gelap, dan melalui berbagai penghalang potensial. Sumber: https://arxiv.org/pdf/2112.03727.pdf

Untuk melatih GAN, yang disebut RFGAN, peneliti menggunakan data yang cocok dari kamera RGB standar, dan dari peta panas gelombang radio yang dihasilkan pada saat yang sama dengan penangkapan. Gambar-gambar orang yang disintesis dalam proyek baru cenderung kabur dengan cara yang mirip dengan fotografi Daguerreotype awal, karena resolusi gelombang radio yang digunakan sangat rendah, dengan resolusi kedalaman 7,5 cm, dan resolusi sudut sekitar 1,3 derajat.

Di atas, gambar yang diberikan ke jaringan GAN – di bawah, dua peta panas, horizontal dan vertikal, yang menggambarkan orang di ruangan, dan yang disintesis sendiri di dalam arsitektur menjadi representasi 3D dari data yang diganggu.

Makalah baru paper, yang berjudul RFGAN: RF-Based Human Synthesis, berasal dari enam peneliti dari Universitas Ilmu Pengetahuan dan Teknologi Elektronik Cina.

Data dan Arsitektur

Karena kurangnya dataset atau proyek sebelumnya yang memiliki cakupan yang sama, dan fakta bahwa sinyal RF belum pernah digunakan sebelumnya dalam kerangka sintesis gambar GAN, peneliti harus mengembangkan metodologi baru.

Arsitektur inti RFGAN.

Normalisasi adaptif digunakan untuk menafsirkan gambar peta panas ganda selama pelatihan, sehingga mereka sesuai secara spasial dengan data gambar yang ditangkap.

Perangkat penangkap RF adalah radar gelombang milimeter (mmWave) yang dikonfigurasi sebagai dua array antena, horizontal dan vertikal. Frekuensi Modulasi Kontinu (FMCW) dan antena linier digunakan untuk transmisi dan penerimaan.

Generator menerima frame sumber sebagai lapisan input, dengan representasi peta panas RF yang mengatur jaringan melalui normalisasi pada tingkat lapisan konvolusional.

Data

Data dikumpulkan dari refleksi sinyal RF dari antena gelombang milimeter pada kecepatan 20hz, dengan video manusia yang ditangkap secara bersamaan pada kecepatan 10fps yang sangat rendah. Sembilan adegan indoor ditangkap, menggunakan enam relawan, masing-masing mengenakan pakaian yang berbeda untuk berbagai sesi pengumpulan data.

Hasilnya adalah dua dataset yang berbeda, RF-Activity dan RF-Walk, yang pertama berisi 68.860 gambar orang dalam berbagai posisi (seperti squat dan walk), bersama dengan 137.760 frame peta panas yang sesuai; dan yang kedua berisi 67.860 frame berjalan acak manusia, bersama dengan 135.720 pasang peta panas yang terkait.

Data, sesuai dengan konvensi, dibagi tidak merata antara pelatihan dan pengujian, dengan 55.225 frame gambar dan 110.450 pasang peta panas digunakan untuk pelatihan, dan sisanya disimpan untuk pengujian. Frame penangkapan RGB diubah ukurannya menjadi 320×180, dan peta panas diubah ukurannya menjadi 201×160.

Model kemudian dilatih dengan Adam pada tingkat pembelajaran yang konsisten sebesar 0,0002 untuk generator dan diskriminator, pada epoch 80 dan ukuran batch yang sangat rendah sebesar 2. Pelatihan dilakukan melalui PyTorch pada GPU GTX-1080 konsumen yang memiliki 8GB VRAM, yang umumnya dianggap sangat modest untuk tugas seperti itu (menjelaskan ukuran batch yang rendah).

Meskipun peneliti menyesuaikan beberapa metrik konvensional untuk menguji realisme output (terperinci dalam makalah), dan melakukan tes ablasio yang biasa, tidak ada pekerjaan sebelumnya yang setara untuk diukur kinerja RFGAN.

Minat Terbuka dalam Sinyal Rahasia

RFGAN bukanlah proyek pertama yang mencoba menggunakan frekuensi radio untuk membangun gambaran volumetrik tentang apa yang terjadi di sebuah ruangan. Pada 2019, peneliti dari MIT CSAIL mengembangkan arsitektur yang disebut RF-Avatar, yang mampu merekonstruksi manusia 3D berdasarkan sinyal frekuensi radio dalam rentang Wi-Fi, dalam kondisi penghalangan yang parah.

Dalam proyek MIT CSAIL pada 2019, gelombang radio digunakan untuk menghilangkan penghalang, bahkan termasuk dinding dan pakaian, untuk merekonstruksi subjek yang ditangkap dalam alur kerja CGI yang lebih tradisional. Sumber: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

Peneliti makalah baru juga mengakui pekerjaan sebelumnya yang terkait dengan pemetaan lingkungan dengan gelombang radio (tidak ada yang mencoba merekonstruksi manusia yang fotorealistis), yang berusaha untuk mengestimasi kecepatan manusia; lihat melalui dinding dengan Wi-Fi; mengevaluasi pose manusia; dan bahkan mengenali gerakan manusia, antara lain.

Transferabilitas dan Keteraplikasian yang Lebih Luas

Peneliti kemudian berusaha untuk melihat apakah penemuan mereka terlalu sesuai dengan lingkungan penangkapan awal dan keadaan pelatihan, meskipun makalah tersebut menawarkan sedikit detail tentang fase eksperimen ini. Mereka menyatakan:

‘Untuk mengirimkan model kami di adegan baru, kami tidak perlu melatih seluruh model dari awal. Kami dapat memperbarui RFGAN yang sudah dilatih menggunakan sedikit data (sekitar 40s data) untuk mendapatkan hasil yang serupa.’