人工知能

人のイメージの合成から反射されたラジオ波

Published December 8, 2021

Updated April 5, 2026

Martin Anderson

中国の研究者は、カメラを使用せずに、ラジオ波と生成対抗ネットワーク(GANs)を使用して、人間の近似的な写真像を合成する方法を開発しました。彼らが考案したシステムは、明るい光での実際の画像でトレーニングされていますが、暗い条件や従来のカメラで人間が隠れるような大きな障害物の後ろでも、比較的本物のような「スナップショット」を捕捉することができます。

画像は、天井から下に向かってデータを取得する1つのラジオアンテナと、立ち位置からのラジオ波の変動を記録するもう1つのアンテナからの「熱マップ」に依存しています。

研究者の概念実証実験からの写真は、顔のない「J-ホラー」的な側面があります。

同じ環境での実際の人間の画像でトレーニングされたRFGANは、ラジオ波のヒートマップを使用して人間の活動を記録し、低周波RF信号の限定された解像度で認識されたものに近似するスナップショットを生成します。光は必要ありません。色は、人間の存在によってラジオ波がどのように変調されるか、ラジオ波がさまざまな信号強度と特性で戻ってくるかによって認識されるからです。ソース: https://arxiv.org/pdf/2112.03727.pdf

RFGANは、実際の人間の画像とラジオ波のヒートマップでトレーニングされています。データから特徴を学習した後、RFGANは新しいRFデータに基づいてスナップショットを生成できます。生成された画像は、利用可能な低周波RF信号の限定された解像度に基づいて近似値です。このプロセスは、暗い環境やさまざまな障害物の後ろでも機能します。ソース: https://arxiv.org/pdf/2112.03727.pdf

GANのトレーニングには、標準のRGBカメラと同時に取得されたラジオヒートマップの対応するデータが使用されました。新しいプロジェクトの合成された人間の画像は、ラジオ波の解像度が非常に低いため、7.5cmの深度解像度と約1.3度の角度解像度で、早期のダゲレオタイプ写真のようにぼやけていることが多いです。

上部、GANネットワークに供給される画像 – 下部、水平および垂直のヒートマップ。これらは部屋の中の人物を特徴付け、ネットワークの内部で自己に合成され、乱れたデータの3D表現を生成します。

新しい論文は、中国の電子科学技術大学の6人の研究者によるもので、RFGAN: RFベースの人間合成と題されています。

データとアーキテクチャ

このスコープを共有する以前のデータセットやプロジェクトがないこと、およびRF信号が以前にもGAN画像合成フレームワークで使用されたことがないことから、研究者は新しい方法論を開発する必要がありました。

RFGANのコアアーキテクチャ。

トレーニング中に双子のヒートマップ画像を解釈するために、適応正規化が使用されました。つまり、画像データと空間的に対応します。

RFキャプチャデバイスは、水平および垂直の2つのアンテナアレイとして構成されたミリメートル波（mmWave）レーダーでした。周波数変調連続波（FMCW）および線形アンテナが送信および受信に使用されました。

ジェネレータは、入力層としてソースフレームを受け取り、RF融合（ヒートマップ）表現が、正規化を介してネットワークをオーケストレーションします。

データ

データは、mmWaveアンテナからのRF信号の反射から、わずか20Hzで収集されました。人間のビデオは同時に、非常に低い10fpsでキャプチャされました。6人のボランティアを使用して、9つの室内シーンがキャプチャされ、各ボランティアはさまざまなセッションで異なる服を着用しました。

結果は、2つの異なるデータセット、RF-ActivityとRF-Walkでした。前者には、68,860枚の人間の画像（例：スクワットおよび歩行）と137,760枚の対応するヒートマップフレームがありました。後者には、67,860枚の人間のランダムな歩行フレームと135,720ペアの関連ヒートマップがありました。

データは、慣習に従って、トレーニングとテストのために不均等に分割され、55,225枚の画像フレームと110,450ペアのヒートマップがトレーニングに使用され、残りはテストに使用されました。RGBキャプチャフレームは320×180にリサイズされ、ヒートマップは201×160にリサイズされました。

モデルは、Adamを使用して、ジェネレーターとディスクリミネーター両方で一貫した0.0002の学習率で、80エポックと非常に疎な2のバッチサイズでトレーニングされました。トレーニングは、8GBのVRAMしかない消費者向けの単一のGTX-1080 GPUでPyTorchを使用して行われました。これは、バッチサイズが低い理由です。

研究者は、出力の現実性をテストするために従来のメトリックを適応させ、慣例的な消去テストを実行しましたが、RFGANのパフォーマンスを測定するための同等の以前の研究はありませんでした。

オープンな関心の秘密の信号

RFGANは、ラジオ周波数を使用して部屋の中で何が起こっているかを体積的に描写しようとした最初のプロジェクトではありません。2019年、MIT CSAILの研究者は、RF-Avatarと呼ばれるアーキテクチャを開発しました。これは、Wi-Fi範囲のラジオ周波数信号に基づいて、3D人間を再構築できます。

MIT CSAILプロジェクトでは、2019年にラジオ波を使用して、壁や服を含む遮蔽物を除去して、従来のCGIベースのワークフローでキャプチャされたサブジェクトを再構築しました。ソース: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

この新しい論文の研究者は、人間の速度を推定すること、壁を通過して人間の姿勢を評価すること、さらには人間のジェスチャーを認識することなど、関連する以前の研究を認めています。