인공지능
깊이 정보는 실시간으로 Deepfakes를 드러낼 수 있다

이탈리아의 새로운 연구에 따르면 이미지에서 얻은 깊이 정보는 Deepfakes를 감지하는 유용한 도구가 될 수 있으며, 심지어 실시간으로도 가능하다.
과거 5년 동안 Deepfakes 감지에 대한 대부분의 연구는 아티팩트 식별(향상된 기술로 완화되거나 비디오 코덱 압축으로 인해 오인될 수 있음)에 초점을 맞추어 왔다. 그러나 주변 조명, 생체 특征, 시간적 중단, 그리고 심지어 인간의 본능에 대한 연구가 진행되어 왔다. 새로운 연구는 깊이 정보가 Deepfakes 콘텐츠를 감지하는 유용한 암호일 수 있다고 제안하는 최초의 연구이다.
새로운 연구에서 개발된 감지 프레임워크는 Xception과 같은 경량 네트워크에서 매우 잘 작동하며, MobileNet에서도 적절히 작동한다. 또한 이 논문은 이러한 네트워크를 통해 제공되는 낮은 지연 시간의 추론이 실시간 Deepfakes 감지를 가능하게 하며, 최근 Binance 공격과 같은 라이브 Deepfakes 사기와 같은 새로운 트렌드에 대응할 수 있다.
추론 시간의 더 큰 경제성을 달성할 수 있는 이유는 시스템이 실제와 가짜 깊이 맵을 구별하기 위해 전체 색상 이미지가 필요하지 않기 때문이다. 시스템은 놀랍게도 효율적으로 grayscale 이미지의 깊이 정보만으로 작동할 수 있다.
저자들은 다음과 같이 말한다: ‘이 결과는 이 경우 깊이가 색상 아티팩트보다 분류에 더 관련된 기여를 함을 시사한다.’
이 발견은 DeepFaceLive와 같은 실시간 얼굴 합성 시스템에 대한 Deepfakes 감지 연구의 새로운 물결의 일부를 나타낸다. 이 연구는 지난 3-4개월 동안 특히 FBI의 경고 이후 가속화되었다.
논문의 제목은 DepthFake: 깊이 기반의 Deepfakes 비디오 감지 전략이며, 로마의 Sapienza 대학의 5명의 연구자에 의해 수행되었다.
Edge Cases
训练 중에, 오토인코더 기반의 Deepfakes 모델은 얼굴의 내부 영역, 즉 눈, 코, 입과 같은 부분에 우선순위를 부여한다. 대부분의 경우, DeepFaceLab과 FaceSwap과 같은 오픈 소스 배포에서, 얼굴의 외곽선은 매우 늦은 훈련 단계에서 잘 정의되지 않으며, 내부 얼굴 영역의 합성 품질과 일치할 가능성이 낮다.
일반적으로 이것은 중요하지 않다. 왜냐하면 우리는 먼저 눈을 보고, 외부로 향하는 차등적인 주의를 기울이기 때문이다. 특히 라이브로 다른 사람의 정체성을 위조하는 경우, 사회적 규범과 처리 제한이 적용되기 때문이다.
그러나 Deepfakes 얼굴의 周囲 영역의 자세함이나 정확도가 부족한 점은 알고리즘적으로 감지할 수 있다. 3월에는 주변 얼굴 영역을 사용하는 시스템이 발표되었다. 그러나 이는 평균 이상의 양의 훈련 데이터가 필요하므로, 주로 ImageNet과 같은 현재 컴퓨터 비전 및 Deepfakes 감지 기술에서 유래한 데이터셋에 포함된 유명인에 대한 것으로 의도되었다.
대신, 새로운 시스템인 DepthFake는 실제 및 가짜 비디오 콘텐츠의 추정된 깊이 맵 정보의 품질을 구별함으로써, 일반적으로도 작동할 수 있다.
Going Deep
깊이 맵 정보는 점점 더 스마트폰에 내장되고 있다. 예를 들어, AI 지원 스테레오 구현과 같은 경우 컴퓨터 비전 연구에 특히 유용하다. 새로운 연구에서 연구자들은 National University of Ireland의 FaceDepth 모델을 사용하였다. 이는 단일 이미지에서 깊이 맵을 효율적으로 추정할 수 있는 컨볼루셔널 인코더/디코더 네트워크이다.
다음으로, 이탈리아 연구자의 새로운 프레임워크의 파이프라인은 원본 RGB 이미지와 파생된 깊이 맵에서 주제의 얼굴을 224×224 픽셀 패치로 추출한다. 이는 핵심 콘텐츠를 크기 조정 없이 복사할 수 있게 한다. 이는 중요하다. 크기 표준화 알고리즘은 대상 영역의 품질에 부정적인 영향을 미칠 수 있기 때문이다.
이 정보를 사용하여, 연구자들은 실제 및 Deepfakes 소스에서 차이를 기준으로 실제와 가짜 인스턴스를 구별할 수 있는 컨볼루셔널 신경 네트워크(CNN)를 훈련시켰다.
FaceDepth 모델은 실제와 합성 데이터를 사용하여 훈련되며, 얼굴의 외곽 영역에 더 많은 세부 사항을 제공한다. 이는 DepthFake에 적합하다. MobileNet 인스턴스를 특징 추출기로 사용하며, 480×640 입력 이미지에서 240×320 깊이 맵을 출력한다. 각 깊이 맵은 새로운 프로젝트의 판별기에 사용되는 4개의 입력 채널 중 하나를 나타낸다.
깊이 맵은 원본 RGB 이미지에 자동으로 삽입되어, 현대 스마트폰 카메라에서 출력할 수 있는 RGBD 이미지를 제공한다.
Training
모델은 이미 ImageNet에서 사전 훈련된 Xception 네트워크를 사용하여 훈련되었다. 그러나 깊이 정보를 추가하고 가중치를 초기화하는 데 필요한 구조적 적응이 필요했다.
또한, 깊이 정보와 네트워크가 기대하는 값의 범위가 일치하지 않아, 연구자들은 값을 0-255로 정규화해야 했다.
훈련 중에, 오직 플리핑과 회전만 적용되었다. 많은 경우 다양한 시각적 섭동이 모델에 적용되어 강건한 추론을 개발할 수 있다. 그러나 원본 사진의 제한적이고 매우 취약한 에지 깊이 맵 정보를 보존해야 하므로, 연구자들은 단순화된 체제를 채택해야 했다.
시스템은 또한 2채널 grayscale로 훈련되었다. 이는 알고리즘이 작동하기 위해 원본 이미지가 얼마나 복잡해야 하는지 결정하기 위함이다.
훈련은 TensorFlow API를 사용하여 NVIDIA GTX 1080에서 8GB의 VRAM을 사용하여 수행되었다. ADAMAX 최적화 알고리즘을 사용하여 25 에포크 동안 배치 크기 32로 훈련되었다. 입력 해상도는 224×224로 고정되었으며, 얼굴 감지 및 추출은 dlib C++ 라이브러리를 사용하여 수행되었다.
Results
정확도는 Deepfake, Face2Face, FaceSwap, Neural Texture, 및 RGB와 RGBD 입력을 사용하는 전체 데이터셋에서 FaceForensic++ 프레임워크를 사용하여 테스트되었다.

네 가지 Deepfakes 방법과 전체 데이터셋에 대한 정확도 결과. 결과는 원본 RGB 이미지와 추론된 깊이 맵이 포함된 이미지의 분석으로 나누어져 있다. 최고의 결과는 볼드체로 표시되어 있으며, 깊이 맵 정보가 결과를 개선하는 정도를 나타내는 백분율 숫자가 아래에 표시되어 있다.
모든 경우에서, 깊이 채널은 모든 구성에서 모델의 성능을 개선한다. Xception이 최고의 결과를 얻으며, MobileNet이 그 뒤를 따른다. 이에 대해 저자들은 다음과 같이 말한다:
‘MobileNet이 Xception보다 약간 뒤처리고, 더 깊은 ResNet50을 능가하는 것은 주목할 만한 결과이다. 이는 실시간 애플리케이션을 위한 추론 시간을 줄이는 목표를 고려할 때 특히 그렇다. 이것이 본 연구의 주요 기여는 아니지만, 미래 개발을 위한鼓舞的 결과로 간주한다.’
연구자들은 또한 RGBD와 2채널 grayscale 입력이 RGB와 단순 grayscale 입력보다 일관된 장점을 보인다고 지적하며, 깊이 추론의 grayscale 변환은 계산적으로 매우 저렴하여, 모델이 제한된 지역 자원으로 개선된 결과를 얻을 수 있음을 관찰한다. 이는 깊이 정보를 기반으로 하는 실시간 Deepfakes 감지의 미래 개발을 촉진한다.
처음 게시된 날짜: 2022년 8월 24일.














