인공지능

깊은 가짜 비디오 통화의 모니터 조명을 통해 탐지

Published July 6, 2022

Updated April 28, 2026

Martin Anderson

미국 국립 보안국(NSA)과 캘리포니아 대학교 버클리(University of California at Berkeley)의 연구자 간의 새로운 협력이 라이브 비디오 환경에서 깊은 가짜 콘텐츠를 탐지하는 새로운 방법을 제공합니다. 즉, 비디오 통화의 다른 쪽 끝에 있는 사람의 외모에 대한 모니터 조명의 영향을 관찰하는 것입니다.

인기 있는 DeepFaceLive 사용자 Druuzil Tech & Games는 자신의 크리스티안 베일 DeepFaceLab 모델을 라이브 세션에서 자신의 팔로워와 함께 시도합니다. 조명 소스가 변경됩니다. 출처: https://www.youtube.com/watch?v=XPQLDnogLKA

시스템은 사용자의 화면에 그래픽 요소를 배치하여 일반적인 깊은 가짜 시스템이 응답할 수 있는 것보다 더 빠르게 색상 범위를 변경합니다. 즉, 실시간 깊은 가짜 스트리밍 구현인 DeepFaceLive와 같은 경우에도, 라이브 색상 전송을 유지하고 주변 조명을 고려할 수 있습니다.

사용자의 웹캠의 자동 화이트 밸런스와 기타 임시 조명 보상 시스템을 활성화하지 않도록 설계된 한정된 색상 변화를 주기적으로 표시하는 모니터의 통일된 색상 이미지를 표시합니다. 이러한 시스템은 깊은 가짜 사기를 탐지하는 데 사용됩니다.

논문에서, 사용자의 모니터 앞에 있는 사용자의 조명 조건의 변화는 효과적으로 확산된 ‘면적 조명’으로 작동합니다. 출처: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

이 접근 방식의 이론은 라이브 깊은 가짜 시스템이 화면에 표시된 변경 사항에 及時적으로 응답할 수 없다는 것입니다. 이는 깊은 가짜 효과의 특정 부분에서 ‘지연’을 증가시켜 그 존재를 나타냅니다.

반사된 모니터 빛을 정확하게 측정하기 위해 시스템은 일반 환경 조명을 고려하여 그 효과를 할인해야 합니다. 그러면 활성 조명 색조와 사용자의 얼굴 색조 사이의 차이를 측정할 수 있습니다. 이는 각 1-4 프레임의 차이를 나타냅니다.

온-스크린 ‘탐지기’ 그래픽의 색조 변화를 제한하고, 사용자의 웹캠이 모니터 조명의 과도한 변경으로 자동 조정 설정을 트리거하지 않도록 보장함으로써, 연구자들은 깊은 가짜 시스템의 조명 변경에 대한 조정을 위한 특이한 지연을 식별할 수 있었습니다.

논문은 다음과 같이 결론을 내립니다.

‘라이브 비디오 통화를 신뢰하는 것이 합리적이며, 비디오 통화가 개인과 전문적인 삶에서 점점 더 普及됨에 따라, 우리는 비디오(및 오디오) 통화를 인증하는 기술이 중요해질 것이라고 제안합니다.’

이 연구는 Detecting Real-Time Deep-Fake Videos Using Active Illumination으로 제목이 붙여졌으며, 미국 국방부의 응용 연구 수학자인 Candice R. Gerstner와 버클리의 Hany Farid 교수가 수행했습니다.

신뢰의 침식

반-깊은 가짜 연구 분야는 지난 6개월 동안 일반적인 깊은 가짜 탐지(즉, 녹화된 비디오와 음란 콘텐츠를 대상으로 함)에서 ‘라이브니스’ 탐지로 방향을 전환했습니다. 이는 비디오 회의 통화에서 깊은 가짜 사용의 증가하는 일련의 사건과 FBI의 최근 경고에 대한 반응입니다.

비디오 통화가 실제로 깊은 가짜가 아닌 경우에도, AI 구동 비디오 사기者的 기회가 증가하면서 이미 패러노이아를 생성하기 시작했습니다.

새로운 논문은 다음과 같이 말합니다:

‘실시간으로 깊은 가짜를 생성하는 것은 라이브 비디오 또는 전화 통화周りの 일반적인 신뢰와 실시간으로 깊은 가짜를 탐지하는 어려움으로 인해 고유한 위협을 제기합니다.’

연구 커뮤니티는 오랜 시간 동안 쉽게 보상할 수 없는 깊은 가짜 콘텐츠의 확고한 징후를 찾는 것을 목표로 했습니다.虽然 언론은 이것을 보안 연구자와 깊은 가짜 개발자 간의 기술 전쟁으로 특징지었지만, 초기 접근 방식의 대부분의 부정(예: 눈 깜빡임 분석, 머리 姿勢 구분, 행동 분석)은 개발자와 사용자가 일반적으로 더 실제적인 깊은 가짜를 만들려고 시도했기 때문에 발생했습니다.

라이브 깊은 가짜 비디오에 빛을 비추다

라이브 비디오 환경에서 깊은 가짜를 탐지하는 것은 나쁨 비디오 연결을 고려해야 하는 부담을 지닙니다. 이는 비디오 회의 시나리오에서 매우 일반적입니다. 깊은 가짜 계층이 개입되지 않아도, 비디오 콘텐츠는 나사형 지연, 렌더링 아티팩트 및 기타 유형의 오디오 및 비디오 열화에 취약할 수 있습니다. 이러한 요소는 라이브 깊은 가짜 아키텍처의 거친 에지를 숨길 수 있으며, 비디오 및 오디오 깊은 가짜 모두에서 vậy입니다.

저자의 새로운 시스템은 필라델피아의 템플 대학교(Philadelphia의 Temple University)의 네트워크 컴퓨팅 센터에서 2020년에 출판된 연구의 결과와 방법을 개선합니다.

2020년 논문에서, 사용자의 화면 콘텐츠가 변경됨에 따라 얼굴 조명의 ‘채우기’ 변경을 관찰할 수 있습니다. 출처: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

새로운 연구의 차이점은 웹캠이 조명 변경에 반응하는 방식을 고려한다는 것입니다. 저자는 다음과 같이 설명합니다:

‘모든 현대 웹캠이 자동 노출을 수행하므로, 이전 연구에서 사용된 높은 강度의 활성 조명은 카메라의 자동 노출을 트리거할 가능성이 높으며, 이는 기록된 얼굴 외모를 혼동시킵니다. 이를 피하기 위해, 우리는 색조의 등색 변경을 사용합니다. ‘

‘이것은 카메라의 자동 노출을 피할 수 있지만, 카메라의 화이트 밸런스를 트리거할 수 있습니다. 이를 피하기 위해, 우리는 화이트 밸런스를 트리거하지 않는 범위에서 작동합니다.’

이 이니셔티브를 위해, 저자는 이전의 유사한 시도를 고려했습니다. 예를 들어, LiveScreen은 깊은 가짜 콘텐츠를 나타내는 데 사용되는 사용자의 모니터에 미묘한 조명 패턴을 강제로 적용합니다.

이 시스템은 94.8%의 정확도율을 달성했지만, 연구자들은 이러한 미묘한 조명 패턴이 밝은 환경에서 어려울 수 있으며, 대신에 자신의 시스템 또는 유사한 시스템을 인기 있는 비디오 회의 소프트웨어에 공개적으로 기본적으로 통합할 수 있다고 제안합니다:

‘우리의 제안된 개입은 호출 참가자가 단순히 화면을 공유하고 시간적으로 변하는 패턴을 표시함으로써 실현될 수 있습니다. 또는, 이상적으로, 이것은 비디오 호출 클라이언트에 직접 통합될 수 있습니다.’

테스트

저자는 합성 및 실제 사용자를 사용하여 Dlib 구동 깊은 가짜 탐지기를 테스트했습니다. 합성 시나리오에서는 스위스 연방 공과 대학(Lausanne)의 Mitsuba를 사용했습니다.

시뮬레이션된 데이터 세트의 샘플, 다양한 피부 톤, 조명 소스 크기, 주변 조명 강도 및 카메라에 대한 근접성을 특징으로 합니다.

시뮬레이션된 환경 테스트의 샘플, 다양한 피부 톤, 조명 소스 크기, 주변 조명 강도 및 카메라에 대한 근접성을 특징으로 합니다.

시뮬레이션된 환경에는 90° 필드 오브 뷰를 갖춘 가상 카메라에서 캡처된 파라메트릭 CGI 헤드가 포함됩니다. 헤드는 램버트 반사율과 중립적인 피부 톤을 특징으로 하며, 가상 카메라에서 2피트 떨어져 있습니다.

다양한 피부 톤과 설정에서 프레임워크를 테스트하기 위해, 연구자들은 순차적으로 다양한 측면을 변경하는 일련의 테스트를 수행했습니다. 변경된 측면에는 피부 톤, 근접성 및 조명 광원 크기가 포함되었습니다.

저자는 다음과 같이 말합니다:

‘시뮬레이션에서, 우리의 다양한 가정들이 만족되면, 우리의 제안된 기술은 광범위한 이미지 구성에 대해 매우 강력합니다.’

실제 시나리오에서는, 연구자들은 다양한 환경에서 다양한 피부 톤을 갖춘 15명의 자원자를 사용했습니다. 각 자원자는 30Hz 디스플레이 새로고침 속도가 웹캠과 동기화된 조건에서 제한된 색조 변화를 두 번 거쳤습니다. 결과는 합성 테스트와 비교할 수 있었으며, 조명 값이 증가함에 따라 상관관계가 크게 증가했습니다.

미래 방향

시스템은 일반적인 얼굴 가리기(예: 뱅뱅이, 안경, 수염)를 고려하지 않습니다. 그러나 연구자들은 이러한 마스킹을 나중에 추가할 수 있으며, 이후 시스템(레이블링 및 이후 의미론적 분할을 통해)을 피부 영역에서만 값을 취하도록 훈련할 수 있다고 주장합니다.

저자는 또한 유사한 패러다임이 깊은 가짜 오디오 통화를 탐지하는 데 사용될 수 있으며, 필요한 사운드는 일반적인 인간의 청각 범위 밖의 빈도에서 재생될 수 있다고 제안합니다.

연구자들은 또한 평가 영역을 얼굴을 넘어 더 풍부한 캡처 프레임워크로 확장하면 깊은 가짜 탐지의 가능성을 크게 향상시킬 수 있다고 주장합니다:

‘더 복잡한 3차원 조명 추정은 더 풍부한 외모 모델을 제공할 것입니다. 이는 사기꾼이 우회할 수 없을 것입니다. 우리는 얼굴에만 초점을 맞추었지만, 컴퓨터 디스플레이도 목, 상반신 및 주변 배경을 조명합니다. 이러한 측정값은 사기꾼이 전체 3차원 장면을 고려하도록 강제할 것입니다.’

‘이러한 추가 측정값은 사기꾼이 얼굴뿐만 아니라 전체 3차원 장면을 고려하도록 강제할 것입니다.’

* 저자의 인라인 인용을 하이퍼링크로 변환했습니다.

最初에 2022년 7월 6일에 게시되었습니다.