인공지능

연구자들, 장기적인 딥페이크 탐지에 도움이 될 수 있는 딥페이크의 강력한 특성을 발견

Published July 22, 2022

Updated April 28, 2026

Martin Anderson

2018년 처음 등장한 딥페이크 탐지 솔루션 이후 컴퓨터 비전 및 보안 연구 분야는 딥페이크 비디오의 기본 특성을 정의하려고 노력해 왔습니다. 즉, 딥페이크 기술의 개선(예: DeepFaceLab 및 FaceSwap과 같은 오토인코더 기반의 딥페이크 패키지 및 생성적 적대적 네트워크를 사용하여 인간의 얼굴을 재창조, 시뮬레이션 또는 변경하는 것)에 대해 저항할 수 있는 신호입니다.

많은 ‘특징’들, 예를 들어 깜빡임의 부족과 같은 것은 딥페이크의 개선으로 인해 쓸모없게 되었습니다. 반면에 디지털 증명 기술(예: 콘텐츠 인증 이니셔티브와 같은 어도비 주도)의 잠재적 사용, 즉 블록체인 접근 방식 및 잠재적 소스 사진의 디지털 워터마크는 인터넷에 있는 사용 가능한 소스 이미지의 기존 본문에 대한 대규모 및 비싼 변경을 필요로 하거나 시스템의 감시 및 인증을 생성하기 위해 국가 및 정부 간의 주목할만한 협력 노력을 필요로 합니다.

따라서 변경된, 허구의 또는 身分 교환된 인간 얼굴을 특징으로 하는 이미지 및 비디오 콘텐츠에서真正로 기본적이고 강력한 특성을 식별하는 것이 매우 유용할 것입니다. 즉, 대규모 검증, 암호화 자산 해싱, 컨텍스트 확인, 가능성 평가, 아티팩트 중심의 감지 루틴 또는 기타 번거로운 딥페이크 감지 접근 방식 없이 가짜 비디오에서 직접 추론할 수 있는 특성입니다.

프레임 안의 딥페이크

중국과 호주 간의 새로운 연구 협력은 ‘성배’를 정규성 교란의 형태로 발견했다고 믿습니다.

저자들은 실제 비디오의 공간적 무결성과 시간적 연속성과 딥페이크 콘텐츠를 포함하는 비디오를 비교하는 방법을 고안했으며, 어떤 종류의 딥페이크 간섭도 이미지의 정규성을 교란한다는 것을 발견했습니다. 즉, 그러나 감지할 수 없을 정도로 미세하게도 마찬가지입니다.

이는 부분적으로 딥페이크 프로세스가 대상 비디오를 프레임으로 분해하고 각 프레임(대체 프레임)에 교육된 딥페이크 모델의 영향을 적용하기 때문입니다. 인기 있는 딥페이크 배포는 이 점에서 애니메이터와 같은 방식으로 작동하여 각 프레임의 인증성보다 비디오의 전반적인 공간적 무결성과 시간적 연속성에 더 많은 주의를 기울입니다.

<img class="wp-image-182654 size-full" src="https://www.unite.ai/wp-content/uploads/2022/07/regularity-disruption-2.jpg" alt="논문에서: A) 데이터 유형 간의 차이. 여기서 우리는 p-가짜의 교란이 딥페이크와 동일한 방식으로 이미지의 시공간적 품질을 변경하는 것을 볼 수 있습니다. B) 세 가지 유형의 데이터에 대한 노이즈 분석, p-가짜가 딥페이크 교란을模倣하는 방식을 보여줍니다. C) 세 가지 유형의 데이터에 대한 시간적 시각화, 실제 데이터가 더 큰 무결성을 보여줍니다. D) 실제, 가짜, p-가짜 비디오에 대한 추출된 특성의 T-SNE

시각화.” width=”1070″ height=”628″ /> 논문에서: A) 데이터 유형 간의 차이. 여기서 우리는 p-가짜의 교란이 딥페이크와 동일한 방식으로 이미지의 시공간적 품질을 변경하는 것을 볼 수 있습니다. B) 세 가지 유형의 데이터에 대한 노이즈 분석, p-가짜가 딥페이크 교란을模倣하는 방식을 보여줍니다. C) 세 가지 유형의 데이터에 대한 시간적 시각화, 실제 데이터가 더 큰 무결성을 보여줍니다. D) 실제, 가짜, p-가짜 비디오에 대한 추출된 특성의 T-SNE 시각화. 출처: https://arxiv.org/pdf/2207.10402.pdf

이것은 원본 녹음이 이루어지거나 처리될 때 비디오 코덱이 프레임 시리즈를 처리하는 방식과 다릅니다. 파일 크기를 절약하거나 비디오를 스트리밍에 적합하게 하기 위해 비디오 코덱은 엄청난 양의 정보를 폐기합니다. 심지어 최고 품질 설정에서도 코덱은 사용자가 설정할 수 있는 변수인 ‘키 프레임’을 할당합니다. 즉, 비디오의 미리 정의된 간격에 발생하는 완전히 압축되지 않은 이미지입니다.

키 프레임 사이의 중간 프레임은 어느 정도 키 프레임의 변형으로 추정되며, 가능한 한 많은 정보를 인접한 키 프레임에서 재사용하여 완전한 프레임이 아닌 키 프레임의 변형으로 작동합니다.

왼쪽에 완전한 키 프레임 또는 ‘i-프레임’이 압축된 비디오에 저장되어 있으며, 파일 크기에 일부 비용이 발생합니다. 오른쪽에 있는 중간 ‘델타 프레임’은 더 데이터가 풍부한 키 프레임의 적용 가능한 부분을 재사용합니다. 출처: https://blog.video.ibm.com/streaming-video-tips/keyframes-interframe-video-compression/

이 방식으로 ‘블록'(키 프레임 설정에 따라 x개의 프레임을 포함하는)은 개별 프레임보다 일반적으로 압축된 비디오에서 고려되는 가장 작은 단위라고 주장할 수 있습니다. 심지어 키 프레임 자체, 즉 ‘i-프레임’도 이 단위의 일부를 형성합니다.

전통적인 카툰 애니메이션의 관점에서, 코덱은 인터프리팅을 수행하고 있으며, 키 프레임은 중간 프레임, 즉 ‘델타 프레임’을 위한 텐트 폴로 작동합니다.

반면에 딥페이크 상위 포지션은 더 넓은 컨텍스트를 고려하지 않고, 또한 압축 및 블록 기반 인코딩이 ‘진짜’ 비디오의 특성을 어떻게 영향을 미치는지 고려하지 않고, 각 개별 프레임에 엄청난 주의와 자원을 할애합니다.

진짜 비디오(왼쪽)와 딥페이크로 교란된 동일한 비디오(오른쪽)의 시간적 품질 간의 불연속성에 대한 더 가까운 시각.

일부 더 나은 딥페이크는 After Effects와 같은 패키지를 사용하여 광범위한 후처리를 사용하고, DeepFaceLab 배포에는 일부 네이티브 기능이 있어 모션 블러와 같은 ‘블렌딩’ 절차를 적용할 수 있지만, 이러한 속임수는 실제 비디오와 딥페이크 비디오 간의 공간적 및 시간적 품질의 불일치를 영향을 미치지 않습니다.

새로운 논문은 스패티오 템포럴 정규성 교란에 의한 딥페이크 감지라는 제목을 가지고 있으며, 청화대, 바이두(중국) Inc.의 컴퓨터 비전 기술 부문(VIS), 멜버른 대학교의 연구자들로부터 나왔습니다.

‘가짜’ 가짜 비디오

이 논문의 저자들은 연구의 기능을 Pseudo-fake Generator(P-가짜 생성기)라는 플러그 앤 플레이 모듈로 통합했으며, 실제 비디오를 딥페이크와 동일한 방식으로 교란시켜 가짜 딥페이크 비디오를 생성합니다. 실제 딥페이크 작업을 수행하지 않습니다.

테스트에 따르면 이 모듈은 거의 모든 자원 비용 없이 기존의 모든 딥페이크 감지 시스템에 추가할 수 있으며, 그들의 성능을 현저하게 개선합니다.

이 발견은 딥페이크 감지 연구에서 다른 걸림돌을 해결하는 데 도움이 될 수 있습니다. 즉, 진정하고 최신의 데이터셋이 부족합니다. 딥페이크 생성은 복잡하고 시간이 걸리는 프로세스이므로, 이 커뮤니티는 지난 5년 동안 여러 딥페이크 데이터셋을 개발했으며, 많은 데이터셋이 구식입니다.

비디오가 사후 변경된 경우 정규성 교란을 딥페이크와 무관한 신호로 분리함으로써, 이 새로운 방법은 이 측면에서 집중하는 무제한 샘플 및 데이터셋 비디오를 생성할 수 있습니다.

STE 블록 개요, 채널별 시간적 컨볼루션이 스파티오 템포럴로 향상된 인코딩을 생성하기 위한 자극으로 사용되어, 심지어 매우 설득력 있는 딥페이크에서도 동일한 서명을 생성합니다. 이 방법을 사용하여, 변경된 딥페이크 스타일의 비디오와 동일한 서명 특성을 갖는 ‘가짜’ 가짜 비디오를 생성할 수 있으며, 특정 배포 또는 불안정한 측면과 같은 특징 행동 또는 알고리즘 아티팩트에 의존하지 않습니다.

테스트

연구자들은 딥페이크 감지 연구에서 사용되는 6개의 주목할만한 데이터셋에 대한 실험을 수행했습니다. FaceForensics++(FF++); WildDeepFake; 딥페이크 감지 챌린지 미리 보기(DFDCP); Celeb-DF; 딥페이크 감지(DFD); 및 Face Shifter(FSh).

FF++의 경우 연구자들은 원본 데이터셋에 모델을 훈련시키고 각 4개의 하위 집합을 별도로 테스트했습니다. 딥페이크 자료를 사용하지 않고 훈련한 경우, 새로운 방법은 최첨단 결과를 능가했습니다.

이 방법은 FF++ C23 압축 데이터셋과 비교하여도 최상단을 차지했습니다. 이는 실제 딥페이크 시청 환경에서 신뢰할 수 있는 압축 아티팩트를 특징으로 하는 예제를 제공합니다.

저자는 다음과 같이 말합니다:

‘FF++ 내의 성능은 우리의 주요 아이디어의 타당성을 검증합니다. 그러나 기존 딥페이크 감지 방법의 경우 일반화 가능성이 주요 문제입니다. 즉, 테스트에 사용된 딥페이크가 보이지 않은 기술로 생성된 경우 성능이 보장되지 않습니다.’

‘또한 감지기와 위조자 간의 기술 전쟁을 고려하면, 일반화 가능성은 실제 세계에서 감지 방법의 효과를 측정하는 중요한 기준입니다.’

연구자들은 ‘강도’를 중심으로 여러 하위 테스트(세부 사항은 논문 참조)를 수행했으며, 입력 비디오의 유형(즉, 실제, 거짓, p-가짜 등)을 다양하게 했습니다. 그러나 가장 흥미로운 결과는 크로스 데이터셋 성능 테스트에서 나왔습니다.

이 테스트에서는 모델을 앞서 언급한 ‘실제 세계’ c23 버전의 FF++에서 훈련시키고, 이 모델을 4개의 데이터셋에 테스트하여, 저자들은 우수한 성능을 얻었다고 주장합니다.

크로스 데이터셋 챌린지의 결과. 논문에서는 SBI가 유사한 접근 방식을 사용하고 있지만, 연구자들은 p-가짜가 스파티오 템포럴 정규성 교란에서 더 나은 성능을 보인다고 주장합니다.

논문은 다음과 같이 말합니다:

‘가장 어려운 Deepwild에서, 우리의 방법은 AUC% 측면에서 최첨단 방법을 약 10 퍼센트 포인트超过합니다. 우리는 이것이 Deepwild의 딥페이크의 큰 다양성 때문이라고 생각합니다. 이는 다른 방법이 보이지 않은 딥페이크에서 잘 일반화하지 못하게 합니다.’

테스트에 사용된 메트릭은 정확도 점수(ACC), 수신자 운영 특성 곡선 아래의 영역(AUC), 오류 등가 비율(EER)입니다.

반격?

미디어는 딥페이크 개발자와 딥페이크 감지 연구자 간의 긴장을 기술 전쟁으로 묘사하지만, 전자는 단순히 더 설득력 있는 출력을 만들려고 하고, 딥페이크 감지의 어려움은 이러한 노력의 우연한 부산물일 수 있습니다.

이 새로운 약점을 해결하려고 할지 여부는 정규성 교란이 딥페이크 비디오에서 맨눈으로 볼 수 있는 가짜의 징조로 인식될 수 있으며, 따라서 질적 관점에서 이 메트릭을 해결할 가치가 있는지 여부에 달려 있습니다.

딥페이크는 5년 전 처음 온라인에 등장했으며, 여전히 tương对적으로 초기 기술입니다. 이 커뮤니티는 세부 사항과 해상도보다 컨텍스트 또는 압축된 비디오의 서명과 일치하는 것에 더 관심이 있습니다. 둘 다 출력의 ‘저하’를 필요로 하는데, 이는 현재 딥페이크 커뮤니티가 맞서고 있는 것입니다.

만약 그곳의 일반적인 합의가 정규성 교란이 출력의 품질에 영향을 미치지 않는 나사라는 것으로 밝혀진다면, 이를 해결하기 위한 노력이 없을 수 있습니다. 즉, 일부 후처리 또는 아키텍처 절차로 ‘취소’될 수 있지만, 이는 명확하지 않습니다.

처음 게시됨: 2022년 7월 22일.