인공 지능

Disentanglement는 차세대 Deepfake 혁명입니다.

업데이트 on 2022 년 12 월 9 일

딥페이크 이미지를 더 잘 제어하기 위해 새로운 프로젝트에서 CGI 데이터 증강이 사용되고 있습니다. 여전히 CGI 헤드를 효과적으로 사용하여 딥페이크 얼굴 데이터 세트의 누락된 간격을 채울 수는 없지만 컨텍스트에서 신원을 풀기 위한 새로운 연구 물결은 곧 그럴 필요가 없을 수도 있음을 의미합니다.

지난 몇 년 동안 가장 성공적인 바이럴 딥페이크 비디오의 제작자는 소스 비디오를 매우 신중하게 선택하여 지속적인 프로필 샷(예: 경찰 체포 절차로 대중화된 사이드 온 머그샷 종류), 예리한 각도 및 비정상적이거나 과장된 표현을 피합니다. . 점점 더 입소문을 타고 있는 딥페이커들이 제작한 데모 비디오는 딥페이크에 '가장 쉬운' 각도와 표현을 선택하는 편집 편집본입니다.

사실, 딥 페이크된 유명인을 삽입하는 가장 적합한 대상 비디오는 원래 사람(딥 페이크에 의해 정체성이 지워질 것임)이 최소한의 표정으로 카메라를 똑바로 바라보고 있는 비디오입니다.

최근 몇 년간 인기 있는 딥페이크의 대부분은 피사체가 카메라를 정면으로 향하고 레드 카펫 파파라치 출력에서 쉽게 추출할 수 있는 인기 있는 표정(예: 미소)만 있거나 (2019년 실베스터 스탤론의 페이크에서와 같이) 터미네이터(왼쪽 사진)) 중립적인 표현은 매우 일반적이어서 딥페이크 모델에 쉽게 통합할 수 있기 때문에 아무 표정도 없는 것이 이상적입니다.

다음과 같은 딥페이크 기술 때문에 딥페이스랩 와 페이스 스왑 이러한 간단한 스왑을 매우 잘 수행하지만, 우리는 그들이 무엇을 할 수 없는지 알아차리지 못할 정도로 그들이 성취하는 것에 충분히 현혹되어 있으며, 종종 다음을 시도조차 하지 않습니다.

각도가 너무 까다롭지 않은 한 Arnold Schwarzenegger가 Sylvester Stallone으로 변신하는 유명한 딥페이크 비디오에서 가져옵니다. 프로필은 현재 딥페이크 접근 방식에서 지속적인 문제로 남아 있습니다. 부분적으로는 딥페이크 프레임워크에서 얼굴 포즈를 정의하는 데 사용되는 오픈 소스 소프트웨어가 사이드 뷰에 최적화되지 않았기 때문입니다. 데이터 세트. 출처: https://www.youtube.com/watch?v=AQvCmQFScMA

새로운 연구 이스라엘의 CGI 머리와 같은 합성 데이터를 사용하여 2020년대에 딥페이크를 도입하는 새로운 방법을 제안합니다. 즉, 모든 각도에서 얼굴 신원(예: '톰 크루즈'의 필수 얼굴 특징)을 맥락(예: '톰 크루즈'의 필수 얼굴 특성)에서 분리합니다. 찾고, 옆으로 보고, 찌푸린 얼굴, 어둠 속에서 찡그린, 눈썹이 주름졌다, 눈을 감다등).

새 시스템은 관련 없는 합성 얼굴 데이터(왼쪽 그림)를 사용하여 개인의 신원 인코딩에서 포즈와 컨텍스트(예: 눈 윙크)를 개별적으로 분리합니다. 맨 위 행에는 왼쪽의 CGI 이미지로 표시되는 GAN의 잠재 공간의 학습된 비선형 경로에 의해 촉발된 Barack Obama의 신원으로 전송된 '윙크'가 표시됩니다. 아래 행에서 전직 대통령에게 전해진 늘어난 입꼬리 면을 볼 수 있습니다. 오른쪽 하단에는 두 특성이 동시에 적용된 것을 볼 수 있습니다. 출처 : https://arxiv.org/pdf/2111.08419.pdf

이것은 단순한 것이 아니다 딥페이크 머리 인형극, 아바타 및 부분 얼굴 립싱크에 더 적합한 기술이며 본격적인 딥 페이크 비디오 변환 가능성이 제한적입니다.

오히려 이것은 수단의 근본적인 분리(예: '머리 각도 변경', '눈살을 찌푸리게 하다') ID에서 '파생' 이미지 합성 기반 딥페이크 프레임워크가 아닌 높은 수준의 경로를 제공합니다.

새 논문의 제목은 Delta-GAN-인코더: 몇 가지 합성 샘플을 사용하여 명시적 이미지 편집을 위한 의미 체계 변경 인코딩, Technion – Israel Institute of Technology의 연구원이 제공합니다.

작업이 무엇을 의미하는지 이해하기 위해 현재 딥페이크 포르노 사이트에서 산업용 조명 및 마법 (DeepFaceLab 오픈 소스 저장소가 현재 '아마추어'와 전문 딥 페이킹 모두에서 지배적이기 때문입니다).

현재 Deepfake 기술을 억제하는 것은 무엇입니까?

딥페이크는 현재 인코더/디코더 얼굴 이미지로 구성된 두 폴더, 즉 '칠할' 사람(이전 예에서는 Arnie)과 영상에 겹쳐 넣을 사람(Sly)에 대한 기계 학습 모델입니다.

두 개의 서로 다른 얼굴 세트에서 다양한 포즈 및 조명 조건의 예. 열 A의 세 번째 행 끝에 있는 고유한 표현에 유의하십시오. 다른 데이터 세트에서는 거의 동일하지 않습니다.

그러면 인코더/디코더 시스템 모든 단일 이미지 비교 두 ID의 필수 특성을 마음대로 바꿀 수 있을 만큼 충분히 잘 이해할 때까지 수십만 번의 반복(종종 일주일 동안) 동안 각 폴더에서 이 작업을 유지, 개선 및 반복합니다.

프로세스에서 교환되는 두 사람 각각에 대해 딥페이크 아키텍처가 정체성에 대해 배우는 것은 맥락과 얽힌. 그것은 '좋고 모두를 위한' 일반적인 포즈에 대한 원칙을 배우고 적용할 수 없지만, 얼굴 교환에 관여할 각각의 모든 신원에 대해 훈련 데이터 세트에 풍부한 예제가 필요합니다.

따라서 미소를 짓거나 카메라를 똑바로 쳐다보는 것보다 더 특이한 일을 하는 두 개의 신분을 바꾸려면 다음이 필요합니다. . 두 얼굴 세트에 걸친 특정 포즈/신분의 인스턴스:

현재 안면 ID와 포즈 특성이 너무 얽혀 있기 때문에 DeepFaceLab과 같은 시스템에서 효과적인 딥페이크 모델을 훈련시키려면 두 개의 안면 데이터 세트에서 광범위한 표현 패리티, 머리 포즈 및 (적은 정도로) 조명이 필요합니다. 두 얼굴 세트에 특정 구성(예: '옆모습/미소/햇빛')이 적을수록 필요한 경우 딥페이크 비디오에서 덜 정확하게 렌더링됩니다.

세트 A에는 비정상적인 포즈가 포함되어 있지만 세트 B에는 해당 포즈가 없으면 거의 운이 없는 것입니다. 모델을 얼마나 오래 훈련시키든, 모델은 훈련 당시 필요한 정보의 절반만 가지고 있었기 때문에 ID 간에 해당 포즈를 잘 재현하는 방법을 배우지 못할 것입니다.

일치하는 이미지가 있더라도 충분하지 않을 수 있습니다. 세트 A에 일치하는 포즈가 있지만 측면 조명이 심한 경우 다른 얼굴 세트의 평면 조명 등가 포즈에 비해 교체 품질이 더 좋습니다. 각각이 공통 조명 특성을 공유하는 것처럼 좋지는 않습니다.

데이터가 부족한 이유

정기적으로 체포되지 않는 한 자신의 옆모습 사진을 많이 찍지 않을 것입니다. 올라온 것은 모두 버렸을 것입니다. 사진기획사도 마찬가지다 보니 프로필 사진을 구하기 힘들다.

Deepfaker는 얼굴 세트의 신원에 대해 가지고 있는 제한된 측면 프로필 데이터의 여러 복사본을 포함하는 경우가 많습니다. 작은 훈련 중 관심과 시간을 국외자.

그러나 데이터 세트에 포함할 수 있는 것보다 더 많은 유형의 측면 얼굴 사진이 있습니다. 미소, 찌푸린, 외침, 울음, 어두운 조명, 경멸하는, 지루한, 쾌활한, 플래시 조명, 찾고, 아래를 내려다보다, 눈을 뜨다, 눈을 감다…등등. 이러한 포즈는 여러 조합으로 타겟 딥페이크 타겟 비디오에 필요할 수 있습니다.

그리고 그것은 단지 프로필입니다. 당신은 자신의 사진을 몇 장 가지고 있습니까? 똑바로? 광범위하게 대표할 만큼 충분한가? 10,000개의 가능한 표현 정확한 카메라 각도에서 정확한 자세를 유지하면서 착용하고 있을 수 있습니다. 백만 개의 가능한 조명 환경?

기회는 당신이 가지고 있지도 않습니다 한 위를 올려다보는 자신의 사진. 그리고 그것은 전체 커버리지에 필요한 XNUMX개 이상의 각도 중 두 개의 각도에 불과합니다.

다양한 조명 조건에서 모든 각도에서 얼굴의 전체 커버리지를 생성하는 것이 가능하더라도 결과 데이터 세트는 수십만 장의 사진 순서로 훈련하기에는 너무 큽니다. 그리고 설령 그렇다 해도 수 현재 딥페이크 프레임워크에 대한 교육 프로세스의 특성은 제한된 수의 파생 기능을 위해 추가 데이터의 대부분을 버릴 것입니다. 현재 프레임워크는 축소적이고 확장성이 높지 않기 때문입니다.

합성 대체

딥페이크가 등장한 이후로 딥페이커들은 Cinema3D 및 Maya와 같은 4D 애플리케이션으로 만든 머리인 CGI 스타일 이미지를 사용하여 '누락된 포즈'를 생성하는 실험을 해왔습니다.

AI가 필요하지 않습니다. 여배우는 메시와 비트맵 텍스처를 사용하여 전통적인 CGI 프로그램인 Cinema 4D에서 재현됩니다. 이 기술은 1960년대로 거슬러 올라가지만 1990년대 이후에만 널리 사용되었습니다. 이론적으로 이 얼굴 모델은 비정상적인 포즈, 조명 스타일 및 얼굴 표정에 대한 딥페이크 소스 데이터를 생성하는 데 사용될 수 있습니다. 실제로 렌더링의 '가짜'가 교체된 비디오에서 번지는 경향이 있기 때문에 딥페이킹에서는 제한적이거나 전혀 사용되지 않았습니다. 출처: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/에 있는 이 기사 작성자의 이미지

이 방법은 일반적으로 새로운 딥페이크 실무자에 의해 초기에 폐기됩니다. 다른 방법으로는 사용할 수 없는 포즈와 표현을 제공할 수 있지만 CGI 얼굴의 합성 모양은 일반적으로 ID 및 컨텍스트/의미 정보의 얽힘으로 인해 스왑으로 번지기 때문입니다.

이것은 알고리즘이 비정상적인 포즈나 표정에 대해 가질 수 있는 유일한 데이터(명백히 가짜 얼굴)를 사용하기 시작하기 때문에 그렇지 않으면 설득력 있는 딥페이크 비디오에서 '불쾌한 골짜기' 얼굴의 갑작스러운 번쩍임으로 이어질 수 있습니다.

딥페이커에게 가장 인기 있는 주제 중 호주 여배우 마고 로비의 3D 딥페이크 알고리즘은 웹캠 세션과 같은 라이브 스트림에서 딥페이크를 수행할 수 있는 DeepFaceLab 버전인 DeepFaceLive의 기본 설치에 포함되어 있습니다. 위의 그림과 같이 CGI 버전은 딥페이크 데이터 세트에서 비정상적인 '누락된' 각도를 얻는 데 사용될 수 있습니다. 출처: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace

딥페이커에게 가장 인기 있는 주제 중 호주 여배우 마고 로비의 3D 딥페이크 알고리즘은 포함 웹캠 세션과 같은 라이브 스트림에서 딥페이크를 수행할 수 있는 DeepFaceLab 버전인 DeepFaceLive의 기본 설치에서. 위의 그림과 같이 CGI 버전은 딥페이크 데이터 세트에서 비정상적인 '누락된' 각도를 얻는 데 사용될 수 있습니다. Source: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace

분리된 개념적 가이드라인으로서의 CGI 페이스

대신 이스라엘 연구진의 새로운 DGE(Delta-GAN Encoder) 방식이 더 효과적이다. CGI 이미지의 포즈와 맥락 정보가 대상의 '신원' 정보와 완전히 분리되었기 때문이다.

CGI 이미지를 지침으로 사용하여 다양한 머리 방향을 얻은 아래 이미지에서 이 원리가 작동하는 것을 볼 수 있습니다. ID 기능은 컨텍스트 기능과 관련이 없기 때문에 CGI 얼굴의 가짜 모양의 합성 모양이나 그 안에 묘사된 ID의 블리드 스루가 없습니다.

새로운 방법을 사용하면 여러 각도에서 딥페이크를 실행하기 위해 세 개의 개별 실제 소스 사진을 찾을 필요가 없습니다. ID를 유출하지 않고 ID에 높은 수준의 추상 기능이 부과되는 CGI 헤드를 회전하기만 하면 됩니다. 정보.

Delta-GAN-인코더. 왼쪽 상단 그룹: 소스 이미지의 각도를 XNUMX초 만에 변경하여 출력에 반영되는 새 소스 이미지를 렌더링할 수 있습니다. 오른쪽 상단 그룹: 조명은 정체성과도 분리되어 조명 스타일을 중첩할 수 있습니다. 왼쪽 하단 그룹: '슬픈' 표정을 만들기 위해 여러 얼굴 세부 정보가 변경됩니다. 오른쪽 아래 그룹: 하나의 단일 표정 세부 사항이 변경되어 눈을 가늘게 뜨고 있습니다.

이러한 정체성과 맥락의 분리는 교육 단계에서 달성됩니다. 새로운 딥페이크 아키텍처를 위한 파이프라인은 변환할 이미지와 일치하는 사전 훈련된 GAN(Generative Adversarial Network)에서 잠재 벡터를 찾습니다. 프로젝트 IBM의 AI 연구 섹션에서.

연구원들은 다음을 관찰합니다.

'특정 속성이 다른 몇 개의 샘플만으로 사전 훈련된 얽힌 생성 모델의 풀린 동작을 학습할 수 있습니다. 해당 목표에 도달하기 위해 정확한 실제 샘플이 필요하지 않으며 반드시 실현 가능한 것은 아닙니다.

비현실적인 데이터 샘플을 사용하면 인코딩된 잠재 벡터의 의미를 활용하여 동일한 목표를 달성할 수 있습니다. 기존 데이터 샘플에 원하는 변경 사항을 적용하는 것은 명시적인 잠재 공간 동작 탐색 없이 수행할 수 있습니다.'

연구자들은 프로젝트에서 탐구한 분리의 핵심 원리가 실내 건축 시뮬레이션과 같은 다른 영역으로 이전될 수 있고 Delta-GAN-Encoder에 채택된 Sim2Real 방법이 궁극적으로 단순한 스케치가 아닌 단순한 스케치를 기반으로 딥페이크 수단을 가능하게 할 수 있을 것으로 예상합니다. CGI 스타일 입력.

새로운 이스라엘 시스템이 딥페이크 비디오를 합성할 수 있거나 합성할 수 없는 정도는 잠재 공간에 대한 더 많은 통제권을 얻는 과정에서 정체성에서 맥락을 분리하는 연구의 진전보다 훨씬 덜 중요하다고 주장할 수 있습니다. GAN의.

Disentanglement는 이미지 합성에서 활발한 연구 분야입니다. 2021년 XNUMX월 아마존 주도 연구 종이 유사한 포즈 제어 및 풀림을 시연했으며 2018년에는 종이 중국 과학 아카데미의 심천 첨단 기술 연구소(Shenzhen Institutes of Advanced Technology)는 GAN에서 임의의 관점을 생성하는 데 진전을 보였습니다.