부본 이전 접근 방식을 능가하는 새롭고 간단한 Deepfake 방법 - Unite.AI
Rescale 미팅 예약

인공 지능

이전 접근 방식을 능가하는 새롭고 간단한 Deepfake 방법

mm
업데이트 on

중국 AI 연구 그룹과 미국 기반 연구원 간의 협력을 통해 4년 전 딥페이크 현상이 나타난 이후 최초의 진정한 딥페이크 기술 혁신이 개발되었습니다.

새로운 방법은 대규모 전용 ​​데이터 세트를 철저하게 수집 및 선별하고 단 하나의 신원에 대해 최대 XNUMX주일 동안 훈련할 필요 없이 표준 지각 테스트에서 다른 모든 기존 프레임워크를 능가하는 얼굴 교환을 수행할 수 있습니다. 새 논문에 제시된 예의 경우 모델은 전체 약 40일 동안 XNUMX개의 NVIDIA Tesla PXNUMX GPU에서 두 개의 유명 유명인사 데이터 세트 중

이 기사의 끝 부분에 전체 비디오가 포함되어 있습니다. 새 논문의 보충 자료에 있는 비디오의 이 샘플에서 Scarlett Johansson의 얼굴이 소스 비디오로 전송됩니다. CihaNet은 스왑을 수행할 때 원본과 대상 ID 간에 더 깊은 관계를 형성하고 제정하여 가장자리 마스킹 문제를 제거합니다. 즉, 기존의 딥페이크 접근 방식에서 발생하는 '명백한 경계' 및 기타 중첩 결함의 끝을 의미합니다. 출처: 출처: https://mitchellx.github.io/#video

이 기사의 끝에서 전체 비디오를 볼 수 있습니다. 새 논문의 저자 중 한 명이 제공한 보충 자료의 비디오 샘플에서 Scarlett Johansson의 얼굴이 소스 비디오로 전송됩니다. CihaNet은 스왑을 수행할 때 원본과 대상 ID 간에 더 깊은 관계를 형성하고 제정하여 가장자리 마스킹 문제를 제거합니다. 즉, 기존의 딥페이크 접근 방식에서 발생하는 '명백한 경계' 및 기타 중첩 결함의 끝을 의미합니다. 원천: 출처: https://mitchellx.github.io/#video

새로운 접근 방식은 이식된 아이덴티티를 대상 비디오에 조잡하게 '붙여넣기' 할 필요성을 제거합니다. 유물 가짜 얼굴이 끝나고 실제 기본 얼굴이 시작되는 위치에 나타납니다. 오히려 '환각 지도'는 시각적 측면의 더 깊은 혼합을 수행하는 데 사용됩니다. 시스템이 현재 방법보다 훨씬 더 효과적으로 컨텍스트에서 정체성을 분리하기 때문에 대상 정체성을 더 심오한 수준에서 혼합할 수 있기 때문입니다.

종이에서. CihaNet 변환은 환각 지도(하단 행)를 통해 촉진됩니다. 시스템은 새로운 신원이 중첩될 이미지의 컨텍스트 정보(예: 얼굴 방향, 머리카락, 안경 및 기타 가려짐 등)와 이미지에 삽입될 사람의 얼굴 신원 정보를 모두 사용합니다. 상황에서 얼굴을 분리하는 이 기능은 시스템의 성공에 매우 중요합니다. 출처: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

종이에서. CihaNet 변환은 환각 지도(하단 행)를 통해 촉진됩니다. 시스템은 새로운 신원이 중첩될 이미지의 컨텍스트 정보(예: 얼굴 방향, 머리카락, 안경 및 기타 가려짐 등)와 이미지에 삽입될 사람의 얼굴 신원 정보를 모두 사용합니다. 상황에서 얼굴을 분리하는 이 기능은 시스템의 성공에 매우 중요합니다. 출처: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

새로운 환각 맵은 종종 광범위한 큐레이션이 필요한 하드 마스크(그리고 DeepFaceLab의 경우, 별도 교육) 두 ID의 실제 통합 측면에서 제한된 유연성을 제공합니다.

VGGFace 및 Forensics++에서 FFHQ 및 Celeb-A HQ 데이터 세트를 모두 사용하여 보충 자료에 제공된 샘플에서. 처음 두 열은 교체할 무작위로 선택된(실제) 이미지를 보여줍니다. 다음 네 개의 열은 현재 사용 가능한 가장 효과적인 네 가지 방법을 사용한 스왑 결과를 보여주고 마지막 열은 CihaNet의 결과를 보여줍니다. 두 프로젝트 모두 GitHub의 원래 2017 Deepfakes 코드의 포크이기 때문에 더 인기 있는 DeepFaceLab 대신 FaceSwap 저장소가 사용되었습니다. 이후 각 프로젝트에 모델, 기술, 다양한 UI 및 보조 도구가 추가되었지만 딥페이크를 가능하게 하는 기본 코드는 변경되지 않았으며 둘 다에 공통으로 남아 있습니다. 출처: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip

XNUMXD덴탈의 종이제목 XNUMX단계 컨텍스트 및 정체성 환각 네트워크, JD AI Research 및 University of Massachusetts Amherst 소속 연구원이 저술했으며 보조금 번호 2020AAA0103800에 따라 중국 국가 핵심 R&D 프로그램의 지원을 받았습니다. 29월 20일부터 24일까지 중국 청두에서 열린 제XNUMX회 멀티미디어 ACM 국제 회의에서 소개되었습니다.

'페이스 온' 패리티 필요 없음

현재 가장 인기 있는 딥페이크 소프트웨어인 DeepFaceLab과 경쟁 포크인 FaceSwap은 얼굴이 어느 방향으로 기울어져 있는지, 어떤 장애물이 있는지(다시 말하지만 수동으로) 식별하기 위해 구불구불하고 자주 수작업으로 선별되는 워크플로우를 수행합니다. , 딥페이크의 출현 이후 미디어에서 부정확하게 묘사된 '포인트 앤 클릭' 경험과는 거리가 먼 다른 많은 방해 요소(조명 포함)에 대처해야 합니다.

대조적으로 CihaNet은 단일 이미지에서 유용한 ID 정보를 추출하고 활용하기 위해 두 개의 이미지가 카메라를 직접 향할 필요가 없습니다.

이 예에서 일련의 딥페이크 소프트웨어 경쟁자들은 신원이 다를 뿐만 아니라 같은 방향을 향하지 않는 얼굴을 교환하는 작업에 도전합니다. 원본 딥페이크 리포지토리에서 파생된 소프트웨어(위 그림의 매우 인기 있는 DeepFaceLab 및 FaceSwap 등)는 교체할 두 이미지 사이의 각도 차이를 처리할 수 없습니다(세 번째 열 참조). 한편 Cihanet은 얼굴의 '포즈'가 본질적으로 신원 정보의 일부가 아니기 때문에 신원을 올바르게 추상화할 수 있습니다.

이 예에서 일련의 딥페이크 소프트웨어 경쟁자들은 신원이 다를 뿐만 아니라 같은 방향을 향하지 않는 얼굴을 교환하는 작업에 도전합니다. 원본 딥페이크 리포지토리에서 파생된 소프트웨어(위 그림의 매우 인기 있는 DeepFaceLab 및 FaceSwap 등)는 교체할 두 이미지 사이의 각도 차이를 처리할 수 없습니다(세 번째 열 참조). 한편 CihaNet은 얼굴의 '포즈'가 본질적으로 신원 정보의 일부가 아니기 때문에 신원을 올바르게 추상화할 수 있습니다.

아키텍처

저자에 따르면 CihaNet 프로젝트는 Microsoft Research와 Peking University 간의 2019년 협력에서 영감을 받았습니다. 페이스시프터, 이전 방법의 핵심 아키텍처에 몇 가지 눈에 띄고 중요한 변경 사항을 적용하지만.

FaceShifter는 두 개의 적응형 인스턴스 정규화(에이다인) 신원 정보를 처리하는 네트워크. 이 데이터는 현재 널리 사용되는 딥페이크 소프트웨어와 유사한 방식(및 모든 관련 제한 사항 포함)으로 마스크를 통해 대상 이미지로 변환됩니다. HEAR-Net (폐색 장애물에 대해 별도로 훈련된 서브넷을 포함하여 추가 복잡성 계층).

대신, 새로운 아키텍처는 XNUMX단계 단일 C-AdaIN(Cascading Adaptive Instance Normalization) 작업을 통해 변환 프로세스 자체에 이 '컨텍스트' 정보를 직접 사용합니다. 관련 분야.

시스템에 중요한 두 번째 서브넷은 스와핑 블록(SwapBlk)이라고 하며 참조 이미지의 컨텍스트에서 통합 기능을 생성하고 소스 이미지에서 내장된 'ID' 정보를 생성하여 이를 수행하는 데 필요한 여러 단계를 우회합니다. 기존의 전류 수단.

컨텍스트와 정체성을 구별하는 데 도움이 되도록 환각지도 각 레벨에 대해 생성되어 소프트 분할 마스크를 대신하고 딥페이크 프로세스의 이 중요한 부분에 대해 더 넓은 범위의 기능에 작용합니다.

환각 지도(오른쪽 아래 그림)의 가치가 커질수록 정체성 사이의 경로가 더 명확해집니다.

환각 지도(오른쪽 아래 그림)의 가치가 커질수록 정체성 사이의 경로가 더 명확해집니다.

이러한 방식으로 전체 스와핑 프로세스는 후처리 없이 단일 단계에서 수행됩니다.

데이터 및 테스트

시스템을 시험하기 위해 연구자들은 두 가지 인기 있고 다양한 개방형 이미지 데이터 세트에서 네 가지 모델을 교육했습니다. 셀레바-HQ  및 NVIDIA의 Flickr-Faces-HQ 데이터세트(FFHQ), 각각은 각각 30,000개 및 70,000개 이미지를 포함합니다.

이러한 기본 데이터 세트에 대해 가지치기나 필터링을 수행하지 않았습니다. 각각의 경우에 연구원들은 Adam 최적화에서 0.0002의 학습률로 XNUMX일 동안 단일 Tesla GPU에서 각 데이터 세트 전체를 교육했습니다.

그런 다음 얼굴이 유사하거나 성별이 일치하는지 여부에 관계없이 데이터 세트에 포함된 수천 명의 성격 간에 일련의 무작위 스왑을 렌더링하고 CihaNet의 결과를 XNUMX개의 주요 딥페이크 프레임워크의 출력과 비교했습니다. 페이스 스왑 (더 인기있는 딥페이스랩, 루트 코드베이스를 공유하기 때문에 원래 2017 저장소 세계에 딥 페이크를 가져온); 앞서 언급한 FaceShifter; FSGAN심스왑.

통해 결과를 비교하면 VGG-얼굴, FFHQ, CelebA-HQ 및 FaceForensics ++, 작성자는 아래 표에 표시된 대로 새 모델이 모든 이전 모델을 능가한다는 사실을 발견했습니다.

결과를 평가하는 데 사용된 세 가지 메트릭은 구조적 유사성(씨심), 포즈 추정 오류ID 검색 정확도, 성공적으로 검색된 쌍의 백분율을 기반으로 계산됩니다.

연구원들은 CihaNet이 광범위하고 노동 집약적인 마스킹 아키텍처 및 방법론의 부담을 제거하고 보다 유용한 컨텍스트에서 정체성의 실행 가능한 분리.

새로운 기술에 대한 추가 비디오 예를 보려면 아래를 살펴보십시오. 풀영상을 보실 수 있습니다 여기에서 지금 확인해 보세요..

새 논문의 보충 자료에서 CihaNet은 다양한 신원에 대해 얼굴 교환을 수행합니다. 출처: https://mitchellx.github.io/#video