부본 새로운 Deepfake 방법으로 'Face Host' 문제 해결 - Unite.AI
Rescale 미팅 예약

인공 지능

새로운 Deepfake 방법으로 'Face Host' 문제 해결

mm
업데이트 on

비디오 영상의 진정성에 대한 우리의 오랜 믿음을 약화시킬 수 있는 딥페이크 이미지의 가능성에 대한 수년간의 미디어 과장에도 불구하고 현재 널리 사용되는 모든 방법은 대상 얼굴과 모양이 대체로 유사한 '얼굴 호스트'를 찾는 데 의존합니다.

원본 영상은 얼굴이 넓은데 대상 피사체가 얼굴이 좁은 경우 원본 얼굴의 일부를 잘라내고 지금 노출된 배경을 재구성해야 하기 때문에 항상 결과가 문제였습니다. DeepFaceLab 및 FaceSwap과 같은 현재 패키지는 구성이 반대(좁음>넓음)일 때 제한된 결과를 생성할 수 있지만 이 시나리오를 설득력 있게 해결할 수 있는 기능이 없습니다.

이제 Tencent와 중국 Xiamen University 간의 협력으로 새로운 접근 방식, HifiFace라는 제목으로 이 부족함을 해결하기 위해 설계되었습니다.

2106.09965개의 HifiFace 딥페이크, 첫 번째 Anne Hathaway, 호환되지 않는 호스트 얼굴 모양에도 불구하고 좋은 유사성을 얻습니다. HifiFace는 전통적으로 딥페이크의 걸림돌인 안경을 쓴 대상에서도 잘 작동합니다. 출처: https://arxiv.org/pdf/XNUMX.pdf

두 개의 HifiFace 딥페이크(Anne Hathaway의 첫 번째 딥페이크). 호환되지 않는 호스트 얼굴 모양에도 불구하고 좋은 유사성을 얻습니다. HifiFace는 전통적으로 딥페이크의 걸림돌이었던 안경을 쓴 대상에서도 잘 작동합니다. 출처 : https://arxiv.org/pdf/2106.09965.pdf

딥페이크 얼굴 리모델링

2019년과 같은 이전 접근법 주제에 구애받지 않는 얼굴 교환 및 재연 (FSGAN)에 의존해 왔습니다. 3DMM 피팅 (3D Morphable Models) 또는 얼굴 랜드마크 인식 또는 변환을 기반으로 하는 기타 방법론에서 '덮어쓰기'할 얼굴의 얼굴 윤곽이 스왑의 범위를 거의 결정합니다.

출처: https://github.com/Yinghao-Li/3DMM-fitting

3DMM 얼굴 랜드마크 감지. 출처: https://github.com/Yinghao-Li/3DMM-fitting

경쟁 방법은 얼굴 인식 네트워크에서 파생된 기능을 사용하지만 구조보다는 텍스처를 재구성하는 데 주로 목적이 있으며 호스트 얼굴이 완전히 호환되지 않는 경우(즉, 한계 및 모양 헤어라인, 턱선, 광대뼈).

이러한 문제를 해결하기 위해 대학 인공 지능과의 미디어 분석 및 컴퓨팅 연구실에 기반을 둔 중국 연구원은 3D 재구성 모델을 사용하여 대상 및 원본 얼굴의 계수를 회귀하는 종단 간 네트워크를 개발했습니다. 그런 다음 모양 정보로 다시 결합되고 얼굴 인식 네트워크의 ID 벡터 정보와 연결됩니다.

그런 다음 이 기하학적 데이터는 정확한 전송을 위한 보조 소스로 활용되는 대상 얼굴의 표정 및 배치와 혼합되는 구조 정보로 인코더-디코더 모델에 공급됩니다.

시맨틱 안면 융합

또한 HifiFace에는 SFF(Semantic Facial Fusion) 구성 요소가 포함되어 있어 인코더의 저수준 기능을 사용하여 대상 이미지의 정체성을 희생하지 않고 공간 및 텍스처 정보를 보존합니다. 인코더 및 디코더의 기능은 학습된 적응형 마스크에 통합되고 배경 정보는 학습된 안면 마스크를 통해 출력에 혼합됩니다.

작동 중인 HifiFace. 출처: https://johann.wang/HifiFace/

작동 중인 HifiFace. 출처: https://johann.wang/HifiFace/

이러한 방식으로 HifiFace는 확장된 얼굴 의미론적 분할을 사용하여 원래 재료의 얼굴 경계를 하드 한계로 사용하는 것에서 벗어나 모델이 얼굴의 가장자리 경계에서 더 나은 적응 융합을 수행할 수 있습니다.

두 가지 이전 접근 방식(왼쪽 위 및 아래)과 인코더, 디코더, 3D 형상 인식 ID 추출기 및 SFF 모듈로 구성된 새로운 HifiFace 아키텍처.

두 가지 이전 접근 방식(왼쪽 위 및 아래)과 인코더, 디코더, 3D 형상 인식 ID 추출기 및 SFF 모듈로 구성된 새로운 HifiFace 아키텍처.

이전 방법인 FSGAN과 비교하여, 심스왑페이스시프터, HifiFace는 얼굴 구분이 신원 > 신원 매핑을 혼동하는 '고스트' 요소를 근사화하는 것이 아니라 확실하게 재구성하기 때문에 얼굴 모양의 뛰어난 재구성을 보여줍니다.

지원

연구원들은 다음을 사용하여 시스템을 구현했습니다. VGG페이스2 그리고 딥글린트 아시안 셀럽 데이터 세트. 5개의 외부 랜드마크를 통해 얼굴을 정렬하고 256×256 픽셀로 다시 자릅니다. 추가 고해상도 모델을 위해 세로 향상 네트워크를 사용하여 512×512 픽셀 버전을 생성했습니다. 모델은 아래에서 훈련되었습니다. 아담.

FaceShifter는 정체성을 잘 보존하지만 HifiFace만큼 효과적으로 표현, 색상 및 폐색과 같은 문제를 해결할 수 없으며 더 복잡한 네트워크 구조를 가지고 있습니다. FSGAN은 광원에서 대상으로 조명을 전송하는 데 문제가 있습니다.

연구원들이 사용하는 FaceForensics ++ 정량적 비교를 위해 경쟁 방법에 걸쳐 변환된 비디오 배치에서 각각 XNUMX개의 프레임을 샘플링하고 HifiFace가 우수한 ID 검색 점수를 달성했음을 발견했습니다. 연구원들은 이미지 품질과 같은 다양한 다른 요소를 테스트하면서 그들의 방법이 경쟁 방법론을 능가한다는 사실을 발견했습니다.

베네딕트 컴버배치의 얼굴 라인을 충실히 재현했습니다.

베네딕트 컴버배치의 얼굴 라인을 충실히 재현했습니다.

이 작업은 소스 자료를 추상화하여 정확한 정체성을 전달할 수 있는 대략적인 템플릿에 불과하도록 한 단계 더 나아가는 것을 나타냅니다. DeepFaceLab을 포함한 현재 FOSS 패키지 중 일부는 전체 헤드 교체를 위한 초기 기능을 제공하지만 HifiFace와 마찬가지로 머리카락을 고려하지 않으며 일치하도록 깎아내는 것보다 얼굴을 '만드는' 데 더 효과적입니다. 원하는 대상 소스.