인공 지능

Google의 LipSync3D는 향상된 'Deepfaked' 입 움직임 동기화를 제공합니다.

업데이트 on 2022 년 12 월 9 일

A 협동 Google AI 연구원과 Indian Institute of Technology Kharagpur는 오디오 콘텐츠에서 말하는 머리를 합성하는 새로운 프레임워크를 제공합니다. 이 프로젝트는 입술 움직임을 더빙되거나 기계 번역된 오디오와 동기화하고 아바타, 대화형 응용 프로그램 및 기타 응용 프로그램에서 사용하기 위해 오디오에서 '말하는 머리' 비디오 콘텐츠를 만드는 최적화되고 합리적으로 리소스를 제공하는 방법을 생성하는 것을 목표로 합니다. 실시간 환경.

출처: https://www.youtube.com/watch?v=L1StbX9OznY

LipSync3D라고 하는 프로세스에서 훈련된 기계 학습 모델은 입력 데이터로 대상 얼굴 신원에 대한 단일 비디오만 필요합니다. 데이터 준비 파이프라인은 입력 비디오의 조명 및 기타 측면 평가에서 얼굴 형상 추출을 분리하여 보다 경제적이고 집중적인 훈련을 가능하게 합니다.

LipSync3D의 3단계 작업 흐름. 위는 '타겟' 오디오에서 동적으로 텍스처링된 XNUMXD 얼굴의 생성입니다. 아래는 생성된 메시를 대상 비디오에 삽입하는 것입니다.

실제로 이 분야의 연구 노력에 대한 LipSync3D의 가장 주목할만한 기여는 훈련과 추론 조명을 분리하는 조명 정규화 알고리즘일 수 있습니다.

일반 기하학에서 조명 데이터를 분리하면 LipSync3D가 까다로운 조건에서 보다 사실적인 입술 움직임 출력을 생성하는 데 도움이 됩니다. 최근 몇 년간의 다른 접근 방식은 이러한 점에서 더 제한된 용량을 드러내지 않는 '고정된' 조명 조건으로 스스로를 제한했습니다.

입력 데이터 프레임의 사전 처리 중에 시스템은 반사점을 식별하고 제거해야 합니다. 반사점은 비디오가 촬영된 조명 조건에 따라 다르며 그렇지 않으면 재조명 프로세스를 방해하기 때문입니다.

이름에서 알 수 있듯이 LipSync3D는 평가하는 얼굴에 대해 단순한 픽셀 분석을 수행하는 것이 아니라 식별된 얼굴 랜드마크를 능동적으로 사용하여 기존 CGI에서 주변을 감싸는 '펼쳐진' 텍스처와 함께 운동성 CGI 스타일 메시를 생성합니다. 관로.

LipSync3D에서 포즈 정규화. 왼쪽에는 입력 프레임과 감지된 기능이 있습니다. 중간에는 생성된 메시 평가의 정규화된 정점이 있습니다. 오른쪽에는 텍스처 예측을 위한 실측 정보를 제공하는 해당 텍스처 아틀라스가 있습니다. 출처 : https://arxiv.org/pdf/2106.04185.pdf

연구원들은 새로운 재조명 방법 외에도 LipSync3D가 이전 작업에서 세 가지 주요 혁신을 제공한다고 주장합니다. 시간적으로 일관된 비디오 합성을 생성하는 쉽게 훈련 가능한 자동 회귀 텍스처 예측 모델 사람의 평가 및 객관적 지표로 평가한 사실감 향상.

비디오 얼굴 이미지의 다양한 측면을 분할하면 비디오 합성을 더 잘 제어할 수 있습니다.

LipSync3D는 음성의 음소 및 기타 측면을 분석하고 이를 입 주변의 알려진 해당 근육 포즈로 변환하여 오디오에서 직접 적절한 입술 형상 움직임을 파생할 수 있습니다.

이 프로세스는 공동 예측 파이프라인을 사용합니다. 여기서 추론된 기하학 및 텍스처에는 자동 인코더 설정에 전용 인코더가 있지만 모델에 부과하려는 음성과 오디오 인코더를 공유합니다.

LipSync3D의 불안정한 움직임 합성은 스타일화된 CGI 아바타를 강화하기 위한 것이기도 합니다. 실제로는 실제 이미지와 동일한 종류의 메시 및 텍스처 정보일 뿐입니다.

양식화된 3D 아바타는 소스 스피커 비디오에 의해 실시간으로 입술 움직임을 제공합니다. 이러한 시나리오에서 개인화된 사전 교육을 통해 최상의 결과를 얻을 수 있습니다.

연구원들은 또한 약간 더 현실적인 느낌을 가진 아바타의 사용을 예상합니다.

비디오의 샘플 훈련 시간은 GeForce GTX 3에서 TensorFlow, Python 및 C++를 사용하는 파이프라인에서 5-2분 비디오의 경우 5-1080시간입니다. 훈련 세션은 128-500 이상의 1000 프레임 배치 크기를 사용했습니다. 각 시대는 비디오의 완전한 평가를 나타냅니다.

LipSync3D: 포즈 및 조명 정규화를 사용하여 비디오에서 개인화된 3D 말하는 얼굴

LipSync3D: Personalized 3D Talking Faces from Video using Pose and Lighting Normalization

Watch this video on YouTube

입술 움직임의 동적 재동기화를 향하여

새로운 오디오 트랙을 수용하기 위해 입술을 다시 동기화하는 분야는 지난 몇 년 동안 컴퓨터 비전 연구에서 많은 관심을 받았습니다(아래 참조). 딥 페이크 기술.

2017년 워싱턴 대학교 제시된 연구 오디오에서 립싱크를 학습하여 당시 오바마 대통령의 입술 움직임을 변경하는 데 사용할 수 있습니다. 2018년; Max Planck Institute for Informatics가 이끄는 또 다른 연구 이니셔티브 아이덴티티>아이덴티티 영상전송 가능, 립싱크 a 공정의 부산물; 2021년 XNUMX월 AI 스타트업 FlawlessAI는 독점 립싱크 기술인 TrueSync를 공개했습니다. 접수 여러 언어에 걸쳐 주요 영화 개봉을 위한 개선된 더빙 기술을 가능하게 하는 도구로 언론에 등장했습니다.

물론 딥페이크 오픈 소스 리포지토리의 지속적인 개발은 이 얼굴 이미지 합성 분야에서 활발한 사용자 기여 연구의 또 다른 분야를 제공합니다.