인공 지능

AI로 비디오 영상의 감정 변경

업데이트 on 2022 년 12 월 9 일

그리스와 영국의 연구원들은 이전 시도가 일치시킬 수 없었던 방식으로 원래 오디오에 대한 입술 움직임의 충실도를 유지하면서 비디오 영상에서 사람들의 표정과 명백한 분위기를 변경하는 새로운 딥 러닝 접근 방식을 개발했습니다. .

논문과 함께 제공되는 비디오(이 기사의 끝에 삽입됨)에서 높은 수준의 의미론적 개념을 기반으로 NED에 의해 표정이 미묘하게 변경된 배우 Al Pacino의 짧은 클립이 있습니다. 출처: https://www.youtube.com/watch?v=Li6W8pRDMJQ

논문과 함께 제공되는 비디오(이 기사의 끝부분에 포함됨)에서 배우 Al Pacino가 NED에 의해 미묘하게 표정이 변경되는 짧은 클립이 개별 얼굴 표정 및 관련 감정을 정의하는 높은 수준의 의미 개념을 기반으로 합니다. 오른쪽의 'Reference-Driven' 방법은 소스 비디오의 해석된 감정을 가져와 전체 비디오 시퀀스에 적용합니다. 출처: https://www.youtube.com/watch?v=Li6W8pRDMJQ

이 특정 분야는 성장하는 범주에 속합니다. 딥페이크된 감정, 원래 화자의 신원은 유지되지만 표현과 세세한 표현이 변경됩니다. 이 특정 AI 기술이 성숙해짐에 따라 영화 및 TV 제작에서 배우의 표정을 미묘하게 변경할 수 있는 가능성을 제공할 뿐만 아니라 '감정 변경' 비디오 딥페이크라는 상당히 새로운 범주를 열 수도 있습니다.

얼굴 바꾸기

정치인과 같은 공인의 얼굴 표정은 엄격하게 선별됩니다. 2016년 힐러리 클린턴의 표정이 떠올랐다. 강력한 언론의 감시 아래 그녀의 선거 전망에 대한 잠재적인 부정적인 영향; 얼굴 표정, 그것은 발생, 또한 하나입니다 관심 주제 FBI에; 그리고 그들은 중요한 지표 취업 면접에서 라이브 '표현 제어' 필터의 (멀리 먼) 전망을 Zoom에서 사전 심사를 통과하려는 구직자에게 바람직한 개발로 만듭니다.

영국의 2005년 연구는 얼굴 외모가 투표 결정에 영향을 미침, 2019년 워싱턴 포스트 특집에서는 '상황에 맞지 않는' 비디오 클립 공유 사용, 이는 현재 가짜 뉴스 지지자들이 공인의 행동, 반응 또는 감정을 실제로 바꿀 수 있는 가장 가까운 것입니다.

신경 표현 조작을 향하여

현재 안면 감정을 조작하는 최신 기술은 매우 초보적인 수준입니다. 풀리는 것 높은 수준의 개념(예: 슬픈, 성난, 행복한, 미소) 실제 비디오 콘텐츠에서. 기존의 딥페이크 아키텍처가 이러한 분리를 상당히 잘 달성하는 것처럼 보이지만 서로 다른 ID 간에 감정을 미러링하려면 여전히 두 개의 훈련 얼굴 세트에 각 ID에 대해 일치하는 표현이 포함되어 있어야 합니다.

현재 안면 ID와 포즈 특성이 너무 얽혀 있기 때문에 DeepFaceLab과 같은 시스템에서 효과적인 딥페이크 모델을 훈련시키려면 두 개의 안면 데이터 세트에서 광범위한 표현 패리티, 머리 포즈 및 (적은 정도로) 조명이 필요합니다. 두 얼굴 세트에 특정 구성(예: '옆모습/미소/햇빛')이 적을수록 필요한 경우 딥페이크 비디오에서 덜 정확하게 렌더링됩니다.

딥페이크 훈련에 사용되는 데이터 세트의 얼굴 이미지의 일반적인 예. 현재 딥페이크 신경망에서 ID별 표정<>표현 경로를 생성해야만 사람의 얼굴 표정을 조작할 수 있습니다. 2017년 시대의 딥페이크 소프트웨어는 '미소'에 대한 본질적이고 의미론적인 이해가 없습니다. 단지 두 대상에 걸쳐 얼굴 기하학에서 감지된 변화를 매핑하고 일치시킬 뿐입니다.

바람직하지만 아직 완벽하게 달성되지 않은 것은 대상 B(예를 들어)가 웃는 방식을 인식하고 단순히 '웃다' 대상 A가 웃고 있는 동등한 이미지에 매핑할 필요 없이 아키텍처를 전환합니다.

XNUMXD덴탈의 새 용지 제목이 Neural Emotion Director: "in-the-wild" 비디오에서 얼굴 표정의 음성 보존 시맨틱 제어, 아테네 국립 공과 대학의 전기 및 컴퓨터 공학부 연구원, FORTH(Foundation for Research and Technology Hellas)의 컴퓨터 과학 연구소, 영국 엑서터 대학교.

팀은 다음과 같은 프레임워크를 개발했습니다. 신경 감정 감독 (NED), 3D 기반 감정 번역 네트워크 통합, 3D 기반 감정 조작기.

NED는 수신된 식 매개변수 시퀀스를 가져와 대상 도메인으로 변환합니다. 비평행 데이터에 대해 학습하므로 각 ID에 해당하는 얼굴 표정이 있는 데이터 세트에 대해 학습할 필요가 없습니다.

이 기사의 끝에 표시된 비디오는 NED가 YouTube 데이터 세트의 영상에 명백한 감정 상태를 부과하는 일련의 테스트를 통해 실행됩니다.

저자는 NED가 무작위적이고 예측할 수 없는 상황에서 배우를 '지시'하기 위한 최초의 비디오 기반 방법이라고 주장하며 NED에서 코드를 사용할 수 있도록 했습니다. 프로젝트 페이지.

방법 및 아키텍처

이 시스템은 '감정' 레이블로 주석이 달린 두 개의 큰 비디오 데이터 세트에서 학습됩니다.

출력은 얼굴 영역만 합성한 다음 원본 영상에 적용하는 얼굴 분할, 얼굴 랜드마크 정렬 및 블렌딩을 포함한 기존의 얼굴 이미지 합성 기술을 사용하여 원하는 감정을 비디오에 렌더링하는 비디오 얼굴 렌더러에 의해 활성화됩니다.

Neural Emotion Detector(NED)의 파이프라인 아키텍처. 출처 : https://arxiv.org/pdf/2112.00585.pdf

처음에 시스템은 표정을 식별하기 위해 3D 얼굴 복구를 얻고 입력 프레임에 얼굴 랜드마크 정렬을 부과합니다. 그런 다음 이렇게 복구된 표현 매개변수는 3D 기반 Emotion Manipulator로 전달되고 의미론적 레이블(예: 'happy') 또는 참조 파일을 통해 스타일 벡터가 계산됩니다.

참조 파일은 특정 인식된 표정/감정을 묘사한 비디오이며, 원본 표정을 교체하여 대상 비디오 전체에 부과됩니다.

YouTube 동영상에서 샘플링한 다양한 배우가 등장하는 감정 전달 파이프라인의 단계.

최종 생성된 3D 얼굴 모양은 NMFC(Normalized Mean Face Coordinate) 및 눈 이미지(위 이미지의 빨간색 점)와 연결되어 최종 조작을 수행하는 신경 렌더러로 전달됩니다.

결과

연구자들은 이전 작업에 대한 방법의 효과를 평가하기 위해 사용자 및 제거 연구를 포함한 광범위한 연구를 수행했으며 대부분의 범주에서 NED가 신경 안면 조작의 이 하위 부문에서 최신 기술을 능가한다는 사실을 발견했습니다.

이 논문의 저자는 이 작업의 이후 구현 및 유사한 성격의 도구가 주로 TV 및 영화 산업에서 유용할 것이라고 예상하며 다음과 같이 말했습니다.

'우리의 방법은 영화 포스트 프로덕션 및 비디오 게임에서 사진과 같은 감정적 아바타에 이르기까지 신경 렌더링 기술의 유용한 응용 프로그램에 대한 새로운 가능성을 열어줍니다.'

이것은 현장에서의 초기 작업이지만 정지 이미지가 아닌 비디오로 얼굴 재연을 시도한 최초의 작업 중 하나입니다. 비디오는 본질적으로 함께 매우 빠르게 실행되는 많은 스틸 이미지이지만 이전의 감정 전달 적용을 덜 효율적으로 만드는 시간적 고려 사항이 있습니다. 함께 제공되는 비디오와 논문의 예에서 저자는 NED의 출력을 다른 유사한 최근 방법과 시각적으로 비교했습니다.

더 자세한 비교와 NED의 더 많은 예는 아래의 전체 비디오에서 찾을 수 있습니다.

[CVPR 2022] NED: "in-the-wild" 비디오에서 얼굴 표정의 음성 보존 시맨틱 제어

[CVPR 2022] NED: Speech-preserving semantic control of facial expressions in “in-the-wild” videos

Watch this video on YouTube

3년 2021월 18일 30:2 GMT+XNUMX – 논문 저자 중 한 사람의 요청으로 스틸 사진(실제로는 비디오 클립인 경우)이라고 잘못 언급한 '참조 파일'에 대한 수정이 이루어졌습니다. 또한 연구 및 기술 재단에서 컴퓨터 과학 연구소의 이름을 수정합니다.
3년 2021월 20일 50:2 GMT+XNUMX – 위에서 언급한 기관의 이름에 대한 추가 수정을 위해 논문 저자 중 한 사람의 두 번째 요청.