인공지능

깊은 감정의 새벽

Published September 20, 2021

Updated April 28, 2026

Martin Anderson

연구자들은 기존의 기술을 활용하여 비디오에서 얼굴의 감정을 임의로 변경하는 새로운 기계 학습 기술을 개발했습니다. 이 기술은 최근에 외국어 더빙에 맞춘 입술 동작을 일치시키는 솔루션으로 등장했습니다.

이 연구는 보스턴의 노스이스트 대학과 MIT의 미디어 랩 간의 공동 연구입니다. 연구의 제목은 반전 가능한 구름: 비디오에서 비디오로의 얼굴 감정 번역입니다. 연구자들은 초기 결과의 품질이 추가 연구를 통해 개발되어야 함을 인정하지만, 이 기술은 Wav2Lip-Emotion이라고 불리며, 신경망 기술을 통해 전체 비디오 표현을 직접 수정하는 최초의 기술이라고 주장합니다.

기반 코드는 GitHub에 공개되었습니다. 모델 체크포인트는 나중에 오픈 소스 저장소에 추가될 것입니다.

왼쪽: 원본 비디오의 ‘슬픈’ 프레임. 오른쪽: ‘행복한’ 프레임. 중앙에는 두 가지 새로운 감정 합성 접근 방식이 있습니다. 상단 행: 전체 얼굴을 대체한 마스크; 하단 행: 전통적인 Wav2Lip 방법, 얼굴의 하단 부분만 대체합니다. 출처: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

단일 비디오를 소스 데이터로 사용

이론적으로, 이러한 조작은 DeepFaceLab 또는 FaceSwap와 같은 전통적인 Deepfake 저장소에서 전체적으로 훈련함으로써 가능합니다. 그러나 표준 워크플로는 대상 신원과 다른 신원을 사용하여 대상 신원의 표현을 다른 개인에게 전달하는 것입니다. 또한 Deepfake 음성 클로닝 기술이 일반적으로 환상을 완성하는 데 필요합니다.

さらに, 이러한 인기 있는 프레임워크에서 단일 소스 비디오의 표현을 변경하는 것은 이러한 아키텍처가 현재 제공하지 않는 방식으로 얼굴 정렬 벡터를 변경하는 것을 포함합니다.

Wav2Lip-Emotion은 원본 비디오 오디오 대화의 입술 동작을 유지하면서 관련된 표현을 변환합니다..

대신, Wav2Lip-Emotion은 비디오의 한 부분에서 감정 관련 표현을 ‘복사 및 붙여넣기’하여 다른 지점에 삽입하려고 시도합니다. 이는 궁극적으로 비디오 조작을 위한 저노력 방법을 제공하기 위한 자체적으로 제한된 소스 데이터입니다.

오프라인 모델은 나중에 개발될 수 있으며, 이러한 모델은 다른 비디오에서 스피커를 훈련시킴으로써 비디오에 포함된 ‘표현 상태 팔레트’를 조작하는 데 필요한 비디오의 필요성을 없앨 수 있습니다.

潜在的な目的

저자들은 표현 수정에 대한 몇 가지 응용 프로그램을 제안합니다. 이는 PTSD와 얼굴 마비 환자의 영향을 보상하는 라이브 비디오 필터를 포함합니다. 논문은 다음과 같이 관찰합니다:

‘제한된 얼굴 표현을 가진 개인이나 없는 개인은 자신의 사회적 상황에 맞게 자신의 표현을 조정하는 데 도움이 될 수 있습니다. 누군가는 자신에게 표시되는 비디오의 표현을 변경하고 싶을 수 있습니다. 비디오 회의 중에 스피커는 서로 소리를 질러도 내용을 원활하게 교환하고 싶을 수 있습니다. 또는 영화 감독은 배우의 표현을 강화하거나 약화시키고 싶을 수 있습니다.’

顔の表情は言葉와 충돌할 수 있는 의도를 나타내는 핵심 지표이므로, 표현을 변경하는 능력은 또한 의사소통이 받아들여지는 방식을 변경하는 능력을 제공합니다.

이전 연구

기계 학습 표현 변경에 대한 관심은 2012년 Adobe, Facebook, Rutgers 대학의 협력으로 시작되었습니다. 이 연구에서는 텐서 기반 3D 기하학적 재구성 접근 방식을 사용하여 표현을 변경하는 방법을 제안했습니다.

2012년 Adobe/Facebook 연구는 비디오 화면에 전통적인 CGI 주도 변경을 적용하여 표현을 조작했습니다. 표현은 강화되거나 억제될 수 있습니다. 출처: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

결과는 유망했지만, 기술은 번거로웠고, 필요한 자원은 많았습니다. 이 시점에서 CGI는 직접 특징 공간 및 픽셀 조작에 대한 컴퓨터 비전 기반 접근 방식보다 앞서있었습니다.

新的 논문과 더密接하게 관련된 것은 2020년에 발표된 MEAD 데이터셋 및 표현 생성 모델입니다. 이는 ‘대화하는 머리’ 비디오를 생성할 수 있지만, 실제 소스 비디오를 직접 수정하는 복잡성을 갖지 않습니다.

2020年のMEAD, SenseTime Research, Carnegie Mellon, 및 3つの中国大学의 협력입니다. 출처: https://wywu.github.io/projects/MEAD/MEAD.html

2018년, 미국/스페인 학술 연구 협력으로 GANimation: Anatomically-aware Facial Animation from a Single Image이라는 논문이 등장했습니다. 이는 생성적 적대 신경망을 사용하여 정지 이미지의 표현을 변경하거나 강화했습니다.

GANimation을 사용하여 정지 이미지의 표현을 변경합니다. 출처: https://arxiv.org/pdf/1807.09251.pdf

Wav2Lip-Emotion

새로운 프로젝트는 Wav2Lip에 기반합니다. Wav2Lip은 2020년에 주목을 받았습니다. 이는 원본 비디오에 없는 새로운 음성(또는 노래) 입력에 맞춘 입술 동작을 재조정하는 방법을 제공했습니다.

원래 Wav2Lip 아키텍처는 BBC 아카이브의 말한 문장 코퍼스에서 훈련되었습니다. 표현 변경 작업을 위해 아키텍처를 적응시키기 위해, 연구자들은 위에서 언급한 MEAD 데이터셋에서 아키텍처를 ‘fine tuning’했습니다.

MEAD는 60명의 배우가 같은 문장을 읽으면서 다양한 얼굴 표현을 하는 40시간의 비디오로 구성되어 있습니다. 배우들은 15개국 출신이며, 프로젝트(및 파생 프로젝트)가 적용 가능하고 잘 일반화된 표현 합성을 생성하는 데 도움이 됩니다.

연구 당시, MEAD는 데이터셋의 첫 번째 부분만 공개했으며, 47명의 개인이 ‘화남’, ‘혐오’, ‘공포’, ‘경멸’, ‘행복’, ‘슬픔’, ‘놀람’ 등의 표현을 수행했습니다. 이 새로운 접근법의 초기 버전에서, 연구자들은 범위를 ‘행복’과 ‘슬픔’이라는 가장 쉽게 인식되는 감정으로 제한했습니다.

방법 및 결과

원래 Wav2Lip 아키텍처는 얼굴의 하단 부분만 대체합니다. 그러나 Wav2Lip-Emotion은 전체 얼굴 대체 마스크와 표현 합성을 실험합니다. 따라서 연구자들은 평가 방법을 수정해야 했습니다. 이러한 방법은 전체 얼굴 구성에 대해 설계되지 않았기 때문입니다.

저자들은 원래 오디오 입력을 유지하고, 입술 동작의 일관성을 유지함으로써 원래 코드를 개선했습니다.

생성기 요소에는 동일한 이전 작업과 일치하는 식별자 인코더, 음성 인코더 및 얼굴 디코더가 있습니다. 음성 요소는 연속된 2D 컨볼루션으로 인코딩되며, 이후 해당 프레임에 연결됩니다.

생성 요소 외에도 수정된 아키텍처에는 입술 동기화의 품질, 감정 목적 요소, 적대적으로 훈련된 시각적 품질 목적을 대상으로 하는 세 가지 주요 판별기 구성 요소가 있습니다.

전체 얼굴 재구성을 위해, 원래 Wav2Lip 작업에는 전례가 없었습니다. 따라서 모델은 처음부터 훈련되었습니다. 하단 얼굴 훈련(반 마스크)의 경우, 연구자들은 원래 Wav2Lip 코드에 포함된 체크포인트에서 진행했습니다.

자동 평가 외에도, 연구자들은 半自動 서비스 플랫폼에서 제공되는 크라우드소싱된 의견을 사용했습니다. 작업자들은 일반적으로 출력을 높은 평가로 평가했으며, 감정의 인식에 대해 높은 평가를 받았지만, 이미지 품질에 대해서는 ‘중간’ 평가를 보고했습니다.

저자들은 생성된 비디오 품질을 향상시키는 추가적인 개선 외에도, 향후 작업에서는 더 넓은 범위의 감정을 포함할 수 있으며, 이 작업은 궁극적으로 사용자의 마음대로 감정을 변경하거나 원본 비디오의 감정과 반대되는 감정으로 대체할 수 있는 진정한 시스템으로 발전할 수 있다고 제안합니다.