인공지능

현재 Deepfakes는 감정의 섬세함을 전달할 수 없다

Published February 3, 2022

Updated April 5, 2026

Martin Anderson

어제 Star Wars 스핀오프 The Book of Boba Fett의 6번째 에피소드가 공개되면서 팬들의 의견이 분분해졌다. 일반적으로 호평을 받았지만, 소셜 네트워크를 통해 마크 해밀의 디에이징된 모습이 이전보다 크게 개선된 것으로 보인다. 이는 Industrial Light and Magic이 아마추어 디프페이크 전문가인 Shamook를 고용했기 때문으로 추정된다. Shamook는 오픈 소스 소프트웨어를 사용하여 이전 작업을 크게 개선하였다. 또한 캐릭터의 렌더링은 디프페이크 기술과 CGI의 조합일 것으로 추정된다.

그러나 이에 대한 확증은 현재 제한적이며, Shamook는 ILM의 계약서에 서명한 이후로 거의 발언하지 않았다.尽管如此, 이 작품은 2020年のCGI보다 크게 개선되었으며, 일부 디프페이크 모델에서 볼 수 있는 ‘광沢’을 나타내며, 현재 디프페이크의 최고 시각적 표준에 부합한다.

다른 팬들은 새로운 ‘영 루크’가 이전 버전과는 다른 결점이 있다고 주장한다. 가장 중요한 것은, 새로운 스카이워커 복원에 등장하는 매우 긴 시퀀스에서, 디프페이크보다 CGI에서 더 흔히 볼 수 있는, 표현력과 미묘한 감정의 부족이다. The Verge는 Boba Fett 시뮬레이션을 ‘1983년 마크 해밀의 얼어붙은 얼굴의 불쾌하고 공허한 표정’으로 묘사하였다.

새로운 ILM 복원에 사용된 기술과 상관없이, 디프페이크 변환에는 감정의 미묘함을 다루는 데 어려움이 있으며, 이는 아키텍처의 변경이나 소스 훈련 자료의 개선으로 해결하기 어렵다. 또한 이는 일반적으로 바이럴 디프페이커가 타겟 비디오를 선택할 때 주의하여 선택한다.

면부 정렬의 제한

가장 일반적으로 사용되는 두 개의 디프페이크 오픈 소스 저장소는 DeepFaceLab(DFL)과 FaceSwap이며, 두 모두 2017년의 익명이고 논란의 소스 코드에서 파생되었다. DFL은 VFX 산업에서 압도적인 리드를 가지고 있으며, 그 제한된 도구에도 불구하고如此이다.

이 두 패키지는 초기에 소스 자료(즉, 비디오 프레임 및/또는 정지 이미지)에서 식별된 얼굴에서 면부 랜드마크를 추출하는任务를 맡는다.

Adrian Bulat의 Facial Alignment Network (FAN) 동작, 공식 저장소에서. 출처: https://github.com/1adrianb/face-alignment

DFL과 FaceSwap 모두 Facial Alignment Network(FAN) 라이브러리를 사용한다. FAN은 추출된 얼굴에 대해 2D 및 3D(위의 이미지 참조) 랜드마크를 생성할 수 있다. 3D 랜드마크는 극단적인 프로파일 및 상대적으로 급한 각도까지 얼굴의 인식된 방향을 광범위하게 고려할 수 있다.

그러나 이것들은 픽셀을 수집하고 평가하기 위한 매우 기초적인 지침임이 명백하다:

FaceSwap 포럼에서 제공하는 면부 선구의 대략적인 지시자. 출처: https://forum.faceswap.dev/viewtopic.php?f=25&t=27

가장 기본적인 면부의 선구가 허용된다. 눈은 열리고 닫을 수 있으며, 아래턱도 마찬가지이다. 기본적인 입의 구성(예: 미소, 찡그림 등)은 추적되고 적응될 수 있다. 얼굴은 카메라의 시점에서 약 200도까지 모든 방향으로 회전할 수 있다.

그것을 넘어서, 이것들은 픽셀이 이러한 경계 내에서 행동하는 방식에 대한 매우 조잡한 울타리이다. 또한 이것들은 디프페이크 프로세스 전체에서真正로 수학적이고 정밀한 면부 지침이다. 훈련 과정 자체는 단순히 이러한 경계 내 또는 근처에서 픽셀이 배치되는 방식을 비교한다.

DeepFaceLab에서 훈련. 출처: https://medium.com/geekculture/realistic-deepfakes-with-deepfacelab-530e90bd29f2

얼굴의 하위 부분의 토폴로지(볼의 볼록성과 오목성, 노화의 세부 사항, 점 등)에 대한 규정은 없으므로, 이러한 ‘미묘한’ 하위 특징을 소스(‘덮어쓸 얼굴’)와 타겟(‘붙여넣을 얼굴’) 身分 사이에서 일치시키려는 시도를 할 수 없다.

제한된 데이터로 대처

디프페이크를 위한 목적으로 두 身分 사이에서 일치하는 데이터를 얻는 것은 쉽지 않다. 필요로 하는 각도가 더 이상하면, 각도 일치가 身分 A와 B 사이에서 실제로 동일한 표현을 특징으로 하는지 여부를 더 많이 妥協해야 한다.

가까우나 정확한 일치는 아니다.

위의 예에서, 두 身分은 정렬에서相当하다. 그러나 이것은 이 데이터셋이 정확한 일치에 도달할 수 있는 가장 근접한 지점이다.

명확한 차이점이 남아 있다. 각도와 렌즈가 정확히 일치하지 않으며, 조명도 일치하지 않는다. 주제 A는 주제 B와 달리眼睛을 완전히 닫지 않는다. 이미지 품질과 압축은 주제 A에서 더 나쁘다. 또한 주제 B는 주제 A보다 더 ‘행복해’ 보인다.

그러나 우리에게는 이것이 전부이므로, 우리는 여전히 훈련해야 한다.

이 AB 일치는 비슷한 짝이 데이터셋에 거의 없기 때문에, 이 일치는 훈련에서 과소적합되거나 과적합될 것이다.

과소적합:이 일치가真正한 소수자라면(즉, 부모 데이터셋이相当大き고 이러한 사진의 특성을 자주 특징으로 하지 않는다면), 이 각도/표현은 더 ‘인기 있는’ 짝에 비해 훈련 시간이 적을 것이다. 따라서 이 각도/표현은 훈련된 모델에서 잘 표현되지 않을 것이다.

과적합:이러한罕な AB 짝에 대한 데이터 일치가 부족하여, 디프페이커는 때때로 이 짝을 데이터셋에서 여러 번 복제하여, 모델에서 특징으로 나타날 기회를 더 많이 주려고 한다. 이것은 과적합으로 이어지며, 디프페이크 비디오는 두 사진 사이에 명백한 불일치(예: 눈이 닫힌 정도)를 반복적으로 나타낼 가능성이 있다.

위의 이미지에서, 우리는 DeepFaceLab에서 블라디미르 푸틴을 케빈 스페이시로 교체하는 훈련을 보는 중이다. 여기서 훈련은 160,000 반복에서相当 tiên보적이다.

출처: https://i.imgur.com/OdXHLhU.jpg

경험있는 관찰자는 푸틴이 이러한 테스트 교체에서 스페이시보다 조금 더 ‘스페이스한’ 것처럼 보인다고 주장할 수 있다. 온라인 감정 인식 프로그램이 이러한 표현의 불일치를 어떻게 판단하는지 보자:

출처: https://www.noldus.com/facereader/measure-your-emotions

이 오라클에 따르면, 훨씬 더詳細한 면부 토폴로지를 분석하며, 스페이시는 푸틴의 디프페이크보다 더 적게 ‘화가 나다’, ‘혐오한다’, ‘경멸한다’는 것으로 나타난다.

이러한 불일치는 묶인 패키지의 일부로, 디프페이크 응용 프로그램은 표현이나 감정을 인식하거나 일치시키는 능력이 없으며, 원시 픽셀>픽셀 매핑으로만 작동한다.

우리가 필요로 하는 것은 표현과 감정을 인식하고 추론할 수 있으며, 높은 수준의 개념(예: ‘화가 나다’, ‘유혹하다’, ‘지루하다’, ‘피로하다’ 등)을 구현할 수 있고, 이러한 감정과 관련된 표현을 두 身分의 얼굴 세트에서 분류할 수 있는 디프페이크 프레임워크이다.

반대 방향으로

디프페이크 혁명은 ‘클래식’ 영화 배우를 현대 영화와 TV에 삽입하는 약속을 가져왔지만, AI는 더 호환되는 정의와 품질로 그들의 클래식 작품을 촬영하기 위해 시간을 되돌릴 수 없다.

Boba Fett 해밀 복원을 디프페이크 모델의 작업으로 가정한다면(그리고 우리의 목적을 위해, 이것이 잘못된지 여부는 중요하지 않다), 모델의 데이터셋은 쇼의 타임라인 근처 시기에 해당하는 해밀의 영상(즉, 제다이의 귀환 제작 시기, 1981-83)을 활용해야 했다.

이 영화는 Eastman Color Negative 250T 5293/7293 스탁으로 촬영되었으며, 이는 당시 중간에서 미세한 입자로 간주되는 감광도 250ASA의 에멀젼이었다. 그러나 이것은 1980년대 말까지 명도, 색상 범위, 충실도에서 더 나은 제품으로 대체되었다. 이것은 그 시대의 스탁이며, 제다이의 오페라틱한 범위는 حتى 주요 배우들에게도 몇 개의 클로즈업만을 허용했으며, 이는 그린 문제를 더욱 중요하게 만들었다.

<img class="wp-image-180040 size-full" src="https://www.unite.ai/wp-content/uploads/2022/02/hamill-rotj.jpg" alt="제다이의 귀환(1983)에서의 해밀의 여러 장면.” width=”637″ height=”628″ /> 제다이의 귀환(1983)에서의 해밀의 여러 장면.

또한 해밀이 등장하는 많은 VFX Laden 장면은 광학 인쇄기에 의해 처리되었을 것이며, 이는 필름 그레인을 증가시켰다. 그러나 루카스 필름 아카이브에 접근할 수 있다면(그들은 마스터 네거티브를 잘 보존했을 것이며, 추가로 사용되지 않은 원시 영상을 몇 시간 제공할 수 있을 것이다), 이 문제를 극복할 수 있을 것이다.

때때로 배우의 여러 해의 작품을 결합하여 디프페이크 데이터셋을 증가시키고 다양화할 수 있다. 해밀의 경우, 디프페이커는 1977년의 자동차 사고로 인한 그의 외모 변화와 제다이 이후 곧 声優로서의 두번째 경력을 시작한 것으로 인해, 소스 자료가相当 부족하다.

감정의 제한된 범위?

배우의 디프페이크가 장면을 먹어치워야 한다면, 매우 다양한 얼굴 표현이 포함된 소스 영상을 필요로 할 것이다. 이용 가능한 가장 나이에 맞는 영상을 특징으로 하는 표현의 범위가 충분하지 않을 수 있다.

예를 들어, 제다이의 귀환의 이야기 아크가 진행되면서, 해밀의 캐릭터는 대부분 감정을 다스렸다. 이는 원래 프랜차이즈의 신화에 중심이 되는 발전이다. 따라서 제다이 데이터에서 해밀 디프페이크 모델을 만든다면, 이전 프랜차이즈 엔트리에 비해 훨씬 더 제한된 감정의 범위와 더 이상하지 않은 얼굴의 구성으로 작업해야 할 것이다.

即使 제다이의 귀환에서 스카이워커 캐릭터가 스트레스를 받는 순간이 있다 하더라도, 이러한 순간은면의 자료는 행동과 빠른 편집의 특징으로 인해 매우 짧으며, 데이터는相当 불균형하다.

일반화: 감정의 융합

Boba Fett 스카이워커 복원이 실제로 디프페이크라면, 일부에서 제기된 표현력의 부족은 제한된 소스 자료에만 기인하지 않는다. 디프페이크의 인코더-디코더 훈련 과정은 성공적으로 핵심 특징을 추출하여 수천 개의 이미지에서 일반화된 모델을 찾고 있으며, 데이터셋에不存在하는 각도를 시도할 수 있다.

이 유연성이 없으면, 디프페이크 아키텍처는 단순히 프레임별로 기본 모프를 복사하고 붙여넣기만 할 것이며, 시간적 적응이나 컨텍스트를 고려하지 않을 것이다.

그러나 이 유연성의 고통스러운 트레이드오프는 표현의 충실도가 과정의 희생물일 가능성이 높다. 또한 미묘한 표현은 옳지 않을 수 있다. 우리는 모두 우리의 얼굴을 100개의 오케스트라처럼 연주하며, 이를 위해 잘 갖추어져 있다. 그러나 디프페이크 소프트웨어는 아마도 현악단을 포함하여 몇 가지가 부족하다.

감정의 불일치

면부 움직임과 그 효과는 모든 얼굴에서 균일한 언어가 아니다. 로저 무어의 얼굴에서 우아해 보이는 올라간眉毛는 세스 로건의 얼굴에서는 덜 우아해 보일 수 있다. 마릴린 먼로의 유혹의 매력은 ‘화가 나다’ 또는 ‘불만’의 역할을하는 사람(예: 파크스 앤 레크리에이션의 7시즌 동안 오브리 플라자의 캐릭터)의 얼굴에 디프페이크된 경우, 더 부정적인 감정으로 번역될 수 있다.

따라서 A/B 얼굴 세트 간의 픽셀>픽셀 등가는 이러한 점에서 도움이 되지 않는다. 그러나 이것은 현재의 디프페이크 FOSS 소프트웨어에서 제공되는 모든 것이다.

필요한 것은 표현과 감정을 인식하고 추론할 수 있으며, 높은 수준의 개념(예: ‘화가 나다’, ‘유혹하다’, ‘지루하다’, ‘피로하다’ 등)을 구현할 수 있고, 이러한 감정과 관련된 표현을 두 身分의 얼굴 세트에서 분류할 수 있는 디프페이크 프레임워크이다.