Anderson์ ๊ด์
์ค์ ๋น๋์ค์ ๋ํ ์ถ๊ฐํ๊ธฐ ์ํ AI

새로운 AI 프레임워크는 재촬영 없이 비디오에서 사람의 단어를 다시 작성, 제거 또는 추가할 수 있는 단일 엔드 투 엔드 시스템입니다.
3년 전, 인터넷은 주간 학술 포털에 발표되는 20-30개의 AI 비디오 변경 프레임워크 중 하나에 놀랐을 것입니다. 그러나 이 인기 있는 연구 분야는 이제 거의 ‘AI 슬롭’의 또 다른 지류를 구성할 정도로 다량의 연구가 진행되고 있습니다. 따라서 저는 2-3년 전보다 훨씬 적은 이러한 릴리스를 다루고 있습니다.
그러나 이 줄기에서 현재 릴리스 중 하나가私の 눈에 띄었습니다. 실제 비디오 클립에 새로운 대화를 삽입할 수 있는 통합 시스템입니다(전체 생성 클립을 생성하는 대신 기존 비디오에 새로운 대화를 삽입하는 것입니다).
아래 예제는 프로젝트 웹사이트에서 사용할 수 있는 다수의 샘플 비디오에서 편집한 것입니다. 먼저 실제 소스 클립을 볼 수 있으며, 그 아래에는 클립 중간에 삽입된 AI 스피치가 있습니다.
재생을 클릭하세요.로컬 편집 및 스티칭 – FacEDiT에서 제공하는 여러 모달리티 중 하나입니다. 더 나은 해상도를 위해 원본 웹사이트를 참조하십시오. 출처 – https://facedit.github.io/
이 접근 방식은 개발된 세 가지 방법 중 하나로, ‘로컬 편집 및 스티칭’이라고 불리며, 저자와 저자 모두에게 가장 흥미로운 방법입니다. 본질적으로 클립은 중간 프레임을 시작점으로 사용하여 새로운 AI 해석을 생성하고, 다음 실제 프레임을 목표로 설정하여 생성된 클립이 일치하도록 합니다.
저자들은 이 얼굴 및 음성 합성 접근 방식을 이와 같은 종류의 AI 비디오 편집을 위한 최초의 완전한 통합 엔드 투 엔드 방법으로 프레임화하며, 이러한 프레임워크가 완전히 개발되면 TV 및 영화 제작에 대한 잠재력을 관찰합니다.
‘영화 제작자와 미디어 제작자는 종종 녹화된 비디오의 특정 부분을 수정해야 할 때가 있습니다. 예를 들어, Titanic (1997)에서 로즈가 말하는 대사 “I’ll never let go, Jack,” 에서 감독이 나중에 “I’ll never forget you, Jack”으로 변경해야 할 수 있습니다.
‘전통적으로 이러한 변경은 전체 장면을 다시 촬영해야 하며, 이는 비용이 많이 들고 시간이 많이 걸립니다. 대화 얼굴 합성은 수정된 대사를 자동으로 수정하여 리샷의 필요성을 제거하는 실제적인 대안을 제공합니다.’
이러한 종류의 AI 개입은 문화적 또는 산업적 저항에 직면할 수 있지만, 인간 주도 VFX 시스템 및 툴 스위트에서 새로운 기능을 구성할 수도 있습니다. 어쨌든 현재의 도전은 엄격하게 기술적입니다.
새로운 시스템은 기존 대화를 변경할 수도 있습니다.
재생을 클릭하세요.기존 대화를 변경하는 예입니다. 더 나은 해상도를 위해 원본 웹사이트를 참조하십시오.
최신 기술
현재 이러한 종류의 합성 기능을 제공하는 엔드 투 엔드 시스템은 없습니다. 그러나 Google의 Veo 시리즈와 같은 다양한 생성적 AI 플랫폼은 오디오를 생성할 수 있으며, 다른 프레임워크는 딥페이크 오디오를 생성할 수 있습니다. 그러나 현재 실제 영상을 수정하는 새로운 시스템인 FacEDiT이 수행할 수 있는 방식으로 다양한 아키텍처와 트릭의 복잡한 파이프라인을 생성해야 합니다.
시스템은 확산 변환기 (DiT)를 플로우 매칭과 결합하여 컨텍스트 및 음성 오디오 내용에 조건화된 얼굴 동작을 생성합니다. 시스템은 얼굴 재구성을 처리하는 기존 인기 패키지인 LivePortrait (最近에 Kling에 의해 인수됨)를 활용합니다.
이 방법 외에도 저자들은 이러한 과제를 단일 솔루션으로 통합한 최초의 접근 방식이므로, FacEDiTBench라는 새로운 벤치마크를 만들었으며, 이 작업에 매우 특정한 작업에 적합한 여러 새로운 평가 지표를 만들었습니다.
새로운 연구는 FacEDiT: 유니파이드 토킹 페이스 에디팅 및 제네레이션을 위한 얼굴 동작 인필링이라는 제목으로, 한국의 포항공과대학교 (POSTECH), 한국과학기술원 (KAIST), 텍사스 오스틴 대학교의 4명의 연구자로부터 나왔습니다.
방법
FacEDiT는 배우의 원래 성능의 누락된 부분을 채우는 방법을 학습하여 얼굴 동작을 재구성하도록 훈련됩니다. 아래의 스키마에 표시된대로, 이 프로세스는 모델이 훈련 중에 갭 필러로 작동하도록 허용하며, 음성과 일치하는 얼굴 동작을 예측합니다.

FacEDiT 시스템의 개요, 훈련 중에 자체 감독 인필링을 통해 얼굴 동작을 학습하는 방법, 추론 시 수정된 음성에 의해 안내되는 방법, 및 원본 영상의 외관을 재사용하여 대상 동작만 교체하여 비디오로 다시 렌더링하는 방법을 보여줍니다. 출처
추론 시간에 동일한 아키텍처는 마스킹된 비디오의 양에 따라 두 가지 다른 출력을 지원합니다. 부분 편집은 단어 하나만 변경되고 나머지는 수정되지 않은 채로 남겨진 반면, 전체 문장 생성은 새로운 동작이 완전히 처음부터 생성됩니다.
모델은 플로우 매칭을 통해 훈련되며, 이는 비디오 편집을 두 가지 얼굴 동작 버전 사이의 경로로 처리합니다.
대신에 편집된 얼굴이 어떻게 보일지에 대해 추측하기보다는, 플로우 매칭은 노이즈 자리 표시자와 올바른 동작 사이를 부드럽게 이동하는 방법을 학습합니다. 이를 위해 시스템은 앞서 언급된 LivePortrait 시스템의 버전을 사용하여 각 프레임에서 추출된 숫자의 컴팩트한 세트를 통해 얼굴 동작을 나타냅니다.
이동 벡터는 표현과 헤드 포즈를 설명하는 동시에 아이덴티티를 얽지 않도록 설계되므로, 음성 변경이 전체 외관에 영향을 미치지 않고 지역화될 수 있습니다.
FacEDiT 훈련
FacEDiT를 훈련하기 위해 각 비디오 클립은 일련의 얼굴 동작 스냅샷으로 나누어졌으며, 각 프레임은 해당 오디오 청크와 쌍으로 구성되었습니다. 동작 데이터의 랜덤한 부분이 숨겨졌으며, 모델은 음성과 주변 비마스킹된 동작을 사용하여 컨텍스트를 통해 누락된 동작이 어떻게 보일지 예측하도록 요청받았습니다.
마스킹된 범위와 해당 위치가 훈련 예제마다 다르므로, 모델은 작은 내부 편집과 전체 시퀀스 생성을 모두 다루는 방법을 점진적으로 학습합니다.
시스템의 확산 변환기는 노이즈 입력을 시간이 지남에 따라 정제하여 마스킹된 동작을 회복하도록 학습합니다. 음성과 동작을 모델에 한꺼번에 피딩하는 대신, 오디오는 각 처리 블록을 통해 크로스 어텐션을 통해 스레딩되어, 시스템이 립 동작을 오디오 음성과 더 정밀하게 일치시키도록 도와줍니다.
편집된 지역의 경계에서 깜박임이나 동작 점프를 방지하기 위해, 주변 프레임에 대한 어텐션을 편향시킵니다. 위치 임베딩(각 프레임이 시퀀스에서 나타나는 위치를 모델에 알려줌)은 모델이 자연스러운 시간적 흐름과 컨텍스트를 유지하도록 도와줍니다.
훈련 중에 시스템은 음성과 근처의 비마스킹된 동작을 기반으로 마스킹된 얼굴 동작을 예측하도록 학습합니다. 추론 시, 이 설정은 편집된 음성에 의해 안내되는 마스킹과 함께 다시 사용됩니다.
단어가 삽입, 삭제 또는 변경되면, 시스템은 영향을 받은 영역을 찾고 마스킹한 다음, 새로운 오디오와 일치하는 동작을 재생성합니다. 전체 시퀀스 생성은 마스킹된 전체 영역을 완전히 처음부터 생성하는 특수한 경우로 처리됩니다.
데이터 및 테스트
시스템의 백본은 확산 변환기에 22개의 레이어를 사용하며, 각 레이어에는 16개의 어텐션 헤드와 피드포워드 차원이 1024와 2024px입니다. 동작 및 외관 특징은 고정된 LivePortrait 구성 요소를 사용하여 추출되며, 음성은 WavLM을 통해 인코딩되고 VoiceCraft를 사용하여 수정됩니다.
전용 프로젝션 레이어는 786차원 음성 특징을 DiT의 잠재 공간으로 매핑하며, 오직 DiT와 프로젝션 모듈만이 스크래치에서 훈련됩니다.
훈련은 AdamW 옵티마이저를 사용하여 목표 학습률 1e-4에서 1백만 단계 동안 수행되며, 2개의 A6000 GPU(각각 48GB의 VRAM)를 사용하여 총 배치 크기 8입니다.
FacEDiTBench
FacEDiTBench 데이터셋에는 250개의 예제가 있으며, 각 예제에는 원본 및 편집된 음성의 비디오 클립과 두 가지 음성의 전사본이 포함되어 있습니다. 비디오는 3개의 소스에서 가져오며, HDTF에서 100개의 클립, Hallo3에서 100개의 클립, CelebV-Dub에서 50개의 클립이 있습니다. 각 클립은 오디오와 비디오가 모두 평가를 위해 충분히 명확한지 확인하기 위해 수동으로 확인되었습니다.
GPT-4o를 사용하여 각 전사본을 수정하여 문법적으로 유효한 편집을 생성했습니다. 이러한 수정된 전사본과 원본 음성은 VoiceCraft를 통해 새 오디오를 생성하기 위해 전달되며, 각 단계에서 전사본과 생성된 음성이 모두 품질을 위해 수동으로 검토되었습니다.
각 샘플은 편집 유형, 변경 시간, 수정된 범위의 길이로 레이블이 지정되며, 편집은 삽입, 삭제, 또는 대체로 분류됩니다. 변경된 단어의 수는 1-3개의 단어로 구성된 짧은 편집, 4-6개의 단어로 구성된 중간 편집, 7-10개의 단어로 구성된 더 긴 편집으로 범위가 지정됩니다.
편집 품질을 평가하기 위해 세 가지 사용자 지정 지표가 정의되었습니다. 광학적 연속성은 편집된 세그먼트가 주변 비디오와 잘 어울리는지 측정하기 위해 경계에서 픽셀 수준의 차이를 비교합니다. 동작 연속성은 편집된 프레임과 비편집된 프레임 사이의 광학적 흐름의 일관성을 평가합니다. 아이덴티티 보존은 원본 및 생성된 시퀀스의 얼굴 임베딩을 비교하여 편집 후에도 주체의 외관이 일관된まま인지 평가합니다.
테스트
테스트 모델은 총 약 200시간의 비디오 콘텐츠를 포함하는 위의 세 데이터셋에서 훈련되었습니다. 이는 블로그 및 영화뿐만 아니라 고해상도 유튜브 비디오도 포함합니다.
대화 얼굴 편집을 평가하기 위해 FacEDiTBench 외에도 HDTF 테스트 분할을 사용했습니다. 이는 이러한 작업 세트에 대한 벤치마크의 표준이 되었습니다.
비교할 수 있는 시스템이 없기 때문에, 저자들은 이 기능을 일부 재현하는 다양한 프레임워크를 선택했습니다. 이는 KeyFace; EchoMimic; EchoMimicV2; Hallo; Hallo2; Hallo3; V-Express; AniPortrait; 및 SadTalker입니다.
수립된 여러 지표도 생성 및 편집 품질을 평가하기 위해 사용되었습니다. 립싱크 정확도는 SyncNet을 통해 평가되며, 립 동작과 오디오 사이의 절대 오차(LSE-D)와 신뢰도 점수(LSE-C)를 보고합니다. 프레체 비디오 거리 (FVD)는 생성된 비디오의 현실성을 평가하며, 학습된 지각적 유사성 지표 (LPIPS)는 생성된 프레임과 원본 프레임 사이의 지각적 유사성을 측정합니다.
편집의 경우, LPIPS를 제외한 모든 지표는 수정된 세그먼트에만 적용되며, 생성의 경우 전체 비디오가 평가되며, 경계 연속성은 제외됩니다.
각 모델은 일치하는 비디오 세그먼트를 생성하도록 요청받으며, 이는 원본 클립에 스플라이스됩니다. 연구자들은 이 방법이 종종 편집된 섹션과 주변 영상을 만나는 지점에서 가시적인 불연속성을 도입한다고 지적합니다.

편집 성능을 시스템별로 비교합니다. FacEDiT는 모든 지표에서 기준선보다 우수한 성능을 나타냅니다.
저자들은 다음과 같이 말합니다.
‘우리의 모델은 편집 작업에서 기존 방법을 크게 능가합니다. 경계 연속성과 높은 아이덴티티 보존을 달성하여 편집 중에 시간적 및 시각적 일관성을 유지하는 능력을 보여줍니다. 또한, 우수한 립싱크 정확도와 낮은 FVD는 생성된 비디오의 현실성을 반영합니다.’
재생을 클릭하세요.결과, 원본 프로젝트 사이트의 게시된 비디오에서 조립되었습니다. 더 나은 해상도를 위해 원본 웹사이트를 참조하십시오.
さらに, 편집 및 생성의 인식된 품질을 평가하기 위해 인간 연구가 수행되었습니다.
각 비교에서 참가자는 6개의 비디오를 보고 전체 품질, 립싱크 정확도, 헤드 동작의 자연스러움 및 현실성을 고려하여 순위를 매겼습니다. 편집 시도에서는 편집된 세그먼트와 비편집된 세그먼트 사이의 전환의 부드러움도 평가했습니다.

인간 평가자가 할당한 평균 순위, 낮을수록 좋습니다. 편집 및 생성 모두에서 참가자는 비디오가 얼마나 자연스럽고 잘 싱크가 되는지 평가했습니다. 편집의 경우, 편집된 스피치와 비편집된 스피치 사이의 전환의 부드러움도 평가했습니다.
연구에서 FacEDiT는 편집 품질과 전환의 매끄러움 모두에서 명백한 리드를 통해 일관되게最高 순위를 받았으며, 생성 설정에서도 강한 점수를 받았습니다. 이는 측정된 장점이 인식된 출력으로 번역됨을 시사합니다.
공간이 부족하여, 저자는 추가적인 테스트 및 새로운 연구에서 보고된 추가 테스트에 대한 자세한 내용은 원본 논문에서 찾을 수 있다고 말합니다. 이러한 유형의 원형 연구 제안은 핵심 제안 자체가 향후 작업을 위한 잠재적인 기준선이기 때문에 의미 있는 테스트 결과 섹션을 생성하는 데 어려움을 겪습니다.
결론
이러한 시스템은 추론 시에도 상당한 컴퓨팅 리소스가 필요할 수 있으므로, 다운스트림 사용자(여기서는 VFX 샵)는 작업을 현지에서 유지하는 것이 어려울 수 있습니다. 따라서 현실적인 현지 리소스에 적응할 수 있는 접근 방식은 제공업체에 의해 항상 선호됩니다. 제공업체는 클라이언트의 영상을 보호하고 일반적인 지적 재산을 보호할 의무가 있습니다.
그렇다고 새로운 제안을 비판하는 것은 아닙니다. 이는 양자화된 가중치 또는 기타 최적화하에서 완벽하게 작동할 수 있으며, 저를 이 연구 분야로 다시 끌어들이는 첫 번째 제안입니다.
처음 게시된 날은 2022년 12월 17일이며, 20.10 EET에 첫 번째 본문 단락에 추가 공간을 위해 수정되었습니다.












