인공지능
새로운 시스템으로 시간적으로 일관된 안정 확산 비디오 캐릭터 생성

알리바바 그룹의 새로운 이니셔티브는 안정 확산 기반의 기초 모델에서 전체 신체 인간 아바타를 생성하는 데 있어 내가 본 최선의 방법 중 하나를 제공합니다.
제목은 MIMO(MIMicking with Object Interactions)이며, 이 시스템은 CGI 기반 인간 모델 및 AnimateDiff를 포함한 다양한 인기 기술과 모듈을 사용하여 비디오에서 일관된 시간적 캐릭터 대체 또는 사용자 정의 골격 姿勢로 캐릭터를 구동할 수 있습니다.
여기서 우리는 단일 이미지 소스에서 보간된 캐릭터와 미리 정의된 모션에 의해 구동되는 것을 볼 수 있습니다.
[아래 비디오를 클릭하여 재생]
단일 소스 이미지에서 3가지 다양한 캐릭터가 3D 姿勢 시퀀스(가장 왼쪽)를 사용하여 MIMO 시스템으로 구동됩니다. 더 많은 예시와 더 높은 해상도를 보려면 프로젝트 웹사이트와 이 기사의 끝에 첨부된 유튜브 비디오를 참조하십시오. 출처: https://menyifang.github.io/projects/MIMO/index.html
생성된 캐릭터는 비디오 프레임과 다양한 다른 방법으로도 소스할 수 있으며 실제 촬영 영상을 통합할 수 있습니다.
MIMO는 캐릭터, 장면 및 오คล루전(즉, 매핑할 때 어떤 객체나人が 앞으로 지나갈 때)의 3가지離散 인코딩을 생성하는 새로운 시스템을 제공합니다. 이러한 인코딩은 추론 시간에 통합됩니다.
[아래 비디오를 클릭하여 재생]
MIMO는 원본 캐릭터를 타겟 비디오의 모션을 따르는 포토 리얼리스틱 또는 스타일라이즈된 캐릭터로 대체할 수 있습니다. 더 많은 예시와 더 높은 해상도를 보려면 프로젝트 웹사이트와 이 기사의 끝에 첨부된 유튜브 비디오를 참조하십시오.
이 시스템은 Stable Diffusion V1.5 모델을 사용하여 훈련되며, 연구자들이 큐레이션한 사용자 정의 데이터셋을 사용하여 훈련되며, 실제 세계 비디오와 시뮬레이션 비디오가 동일하게 구성됩니다.
확산 기반 비디오의 큰 문제는 시간적 안정성입니다. 여기서 비디오의 내용이 원치 않는 방식으로 깜빡이거나 ‘진화’합니다.
MIMO는 대신 일관된 가이드를 제공하기 위해 단일 이미지를 효과적으로 사용하며, 중간 SMPL CGI 모델에 의해 조정되고 제한될 수 있습니다.
기본 모델이 충분한 대표 모션 예제로 향상되었으며, 시스템의 일관된 출력 능력은 일반적으로 확산 기반 아바타의 표준보다 훨씬 높습니다.
[아래 비디오를 클릭하여 재생]
さらに MIMO 캐릭터의 예시입니다. 더 많은 예시와 더 높은 해상도를 보려면 프로젝트 웹사이트와 이 기사의 끝에 첨부된 유튜브 비디오를 참조하십시오.
단일 이미지를 사용하여 효과적인 신경 표현을 생성하는 것이 더 일반적으로 되고 있습니다. 텍스트 프롬프트와 결합하여 다중 모달 방식으로 사용할 수 있습니다. 예를 들어, популяр한 LivePortrait 얼굴 전송 시스템은 단일 얼굴 이미지에서 매우 현실적인 딥페이크 얼굴을 생성할 수도 있습니다.
연구자들은 MIMO 시스템에서 사용된 원칙을 다른 유형의 생성 시스템과 프레임워크로 확장할 수 있다고 믿습니다.
새로운 논문은 MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling으로 제목이 붙여졌으며, 알리바바 그룹의 Institute for Intelligent Computing에 속한 4명의 연구자로부터 나왔습니다. 이 작업에는 비디오가 많은 프로젝트 페이지와 함께하는 유튜브 비디오가 있으며, 이 기사의 끝에 첨부되어 있습니다.
방법
MIMO는 자동으로 언급된 3가지 공간 구성 요소를 분리하며, 종료까지 아키텍처(즉, 모든 하위 프로세스는 시스템에 통합되며 사용자는 입력 자료만 제공하면 됩니다).

MIMO의 개념적 스키마. 출처: https://arxiv.org/pdf/2409.16160
소스 비디오의 객체는最初에 Depth Anything를 사용하여 2D에서 3D로 변환됩니다. 각 프레임의 인간 요소는 Tune-A-Video 프로젝트에서 개정된 방법을 사용하여 추출됩니다.
이러한 기능은 Facebook Research의 Segment Anything 2 아키텍처를 통해 비디오 기반 볼륨식으로 변환됩니다.
장면 레이어 자체는 다른 두 레이어에서 감지된 객체를 제거하여 효과적으로 자동으로 로토스코프 스타일의 마스크를 제공합니다.
모션의 경우, 인간 요소에 대한 추출된 잠재 코드 세트는 기본 인간 CGI 기반 SMPL 모델의 이동으로 제공되는 컨텍스트에서 렌더링된 인간 콘텐츠를 구동합니다.
인간 콘텐츠에 대한 2D 기능 맵은 차별 가능한 렌더러를 사용하여 얻어지며, 이는 NVIDIA의 2020 이니셔티브에서 파생됩니다. SMPL에서 얻은 3D 데이터와 NVIDIA 방법으로 얻은 2D 데이터를 결합하여 ‘신경 사람’을 나타내는 잠재 코드에는 결국 컨텍스트와 고른 대응関係이 있습니다.
이 시점에서, SMPL을 사용하는 아키텍처에서 일반적으로 필요한 참조를 설정하는 것이 필요합니다. 즉, 캐논 姿勢입니다. 이것은 대략 다빈치의 ‘비트루비안 사람’과 유사하여, 0- 姿勢 템플릿을 나타내며 콘텐츠를 수신하고 변형하여 효과적으로 텍스처 맵핑된 콘텐츠를 함께 가져옵니다.
이러한 변형 또는 ‘표준에서 편차’는 인간의 움직임을 나타내며, SMPL 모델은 추출된 인간 정체성을 구성하는 잠재 코드를 보존하여 결과 아바타를 姿勢와 텍스처 측면에서 올바르게 나타냅니다.

SMPL 피규어의 캐논 姿勢 예시. 출처: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264
인터-twining(훈련 데이터가 훈련된 범위와 연관성을 벗어나면 얼마나 유연해지는지)에 대한 문제에서, 저자는 다음과 같이 말합니다*:
‘일관된 영상 프레임에서 외모를 완전히 분리하기 위한 이상적인 해결책은 단일 영상에서 동적 인간 표현을 학습하고 姿勢 공간에서 표준 공간으로 변환하는 것입니다.
‘효율성을 고려하여, 우리는 표준 A- 姿勢를 사용하여 포즈된 인간 이미지를 직접 캐논 결과로 변환하는 단순화된 방법을 사용합니다. 합성된 캐논 외모 이미지는 ID 인코더에 입력되어 ID 코드를 얻습니다.
‘이 간단한 설계는 외모와 모션 속성의 완전한 분리를 가능하게 합니다. Animate Anyone에 따라, ID 인코더에는 CLIP 이미지 인코더와 참조넷 아키텍처가 포함되어 있습니다. 전역 및 지역 기능을 위한 것입니다.
장면과 오클루전 측면에서는 공유 및 고정 Variational Autoencoder(VAE – 이 경우 2013 출판에서 파생됨)를 사용하여 장면과 오클루전 요소를 잠재 공간에 임베딩합니다. 불일치는 인페인팅 방법으로 처리되며, 이는 2023년 ProPainter 프로젝트에서 나왔습니다.
이렇게 조립되고 리터치된 후, 비디오의 배경과 이동하는 아바타 앞을 지나가는 객체는 모두 매트를 제공합니다.
이러한 분해된 속성은 Stable Diffusion V1.5 아키텍처를 기반으로 하는 U-Net 백본에 입력됩니다. 완전한 장면 코드는 호스트 시스템의 네이티브 잠재 노이즈와 연결됩니다. 인간 구성 요소는 각각 셀프 어텐션 및 크로스 어텐션 레이어를 통해 통합됩니다.
그런 다음, деноиз된 결과는 VAE 디코더를 통해 출력됩니다.
데이터 및 테스트
훈련을 위해 연구자들은 HUD-7K라는 인간 비디오 데이터셋을 생성했으며, 5,000개의 실제 캐릭터 비디오와 En3D 시스템으로 생성된 2,000개의 시뮬레이션 애니메이션이 포함되었습니다. 실제 비디오는 비-semantic 피규어 추출 절차로 인해 주석이 필요하지 않았습니다. 시뮬레이션 데이터는 완전히 주석이 달렸습니다.
모델은 8개의 NVIDIA A100 GPU(이 논문에서는 40GB 또는 80GB VRAM 모델인지 지정하지 않음)에서 50회 반복으로 훈련되었으며, 24개의 비디오 프레임과 배치 크기 4를 사용하여 수렴할 때까지 훈련되었습니다.
시스템의 모션 모듈은 AnimateDiff의 가중치에서 훈련되었습니다. 훈련 과정에서 VAE 인코더/디코더 및 CLIP 이미지 인코더의 가중치는 동결되었습니다(전체 파인 튜닝과는 달리, 이는 기초 모델에 더 넓은 영향을 미칩니다).
MIMO는 유사한 시스템과 비교되지 않았지만, 연구자들은 AMASS 및 Mixamo에서 소스된 어려운 아웃-오브-분포 모션 시퀀스에서 이를 테스트했습니다. 이러한 움직임에는攀爬, 놀이 및 舞蹈가 포함되었습니다.
그들은 또한 시스템을 야생 인간 비디오에서 테스트했습니다. 두 경우 모두, 논문은 이러한 미래 3D 모션에 대한 ‘높은 강도’를 보고합니다.
논문은 실제 성능을 평가하기 위해 프로젝트 페이지와 이 기사의 끝에 첨부된 유튜브 비디오에서 제공되는 광범위한 비디오 결과를 제시하는 것 외에도 여러 정적 이미지 결과를 제공합니다.
저자는 다음과 같이 결론을 내립니다:
‘실험 결과는 우리의 방법이 유연한 캐릭터, 모션 및 장면 제어뿐만 아니라 임의의 캐릭터에 대한 확장성, 새로운 3D 모션에 대한 일반성 및 상호작용 장면에 대한 적용 가능성을 모두 제공한다는 것을 보여줍니다.
‘우리는 또한 우리의 솔루션이 3D 인식 비디오 합성을 위한 미래 연구를 위해 영감을 줄 수 있다고 믿습니다. 이는 내재된 3D 특성과 2D 비디오를 계층적 공간 구성 요소로 자동으로 인코딩하는 것을 고려합니다.
‘さらに, 우리의 프레임워크는 캐릭터 비디오를 생성하는 데만 적합하지 않으며, 다른 제어 가능한 비디오 합성 작업에도 잠재적으로 적응할 수 있습니다.’
결론
안정 확산 기반의 아바타 시스템이 시간적 안정성을 제공하는 것을 볼 수 있게 된 것은 환영할 만한 일입니다. 특히 가우시안 아바타가 이 연구 분야에서 높은 지위를 얻고 있는 것과는 대조적으로, 이러한 성능은 더할 나위 없이 훌륭합니다.
스타일라이즈된 아바타는 효과적이며, MIMO가 생성할 수 있는 포토 리얼리스틱 수준은 현재 가우시안 스플래팅이 할 수 있는 것과는 같지 않지만, 의미 기반 잠재 확산 네트워크(LDM)에서 시간적으로 일관된 인간을 생성하는 다양한 장점은 상당합니다.
* 저자의 인라인 시테이션을 하이퍼링크로 변환하고, 필요한 경우 외부 설명 하이퍼링크를 추가한 것입니다.
2024년 9월 25일 수요일에 처음 게시되었습니다.






