인공 지능

DynamiCrafter: Video Diffusion Priors를 사용하여 개방형 도메인 이미지 애니메이션화

게재

1 달 전

2024 년 3 월 25 일

DynamiCrafter: Video Diffusion Priors를 사용하여 개방형 도메인 이미지 애니메이션화

컴퓨터 비전 이미지 애니메이션은 오늘날 AI 커뮤니티에서 가장 흥미롭고 잘 연구된 분야 중 하나이며, 컴퓨터 비전 모델의 급속한 향상에도 불구하고 여전히 개발자를 괴롭히는 오랜 과제는 이미지 애니메이션입니다. 오늘날에도 이미지 애니메이션 프레임워크는 스틸 이미지를 이미지의 원래 모습을 유지하면서 자연스러운 역동성을 표시하는 해당 비디오 이미지로 변환하는 데 어려움을 겪고 있습니다. 전통적으로 이미지 애니메이션 프레임워크는 인간의 머리카락이나 신체 움직임과 같은 영역별 움직임이나 유체 및 구름과 같은 확률론적 역학을 사용하여 자연스러운 장면을 애니메이션화하는 데 주로 중점을 둡니다. 이 접근 방식은 어느 정도 작동하지만 이러한 애니메이션 프레임워크의 적용 가능성을 보다 일반적인 시각적 콘텐츠로 제한합니다.

또한 기존의 이미지 애니메이션 접근 방식은 주로 진동 및 확률론적 모션을 합성하거나 특정 객체 범주에 맞게 사용자 정의하는 데 중점을 둡니다. 그러나 이 접근 방식의 주목할만한 결함은 특히 개방형 도메인 이미지 애니메이션과 같은 일반적인 시나리오에서 적용 가능성을 궁극적으로 제한하는 이러한 방법에 부과된 강력한 가정입니다. 지난 몇 년 동안, T2V 또는 텍스트-비디오 모델 텍스트 프롬프트를 사용하여 생생하고 다양한 비디오를 생성하는 데 놀라운 성공을 거두었으며 이번 T2V 모델 시연은 DynamiCrafter 프레임워크의 기반을 형성합니다.

DynamiCrafter 프레임워크는 이미지 애니메이션 모델의 현재 한계를 극복하고 오픈 월드 이미지와 관련된 일반 시나리오로 적용 가능성을 확장하려는 시도입니다. DynamiCrafter 프레임워크는 오픈 도메인 이미지에 대한 동적 콘텐츠를 합성하여 애니메이션 비디오로 변환하려고 시도합니다. DynamiCrafter의 핵심 아이디어는 이미 존재하는 텍스트 이전의 모션을 비디오 확산 모델에 활용하려는 시도로 이미지를 생성 프로세스에 지침으로 통합하는 것입니다. 지정된 이미지에 대해 DynamiCrafter 모델은 먼저 이미지를 텍스트 정렬된 풍부한 컨텍스트 표현 공간에 투영하는 쿼리 변환기를 구현하여 비디오 모델이 호환 가능한 방식으로 이미지 콘텐츠를 소화할 수 있도록 합니다. 그러나 DynamiCrafter 모델은 여전히 결과 비디오에서 일부 시각적 세부 정보를 보존하는 데 어려움을 겪고 있습니다. 이 문제는 DynamiCrafter 모델이 이미지를 초기 노이즈와 연결하여 확산 모델에 전체 이미지를 공급함으로써 극복하고 더 정확한 이미지로 모델을 보완합니다. 정보.

이 기사에서는 DynamiCrafter 프레임워크를 심층적으로 다루는 것을 목표로 하며 프레임워크의 메커니즘, 방법론, 아키텍처를 탐색하고 최신 이미지 및 비디오 생성 프레임워크와 비교합니다. 그럼 시작해 보겠습니다.

DynamiCrafter : 오픈 도메인 이미지 애니메이션

정지 이미지에 애니메이션을 적용하면 정지 이미지에 생명을 불어넣는 것처럼 보이기 때문에 청중에게 매력적인 시각적 경험을 제공하는 경우가 많습니다. 수년에 걸쳐 수많은 프레임워크에서 스틸 이미지에 애니메이션을 적용하는 다양한 방법을 모색해 왔습니다. 초기 애니메이션 프레임워크는 특정 객체의 모션을 시뮬레이션하는 데 초점을 맞춘 물리적 시뮬레이션 기반 접근 방식을 구현했습니다. 그러나 각 객체 카테고리의 독립적인 모델링으로 인해 이러한 접근 방식은 효과적이지 않았으며 일반화 가능성도 없었습니다. 보다 사실적인 모션을 복제하기 위해 비디오와 같은 참조 신호의 모션 또는 모양 정보를 합성 프로세스로 전송하는 참조 기반 방법이 등장했습니다. 참조 기반 접근 방식은 시뮬레이션 기반 접근 방식과 비교할 때 더 나은 시간적 일관성으로 더 나은 결과를 제공했지만 실제 적용을 제한하는 추가 지침이 필요했습니다.

최근 몇 년 동안 대부분의 애니메이션 프레임워크는 주로 확률적, 영역별 또는 진동 동작을 사용하여 자연스러운 장면을 애니메이션화하는 데 중점을 둡니다. 이러한 프레임워크에 의해 구현된 접근 방식이 어느 정도 작동하더라도 이러한 프레임워크가 생성하는 결과는 만족스럽지 않으며 상당한 개선의 여지가 있습니다. 지난 몇 년간 Text to Video 생성 모델이 달성한 놀라운 결과는 DynamiCrafter 프레임워크 개발자들이 이미지 애니메이션을 위해 Text to Video 모델의 강력한 생성 기능을 활용하도록 영감을 주었습니다.

DynamiCrafter 프레임워크의 핵심 기반은 비디오 생성 프로세스를 관리하기 위해 조건부 이미지를 통합하는 것입니다. 텍스트-비디오 확산 모델. 그러나 이미지 애니메이션의 궁극적인 목표는 여전히 사소한 것이 아닙니다. 이미지 애니메이션에는 세부 사항의 보존뿐만 아니라 역동성을 생성하는 데 필수적인 시각적 맥락의 이해가 필요하기 때문입니다. 그러나 VideoComposer와 같은 다중 모드 제어 가능 비디오 확산 모델은 이미지의 시각적 안내를 통해 비디오 생성을 가능하게 하려고 시도했습니다. 그러나 이러한 접근 방식은 덜 포괄적인 이미지 주입 메커니즘으로 인해 급격한 시간적 변화 또는 입력 이미지에 대한 시각적 적합성이 낮기 때문에 이미지 애니메이션에는 적합하지 않습니다. 이러한 장애물을 극복하기 위해 DyaniCrafter 프레임워크는 시각적 세부 정보 안내와 텍스트 정렬 컨텍스트 표현으로 구성된 이중 스트림 주입 접근 방식을 제안합니다. 듀얼 스트림 주입 접근 방식을 사용하면 DynamiCrafter 프레임워크가 비디오 확산 모델이 세부적으로 보존된 동적 콘텐츠를 보완적인 방식으로 합성하도록 보장할 수 있습니다.

주어진 이미지에 대해 DynamiCrafter 프레임워크는 먼저 특별히 설계된 컨텍스트 학습 네트워크를 사용하여 텍스트 정렬된 컨텍스트 표현 공간에 이미지를 투영합니다. 보다 구체적으로 말하면, 컨텍스트 표현 공간은 확산 모델에 대한 적응을 더욱 촉진하기 위한 학습 가능한 쿼리 변환기와 텍스트 정렬된 이미지 특징을 추출하기 위한 사전 훈련된 CLIP 이미지 인코더로 구성됩니다. 그런 다음 모델은 교차 관심 레이어를 사용하여 풍부한 컨텍스트 기능을 사용하고 모델은 게이트 융합을 사용하여 이러한 텍스트 기능을 교차 관심 레이어와 결합합니다. 그러나 이 접근 방식은 학습된 컨텍스트 표현을 텍스트 정렬된 시각적 세부 정보와 교환하여 이미지 컨텍스트의 의미론적 이해를 촉진하여 합리적이고 생생한 역학을 합성할 수 있습니다. 또한 추가적인 시각적 세부 사항을 보완하기 위해 프레임워크는 전체 이미지와 초기 노이즈를 확산 모델에 연결합니다. 결과적으로 DynamiCrafter 프레임워크에 의해 구현된 이중 주입 접근 방식은 입력 이미지에 대한 시각적 적합성과 그럴듯한 동적 콘텐츠를 보장합니다.

계속해서 확산 모델 또는 DM은 T2I 또는 텍스트-이미지 생성에서 놀라운 성능과 생성 능력을 보여주었습니다. T2I 모델의 성공을 비디오 생성에 재현하기 위해 픽셀 공간에서 시공간 인수분해 U-New 아키텍처를 사용하여 저해상도 비디오를 모델링하는 VDM 또는 비디오 확산 모델이 제안되었습니다. T2I 프레임워크의 학습 내용을 T2V 프레임워크로 이전하면 교육 비용을 줄이는 데 도움이 됩니다. VDM 또는 비디오 확산 모델에는 고품질 비디오를 생성할 수 있는 기능이 있지만 사용자의 진정한 의도를 반영하지 않거나 모호할 수 있는 유일한 의미론적 지침으로 텍스트 프롬프트만 허용합니다. 그러나 대부분의 VDM 모델의 결과는 입력 이미지를 거의 따르지 않으며 비현실적인 시간적 변화 문제로 어려움을 겪습니다. DynamiCrafter 접근 방식은 개방형 도메인 이미지를 애니메이션화하기 위해 풍부한 동적 사전 기능을 활용하는 텍스트 조건 비디오 확산 모델을 기반으로 구축되었습니다. 의미론적 이해를 높이고 입력 이미지에 대한 적합성을 높이기 위해 맞춤형 디자인을 통합함으로써 이를 수행합니다.

DynamiCrafter : 방법 및 아키텍처

주어진 정지 이미지에 대해 DyanmiCrafter 프레임워크는 이미지를 비디오로 즉, 짧은 비디오 클립을 제작합니다. 비디오 클립은 이미지의 시각적 내용을 상속받아 자연스러운 역동성을 보여줍니다. 그러나 결과 프레임 시퀀스의 임의 위치에 이미지가 나타날 가능성이 있습니다. 임의의 위치에 이미지가 나타나는 것은 높은 시각적 적합성 요구 사항이 있는 이미지 조정 비디오 생성 작업에서 관찰되는 특별한 종류의 문제입니다. DynamiCrafter 프레임워크는 사전 훈련된 비디오 확산 모델의 생성적 사전 모델을 활용하여 이러한 문제를 극복합니다.

비디오 확산 이전의 이미지 역학

일반적으로 오픈 도메인 텍스트-비디오 확산 모델은 텍스트 설명에 따라 동적 시각적 콘텐츠 모델링 조건을 표시하는 것으로 알려져 있습니다. 텍스트를 비디오로 생성하는 사전 작업을 사용하여 정지 이미지에 애니메이션을 적용하려면 프레임워크가 먼저 포괄적인 방식으로 비디오 생성 프로세스에 시각적 정보를 주입해야 합니다. 또한 동적 합성을 위해 T2V 모델은 상황 이해를 위해 이미지를 소화하는 동시에 생성된 비디오의 시각적 세부 정보를 보존할 수 있어야 합니다.

텍스트 정렬된 컨텍스트 표현

이미지 컨텍스트를 사용하여 비디오 생성을 안내하기 위해 DynamiCrafter 프레임워크는 비디오 모델이 호환 가능한 방식으로 이미지 정보를 사용할 수 있도록 이미지를 정렬된 임베딩 공간에 투영하려고 시도합니다. 이어서 DynamiCrafter 프레임워크는 사전 훈련된 CLIP 텍스트 인코더를 사용하여 텍스트 임베딩이 생성되므로 이미지 인코더를 사용하여 입력 이미지에서 이미지 특징을 추출합니다. 이제 CLIP 이미지 인코더의 전역 의미 토큰이 이미지 캡션과 정렬되지만 주로 의미 수준에서 시각적 콘텐츠를 나타내므로 이미지의 전체 범위를 캡처하지 못합니다. DynamiCrafter 프레임워크는 CLIP 인코더의 마지막 레이어에서 전체 시각적 토큰을 구현하여 보다 완전한 정보를 추출합니다. 이러한 시각적 토큰은 조건부 이미지 생성 작업에서 높은 충실도를 보여주기 때문입니다. 또한 프레임워크는 이중 교차 주의 레이어를 사용하여 U-Net 중간 기능과 상호 작용하기 위해 컨텍스트 및 텍스트 임베딩을 사용합니다. 이 구성요소의 설계는 모델이 레이어 종속 방식으로 이미지 조건을 흡수하는 능력을 촉진합니다. 또한 U-Net 아키텍처의 중간 레이어는 물체의 포즈나 모양과 더 많이 연관되어 있기 때문에 특히 양 끝 레이어가 모양과 더 많이 연결되어 있기 때문에 이미지 특징이 비디오의 모양에 주로 영향을 미칠 것으로 예상됩니다.

시각적 세부 안내

DyanmiCrafter 프레임워크는 아키텍처의 비디오 확산 모델이 입력 이미지와 밀접하게 유사한 비디오를 생성할 수 있도록 하는 풍부하고 유익한 컨텍스트 표현을 사용합니다. 그러나 다음 이미지에서 볼 수 있듯이 생성된 콘텐츠는 언어와 시각적 기능을 정렬하도록 설계되었기 때문에 입력 정보를 완전히 보존하기 위한 사전 훈련된 CLIP 인코더의 제한된 기능으로 인해 일부 불일치를 표시할 수 있습니다.

시각적 적합성을 향상시키기 위해 DynamiCrafter 프레임워크는 입력 이미지에서 추출된 추가 시각적 세부 정보를 비디오 확산 모델에 제공할 것을 제안합니다. 이를 달성하기 위해 DyanmiCrafter 모델은 조건부 이미지를 프레임별 초기 노이즈와 연결하고 이를 지침으로 노이즈 제거 U-Net 구성 요소에 공급합니다.

훈련 패러다임

DynamiCrafter 프레임워크는 세부 지침 및 컨텍스트 제어에서 중요한 역할을 하는 두 개의 보완적인 스트림을 통해 조건부 이미지를 통합합니다. 이를 촉진하기 위해 DynamiCrafter 모델은 3단계 교육 프로세스를 사용합니다.

첫 번째 단계에서 모델은 이미지 컨텍스트 표현 네트워크를 훈련합니다.
두 번째 단계에서 모델은 이미지 컨텍스트 표현 네트워크를 텍스트-비디오 모델에 적용합니다.
세 번째이자 마지막 단계에서 모델은 시각적 세부 안내 구성 요소와 함께 이미지 컨텍스트 표현 네트워크를 미세 조정합니다.

T2V(텍스트-비디오) 모델과의 호환성을 위해 이미지 정보를 조정하기 위해 DynamiCrafter 프레임워크는 주어진 이미지에서 텍스트 정렬된 시각적 세부 정보를 캡처하도록 설계된 컨텍스트 표현 네트워크 P 개발을 제안합니다. P에는 수렴을 위한 많은 최적화 단계가 필요하다는 점을 인식한 프레임워크의 접근 방식에는 초기에 더 간단한 T2I(Text-to-Image) 모델을 사용하여 P를 교육하는 것이 포함됩니다. 이 전략을 통해 상황 표현 네트워크는 T2V 모델의 시간 계층이 아닌 공간 계층과 P와의 공동 훈련을 통해 이미지 컨텍스트를 T2V 모델과 통합하기 전에 이미지 컨텍스트에 대한 학습에 집중할 수 있습니다.

T2V 호환성을 보장하기 위해 DyanmiCrafter 프레임워크는 입력 이미지를 프레임별 노이즈와 병합하여 P 및 VDM(시각 차별 모델) 공간 레이어를 모두 미세 조정합니다. 이 방법은 성능을 저하시키고 기본 목표에서 벗어날 수 있는 조밀한 이미지 병합의 부작용 없이 T2V 모델의 기존 시간 통찰력의 무결성을 유지하기 위해 선택되었습니다. 또한 프레임워크는 두 가지 목표를 달성하기 위해 이미지 조건으로 비디오 프레임을 무작위로 선택하는 전략을 사용합니다. (i) 네트워크가 병합된 이미지를 특정 프레임 위치와 직접 연관시키는 예측 가능한 패턴을 개발하는 것을 방지하고 (ii) 특정 프레임에 대해 지나치게 엄격한 정보를 제공하는 것을 방지하여 보다 적응 가능한 컨텍스트 표현을 장려합니다.

DynamiCrafter : 실험 및 결과

DynamiCrafter 프레임워크는 먼저 Stable Diffusion에서 컨텍스트 표현 네트워크와 이미지 교차 관심 레이어를 교육합니다. 그런 다음 프레임워크는 안정적인 확산 VideoCrafter를 사용하여 구성 요소를 구성하고 상황 표현 네트워크와 적응을 위한 공간 레이어를 추가로 미세 조정하고 이미지 연결을 사용합니다. 추론 시 프레임워크는 다중 조건 분류가 없는 지침이 포함된 DDIM 샘플러를 채택합니다. 또한, 시간적 및 공간적 도메인에서 합성된 비디오의 시간적 일관성과 품질을 평가하기 위해 프레임워크는 FVD(Frechet Video Distance)와 KVD(Kernel Video Distance)를 보고하고 모든 방법에 대한 제로샷 성능을 평가합니다. MSR-VTT 및 UCF-101 벤치마크. 생성된 결과와 입력 이미지 간의 지각적 일치성을 조사하기 위해 프레임워크는 PIC(지각적 입력 적합성)를 도입하고 지각적 거리 측정법인 DreamSim을 거리 함수로 채택합니다.

다음 그림은 생성된 애니메이션 콘텐츠를 다양한 스타일과 콘텐츠로 시각적으로 비교한 것을 보여줍니다.

관찰할 수 있듯이 다양한 방법 중에서 DynamiCrafter 프레임워크는 입력 이미지 조건을 잘 준수하고 시간적으로 일관된 비디오를 생성합니다. 다음 표에는 49명의 참가자를 대상으로 한 사용자 연구의 시간적 일관성(TC) 및 동작 품질(MC)에 대한 선호도와 입력 이미지에 대한 시각적 적합성에 대한 선택률에 대한 통계가 포함되어 있습니다. (IC). 관찰할 수 있듯이 DynamiCrafter 프레임워크는 기존 방법보다 상당한 차이로 성능을 능가할 수 있습니다.

다음 그림은 듀얼 스트림 주입 방법과 훈련 패러다임을 사용하여 얻은 결과를 보여줍니다.

최종 생각

이 기사에서는 이미지 애니메이션 모델의 현재 한계를 극복하고 오픈 월드 이미지와 관련된 일반 시나리오로 적용 가능성을 확장하려는 시도인 DynamiCrafter에 대해 설명했습니다. DynamiCrafter 프레임워크는 오픈 도메인 이미지에 대한 동적 콘텐츠를 합성하여 애니메이션 비디오로 변환하려고 시도합니다. DynamiCrafter의 핵심 아이디어는 이미 존재하는 텍스트 이전의 모션을 비디오 확산 모델에 활용하려는 시도로 이미지를 생성 프로세스에 지침으로 통합하는 것입니다. 지정된 이미지에 대해 DynamiCrafter 모델은 먼저 이미지를 텍스트 정렬된 풍부한 컨텍스트 표현 공간에 투영하는 쿼리 변환기를 구현하여 비디오 모델이 호환 가능한 방식으로 이미지 콘텐츠를 소화할 수 있도록 합니다. 그러나 DynamiCrafter 모델은 여전히 결과 비디오에서 일부 시각적 세부 정보를 보존하는 데 어려움을 겪고 있습니다. 이 문제는 DynamiCrafter 모델이 이미지를 초기 노이즈와 연결하여 확산 모델에 전체 이미지를 공급함으로써 극복하고 더 정확한 이미지로 모델을 보완합니다. 정보.