부본 안정적인 비디오 확산: 대규모 데이터 세트에 대한 잠재 비디오 확산 모델 - Unite.AI
Rescale 미팅 예약

인공 지능

안정적인 비디오 확산: 대규모 데이터 세트에 대한 잠재 비디오 확산 모델

mm
업데이트 on

제너레이티브 AI 한동안 AI 커뮤니티의 원동력이 되어 왔으며 특히 확산 모델을 사용하여 생성 이미지 모델링 분야에서 이루어진 발전은 생성 비디오 모델이 연구뿐만 아니라 측면에서도 크게 발전하는 데 도움이 되었습니다. 실제 응용 프로그램. 일반적으로 생성 비디오 모델은 처음부터 훈련되거나, 이미지와 비디오 데이터 세트가 혼합된 경우 추가 시간 레이어가 있는 사전 훈련된 이미지 모델에서 부분적으로 또는 완전히 미세 조정됩니다. 

이 글에서는 생성적 비디오 모델의 발전에 대해 이야기하겠습니다. 안정적인 영상 확산 모델, 고해상도의 최첨단 이미지를 비디오로, 텍스트를 비디오 콘텐츠로 생성할 수 있는 잠재 비디오 확산 모델입니다. 2D 이미지 합성을 위해 훈련된 잠재 확산 모델이 시간 레이어를 추가하고 고품질 비디오로 구성된 소규모 데이터세트에서 모델을 미세 조정함으로써 생성 비디오 모델의 능력과 효율성을 어떻게 향상시켰는지 이야기하겠습니다. 우리는 Stable Video Diffusion Model의 아키텍처와 작동에 대해 더 자세히 알아보고, 다양한 지표에 대한 성능을 평가하고, 이를 비디오 생성을 위한 최신 프레임워크와 비교할 것입니다. 그럼 시작해 보겠습니다. 

안정적인 비디오 확산 모델 및 생성적 비디오 모델: 소개

거의 무한한 잠재력 덕분에 Generative AI는 한동안 AI 및 ML 실무자의 주요 연구 주제였으며 지난 몇 년 동안 생성 이미지 모델의 효율성과 성능 측면에서 급속한 발전을 보였습니다. 생성적 이미지 모델의 학습을 통해 연구원과 개발자는 생성적 비디오 모델에 대한 진전을 이루어 실용성과 실제 적용이 향상되었습니다. 그러나 생성적 비디오 모델의 기능을 향상시키려는 대부분의 연구는 주로 시간적, 공간적 레이어의 정확한 배열에 초점을 맞추고 있으며, 이러한 생성적 모델의 결과에 대한 올바른 데이터 선택의 영향을 조사하는 데는 거의 관심을 기울이지 않습니다.

생성 이미지 모델의 발전 덕분에 연구자들은 훈련 데이터 분포가 생성 모델의 성능에 미치는 영향이 실제로 중요하고 논쟁의 여지가 없음을 관찰했습니다. 또한 연구자들은 크고 다양한 데이터 세트에서 생성 이미지 모델을 사전 훈련한 다음 더 작은 데이터 세트에서 더 나은 품질로 미세 조정하면 성능이 크게 향상되는 경우가 많다는 사실도 관찰했습니다. 전통적으로 생성적 비디오 모델은 성공적인 생성적 이미지 모델에서 얻은 학습을 구현하며, 연구자들은 아직 데이터의 효과를 연구하지 않았으며 훈련 전략도 아직 연구되지 않았습니다. 안정적인 비디오 확산 모델은 데이터 선택에 특히 중점을 두고 이전에 미지의 영역을 탐험함으로써 생성 비디오 모델의 능력을 향상시키려는 시도입니다. 

최근의 생성적 비디오 모델은 확산 모델과 텍스트 조절 또는 이미지 조절 접근 방식을 사용하여 여러 개의 일관된 비디오 또는 이미지 프레임을 합성합니다. 확산 모델은 반복적인 개선 프로세스를 구현하여 정규 분포에서 샘플의 노이즈를 점진적으로 제거하는 방법을 학습하는 능력으로 알려져 있으며 고해상도 비디오 및 텍스트-이미지 합성에서 원하는 결과를 제공했습니다. 동일한 원리를 핵심으로 사용하는 Stable Video Diffusion Model은 Generative Adversarial Networks(GAN) 및 자동 회귀 모델을 사용하여 비디오 데이터 세트에 대한 잠재 비디오 확산 모델을 어느 정도 훈련합니다. 

안정적인 비디오 확산 모델은 고정된 아키텍처의 잠재 비디오 확산 기준선에 의존하고 고정된 훈련 전략에 따라 데이터 큐레이팅 효과를 평가하기 때문에 생성적 비디오 모델에서는 구현되지 않은 고유한 전략을 따릅니다. Stable Video Diffusion Model은 생성적 비디오 모델링 분야에서 다음과 같은 기여를 하는 것을 목표로 합니다. 

  1. 선별되지 않은 대규모 비디오 샘플 컬렉션을 생성적 비디오 모델에서 사용되는 고품질 데이터 세트로 전환하려는 시도로 체계적이고 효과적인 데이터 선별 워크플로우를 제시합니다. 
  2. 최첨단 이미지를 비디오로, 텍스트를 기존 프레임워크보다 뛰어난 비디오 모델로 훈련합니다. 
  3. 3D 이해와 모델의 강력한 사전 동작을 조사하기 위해 도메인별 실험을 수행합니다. 

이제 Stable Video Diffusion Model은 Latent Video Diffusion Models의 학습과 데이터 큐레이션 기술을 기반으로 구현합니다. 

잠재 비디오 확산 모델

잠재 비디오 확산 모델 또는 Video-LDM은 계산 복잡성을 줄인 잠재 공간에서 기본 생성 모델을 교육하는 접근 방식을 따르며 대부분의 Video-LDM은 사전 교육에 시간 혼합 레이어를 추가하고 결합된 사전 교육된 텍스트-이미지 모델을 구현합니다. 건축학. 결과적으로 대부분의 비디오 잠재 확산 모델은 시간적 계층만 훈련하거나 전체 프레임워크를 미세 조정하는 Stable Video Diffusion Model과 달리 훈련 프로세스를 완전히 건너뜁니다. 또한 텍스트를 비디오 데이터로 합성하기 위해 Stable Video Diffusion Model은 텍스트 프롬프트에 따라 직접적으로 조건을 설정하고 결과는 결과 프레임워크를 다중 뷰 합성 또는 이미지-비디오 모델로 쉽게 미세 조정할 수 있음을 나타냅니다. 

데이터 큐레이션

데이터 큐레이션은 안정적인 비디오 확산 모델뿐만 아니라 생성 모델 전체의 필수 구성 요소입니다. 언어 모델링 또는 차별적인 텍스트에서 이미지 생성을 포함한 다양한 작업 전반에 걸쳐 성능을 높이기 위해 대규모 데이터 세트에서 대형 모델을 사전 훈련하는 것이 필수적이기 때문입니다. , 그리고 훨씬 더. 데이터 큐레이션은 효율적인 언어-이미지 표현 기능을 활용하여 생성적 이미지 모델에서 성공적으로 구현되었습니다. 그러나 생성적 비디오 모델 개발에 대한 논의는 한 번도 집중된 적이 없습니다. 생성적 비디오 모델용 데이터를 선별할 때 개발자가 직면하는 몇 가지 장애물이 있으며, 이러한 문제를 해결하기 위해 안정적인 비디오 확산 모델은 XNUMX단계 교육 전략을 구현하여 향상된 결과를 얻고 성능을 크게 향상시킵니다. 

고품질 비디오 합성을 위한 데이터 큐레이션

이전 섹션에서 설명한 것처럼 Stable Video Diffusion Model은 XNUMX단계 훈련 전략을 구현하여 향상된 결과와 상당한 성능 향상을 가져옵니다. XNUMX단계는 이미지 사전 훈련 2D 텍스트를 이미지 확산 모델로 활용하는 스테이지입니다. XNUMX단계는 비디오 사전 훈련 프레임워크는 대량의 비디오 데이터를 학습합니다. 마지막으로 Stage III이 있습니다. 비디오 미세 조정 모델은 고품질 및 고해상도 비디오의 작은 하위 집합으로 개선됩니다. 

그러나 안정적인 비디오 확산 모델이 이 세 단계를 구현하기 전에 데이터를 처리하고 주석을 추가하는 것이 중요합니다. 데이터는 3단계 또는 비디오 사전 훈련 단계의 기반 역할을 하며 최적의 출력을 보장하는 데 중요한 역할을 하기 때문입니다. 최대 효율성을 보장하기 위해 프레임워크는 먼저 XNUMX가지 다양한 FPS 또는 초당 프레임 수 수준에서 계단식 절단 감지 파이프라인을 구현하며, 이 파이프라인의 필요성은 다음 이미지에 나와 있습니다. 

다음으로, 안정적인 비디오 확산 모델은 세 가지 다양한 합성 캡션 방법을 사용하여 각 비디오 클립에 주석을 추가합니다. 다음 표는 필터링 프로세스 전과 후에 Stable Diffusion Framework에서 사용된 데이터 세트를 비교합니다. 

XNUMX단계: 이미지 사전 훈련

Stable Video Diffusion Model에서 구현된 XNUMX단계 파이프라인의 첫 번째 단계는 이미지 사전 학습이며, 이를 달성하기 위해 초기 Stable Video Diffusion Model 프레임워크는 사전 학습된 이미지 확산 모델, 즉 안정적인 확산 2.1 더욱 강력한 시각적 표현을 갖춘 모델입니다. 

XNUMX단계 : 비디오 사전 훈련

두 번째 단계는 비디오 사전 훈련 단계이며, 다중 모달 생성 이미지 모델에서 데이터 큐레이션을 사용하면 강력한 차별적 이미지 생성과 함께 더 나은 결과와 향상된 효율성을 얻을 수 있다는 연구 결과를 기반으로 합니다. 그러나 생성 비디오 모델에 대해 원치 않는 샘플을 필터링하기 위한 유사한 강력한 기성 표현이 부족하기 때문에 안정적인 비디오 확산 모델은 프레임워크 사전 훈련에 사용되는 적절한 데이터 세트를 생성하기 위한 입력 신호로 인간 기본 설정에 의존합니다. 다음 그림은 소규모 데이터 세트에 대한 비디오 사전 교육의 전반적인 성능을 향상시키는 데 도움이 되는 선별된 데이터 세트에 대한 프레임워크 사전 교육의 긍정적인 효과를 보여줍니다. 

더 구체적으로 말하자면, 프레임워크는 다양한 방법을 사용하여 Latent Video Diffusion의 하위 집합을 선별하고 이러한 데이터 세트에 대해 훈련된 LVD 모델의 순위를 고려합니다. 또한 Stable Video Diffusion 프레임워크는 프레임워크 교육을 위해 선별된 데이터세트를 사용하면 프레임워크와 확산 모델 전반의 성능을 향상시키는 데 도움이 된다는 사실도 발견했습니다. 또한 데이터 큐레이션 전략은 더 크고 관련성이 높으며 실용적인 데이터 세트에서도 작동합니다. 다음 그림은 소규모 데이터 세트에 대한 비디오 사전 교육의 전반적인 성능을 향상시키는 데 도움이 되는 선별된 데이터 세트에 대한 프레임워크 사전 교육의 긍정적인 효과를 보여줍니다. 

XNUMX단계 : 고품질 미세 조정

Stage II까지 Stable Video Diffusion 프레임워크는 비디오 사전 학습 전 성능 향상에 중점을 두고 있으며, 세 번째 단계에서는 프레임워크가 고품질 비디오 미세 조정 후 프레임워크의 성능을 최적화하거나 더욱 향상시키는 데 중점을 두고 있습니다. XNUMX단계에서 XNUMX단계로의 전환은 프레임워크에서 달성됩니다. XNUMX단계에서 프레임워크는 잠상 확산 모델에서 빌린 훈련 기술을 활용하고 훈련 예제의 해상도를 높입니다. 이 접근 방식의 효율성을 분석하기 위해 프레임워크는 초기화 측면에서만 다른 세 가지 동일한 모델과 이를 비교합니다. 첫 번째 동일한 모델은 가중치가 초기화되고 비디오 학습 프로세스는 건너뛰는 반면 나머지 두 개의 동일한 모델은 다른 잠재 비디오 모델에서 빌린 가중치로 초기화됩니다. 

결과 및 결과

이제 Stable Video Diffusion 프레임워크가 실제 작업에서 어떻게 수행되는지, 그리고 현재의 최신 프레임워크와 어떻게 비교되는지 살펴보겠습니다. Stable Video Diffusion 프레임워크는 먼저 최적의 데이터 접근 방식을 사용하여 기본 모델을 훈련한 다음 미세 조정을 수행하여 각 모델이 특정 작업을 수행하는 여러 가지 최첨단 모델을 생성합니다. 

위 그림은 프레임워크에 의해 생성된 비디오 샘플에 대한 고해상도 이미지를 나타내는 반면, 다음 그림은 비디오 샘플에 대한 고품질 텍스트를 생성하는 프레임워크의 기능을 보여줍니다. 

사전 훈련된 기본 MODEL

앞서 논의한 것처럼 Stable Video Diffusion 모델은 Stable Diffusion 2.1 프레임워크를 기반으로 구축되었으며, 최근 연구 결과에 따르면 개발자가 이미지 확산을 훈련할 때 더 나은 해상도의 이미지를 얻기 위해 노이즈 일정을 채택하고 노이즈를 늘리는 것이 중요했습니다. 모델. 이러한 접근 방식 덕분에 Stable Video Diffusion 기본 모델은 강력한 모션 표현을 학습하고 그 과정에서 기본 모델보다 성능이 뛰어납니다. 문자 제로 샷 설정에서 비디오 생성 및 결과가 다음 표에 표시됩니다. 

프레임 보간 및 다중 뷰 생성

Stable Video Diffusion 프레임워크는 다중 뷰 데이터세트에서 이미지를 비디오 모델로 미세 조정하여 객체에 대한 여러 가지 새로운 뷰를 얻습니다. 이 모델은 SVD-MV 또는 Stable Video Diffusion-Multi View 모델로 알려져 있습니다. 원래 SVD 모델은 프레임워크가 단일 이미지를 입력하고 일련의 다중 뷰 이미지를 출력으로 반환하는 방식으로 두 개의 데이터세트를 사용하여 미세 조정되었습니다. 

다음 이미지에서 볼 수 있듯이 Stable Video Diffusion Multi View 프레임워크는 최첨단 Scratch Multi View 프레임워크에 필적하는 높은 성능을 제공하며, 결과는 얻은 학습을 활용하는 SVD-MV의 능력을 명확하게 보여줍니다. 다중 뷰 이미지 생성을 위한 원본 SVD 프레임워크에서 가져온 것입니다. 또한 결과는 SVD 프레임워크에서 미세 조정된 대부분의 모델의 경우와 마찬가지로 상대적으로 적은 수의 반복으로 모델을 실행하는 것이 최적의 결과를 제공하는 데 도움이 된다는 것을 나타냅니다. 

위 그림에서 메트릭은 왼쪽에 표시되어 있으며, 볼 수 있듯이 Stable Video Diffusion Multi View 프레임워크는 Scratch-MV 및 SD2.1 Multi-View 프레임워크보다 상당한 차이로 성능이 뛰어납니다. 두 번째 이미지는 훈련 반복 횟수가 클립 점수 측면에서 프레임워크의 전반적인 성능에 미치는 영향을 보여 주며, SVD-MV 프레임워크는 지속 가능한 결과를 제공합니다. 

최종 생각

이 글에서는 고해상도, 최첨단 이미지를 비디오로, 텍스트를 비디오 콘텐츠로 생성할 수 있는 잠재 비디오 확산 모델인 Stable Video Diffusion에 대해 설명했습니다. 안정적인 비디오 확산 모델은 고정된 아키텍처의 잠재 비디오 확산 기준선에 의존하고 고정된 훈련 전략에 따라 데이터 큐레이팅 효과를 평가하기 때문에 생성적 비디오 모델에서는 구현되지 않은 고유한 전략을 따릅니다. 

우리는 2D 이미지 합성을 위해 훈련된 잠재 확산 모델이 어떻게 이미지의 능력과 효율성을 향상시켰는지에 대해 이야기했습니다. 생성 비디오 모델 시간 레이어를 추가하고 고품질 비디오로 구성된 소규모 데이터 세트에서 모델을 미세 조정합니다. 사전 훈련 데이터를 수집하기 위해 프레임워크는 스케일링 연구를 수행하고 체계적인 데이터 수집 관행을 따르며 궁극적으로 대량의 비디오 데이터를 선별하고 노이즈가 있는 비디오를 생성 비디오 모델에 적합한 입력 데이터로 변환하는 방법을 제안합니다. 

또한 Stable Video Diffusion 프레임워크는 프레임워크 성능에 미치는 영향을 평가하기 위해 독립적으로 분석되는 세 가지 고유한 비디오 모델 교육 단계를 사용합니다. 프레임워크는 궁극적으로 최적의 비디오 합성을 위해 모델을 미세 조정할 수 있을 만큼 강력한 비디오 표현을 출력하며 그 결과는 이미 사용 중인 최첨단 비디오 생성 모델과 비슷합니다. 

"직업은 엔지니어, 마음은 작가". Kunal은 AI와 ML에 대한 깊은 애정과 이해를 가진 기술 작가로, 매력적이고 유익한 문서를 통해 이 분야의 복잡한 개념을 단순화하는 데 전념하고 있습니다.