인공 지능

CameraCtrl: 텍스트-비디오 생성을 위한 카메라 제어 활성화

게재

3 주 전

2024 년 5 월 23 일

텍스트-비디오 또는 T2V 생성을 시도하는 최근 프레임워크는 확산 모델을 활용하여 훈련 과정에 안정성을 추가하고, 텍스트-비디오 생성 프레임워크의 선구자 중 하나인 비디오 확산 모델은 이를 수용하기 위해 2D 이미지 확산 아키텍처를 확장합니다. 비디오 데이터를 수집하고 처음부터 비디오와 이미지에 대한 모델을 공동으로 훈련합니다. 이를 기반으로 Stable Diffusion과 같은 강력한 사전 훈련된 이미지 생성기를 구현하기 위해 최근 연구에서는 사전 훈련된 2D 레이어 사이에 시간 레이어를 인터리브하여 2D 아키텍처를 확장하고 보이지 않는 대규모 데이터 세트에서 새 모델을 미세 조정합니다. 이러한 접근 방식에도 불구하고, 텍스트-비디오 확산 모델은 비디오 샘플을 생성하기 위해 단독으로 사용된 텍스트 설명의 모호함으로 인해 텍스트-비디오 모델이 생성에 대한 제어력이 약해지는 경우가 많기 때문에 중요한 과제에 직면합니다. 이러한 제한을 해결하기 위해 일부 모델은 향상된 지침을 제공하는 반면 다른 모델은 정확한 신호를 사용하여 합성된 비디오에서 장면이나 사람의 동작을 정밀하게 제어합니다. 반면, 이미지를 비디오 생성기에 대한 제어 신호로 채택하여 정확한 시간 관계 모델링 또는 높은 비디오 품질을 제공하는 몇 가지 텍스트-비디오 프레임워크가 있습니다.

제어 가능성은 사용자가 원하는 콘텐츠를 만들 수 있게 해주기 때문에 이미지 및 비디오 생성 작업에서 중요한 역할을 한다고 해도 무방할 것입니다. 그러나 기존 프레임워크는 모델에 더 깊은 내러티브 뉘앙스를 더 잘 표현하기 위한 영화 언어 역할을 하는 카메라 포즈의 정확한 제어를 간과하는 경우가 많습니다. 현재 제어 가능성의 한계를 해결하기 위해 이 기사에서는 텍스트와 비디오 모델의 정확한 카메라 포즈 제어를 가능하게 하는 새로운 아이디어인 CameraCtrl에 대해 설명합니다. 모델은 카메라의 궤적을 정확하게 매개변수화한 후 텍스트-비디오 모델에서 플러그 앤 플레이 카메라 모듈을 학습하고 다른 구성 요소는 그대로 둡니다. 또한 CameraCtrl 모델은 다양한 데이터 세트의 효과에 대한 포괄적인 연구를 수행하며 유사한 모양과 다양한 카메라 분포를 가진 비디오가 모델의 전반적인 제어 가능성과 일반화 능력을 향상시킬 수 있음을 제안합니다. 실제 작업에서 CameraCtrl 모델의 성능을 분석하기 위해 수행된 실험은 정밀하고 도메인 적응형 카메라 제어를 달성하는 프레임워크의 효율성을 나타내며, 카메라 포즈와 텍스트 입력에서 사용자 정의되고 동적 비디오 생성을 추구하기 위한 방법을 제시합니다.

이 기사는 CameraCtrl 프레임워크를 심층적으로 다루는 것을 목표로 하며 프레임워크의 메커니즘, 방법론, 아키텍처를 탐색하고 최신 프레임워크와 비교합니다. 그럼 시작해 보겠습니다.

CameraCtrl : T2V 세대를 위한 카메라 제어

최근 확산 모델의 개발 및 발전으로 인해 최근 몇 년 동안 텍스트 안내 비디오 생성이 크게 향상되었으며 콘텐츠 디자인 작업 흐름에 혁명이 일어났습니다. 제어 가능성은 사용자가 자신의 필요와 요구 사항에 따라 생성된 결과를 맞춤 설정할 수 있으므로 실제 비디오 생성 응용 프로그램에서 중요한 역할을 합니다. 높은 제어 가능성을 통해 모델은 생성된 비디오의 사실성, 품질 및 유용성을 향상시킬 수 있습니다. 텍스트 및 이미지 입력은 모델에서 전반적인 제어 가능성을 향상시키기 위해 일반적으로 사용되지만 모션 및 콘텐츠에 대한 정확한 제어가 부족한 경우가 많습니다. . 이러한 제한을 해결하기 위해 일부 프레임워크에서는 포즈 뼈대, 광학 흐름 및 기타 다중 모드 신호와 같은 제어 신호를 활용하여 비디오 생성을 안내하는 보다 정확한 제어를 가능하게 하는 것을 제안했습니다. 기존 프레임워크가 직면한 또 다른 한계는 생성된 비디오의 사실성을 향상시킬 뿐만 아니라 사용자 정의된 시점을 허용함으로써 카메라 제어 기능이 중요하기 때문에 비디오 생성 시 카메라 지점을 자극하거나 조정하는 것에 대한 정밀한 제어가 부족하다는 것입니다. 게임 개발, 증강 현실, 가상 현실에 필수적인 기능인 사용자 참여를 향상시킵니다. 또한, 카메라 움직임을 능숙하게 관리하는 것은 제작자가 캐릭터 관계를 강조하고, 감정을 강조하고, 대상 청중의 초점을 안내할 수 있게 해준다. 이는 영화와 광고 산업에서 매우 중요한 일이다.

이러한 한계를 해결하고 극복하기 위해 CameraCtrl 프레임워크는 비디오 생성을 위해 카메라의 시점을 제어할 수 있는 기능을 갖춘 학습 가능하고 정밀한 플러그 앤 플레이 카메라 모듈입니다. 그러나 맞춤형 카메라를 기존 텍스트-비디오 모델 파이프라인에 통합하는 것은 말처럼 쉽지 않은 작업이므로 CameraCtrl 프레임워크는 모델 아키텍처에서 카메라를 효과적으로 표현하고 삽입하는 방법을 찾아야 합니다. 같은 맥락에서 CameraCtrl 프레임워크는 카메라 매개변수의 기본 형식으로 플러커 임베딩을 채택하고, 플러커 임베딩을 선택한 이유는 카메라 자세 정보의 기하학적 설명을 인코딩하는 기능 때문일 수 있습니다. 또한, 훈련 후 CameraCtrl 모델의 일반화 및 적용 가능성을 보장하기 위해 모델에는 플러커 임베딩만 입력으로 허용하는 카메라 제어 모델이 도입되었습니다. 카메라 제어 모델이 효과적으로 훈련되도록 하기 위해 프레임워크와 개발자는 다양한 훈련 데이터가 합성 데이터에서 실제 데이터에 이르기까지 프레임워크에 어떤 영향을 미치는지 조사하기 위한 포괄적인 연구를 수행합니다. 실험 결과는 다양한 카메라 포즈 분포와 원래 기본 모델과 유사한 모양으로 데이터를 구현하는 것이 제어 가능성과 일반화 가능성 사이에서 최상의 균형을 달성한다는 것을 나타냅니다. CameraCtrl 프레임워크의 개발자는 AnimateDiff 프레임워크 위에 모델을 구현하여 다양한 개인화된 비디오 생성에서 정밀한 제어를 가능하게 하고 광범위한 비디오 제작 컨텍스트에서 다양성과 유용성을 보여줍니다.

AnimateDiff 프레임워크는 효율적인 로라 다양한 유형의 샷에 대한 모델의 가중치를 얻기 위한 미세 조정 접근 방식입니다. Direct-a-video 프레임워크는 비디오 생성 과정에서 카메라의 포즈를 제어하기 위해 카메라 임베더를 구현하도록 제안하지만 세 가지 카메라 매개변수만 조건으로 하여 카메라 제어 기능을 가장 기본적인 유형으로 제한합니다. 반면에 MotionCtrl을 포함한 프레임워크는 3개 이상의 입력 매개변수를 수용하고 더 복잡한 카메라 자세로 비디오를 생성할 수 있는 모션 컨트롤러를 설계합니다. 그러나 생성된 비디오의 일부를 미세 조정해야 하는 필요성은 모델의 일반화를 방해합니다. 또한 일부 프레임워크는 깊이 맵과 같은 추가적인 구조적 제어 신호를 프로세스에 통합하여 이미지와 텍스트 생성 모두에 대한 제어 가능성을 향상시킵니다. 일반적으로 모델은 이러한 제어 신호를 추가 인코더에 공급한 다음 다양한 작업을 사용하여 신호를 생성기에 주입합니다.

CameraCtrl: 모델 아키텍처

카메라 인코더의 아키텍처와 교육 패러다임을 살펴보기 전에 다양한 카메라 표현을 이해하는 것이 중요합니다. 일반적으로 카메라 포즈는 내부 및 외부 매개변수를 참조하며, 카메라 포즈에 대한 비디오 생성기 조건을 지정하는 간단한 선택 중 하나는 카메라 매개변수에 관한 원시 값을 생성기에 공급하는 것입니다. 그러나 이러한 접근 방식을 구현해도 몇 가지 이유로 정확한 카메라 제어가 향상되지 않을 수 있습니다. 첫째, 회전 행렬은 직교성에 의해 제한되는 반면, 변환 벡터는 일반적으로 크기가 제한되지 않으며 제어 일관성에 영향을 미칠 수 있는 학습 프로세스의 불일치로 이어집니다. 둘째, 원시 카메라 매개변수를 직접 사용하면 모델이 이러한 값을 이미지 픽셀과 연관시키기 어려워 시각적 세부사항에 대한 제어력이 저하될 수 있습니다. 이러한 제한을 피하기 위해 CameraCtrl 프레임워크는 플러커 임베딩이 비디오 프레임의 각 픽셀에 대한 기하학적 표현을 갖고 카메라 포즈 정보에 대한 보다 정교한 설명을 제공할 수 있으므로 카메라 포즈에 대한 표현으로 플러커 임베딩을 선택합니다.

비디오 생성기의 카메라 제어 가능성

모델이 카메라의 궤적을 플러커 임베딩 시퀀스, 즉 공간 맵으로 매개변수화하므로 모델은 인코더 모델을 사용하여 카메라 특징을 추출한 다음 카메라 특징을 비디오 생성기에 융합할 수 있습니다. 비슷하다 텍스트를 이미지로 어댑터인 CameraCtrl 모델에는 비디오용으로 특별히 설계된 카메라 인코더가 도입되었습니다. 카메라 인코더에는 각 컨볼루셔널 블록 뒤에 시간적 주의 모델이 포함되어 있어 비디오 클립 전체에서 카메라 포즈의 시간적 관계를 캡처할 수 있습니다. 다음 이미지에서 볼 수 있듯이 카메라 인코더는 플러커 임베딩 입력만 허용하고 다중 스케일 기능을 제공합니다. CameraCtrl 모델은 다중 스케일 카메라 기능을 얻은 후 이러한 기능을 텍스트-비디오 모델의 U-net 아키텍처에 원활하게 통합하는 것을 목표로 하며 카메라 정보를 효과적으로 통합하는 데 사용해야 하는 레이어를 결정합니다. 또한, 대부분의 기존 프레임워크는 시간적 및 공간적 주의 레이어를 모두 포함하는 U-Net과 같은 아키텍처를 채택하기 때문에 CameraCtrl 모델은 카메라 표현을 시간적 주의 블록에 주입합니다. 이는 시간적 주의 능력에 의해 뒷받침되는 결정입니다. 개별 프레임을 묘사하는 공간 주의 레이어와 함께 카메라 궤적의 고유한 캐주얼하고 순차적인 특성에 맞춰 시간적 관계를 캡처하는 레이어입니다.

카메라 분포 학습

비디오 생성기의 CameraCtrl 프레임워크 내에서 카메라 인코더 구성 요소를 교육하려면 모션 또는 SfM 접근 방식의 구조를 사용하여 카메라 궤적을 얻을 수 있는 모델과 함께 잘 레이블이 지정되고 주석이 달린 대량의 비디오가 필요합니다. CameraCtrl 프레임워크는 기본 텍스트의 훈련 데이터와 비디오 모델이 밀접하게 일치하는 모양을 가진 데이터 세트를 선택하고 카메라 포즈 분포를 최대한 넓게 갖도록 시도합니다. 가상 엔진을 사용하여 생성된 데이터세트의 샘플은 개발자가 렌더링 단계에서 카메라의 매개변수를 유연하게 제어할 수 있기 때문에 다양한 카메라 분포를 나타냅니다. 하지만 실제 샘플이 포함된 데이터세트와 비교할 때 배포 격차가 발생합니다. 실제 샘플이 포함된 데이터세트로 작업할 때 카메라 분포는 일반적으로 좁으며, 이러한 경우 프레임워크는 다양한 카메라 궤적 간의 다양성과 개별 카메라 궤적의 복잡성 사이의 균형을 찾아야 합니다. 개별 카메라 궤적의 복잡성으로 인해 모델은 훈련 과정에서 복잡한 궤적을 제어하는 방법을 학습할 수 있으며, 다양한 카메라 궤적 간의 다양성으로 인해 모델이 특정 고정 패턴에 과적합되지 않도록 보장됩니다. 또한 카메라 인코더의 훈련 과정을 모니터링하기 위해 CameraCtrl 프레임워크는 생성된 샘플의 카메라 궤적과 입력 카메라 조건 간의 오류를 정량화하여 카메라 제어 품질을 측정하는 카메라 정렬 메트릭을 제안합니다.

CameraCtrl: 실험 및 결과

CameraCtrl 프레임워크는 AnimateDiff 모델을 기본 텍스트-비디오 모델로 구현하며 그 뒤에 있는 주요 이유는 AnimateDiff 모델의 교육 전략을 통해 모션 모듈이 텍스트-이미지 기본 모델 또는 텍스트-이미지 LoRA와 통합하여 비디오를 수용할 수 있다는 것입니다. 다양한 장르와 영역을 넘나드는 세대. 모델은 Adam 최적화 프로그램을 사용하여 1e-4의 일정한 학습 속도로 모델을 훈련합니다. 또한 모델이 원본의 비디오 생성 기능에 영향을 미치지 않도록 보장합니다. 텍스트를 비디오 모델로 부정적으로 CameraCtrl 프레임워크는 FID 또는 Frechet Inception Distance 측정법을 활용하여 비디오의 모양 품질을 평가하고 카메라 모듈을 포함하기 전후에 생성된 비디오의 품질을 비교합니다.

성능을 평가하기 위해 CameraCtrl 프레임워크는 두 가지 기존 카메라 제어 프레임워크인 MotionCtrl 및 AnimateDiff에 대해 평가됩니다. 그러나 AnimateDiff 프레임워크는 8개의 기본 카메라 궤적만 지원하므로 CameraCtrl과 AnimateDiff 간의 비교는 3개의 기본 궤적으로 제한됩니다. 반면에 MotionCtrl과의 비교를 위해 프레임워크는 기본 카메라 궤적 외에도 기존 데이터세트에서 수천 개 이상의 무작위 카메라 궤적을 선택하고 이러한 궤적을 사용하여 비디오를 생성하며 TransErr 및 RotErr 측정항목을 사용하여 평가합니다.

관찰할 수 있듯이 CameraCtrl 프레임워크는 기본 궤적에서 AnimateDiff 프레임워크보다 성능이 뛰어나고 복잡한 궤적 측정 항목에서 MotionCtrl 프레임워크와 비교할 때 더 나은 결과를 제공합니다.

또한 다음 그림은 생성된 샘플의 전체 품질에 대한 카메라 인코더 아키텍처의 영향을 보여줍니다. 행 a ~ 행 d는 각각 ControlNet, Temporal Attention이 있는 ControlNet, T2I 어댑터 및 Temporal Attention이 있는 T2I 어댑터 아키텍처에 구현된 카메라 인코더를 사용하여 생성된 결과를 나타냅니다.

다음 그림에서 처음 두 개는 SparseCtrl 프레임워크의 RGB 인코더와 CameraCtrl 프레임워크에서 사용되는 방법의 조합을 사용하여 생성된 비디오를 대체합니다.

최종 생각

이 기사에서는 비디오 모델에 대한 텍스트의 정확한 카메라 포즈 제어를 가능하게 하는 새로운 아이디어인 CameraCtrl에 대해 설명했습니다. 모델은 카메라의 궤적을 정확하게 매개변수화한 후 텍스트-비디오 모델에서 플러그 앤 플레이 카메라 모듈을 학습하고 다른 구성 요소는 그대로 둡니다. 또한 CameraCtrl 모델은 다양한 데이터 세트의 효과에 대한 포괄적인 연구를 수행하며 유사한 모양과 다양한 카메라 분포를 가진 비디오가 모델의 전반적인 제어 가능성과 일반화 능력을 향상시킬 수 있음을 제안합니다. 실제 작업에서 CameraCtrl 모델의 성능을 분석하기 위해 수행된 실험은 정밀하고 도메인 적응형 카메라 제어를 달성하는 프레임워크의 효율성을 나타내며, 카메라 포즈와 텍스트 입력에서 사용자 정의되고 동적 비디오 생성을 추구하기 위한 방법을 제시합니다.