인공지능

생성적 비디오의 ‘사이’를 연결하다

Published December 20, 2024

Updated April 27, 2026

Martin Anderson

Images taken from the FCVG paper and project site, https://arxiv.org/pdf/2412.11755 and https://fcvg-inbetween.github.io/

중국의 새로운 연구는 두 개의 시간적으로 거리가 먼 비디오 프레임 사이의 간격을 보간하는 방법을 개선하고 있습니다. 이것은 생성적 AI 비디오와 비디오 codec 압축을 위한 현실성 경쟁에서 가장 중요한 도전 중 하나입니다.

예시 비디오에서, 왼쪽 열에 시작 프레임과 끝 프레임을 볼 수 있습니다. 경쟁 시스템이 수행해야 할 작업은 두 개의 그림에서 주제가 프레임 A에서 프레임 B로 어떻게 이동할지 추측하는 것입니다. 애니메이션에서, 이 과정을 트위닝이라고 하며, 무성 영화 시대까지 거슬러 올라갑니다.

클릭하여 재생. 첫 번째 열에서 제안된 시작 프레임과 끝 프레임을 볼 수 있습니다. 중간 열과 오른쪽 열의 상단에서 이전 접근 방식을 볼 수 있습니다. 하단 오른쪽에서 새로운 방법이 더 убед적인 결과를 제공하는 것을 볼 수 있습니다.. 출처: https://fcvg-inbetween.github.io/

중국 연구자들이 제안한 새로운 방법은 프레임별 조건 주도 비디오 생성(FCVG)이라고 하며, 위의 비디오에서 볼 수 있듯이, 두 개의 정지 프레임 사이의 원활하고 논리적인 전환을 제공합니다.

대조적으로, 비디오 보간의 가장 유명한 프레임워크 중 하나인 Google의 Large Motion을 위한 프레임 보간(FILM) 프로젝트는, 많은 유사한 접근 방식이 어려움을 겪는 것처럼, 큰 및 대담한 동작을 해석하는 데 어려움을 겪습니다.

비디오에서 시각화된 두 개의 라이벌 프레임워크, 시간 역전 융합(TRF) 및 생성적 중간(GI)는 덜歪曲된 해석을 제공하지만, 두 개의 제공된 프레임의 내재된 논리에 대한 존중 없이, 열렬하고 심지어 코믹한 댄스 동작을 생성합니다.

클릭하여 재생. 트위닝 문제의 두 개의 불완전한 해결책. 왼쪽, FILM는 두 개의 프레임을 단순한 모프 대상으로 처리합니다. 오른쪽, TRF는 어떤 형태의 댄스가 삽입되어야 한다는 것을 알고 있지만, 해부학적 이상을 보여주는 비현실적인 해결책을 제시합니다.

위쪽 왼쪽에서, FILM이 문제를 어떻게 접근하는지 더 자세히 볼 수 있습니다. FILM은 큰 동작을 처리할 수 있도록 설계되었지만, 이전 접근 방식과 달리, 여전히 두 개의 제공된 키 프레임 사이에서 발생하는 것에 대한 의미론적 이해가 부족하며, 단순히 두 개의 프레임 사이에서 1980/90년대 스타일의 모프를 수행합니다. FILM에는 적절한 프레임 사이의 다리를 생성하는 데 도움이 되는 의미론적 아키텍처, 즉 잠재 확산 모델과 같은 안정 확산이 없습니다.

오른쪽에, 위의 비디오에서, TRF의 노력을 볼 수 있습니다. 여기서 안정적인 비디오 확산(SVD)가 사용되어 두 개의 사용자 제공 프레임에 적합한 댄스 동작을 더 지능적으로 “추측”합니다. 그러나 그것은 대담하고 비현실적인 근사치를 만들었습니다.

FCVG, 아래에서 볼 수 있듯이, 두 개의 프레임 사이의 움직임과 내용을 더 신뢰할 수 있는 작업을 합니다.

클릭하여 재생. FCVG는 이전 접근 방식보다 개선되었습니다. 그러나 완벽하지는 않습니다.

여전히 손과 얼굴 정체성의 원치 않는 모핑과 같은 아티팩트가 있지만, 이 버전은 표면적으로 가장 설득력 있는 것입니다. 그리고 상태 오프의 아트를 개선하는 모든 것은 작업이 제시하는巨大한 어려움에 대하여 고려되어야 합니다. 그리고 그것은 AI 생성 비디오의 미래에 대한巨大한 장애물입니다.

보간이 중요한 이유

우리가 이전에 지적한 것처럼, 두 개의 사용자 제공 프레임 사이의 비디오 내용을 신뢰할 수 있게 채우는 능력은 생성적 비디오에서 시간적 일관성을 유지하는 가장 좋은 방법 중 하나입니다. 동일한 사람의 두 개의 실제이고 연속적인 사진은 자연스럽게 일관된 요소, 즉 의류, 머리카락 및 환경을 포함합니다.

단일 시작 프레임만 사용되는 경우, 생성적 시스템의 제한된 주의 창, thường 근처 프레임만 고려하는 경우, 주체의 측면을 점차적으로 “진화”시킵니다. 예를 들어, 한 사람이 다른 사람(또는 여성)으로 변하거나, “모핑” 의류를 갖는 등, 대부분의 오픈 소스 T2V 시스템과 대부분의 유료 솔루션, 예를 들어 Kling에서 생성되는 다른 많은 산만함 중 하나입니다.

클릭하여 재생. 새로운 논문의 두 개의 실제 소스 프레임을 Kling에 입력하면, 프롬프트 ‘지붕 위에서 춤추는 사람’으로 이상적인 해결책이 나오지 않았습니다. Kling 1.6은 생성 당시 사용 가능했지만, 사용자 입력 시작 및 끝 프레임을 지원하는 최신 버전은 V1.5입니다. 출처: https://klingai.com/

문제가 이미 해결되었는가?

반면에, 일부 상업용, 폐쇄형 및 사유 시스템은 이 문제를 더 잘 해결하는 것으로 보입니다. 특히 RunwayML은 두 개의 소스 프레임 사이의 매우 설득력 있는 중간 보간을 생성할 수 있었습니다.

클릭하여 재생.RunwayML의 확산 기반 보간은 매우 효과적입니다. 출처: https://app.runwayml.com/

RunwayML은 두 번째로도 동일하게 신뢰할 수 있는 결과를 생성했습니다.

클릭하여 재생.RunwayML 시퀀스의 두 번째 실행.

여기서 하나의 문제는, 우리는 사유 시스템에서 도전을 해결하고, 오픈 소스 상태의 아트를 발전시키는 방법에 대해 아무것도 배울 수 없다는 것입니다. 우리는, 이러한 우수한 렌더링이 고유한 아키텍처 접근 방식, 데이터(또는 데이터 큐레이션 방법, 즉 필터링 및 주석), 또는 이러한 가능한 연구 혁신의 조합에 의해 달성되었는지 알 수 없습니다.

둘째, 작은 회사, 즉 비주얼 이펙트 회사들은, 장기적으로 B2B API 기반 서비스에 의존할 수 없습니다. 이러한 서비스는 시장에서 지배적이 되고, 따라서 가격을 인상할 가능성이 있습니다.

권리가 잘못된 경우

훨씬 더 중요한 것은, 잘 수행되는 상업적 모델이 라이선스가 없는 데이터에 훈련된 경우, RunwayML의 경우처럼, 이러한 서비스를 사용하는 회사는 하류 법적 노출에 취약할 수 있습니다.

법률(및 일부 소송)은 대통령보다 더 오래 지속되고, 미국 시장은 세계에서 가장 소송이 많은 시장 중 하나이므로, AI 훈련 데이터에 대한 입법적 감독의 현재 추세는, 도널드 트럼프의 다음 대통령任期 동안 ‘軽い 터치’에도 불구하고, 장기적으로 살아남을 것으로 보입니다.

따라서, 컴퓨터 비전 연구 분야는, 이러한 문제를 해결하여, 어떠한 나온 해결책도 장기적으로 지속될 수 있도록, 어려운 방법으로 해결해야 합니다.

FCVG

중국의 새로운 방법은 논문에서 프레임별 조건 주도 비디오 생성을 통한 생성적 중간이라고 제목이 붙여졌으며, 하르빈 공과 대학과 天津大学의 다섯 연구자에 의해 제시되었습니다.

FCVG는 프레임별 조건을 사용하여 보간 작업의 모호성을 해결합니다. 이것은 사용자 제공 시작 및 끝 프레임의 경계를 정의하는 프레임워크를 사용하여, 개별 프레임 사이의 전환과 전체 효과를 더 일관되게 추적하는 데 도움이 됩니다.

프레임별 조건은, 두 개의 프레임 사이의 매우 큰 의미론적 공백을 채우려고 시도하는 대신, 중간 프레임의 생성을 하위 작업으로 나눕니다.

위의 그래픽에서, 저자는 이전의 시간 역전 방법을 비교합니다. TRF는 사전 훈련된 이미지-비디오 모델(SVD)을 사용하여 두 개의 비디오 생성 경로를 생성합니다. 하나는 시작 프레임에 조건부인 ‘전방’ 경로이고, 다른 하나는 끝 프레임에 조건부인 ‘후방’ 경로입니다. 두 경로 모두 동일한 랜덤 노이즈에서 시작됩니다. 이것은 아래의 이미지 왼쪽에 설명되어 있습니다.

FCVG 이전 접근 방식의 비교. 출처: https://arxiv.org/pdf/2412.11755

저자는 FCVG가 시간 역전 방법보다 개선된 것으로 주장합니다. 각 프레임에 명시적인 조건을 제공함으로써, 전방 및 후방 생성 경로 사이의 모호성이 크게 완화됩니다.

시간 역전 방법, 즉 TRF는, 전방 및 후방 생성 경로가 분기될 수 있으므로, 불일치 또는 불일치로 이어질 수 있습니다. FCVG는 시작 및 끝 프레임 사이의 일치하는 선을 생성하여, 생성 과정을 안내하는 데 도움이 됩니다.

클릭하여 재생. FCVG 프로젝트 페이지의 또 다른 비교.

시간 역전은, 사전 훈련된 비디오 생성 모델을 중간 보간에 사용할 수 있지만, 몇 가지 단점이 있습니다. I2V 모델에 의해 생성된 동작은, 순수한 이미지-비디오(I2V) 작업에 유용하지만, 비디오 경로에 모호성을 생성합니다.

시간 역전은 또한, 각 생성 비디오의 프레임 속도와 같은 하이퍼파라미터의 노동적인 조정이 필요합니다. 또한, 시간 역전의 일부 기술은, 모호성을 줄이기 위해, 추론 시간을 증가시키며, 처리 시간을 느리게 합니다.

방법

저자는, 이러한 문제 중 첫 번째가 해결되면, 모든 후속 문제가 해결될 것이라고 관찰합니다. 이것은 이전의 제안, 즉 GI 및 ViBiDSampler에서 시도되었습니다.

논문은 다음과 같이 말합니다:

‘그러나 여전히 이러한 경로 사이에 상당한 확률성이 존재하여, 특히 인간 姿勢의 급격한 변화와 같은 대형 동작 시나리오에서 이러한 방법의 효과를 제한합니다. 중간 경로의 모호성은 주로 중간 프레임에 대한 조건이 불충분하여 발생합니다. 두 개의 입력 이미지에서는 시작 및 끝 프레임에 대한 조건만 제공합니다.’

‘따라서 우리는 각 프레임에 대한 명시적인 조건을 제공하는 것을 제안합니다. 이것은 중간 경로의 모호성을 크게 완화합니다.’

FCVG의 핵심 개념을 아래의 스키마에서 볼 수 있습니다. FCVG는 두 개의 입력 프레임과 일관되게 시작 및 끝나는 일련의 비디오 프레임을 생성합니다. 이것은 프레임별 조건을 제공하여, 비디오 생성 과정을 시간적으로 안정적으로 만듭니다.

FCVG의 추론 스키마.

이 재고된 시간 역전 접근법에서, 방법은, 전방 및 후방 방향의 정보를 결합하여, 원활한 전환을 생성합니다. 반복적인 과정에서, 모델은 점차적으로 잡음이 있는 입력을 정제하여, 최종적으로 중간 보간 프레임을 생성합니다.

다음 단계에서는, 사전 훈련된 GlueStick 라인 매칭 모델을 사용하여, 두 개의 계산된 시작 및 끝 프레임 사이의 일치점을 생성하며, 선택적으로 스켈레탈 姿勢를 사용하여 모델을 안내합니다.

FCVG\*에서 안정적인 비디오 확산으로 프레임별 조건을 삽입하는 방법.

저자는 다음과 같이 말합니다:

‘우리는 경험적으로 대부분의 경우에 선형 보간이 시간적 안정성을 보장하기에 충분하다는 것을 발견했으며, 우리의 방법은 사용자가 원하는 비디오를 생성하기 위해 비선형 보간 경로를 지정할 수 있도록 허용합니다.’

전방 및 후방 프레임별 조건을 설정하는 워크플로우. 애니메이션이 개발됨에 따라 내용을 일관되게 유지하는 일치하는 색상을 볼 수 있습니다.

SVD에 얻은 프레임별 조건을 삽입하기 위해, FCVG는 2024년 ControlNeXt 이니셔티브에서 개발된 방법을 사용합니다. 이 과정에서, 제어 조건은 여러 ResNet 블록에 의해最初에 인코딩되며, 조건 및 SVD 워크플로우 분기 사이의 교차 정규화가 수행됩니다.

70,000 번의 반복으로, AdamW 옵티마이저를 사용하여, NVIDIA A800 GPU에서, 1×10^-6의 학습률로, 512×320 패치로 자른 프레임으로, 대부분의 모델 매개변수가 고정된 상태에서, SVD 모델의 미세 조정을 수행했습니다.

경쟁 프레임워크로는 FILM, GI, TRF 및 DynamiCrafter가 테스트되었습니다.

양적 평가를 위해, 처리된 프레임 간격은 12에서 23 사이였습니다.

이전 프레임워크와의 양적 결과.

이러한 결과에 대해, 논문은 다음과 같이 말합니다:

‘우리의 방법은 모든 생성적 접근 방식에서 모든 메트릭스에 걸쳐 최고의 성능을 달성합니다. FILM과의 LPIPS 비교에서, 우리의 FCVG는わず간 하위이지만, 다른 메트릭스에서 우수한 성능을 보여줍니다. LPIPS에 시간 정보가 없다는 것을 고려하면, 다른 메트릭스와 시각적 관찰을 우선하는 것이 더 적절할 수 있습니다. ‘

‘또한, 다른 프레임 간격에서 결과를 비교하면, FILM은 간격이 작을 때 잘 작동할 수 있지만, 생성적 방법은 큰 간격에 더 적합합니다. 이러한 생성적 방법 중에서, 우리의 FCVG는 명시적인 프레임별 조건으로 인해 상당한 우수성을 보여줍니다.’

질적 테스트를 위해, 저자는 프로젝트 페이지에 있는 비디오(이 기사에 일부 포함됨)를 생성했으며, 정적 및 애니메이션 결과를 PDF 논문에 포함했습니다.

논문에서 샘플 정적 결과. 더好的 해상도와 애니메이션을 위해 PDF 원본을 참조하십시오.

저자는 다음과 같이 말합니다:

‘FILM은 작은 동작 시나리오에서 원활한 보간 결과를 생성하지만, 큰 동작에서는 광학 흐름의 내재된 제한으로 인해, 배경 및 손의 움직임과 같은 현저한 아티팩트가 발생합니다. ‘

‘생성적 모델, 즉 TRF 및 GI는, 중간 경로의 모호성으로 인해, 특히 복잡한 장면에서 인간 및 객체 동작과 같은 불안정한 중간 동작을 생성합니다. ‘

‘반면, 우리의 방법은 다양한 시나리오에서 일관되게 만족스러운 결과를 제공합니다. ‘

저자는 또한 FCVG가 애니메이션 스타일 비디오에异常으로 일반화되는 것을 발견했습니다.

클릭하여 재생.FCVG는 카툰 스타일 애니메이션에 매우 설득력 있는 결과를 생성합니다.

결론

FCVG는 비공개적이지 않은 상황에서 프레임 보간의 상태 오프의 아트를 나타내는 ít 적어도.incremental 개선입니다. 저자는 이 작업의 코드를 GitHub에 공개했습니다. 그러나 관련 데이터셋은 아직 출시되지 않았습니다.

만약 사유 상업 솔루션이 비공개 데이터를 사용하여 오픈 소스 노력을 능가한다면, 이러한 접근 방식에는 상업적 사용에 대한 미래가 거의 없습니다. 위험은 단순히 너무 크기 때문입니다.

따라서, 오픈 소스 장면이 현재 시장 리더의 인상적인 쇼케이스를 따라가지 못할 수 있지만, 이것은 결승선에 도달하는 우龜가 될 수 있습니다.

* 출처: https://openaccess.thecvf.com/content/ICCV2023/papers/Pautrat_GlueStick_Robust_Image_Matching_by_Sticking_Points_and_Lines_Together_ICCV_2023_paper.pdf

^† Acrobat Reader, Okular 또는 PDF 애니메이션을 재생할 수 있는 다른 PDF 뷰어가 필요한 애니메이션을 포함합니다.

最初에 2024년 12월 20일 게시되었습니다.