Anderson의 관점

비디오를 1fps 이상의 속도로 캡션하는 도전

Published March 19, 2025

Updated April 26, 2026

Martin Anderson

Trails in a basketball scene - source: https://www.youtube.com/watch?v=ORfjgE6n2Pc

기계 학습 시스템이 비디오 내에서 발생하는 이벤트를 인식하는 능력은 AI 기반 비디오 생성의 미래에 중요합니다. 비디오 데이터셋은 사용자의 요청에 따라 모델을 생성하고 과도한 홀루션을 방지하기 위해 정확한 캡션을 요구하기 때문입니다.

구글의 VidReCap 프로젝트에서 사용된 캡션 스키마의 예입니다. 소스: https://sites.google.com/view/vidrecap

효과적인 훈련 데이터셋을 위해 필요한 비디오의 규모를 수동으로 캡션하는 것은 불가능한 일이 아닙니다. 비디오를 자동 캡션하는 AI 시스템을 훈련하는 것이 가능하지만, 여전히 다양한 예제와 커버리지에 대한 인간 생성 예제가 필요합니다.

더욱 중요한 것은 거의 모든 현재 AI 기반 비디오 캡션 모델이 1fps에서 작동한다는 것입니다. 이는 많은 시나리오에서 변화를 식별하기에 충분한 밀도가 아닌 캡처 속도입니다. 예를 들어 감정 인식 시스템을 위한 순간적인 마이크로 표현 변경, 농구와 같은 고속 스포츠에서 빠른 이벤트, 폭력적인 동작, 드라마틱한 영화에서 빠른 컷과 같은 시나리오에서 시스템은 PySceneDetect와 같은 시스템이 이러한 컷을 식별하지 못하거나 사용하지 않을 수 있습니다.

재생을 위해 클릭하세요.세계에서 가장 느린 스포츠 중 하나인 스누커에서 알렉스 히긴스가 1982년 레이 레이든을 상대로 세계 선수권을 차지하는 빠르지만 삶을 변화시키는 행동입니다. 소스: https://www.youtube.com/watch?v=_1PuqKno_Ok

빠르게 이동하고 논리를 깨뜨리기

이 낮은 속도는 다양한 논리적인 이유로 표준이 되었습니다. 하나는 비디오 캡션은 시스템이 순차적으로 한 프레임씩 공부하거나 여러 프레임을 의미적으로 일관된 캡션 시퀸스로 변환하는 다양한 방법을 사용하는 경우에도 자원 집약적인 활동이라는 것입니다. 어느 경우에든 컨텍스트 윈도우는 하드웨어 제약에 의해 제한됩니다.

1fps가 현재 표준인 또 다른 이유는 비디오가 일반적으로 빠른 이벤트로 가득 차 있지 않기 때문입니다. 따라서 300개의 정적 스누커 테이블 프레임에 동일한 관심을 주는 것은 선수권을赢하는 블랙 볼을 포트하는 순간과 같습니다(위의 예를 참조하십시오).

고속 스포츠 비디오에서 빠른 슬램 덩크에 대한 지속적인 관중 반응과 같은 보조 단서를 사용하여 비디오의 임계적 순간을 식별하는 것이 가능합니다. 그러나 이러한 단서가 다른 이유로 발생할 수 있으며 의존할 수 없습니다. 이것은 잘못 레이블이 붙은 비디오 데이터셋이 환각이나 잘못된 지시를 생성하는 생성 비디오 모델로 이어질 수 있는 예입니다. 즉, 모델은 슬램 덩크를 생성하라는 요청을 받았음에도 불구하고 선수 부상을 표시할 수 있습니다(관중의 동요와 같은 ‘보조 단서’가 특정 유형의 이벤트에 독점적이지 않기 때문입니다).

이것은 여러 가지면에서 예산 문제이지만 다른 면에서는 절차적인 문제입니다. 지금까지의 프레임워크는 희소한 키 프레임이 비디오의 기본 정보를 효과적으로 캡처할 수 있다는 원칙을 기반으로 작동했습니다. 그러나 이것은 장르와 같은 비디오의 주제에 대한 다른 측면을 설정하는 데 더 효과적입니다. 증거는 이 경우 여러 프레임에 걸쳐 존재하기 때문입니다.

F-16

중국에서 발표된 새로운 논문은 첫 번째 다중 모달 대규모 언어 모델(MLLM 또는 단순히 LLM)을 제시하며, 이는 1fps가 아닌 16fps에서 비디오를 분석할 수 있습니다. 또한 주요한 함정은 분석 속도를 증가시키는 것을 피합니다.

테스트에서 저자는 새로운 시스템인 F-16이 GPT-4o와 Google의 Gemini-1.5 프로와 같은 사유 상태 오프 더 아트 모델을 능가한다고 주장합니다. 다른 현재 모델은 테스트에서 F-16의 결과를 일치시키거나 초과할 수 있었습니다. 그러나 경쟁 모델은 훨씬 더 크고 다루기 어려웠습니다.

F-16는 일부 심각한 하드웨어(稍後 살펴보겠습니다)에서 훈련되었지만 추론은 일반적으로 훈련보다 훨씬 덜 요구됩니다. 따라서 코드(近日公開予定)를 중간 또는 고급 수준의 국내 GPU에서 실행할 수 있기를 기대할 수 있습니다.

호비스트 씬(그리고 대부분의 경우 전문가 VFX 씬)의 생명력에 필요한 것은 이러한 유형의 비디오 캡션 모델입니다. 소비자 시스템에서 작동할 수 있어야 하며, 전체 생성 비디오 씬이 API 기반 상업 시스템으로 이전하거나 소비자가 로컬 프레임워크를 상업 온라인 GPU 서비스에 연결하도록 강제하지 않아야 합니다.

스케일링 업을 넘어서

저자는 이러한 접근 방식이 데이터셋을 확대하는 것의 실제 대안이라고 관찰합니다. 또한 데이터를 문제에 더 많이 던져도 이 접근 방식이 더 선호될 수 있다는 것을 추론할 수 있습니다. 새로운 시스템은 더 세분화된 방식으로 이벤트를 구별합니다.

저자는 다음과 같이 말합니다:

‘낮은 프레임 속도 샘플링은 특히 빠르게 변경되는 장면, 복잡한 세부 사항 또는 빠른 동작이 있는 비디오에서 중요한 시각적 정보 손실을 초래할 수 있습니다. 또한 키 프레임이 누락되면 모델이 예상된 내용과 예측을 일치시키는 데 어려움을 겪을 수 있으며 이는 환각과 성능 저하로 이어질 수 있습니다…

‘… F-16은 유사한 크기의 모델 중에서 일반 비디오 QA에서 최적의 성능을 달성하며 고 프레임 속도 비디오 이해에서 명확한 이점을 보여주며 GPT-4o와 같은 상업 모델을 능가합니다. 이 연구는 다중 모달 LLM 연구에서 고 프레임 속도 비디오 이해를 향상시키는 새로운 방향을 열어줍니다.’

새로운 논문은 고 프레임 속도 비디오 이해를 개선하는 LLM으로 제목이 붙여졌으며, 청화 대학과 바이트댄스에서 8명의 저자가 참여했습니다.

방법

연속적인 프레임은 종종 중복된 정보를 포함하므로 F-16은 키 모션 세부 정보를 압축 및 인코딩하면서 시각적 의미를 유지하는 고 프레임 속도 정렬기를 적용합니다. 각 프레임은 먼저 사전 훈련된 이미지 인코더에 의해 처리되어 기능 표현이 추출된 다음 가우시안 오류 선형 유닛(GELU)에 기반한 정렬기에 전달됩니다.

F-16의 아키텍처는 16fps에서 비디오를 처리하며 전통적인 저 프레임 속도 모델보다 더 많은 프레임을 캡처합니다. 고 프레임 속도 정렬기는 시각적 의미를 유지하면서 동적을 효율적으로 인코딩합니다. 소스: https://arxiv.org/pdf/2503.13956

프레임 수를 효율적으로 처리하기 위해 F-16은 프레임을 작은 처리 창으로 그룹화하고 3층 다층 퍼셉트론(MLP)를 사용하여 시각적 기능을 결합하여 가장 관련이 있는 모션 세부 정보만 유지합니다. 공간 최대 풀링 레이어는 토큰 수를 추가로 압축하여 계산 비용을 제한 내에서 유지합니다.

처리된 비디오 토큰은 Qwen2-7B LLM에 입력되어 사용자 프롬프트와 추출된 시각적 기능을 기반으로 텍스트 응답을 생성합니다.

이러한 방식으로 비디오 입력을 구조화함으로써 F-16은 저자가 주장하듯이 동적 장면에서 더 정확한 이벤트 인식을 가능하게 합니다.

단축 버전

F-16은 사전 훈련된 이미지 LLM LLaVA-OneVision을 확장하여 고 프레임 속도 정렬기를 사용하여 비디오를 처리합니다. 표준 이미지 LLM은 분리된 프레임을 처리하는 반면 F-16의 고 프레임 속도 정렬기는 여러 프레임을 모델이 더 효율적으로 처리할 수 있는 형식으로 재구성합니다. 이는 시스템을 중복된 정보로 압도하는 것을 피하는 동시에 정확한 비디오 이해를 위해 필요한 주요 모션 큐를 유지합니다.

이미지 기반 기초와의 호환성을 보장하기 위해 F-16은 정렬기를 서브 매트릭스로 재구성하여 사전 훈련된 매개변수를 재사용합니다. 이 접근 방식은 단일 프레임 모델에서 지식을 통합하면서 순차적 비디오 입력에 적응할 수 있습니다.

정렬기는 먼저 프레임 시퀀스를 LLM에 최적화된 형식으로 압축 및 인코딩하여 가장 информатив한 기능을 유지하면서 불필요한 세부 정보를 삭제합니다. 아키텍처 설계는 시스템이 고 프레임 속도 비디오를 처리할 수 있도록 하며 계산 요구를 제어합니다. 이는 확장성이 전방향으로 나아가는 유일한 방법이 아니라는 것을 나타냅니다.

템포의 변화

고 프레임 속도에서 비디오를 처리하면 동작 이해가 개선되지만 계산 비용이 증가합니다. 특히 추론 중에 증가합니다. F-16은 가변 프레임 속도 디코딩 방법을 도입하여 프레임 속도를 동적으로 조정할 수 있습니다.

F-16에서 사용 가능한 단일 프레임 및 고 프레임 속도 정렬기.

이 유연성은 모델이 높은 정밀도가 필요하지 않은 경우 효율적으로 낮은 프레임 속도에서 작동할 수 있으며 계산 오버헤드를 줄입니다.

테스트 시간에 낮은 프레임 속도가 선택되면 F-16은 이전에 훈련된 정렬기 매개변수를 재사용하여 입력 프레임을 반복하여 기대되는 차원을 일치시킵니다. 이는 모델이 아키텍처를 수정하지 않고도 비디오를 효과적으로 처리할 수 있도록 합니다.

단순한 다운샘플링(즉, 단순히 프레임을 삭제)과는 달리 이는 정렬기의 학습된 모션 표현을 유지하며 정확성을 유지합니다. 일반 비디오 이해를 위해 낮은 프레임 속도 설정은 추론을 가속화할 수 있으며 높은 속도 동작 분석을 위해 여전히 전체 16fps 기능을 활용할 수 있습니다.

데이터 및 테스트

F-16은 Qwen2-7B에 기반하며 SigLIP를 이미지 인코더로 사용합니다. 비디오 프레임은 16fps에서 샘플링되며 각 비디오에서 최대 1,760개의 프레임을 얻을 수 있습니다. 더 긴 비디오 클립의 경우 프레임은 균일하게(즉, 더疏하게) 샘플링되었습니다.

훈련을 위해 F-16은 LLaVA-Video와 같은 일반 비디오 데이터셋을 사용했습니다. 여기에는 LLaVA-Video-178K, NExT-QA, ActivityNet-QA 및 PerceptionTest가 포함됩니다.

F-16은 또한 고속 스포츠 데이터셋 FineGym, Diving48 및 SoccerNet에서 미세 조정되었습니다. 저자들은 또한 2024년 11월 13일부터 11월 25일까지 진행된 276개의 NBA 게임을 수집하여 공이 성공적으로投擲되는지 여부(고 프레임 속도 처리가 필요한 작업)를 평가했습니다.

모델은 NSVA 테스트 세트를 사용하여 평가되었으며 성능은 F1 점수로 측정되었습니다.

체조 및 다이빙 모델은 이벤트 인식 정확도에 따라 평가되었으며 축구 및 농구 모델은 패스 및 슈팅 결과를 추적했습니다.

모델은 1 에포크 동안 128개의 NVIDIA H100 GPU(각 GPU당 80GB의 VRAM, 즉 10.24테라바이트의 GPU 메모리)를 사용하여 훈련되었습니다. 훈련 중에 LoRA가 64개의 GPU에서 5 에포크 동안 미세 조정되었습니다. 여기서 LLM만 훈련되었으며 이미지 인코더는 동결되었습니다.

초기 라운드에서 일반 비디오 이해를 위해 테스트된 대립 프레임워크에는 GPT-4o, Gemini-1.5-Pro, Qwen2-VL-7B, VideoLLaMA2-7B, VideoChat2-HD-7B, LLaVA-OV-7B, MiniCPM-V2.6-8B, LLaVA-Video-7B 및 NVILA-7B가 포함되었습니다.

모델은 Video-MME, VideoVista, TemporalBench, MotionBench, Next-QA, MLVU 및 LongVideoBench에서 평가되었습니다.

다양한 벤치마크에서 모델의 비디오 QA 결과 비교, FPS 제한 및 성능 표시. F-16은 7B 모델 중 Video-MME, NQA, TPB 및 MB에서 최적의 성능을 달성하며 GPT-4o 및 Gemini-1.5-Pro와 같은 사유 모델과 경쟁합니다.

이러한 결과에 대해 저자는 다음과 같이 말합니다:

‘비디오-MME 쇼트, 미디엄 및 NeXT-QA 데이터셋에서, 각기 짧은 비디오 이해를 위해 설계된 데이터셋에서, 우리 모델은 이전 7B 최적의 모델보다 정확도에서 3.2%, 1.0% 및 0.9%를 능가합니다. 이는 짧은 비디오에서 강한 성능을 나타냅니다. ‘

‘긴 비디오 이해를 평가하는 벤치마크인 비디오-MME 롱, LongVideoBench 및 MLVU의 경우, 더 큰 도전이 있습니다. 이는 프레임 샘플링이 더疏하기 때문에 처리 창 내의 프레임이 더 큰 변화를 나타낼 수 있기 때문입니다. ‘

‘이것은 모달리티 정렬기가 제한된 토큰 표현 내에서 시간적 변화를 효과적으로 인코딩하는 데 어려움을 겪을 수 있습니다. 결과적으로 F-16은 LLaVA-Video-7B와 비교하여 약간의 성능 저하를 경험합니다. 이는 동일한 비디오 데이터셋에서 훈련되었지만, 더 큰 도전이 있기 때문입니다.’

F-16의 고 프레임 속도 처리는 또한 TemporalBench에서 13.5%의 개선과 MotionBench에서 2.5%의 개선을 가져왔으며, 이는 기존 7B 모델과 비교했을 때이며, GPT-4o 및 Gemini-1.5-Pro와 같은 상업 모델과 유사한 수준의 성능을 달성했습니다.

고속 스포츠 비디오 이해

F-16은 FineGym, Diving48, SoccerNet 및 NBA 데이터셋에서 테스트되었습니다. 고속 스포츠 동작을 이해하는 능력을 평가하기 위해 테스트되었습니다.

10,000개의 수동으로 주석이 달린 NBA 클립을 사용하여 훈련은 공의 이동과 선수 동작, 그리고 공이 성공적으로投擲되는지 여부에 중점을 두었습니다. NSVA 테스트 세트는 F1 점수로 평가되었습니다.

고속 스포츠 비디오 분석 결과. F-16은 모든 스포츠 작업에서 저 프레임 속도 대응 모델보다 성능이 좋았습니다. GPT-4o 및 Gemini-1.5-Pro도 NBA 및 SoccerNet QA에서 평가되었습니다. 여기서 도메인 내 훈련 지식이 필요하지 않았습니다.

FineGym에서, 체조 동작 인식을 측정한 결과, F-16은 이전 7B 최적의 모델보다 13.8% 더 나은 성능을 보였습니다. 이는 미세한 동작 이해가 개선되었음을 나타냅니다.

Diving48에서는 복잡한 동작 시퀀스를 식별하는 것이 필요했으며, 여기에는 테이크오프, 서머설트, 트위스트 및 플라이트 단계가 포함되었습니다. F-16은 이러한 전환을 인식하는 데 더 높은 정확도를 보였습니다.

SoccerNet의 경우, 모델은 10초 클립을 분석하여 공을 패스하는 것을 식별했으며, 결과는 기존 7B 모델보다 개선되었습니다. 이는 더 높은 프레임 속도가 작은 및 빠른 동작을 추적하는 데 기여한다는 것을 나타냅니다.

NBA 데이터셋에서 F-16은 공의 결과를 결정하는 능력이 GPT-4o 및 Gemini-1.5-Pro와 같은 더 큰 사유 모델과 유사한 정확도를 달성했습니다. 이는 더 높은 프레임 속도가 동적 동작을 처리하는 능력을 향상시킵니다.

가변 프레임 속도

F-16은 다양한 프레임 속도에서 테스트되었습니다. 프레임을 반복하여 정렬기의 입력 구조를 일치시키는 대신 재훈련하지 않고 낮은 프레임 속도로 처리했습니다. 이 접근 방식은 단순히 프레임을 삭제하는 것보다(정확성 손실을 초래할 수 있음) 더 많은 성능을 유지했습니다.

결과는 프레임 속도를 줄이는 것이 동작 인식에 일부 영향을 미쳤지만, F-16은 여전히 저 프레임 속도 모델을 능가하며 16fps 미만에서도 강한 결과를 유지했습니다.

왼쪽: Video-MME 롱 세트의 300개 비디오에서 다양한 테스트 프레임 속도 및 시퀀스 길이에서 F-16의 모듈별 시간 소요. 오른쪽: 모델을 동일한 프레임 속도에서 훈련 및 테스트했을 때의 Video-MME 성능 비교. 실선은 모델을 동일한 프레임 속도에서 훈련 및 테스트했을 때를 나타내며, 점선은 16fps에서 훈련된 모델을 낮은 프레임 속도에서 테스트했을 때를 나타냅니다.

F-16의 고 프레임 속도 처리는 계산 요구를 증가시켰습니다. 그러나 정렬기는 중복된 시각적 토큰을 압축하여 이러한 비용을 관리하는 데 도움이 되었습니다.

모델은 낮은 프레임 속도 모델보다 비디오당 더 많은 FLOPs를 필요로 하지만 토큰당 더 나은 정확도를 달성하여 프레임 선택 및 토큰 압축 전략이 추가 계산을 상쇄하는 것을 시사합니다.

결론

이 연구의 중요성과 도전을 과장할 수 없습니다. 특히 생성 비디오의 돌파구가 될 것으로 예상되는 올해, 비디오 데이터셋의 큐레이션 및 캡션 품질의 결함이 크게 부각됩니다.

또한 정확한 내부 비디오 세부 정보에 대한 설명을 얻는 데 필요한 도전은 단순히 VRAM, 시간 또는 디스크 공간을 문제에 던짐으로써 해결될 수 없음을 강조해야 합니다.otherwise long과 Tedious 비디오 트랙(예: 골프 또는 스누커 비디오 클립)에서 이벤트를 분리/추출하는 방식은 현재 지배적인 솔루션의 제한을 재고해야 합니다. 이러한 일부 제한은 더 적은 자원을 가진 시대에 설정되었습니다.

(사실, 2025년에 16fps가 매우 낮은 프레임 속도처럼 보일 수 있지만, 이것이 또한 대규모 언어 모델 Wan 2.1에서 사용되는 비디오 클립의 네이티브 훈련 속도이며, 따라서 가장 적은 문제로 작동하는 속도라는 점은 흥미롭습니다. 연구 현장에서는 가능한 ‘표준 엔트로피’를 주시해야 합니다. 때때로 구식 제한은 미래의 표준을 지속시킬 수 있습니다)

처음 게시된 날: 2025년 3월 19일 수요일