Взгляд Anderson

Вызов субтитров видео со скоростью более 1 кадра в секунду

Published March 19, 2025

Updated April 26, 2026

Martin Anderson

Trails in a basketball scene - source: https://www.youtube.com/watch?v=ORfjgE6n2Pc

Способность систем машинного обучения распознавать события, происходящие внутри видео, имеет решающее значение для будущего генерации видео на основе ИИ – не в последнюю очередь потому, что видеодатасеты требуют точных субтитров, чтобы производить модели, которые соответствуют запросу пользователя и не чрезмерно галлюцинируют.

Пример схемы субтитров из проекта VidReCap от Google. Source: https://sites.google.com/view/vidrecap

Ручное субтитирование масштаба видео, необходимого для эффективных тренировочных наборов данных, является невероятной задачей. Хотя возможно обучить системы ИИ для автоматического субтитирования видео, все еще необходимы многие примеры, созданные человеком, в качестве эталонной правды, для разнообразия и покрытия.

Более важно, что几乎 каждая текущая модель видеосубтитирования на основе ИИ работает со скоростью 1 кадр в секунду, что не является достаточно плотной скоростью захвата, чтобы различать вариации во многих сценариях: внезапные микро-выражения для систем распознавания эмоций; быстрые события в высокоскоростных видах спорта, таких как баскетбол; жесткие движения; быстрые монтажные сцены в драматических фильмах, где системы, такие как PySceneDetect, могут не обнаружить их (или не используются); и многие другие сценарии, где окно внимания rõчно должно быть более интенсивным.

Нажмите, чтобы воспроизвести. Быстрое, но жизненно важное действие в том, что может быть одним из самых медленных видов спорта в мире, когда Алекс Хиггинс выигрывает чемпионат мира против Рэя Риардона в 1982 году. Source: https://www.youtube.com/watch?v=_1PuqKno_Ok

Двигаться быстро и ломать логике

Эта низкая скорость является стандартом по различным логистическим причинам. Во-первых, видеосубтитирование является ресурсоемкой деятельностью, будь то система изучения одного последовательного кадра за раз или использование различных методов для семантического согласования строки кадров в интерпретируемую последовательность субтитров. В любом случае окно контекста неизбежно ограничено аппаратными ограничениями.

Другой причиной того, что 1 кадр в секунду является текущим стандартом, является то, что видео обычно не наполнены быстрыми событиями; поэтому избыточно уделять 300 кадрам статичного стола для снукера то же внимание, что и секунде, в которой забитый черный шар выигрывает чемпионат (см. пример выше).

Возможно использовать более широкие вторичные подсказки, чтобы определить ключевые моменты в спортивном видео, такие как устойчивая реакция толпы на быстрый слэм-данк в баскетбольной игре. Однако такие подсказки могут возникнуть по другим причинам (например, неожиданные травмы игроков) и не могут быть надежными. Это один из примеров того, как помеченный видеодатасет может привести к генеративной видеомодели, которая галлюцинирует или неправильно интерпретирует инструкции, т.е. потому, что модель может показать травму игрока, когда ее попросили сгенерировать слэм-данк (потому что ‘вторичная подсказка’ возбуждения толпы не была эксклюзивной для одного конкретного типа события).

Это в многих отношениях ‘бюджетная’ проблема, и в других отношениях процедурная проблема. Фреймворки до сих пор работали на принципе, что разреженные ключевые кадры могут эффективно захватить необходимую информацию, но это более эффективно для установления жанра и других аспектов предмета видео, поскольку доказательства в этом случае сохраняются в течение нескольких кадров.

F-16

Новая статья из Китая предлагает решение в виде первого многомодального большого языкового модели (MLLM или просто LLM), который может анализировать видео со скоростью 16 кадров в секунду вместо стандартных 1 кадра в секунду, избегая при этом основных ловушек увеличения скорости анализа.

В тестах авторы утверждают, что новая система, озаглавленная F-16, превосходит проприетарные модели последнего поколения, такие как GPT-4o и Google’s Gemini-1.5 pro. Хотя другие текущие модели смогли соответствовать или превзойти результаты F-16 в испытаниях, конкурирующие модели были намного больше и неуклюже.

Хотя F-16 был обучен на некоторых серьезных аппаратных средствах (как мы рассмотрим чуть позже), вывод обычно намного менее требователен, чем обучение. Следовательно, мы можем надеяться, что код (обещанный для выпуска в ближайшем будущем) сможет работать на средних или высокоуровневых домашних GPU.

Что нужно для жизненности хобби-сцены (и это включает в себя профессиональную сцену VFX, большинство времени) – это видеомодель субтитров этого типа, которая может работать, возможно, квантованная, на потребительских системах, чтобы вся генеративная видеосцена не мигрировала в API-основанные коммерческие системы или не заставляла потребителей подключать локальные фреймворки к коммерческим онлайн-сервисам GPU.

За пределами масштабирования

Авторы отмечают, что этот тип подхода является практической альтернативой масштабированию наборов данных. Можно также сделать вывод, что если бы вы собирались бросить больше данных на проблему, это все равно был бы подход, который мог бы быть предпочтительным, потому что новая система различает события более детальным образом.

Они заявляют:

‘Низкая частота кадров может привести к потере критической визуальной информации, особенно в видео с быстро меняющимися сценами, сложными деталями или быстрым движением. Кроме того, если ключевые кадры пропущены, но модель обучена на метках, которые полагаются на информацию ключевых кадров, она может испытывать трудности в выравнивании своих прогнозов с ожидаемым содержанием, потенциально приводя к галлюцинациям и ухудшению производительности…

‘… F-16 достигает лучшей производительности в общем видео-VQA среди моделей подобного размера и демонстрирует явное преимущество в понимании высокоскоростного видео, превосходя коммерческие модели, такие как GPT-4o. Эта работа открывает новые направления для продвижения высокоскоростного видеопонимания в многомодальных исследованиях LLM.’

Новая статья озаглавлена Улучшение понимания видео LLM с 16 кадрами в секунду и исходит от восьми авторов из Университета Цинхуа и ByteDance.

Метод

Поскольку последовательные кадры часто содержат избыточную информацию, F-16 применяет высокоскоростной выравниватель, чтобы сжать и закодировать ключевые детали движения, сохраняя визуальные семантики. Каждый кадр сначала обрабатывается предварительно обученным изображением-кодировщиком, извлекая представления функций перед передачей выравниватель на основе Гауссовских единиц линейной ошибки (GELUs).

Архитектура F-16 обрабатывает видео со скоростью 16 FPS, захватывая больше кадров, чем традиционные модели с низкой частотой кадров, и ее высокоскоростной выравниватель сохраняет визуальные семантики, эффективно кодируя динамику движения без добавления лишних визуальных токенов. Source: https://arxiv.org/pdf/2503.13956

Чтобы эффективно справиться с увеличенным количеством кадров, F-16 группирует кадры в небольшие окна обработки, объединяя визуальные функции с помощью трехслойного Многослойного Персептрона (MLP), помогая сохранить только наиболее актуальные детали движения и уменьшая ненужное дублирование, сохраняя при этом временной поток действий. Пространственный макс-пулинг слой进一步 сжимает количество токенов, сохраняя вычислительные затраты в пределах.

Обработанные видеотокены затем подаются в Qwen2-7B LLM, который генерирует текстовые ответы на основе извлеченных визуальных функций и заданного пользовательского запроса.

Структурируя видеовход таким образом, F-16 позволяет, как утверждают авторы, более точное распознавание событий в динамических сценах, сохраняя при этом эффективность.

Краткая версия

F-16 расширяет предварительно обученную модель изображения LLM, LLaVA-OneVision, для обработки видео, преобразуя его визуальный входной конвейер. Хотя стандартные модели изображения LLM обрабатывают изолированные кадры, высокоскоростной выравниватель F-16 переформатирует несколько кадров в форму, которую модель может более эффективно обработать; это избегает перегрузки системы избыточной информацией, сохраняя при этом ключевые сигналы движения, необходимые для точного понимания видео.

Чтобы обеспечить совместимость с его основой, основанной на изображении, F-16 повторно использует предварительно обученные параметры, перестраивая свой выравниватель в субматрицы. Этот подход позволяет ему интегрировать знания из моделей одного кадра, адаптируясь к последовательному видеовходу.

Выравниватель сначала сжимает последовательности кадров в формат, оптимизированный для LLM, сохраняя наиболее информативные функции, а затем удаляя ненужные детали. Проектирование архитектуры позволяет системе обрабатывать высокоскоростное видео, сохраняя вычислительные требования под контролем, что авторы считают доказательством того, что масштабирование не является единственным (или лучшим) способом продвижения понимания видео.

Вариация темпа

Поскольку обработка видео со скоростью 16 FPS улучшает понимание движения, но увеличивает вычислительные затраты, особенно во время вывода, F-16 вводит переменную скорость декодирования кадров метод, позволяющий ему динамически регулировать скорость кадров без повторного обучения.

Одиночный кадр и высокоскоростной выравниватель, доступные для F-16.

Эта гибкость позволяет модели работать эффективно на более низких FPS, когда высокая точность не требуется, и уменьшает вычислительную нагрузку.

Во время тестирования, когда выбрана более низкая скорость кадров, F-16 повторно использует предварительно обученные параметры выравнителя, повторяя входные кадры, чтобы соответствовать ожидаемым размерам. Это обеспечивает модель может все еще обрабатывать видео эффективно, не изменяя свою архитектуру.

В отличие от наивного дownsampling (т.е. просто удаления кадров), который рискует потерять критические детали движения, этот метод сохраняет выученные представления движения выравнителя, сохраняя точность даже на уменьшенных скоростях кадров. Для общего понимания видео настройка более низкого FPS может ускорить вывод, не теряя при этом значительной производительности, а высокоскоростной анализ движения все еще может использовать полную возможность 16 FPS.

Данные и тесты

Построенный на Qwen2-7B, FP-16 расширяет LLaVA-OneVision, используя SigLIP в качестве изображения-кодировщика. С видеокадрами, отобранными со скоростью 16 FPS, можно получить до 1 760 кадров из каждого видео. Для более длинных видеоклипов кадры были равномерно (т.е. более редко) отобраны.

Для обучения F-16 использовал те же общие видеодатасеты, что и LLaVA-Video, включая LLaVA-Video-178K, NExT-QA, ActivityNet-QA и PerceptionTest.

F-16 также был дообучен на высокоскоростных спортивных наборах данных FineGym, Diving48 и SoccerNet. Авторы также курировали коллекцию из 276 игр НБА, сыгранных между 13 и 25 ноября 2024 года, сосредоточившись на том, был ли бросок успешным (задача, требующая высокоскоростной обработки).

Модель была оценена с помощью NSVA тестового набора, с производительностью, измеренной по F1-оценке.

Модели гимнастики и прыжков в воду оценивались на основе точности распознавания событий, а модели баскетбола и футбола отслеживали передачи и исходы бросков.

Модель была обучена в течение 1 эпохи с использованием 128 NVIDIA H100 GPU (и при стандартной емкости 80 ГБ ОЗУ на GPU, это потребовало использования 10,24 терабайт GPU-памяти; даже по современным стандартам, это самый высокопроизводительный GPU-кластер, с которым я лично столкнулся в литературе по компьютерному зрению). Была использована скорость обучения 2×10⁻⁵ во время обучения.

Кроме того, LoRA была дообучена на спортивных данных, используя LoRA-адаптеры с 64 GPU в течение 5 эпох. Здесь только LLM был обучен, оставив изображение-кодировщик замороженным.

Противостоящие фреймворки, протестированные в первом раунде для ‘общего понимания видео’, были GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; VideoLLaMA2-7B; VideoChat2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; LLaVA-Video-7B; и NVILA-7B;

Модели были оценены на Video-MME; VideoVista; TemporalBench; MotionBench; Next-QA; MLVU; и LongVideoBench.

Сравнение результатов видео-VQA по моделям, показывающее ограничения FPS и производительность на нескольких базах данных. F-16 достигает лучшей производительности среди моделей 7B на Video-MME, NQA, TPB и MB, соперничая с проприетарными моделями, такими как GPT-4o и Gemini-1.5-Pro.

Из этих результатов авторы заявляют:

‘На наборах данных Video-MME Short, Medium и NeXT-QA – каждый из которых предназначен для понимания коротких видео – наша модель превосходит предыдущую модель 7B SOTA на 3,2%, 1,0% и 0,9% по точности, подчеркивая ее сильную производительность на коротких видео.

‘Для баз данных, оценивающих понимание длинных видео, таких как Video-MME Long, LongVideoBench и MLVU, задача более сложна из-за более редкого отбора кадров, что вызывает более значительные вариации кадров внутри окна обработки.

‘Это увеличивает сложность для модального выравнителя, чтобы эффективно закодировать временные изменения в ограниченном представлении токенов. В результате F-16 испытывает небольшое снижение производительности по сравнению с [LLaVA-Video-7B], который обучен на том же видеодатасете.’

Высокоскоростная обработка F-16, продолжают авторы, также привела к улучшению на 13,5% на TemporalBench и на 2,5% на MotionBench по сравнению с существующими моделями 7B, и показала производительность на уровне коммерческих моделей, таких как GPT-4o и Gemini-1.5-Pro.

Понимание высокоскоростных спортивных видео

F-16 был протестирован на FineGym, Diving48, SoccerNet и NBA-данных, чтобы оценить его способность понимать высокоскоростные спортивные действия.

Используя 10 000 вручную аннотированных NBA-клипов, обучение было сосредоточено на движении мяча и действиях игроков, и на том, могут ли модели правильно определить, был ли бросок успешным, используя NSVA-тестовый набор, оцененный по F1-оценке.

Результаты анализа высокоскоростных спортивных видео. F-16 с высокоскоростным выравнивателем показал лучшую производительность, чем его аналог с низкой скоростью кадров, во всех спортивных задачах. GPT-4o и Gemini-1.5-Pro также были оценены на NBA и SoccerNet QA, где не требовалось знание области.

На FineGym, который измеряет распознавание действий в гимнастике, F-16 показал результат на 13,8% лучше, чем предыдущая модель 7B SOTA, демонстрируя улучшенное понимание тонких движений.

Diving48 требовал идентификации сложных последовательностей движений, таких как взлет, сальто, твист и полет фаз, и F-16 показал более высокую точность в распознавании этих переходов.

Для SoccerNet модель анализировала 10-секундные клипы, определяя передачи мяча, и результаты показали улучшение по сравнению с существующими моделями 7B, указывая на то, что более высокая частота кадров способствует отслеживанию небольших и быстрых движений.

В NBA-данных способность F-16 определять исходы бросков приблизилась к точности более крупных проприетарных моделей, таких как GPT-4o и Gemini-1.5-Pro, что еще больше указывает на то, что более высокая частота кадров улучшает его способность обрабатывать динамические движения.

Переменные скорости кадров

F-16 был протестирован на разных скоростях кадров, чтобы измерить его адаптивность. Вместо повторного обучения он обрабатывал более низкие FPS, повторяя кадры, чтобы соответствовать структуре выравнителя. Этот подход сохранил больше производительности, чем простое удаление (которое может привести к потере точности).

Результаты показывают, что, хотя снижение FPS имело некоторое влияние на распознавание движения, F-16 все еще превосходил модели с низкой скоростью кадров и сохранял сильные результаты, даже ниже 16 FPS.

Слева, время, затраченное на разные модули F-16 во время вывода, измеренное на 300 видео из набора Video-MME Long при различных тестовых FPS и длинах последовательности. Справа, сравнение производительности Video-MME для моделей, обученных и протестированных при разных FPS. Сплошная линия представляет модели, обученные и протестированные при одной и той же частоте кадров, а пунктирная линия показывает производительность, когда модель, обученная при 16 FPS, тестируется при более низкой частоте кадров.

Высокоскоростная обработка F-16 увеличила вычислительные требования, хотя ее выравниватель помог управлять этими затратами, сжимая избыточные визуальные токены.

Модель требовала больше операций, чем модели с более низкой частотой кадров, но также достигла лучшей точности на токен, что указывает на то, что ее стратегии выбора кадров и сжатия токенов помогли компенсировать дополнительные вычисления.

Вывод

Трудно переоценить либо важность, либо сложность этого конкретного направления исследований – особенно в этом году, который должен стать прорывным годом для генеративного видео, подчеркивая недостатки курирования видеодатасетов и качества субтитров в ярком свете.

Также следует подчеркнуть, что сложности, связанные с получением точных описаний внутренних деталей видео, не могут быть решены исключительно за счет бросания VRAM, времени или дискового пространства на проблему. Способ, которым события изолируются/извлекаются из иначе длинных и скучных участков видео (как в видеоклипах гольфа или снукера, например), будет выигрывать от переосмысления семантических подходов и механизмов, в настоящее время доминирующих в решениях SOTA – потому что некоторые из этих ограничений были установлены в более ресурсо-ограниченные времена.

(Кстати, даже если 16 FPS кажется очень низкой скоростью кадров для 2025 года, интересно отметить, что это также родная скорость обучения видеоклипов, используемых в очень популярной модели генеративного видео Wan 2.1, и скорость, с которой она работает с наименьшими проблемами. Надеюсь, исследовательская сцена будет следить за возможной ‘энтропией стандартов’; иногда устаревшие ограничения могут увековечить будущие стандарты)

Опубликовано впервые в среду, 19 марта 2025 года