Погляд Anderson

Виклик субтитрування відео з частотою понад 1 кадр за секунду

Published March 19, 2025

Updated April 26, 2026

Martin Anderson

Trails in a basketball scene - source: https://www.youtube.com/watch?v=ORfjgE6n2Pc

Спроможність систем машинного навчання розпізнавати події, які відбуваються всередині відео, є важливою для майбутнього генерації відео на основі ІІ, не в останню чергу тому, що відеодані потребують точних субтитрів, щоб генерувати моделі, які відповідають запитам користувача і не надміру “галлюцинують”.

Приклад схеми субтитрування з проекту VidReCap від Google. Джерело: https://sites.google.com/view/vidrecap

Ручне субтитрування кількості відео, необхідної для ефективних навчальних наборів даних, є неможливим завданням. Хоча можливо тренувати системи ІІ для автоматичного субтитрування відео, все ж таки потрібні багато прикладів, створених людиною, як істина, для різноманітності та покриття.

Що більш важливо, майже кожна поточна модель субтитрування відео на основі ІІ працює на частоті 1 кадр за секунду, що не є достатньо щільною швидкістю захоплення, щоб розрізняти варіації в багатьох сценаріях: раптові мікро-вислови для систем розпізнавання емоцій; швидкі події в високошвидкісних видах спорту, таких як баскетбол; насильницькі рухи; швидкі монтажі в драматичних фільмах, де системи, такі як PySceneDetect, можуть не визначити їх (або не використовуються); і багато інших сценаріїв, де вікно уваги явно потребує бути більш інтенсивним.

Натисніть, щоб відтворити. Швидка, але життєво важлива дія в одному з найповільніших видів спорту у світі, коли Алекс Хіггінс виграє чемпіонат світу проти Рея Ріардона в 1982 році. Джерело: https://www.youtube.com/watch?v=_1PuqKno_Ok

Похід і логіка

Ця низька швидкість є стандартом за різними логістичними причинами. По-перше, субтитрування відео є ресурсоємкою діяльністю, незалежно від того, чи вивчає система один послідовний кадр за раз, чи використовує різні методи для семантичної когерентності рядка кадрів у інтерпретовну послідовність субтитрів. У будь-якому випадку вікно контексту невідворотно обмежене апаратними обмеженнями.

Інша причина того, що 1 кадр за секунду є поточним стандартом, полягає в тому, що відео зазвичай не наповнені швидкими подіями; тому надлишнє надання 300 кадрів статичного столу для снукеру такої ж уваги, як і момент, коли чорний м’яч виграє чемпіонат (див. приклад вище).

Можливо використовувати широкі вторинні сигнали для визначення ключових моментів у відео спорту, таких як тривале реакція натовпу на швидкий слем-данк у баскетбольній грі. Однак такі підказки можуть трапитися з інших причин (наприклад, несподівані травми гравців), і на них не можна покладатися. Це один із прикладів того, як помилково позначений відеодані може привести до генеративної відеомоделі, яка “галлюцинує” або неправильно інтерпретує інструкції, тобто тому, що модель може показати травму гравця, коли її просили згенерувати слем-данк (оскільки “вторинна підказка” агітації натовпу не була ексклюзивною для певного типу події).

Це в багатьох аспектах “бюджетна” проблема, а в інших аспектах – процедурна проблема. Фреймворки на даний момент працювали на принципі, що розріджені ключові кадри можуть ефективно захопити основну інформацію, але це більш ефективно для встановлення жанру та інших аспектів предмета відео, оскільки докази в цьому випадку тривають протягом кількох кадрів.

F-16

Нова робота з Китаю пропонує рішення у вигляді першої багатомодальної великої мовиної моделі (БВММ, або просто ВММ), яка може аналізувати відео із швидкістю 16 кадрів за секунду замість стандартної швидкості 1 кадр за секунду, уникаючи при цьому основних недоліків збільшення швидкості аналізу.

У тестах автори стверджують, що нова система, означена F-16, перевершує пропріетарні моделі державної науки, такі як GPT-4o і Google’s Gemini-1.5 pro. Хоча інші поточні моделі могли дорівнювати або перевершувати результати F-16 у випробуваннях, конкуруючі моделі були значно більші та незграбніші.

Хоча F-16 була тренована на серйозному апаратному забезпеченні (як ми розглянемо далі), інферентне моделювання зазвичай значно менше вимогливе, ніж тренування. Тому ми можемо сподіватися, що код (обіцяний для найближчого випуску) буде здатний працювати на середніх або високорівневих домашніх GPU.

Що потрібно для життєвості хобі-сцени (і це включає професійну сцену VFX, більшість часу) – це модель субтитрування відео цього типу, яка може працювати, можливо, квантована, на споживчій системі, щоб вся генерація відео не перейшла до API-орієнтованих комерційних систем, або не змусила споживачів підключити місцеві фреймворки до комерційних онлайн-сервісів GPU.

Поза масштабуванням

Автори спостерігають, що такий підхід є практичною альтернативою масштабуванню наборів даних. Можна також зробити висновок, що якщо ви будете кидати більше даних на проблему, це все ж таки підхід, який може бути бажаним, оскільки нова система розрізняє події більш детально.

Вони заявляють:

‘Низька частота зразків може призвести до критичної втрати візуальної інформації, особливо у відео з швидко змінюваними сценами, складними деталями або швидкими рухами. Крім того, якщо ключові кадри пропущені, а модель тренується на мітках, які залежать від інформації ключових кадрів, вона може мати труднощі з узгодженням своїх прогнозів з очікуваною вмістом, потенційно призводячи до галюцинацій і погіршення продуктивності…

‘… F-16 досягає найкращої продуктивності серед моделей такого ж розміру та демонструє явну перевагу у високошвидкісному відеоаналізі, перевершуючи комерційні моделі, такі як GPT-4o. Ця робота відкриває нові напрямки для просування високошвидкісного відеоаналізу у багатомодальній дослідженні ВММ.’

Нова робота називається Покращення розуміння відео ВММ на 16 кадрах за секунду і походить від восьми авторів з Університету Цінхуа та ByteDance.

Метод

Оскільки послідовні кадри часто містять надлишкову інформацію, F-16 застосовує високошвидкісний алінер, щоб стиснути та закодувати ключові рухові деталі, зберігаючи візуальні семантики. Кожен кадр спочатку обробляється попередньо тренованим зображенням-кодувальником, витягуючи представлення функцій перед тим, як бути переданим до алінера на основі Гауссових лінійних одиниць помилок (GELU).

Архітектура F-16 обробляє відео на 16 кадрах за секунду, захоплюючи більше кадрів, ніж традиційні моделі з низькою частотою кадрів, а її високошвидкісний алінер зберігає візуальні семантики, ефективно кодуючи рухові динаміки без додавання додаткових візуальних токенів. Джерело: https://arxiv.org/pdf/2503.13956

Щоб ефективно обробляти збільшену кількість кадрів, F-16 групує кадри у невеликі вікна обробки, об’єднуючи візуальні функції за допомогою тришарової Мультішарової перцептрону (MLP), допомагаючи зберегти лише найрелевантніші рухові деталі та зменшити зайву дублікацію, зберігаючи тимчасовий потік дій. Просторова макс-пулінговий шар далі стискає кількість токенів, зберігаючи обчислювальні витрати у межах.

Оброблені відеотокени потім подаються до Qwen2-7B ВММ, яка генерує текстові відповіді на основі витягнутих візуальних функцій та заданого користувачем запиту.

Отримуючи відеовхід таким чином, F-16 дозволяє, як стверджують автори, більш точне розпізнавання подій у динамічних сценах, зберігаючи при цьому ефективність.

Коротка версія

F-16 розширює попередньо треновану зображенням ВММ, LLaVA-OneVision, для обробки відео шляхом перетворення його візуальної вхідної труби. Хоча стандартні зображення ВММ обробляють ізольовані кадри, високошвидкісний алінер F-16 переформатує кілька кадрів у форму, яку модель може більш ефективно обробляти; це避ляє перевантаження системи надлишковою інформацією, зберігаючи при цьому ключові рухові підказки, необхідні для точного відеоаналізу.

Щоб забезпечити сумісність з її зображенням-орієнтованою основою, F-16 повторно використовує попередньо треновані параметри, перебудовуючи свій алінер у суб-матриці. Цей підхід дозволяє йому інтегрувати знання з однокадрових моделей, адаптуючись до послідовного відеовходу.

Алінер спочатку стискає послідовності кадрів у формат, оптимізований для ВММ, зберігаючи найбільш інформативні функції, а зайву інформацію відкидає. Архітектурний дизайн дозволяє системі обробляти високошвидкісне відео, зберігаючи при цьому обчислювальні витрати під контролем, що автори вважають доказом того, що масштабування не є єдиним (або найкращим) шляхом для субтитрування відео.

Змінна швидкість

Оскільки обробка відео на 16 кадрах за секунду покращує розуміння руху, але збільшує обчислювальні витрати, особливо під час інферентного моделювання, F-16 вводить змінну швидкість декодування кадрів, дозволяючи їй динамічно регулювати швидкість кадрів без повторної тренування.

Одиничний кадр і високошвидкісний алінер, доступні для F-16.

Ця гнучкість дозволяє моделі працювати ефективно на нижчих кадрах за секунду, коли висока точність не потрібна, і знижує обчислювальні витрати.

Під час тестування, коли вибрана нижча швидкість кадрів, F-16 повторно використовує попередньо треновані параметри алінера, повторюючи вхідні кадри, щоб відповідати очікуваним розмірам. Це забезпечує можливість моделі обробляти відео ефективно без зміни своєї архітектури.

На відміну від наївного дownsampling (тобто простого видалення кадрів), який ризикує втратити критичні рухові деталі, цей метод зберігає вивчені алінером рухові представлення, зберігаючи точність навіть на знижених швидкостях кадрів. Для загального відеоаналізу нижня швидкість кадрів може прискорити інферентне моделювання без суттєвої втрати продуктивності, а високошвидкісний руховий аналіз все ще може використовувати повну здатність 16 кадрів за секунду.

Дані та тести

Побудована на Qwen2-7B, FP-16 розширює LLaVA-OneVision за допомогою SigLIP як зображення-кодувальника. З відеокадрами, зразковими на 16 кадрах за секунду, до 1 760 кадрів можна отримати з кожного відео. Для довших відеокліпів кадри були рівномірно (тобто більш рідко) вибрані.

Для тренування F-16 використовувала ті ж загальні відеодані, що й LLaVA-Video, включаючи LLaVA-Video-178K, NExT-QA, ActivityNet-QA, і PerceptionTest.

F-16 була додатково дофільтрована на високошвидкісних спортивних наборах даних FineGym, Diving48, і SoccerNet. Автори також куратори колекції з 276 ігор НБА, зіграних між 13 і 25 листопада 2024 року, зосередившись на тому, чи можна правильно визначити, чи був успішним постріл, використовуючи набір тестів NSVA, оцінений за допомогою F1-бали.

Модель була оцінена за допомогою NSVA тестового набору, з продуктивністю, виміряною за допомогою F1-бала.

Моделі гімнастики та плавання оцінювалися на основі точності розпізнавання подій, а моделі баскетболу та футболу відстежували передачі та результати пострілів.

Модель була тренована протягом 1 епохи за допомогою 128 NVIDIA H100 GPU (і при стандартній кількості 80 ГБ оперативної пам’яті на GPU, це означало використання 10,24 терабайтів оперативної пам’яті GPU; навіть за сучасними стандартами це найвищий апаратний кластер, з яким я особисто зустрічався під час ознайомлення з літературою комп’ютерного зору). Швидкість навчання швидкості навчання становила 2×10⁻⁵ під час тренування.

Крім того, LoRA була дофільтрована на спортивних даних, використовуючи LoRA-адаптери з 64 GPU протягом 5 епох. Тут тільки ВММ була тренована, залишаючи зображення-кодувальник замороженим.

Суперницькі фреймворки, протестовані на початку раунду для “загального відеоаналізу”, були GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; VideoLLaMA2-7B; VideoChat2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; LLaVA-Video-7B; і NVILA-7B;

Моделі були оцінені на Video-MME; VideoVista; TemporalBench; MotionBench; Next-QA; MLVU; і LongVideoBench.

Порівняння результатів відеоаналізу серед моделей, показуючи обмеження кадрів за секунду та продуктивність на декількох бенчмарках. F-16 досягає найкращої продуктивності серед моделей 7B на Video-MME, NQA, TPB і MB, конкуруючи з пропріетарними моделями, такими як GPT-4o і Gemini-1.5-Pro.

З цих результатів автори стверджують:

‘На наборах даних Video-MME Short, Medium і NeXT-QA – кожен з яких призначений для короткого відеоаналізу – наш модель перевершує попередню модель 7B SOTA на 3,2%, 1,0% і 0,9% за точністю, підкреслюючи її сильну продуктивність на коротких відео.

‘Для бенчмарків, що оцінюють довге відеоаналіз, таких як Video-MME Long, LongVideoBench і MLVU, виклик більший через рідше вибір кадрів, що спричиняє більшу різницю між кадрами у вікні обробки.

‘Це збільшує складність для модального алінера ефективно кодувати тимчасові зміни у обмеженому представленні токенів. Як наслідок, F-16 переживає незначне зниження продуктивності порівняно з [LLaVA-Video-7B], яка тренується на тому ж відеодані.’

F-16 високошвидкісна обробка також призвела до 13,5% покращення на TemporalBench і 2,5% виграшу на MotionBench порівняно з існуючими моделями 7B, і показала продуктивність на рівні з комерційними моделями, такими як GPT-4o і Gemini-1.5-Pro.

Високошвидкісне відео спорту

F-16 була протестована на FineGym, Diving48, SoccerNet і наборах даних НБА для оцінки її здатності розуміти високошвидкісні спортивні дії.

За допомогою 10 000 вручну анотованих кліпів НБА, тренування було зосереджено на русі м’яча та діях гравців, і чи могла модель правильно визначити, чи був постріл успішним (завдання, яке потребує високошвидкісної обробки).

Результати високошвидкісного відеоаналізу спорту. F-16 з високошвидкісним алінером працювала краще, ніж її аналог з низькою швидкістю кадрів, у всіх спортивних завданнях. GPT-4o і Gemini-1.5-Pro також були оцінені на наборах даних НБА і SoccerNet QA, де не було необхідності у спеціальних знаннях галузі.

На FineGym, який вимірює розпізнавання гімнастичних дій, F-16 працювала на 13,8% краще, ніж попередня модель 7B SOTA, демонструючи покращене розуміння руху.

Diving48 вимагала розпізнавання складних рухових послідовностей, таких як старт, сомерсалт, твіст і політ фази, і F-16 показала вищу точність у розпізнаванні цих переходів.

Для SoccerNet модель аналізувала 10-секундні кліпи, ідентифікуючи передачі м’яча, і результати показали покращення порівняно з існуючими моделями 7B, вказуючи на те, що вищої швидкості кадрів сприяє відстежуванню малих і швидких рухів.

У наборі даних НБА здатність F-16 визначати результати пострілів наблизилася до точності більших пропріетарних моделей, таких як GPT-4o і Gemini-1.5-Pro, ще раз підтверджуючи, що вищої швидкості кадрів покращує її здатність обробляти динамічний рух.

Змінна швидкість кадрів

F-16 була протестована на різних швидкостях кадрів, щоб виміряти її адаптивність. Замість повторної тренування, вона обробляла нижчі швидкості кадрів, повторюючи кадри, щоб відповідати очікуваній структурі алінера. Цей підхід зберігає більше продуктивності, ніж просте видалення кадрів, яке ризикує втратити критичні рухові деталі.

Результати вказують на те, що, хоча зниження швидкості кадрів мало деякий вплив на розпізнавання руху, F-16 все ж таки перевершує моделі з низькою швидкістю кадрів і зберігає сильні результати навіть нижче 16 кадрів за секунду.

Зліва, витрати часу різних модулів F-16 під час інферентного моделювання, виміряні на 300 відео з набору даних Video-MME Long на різних тестових швидкостях кадрів і довжинах послідовностей. Праворуч, порівняння продуктивності моделей Video-MME при тренуванні і тестуванні на різних швидкостях кадрів. Тверда лінія представляє моделі, треновані і протестовані на одній і тій же швидкості кадрів, а пунктирна лінія показує продуктивність, коли модель, тренована на 16 кадрах за секунду, тестується на нижчій швидкості кадрів.

Високошвидкісна обробка F-16 збільшила обчислювальні витрати, хоча її алінер допоміг керувати цими витратами, стискаючи зайву візуальну інформацію.

Модель вимагала більше FLOPs на відео, ніж моделі з нижчою швидкістю кадрів, але також досягла вищої точності на токен, вказуючи на те, що її стратегія вибору кадрів і стиснення токенів допомогла компенсувати додаткові обчислення.

Висновок

Важко переоцінити важливість цього конкретного напрямку досліджень – особливо цього року, який має стати пробивним роком для генерації відео, підкреслюючи недоліки кураторства відеоданих і якості субтитрування в гострому світлі.

Також слід підкреслити, що проблеми, пов’язані з отриманням точних описів внутрішніх відеодеталей, не можуть бути вирішені виключно шляхом збільшення кількості відеоданих, часу або дискового простору. Метод, яким події виділяються/екстрагуються з довгих і нудних відеокліпів (як у випадку з відеокліпами з гольфом або снукером, наприклад), буде вигравати від переосмислення семантичних підходів і механізмів, які зараз домінують у рішеннях SOTA – оскільки деякі з цих обмежень були встановлені в часи, коли ресурси були обмеженішими.

(між іншим, навіть якщо 16 кадрів за секунду здається дуже низькою швидкістю кадрів для 2025 року, цікаво відзначити, що це також рідна швидкість тренування відеокліпів, використаних у дуже популярній моделі генерації відео Wan 2.1, і швидкість, з якою вона працює з найменшою кількістю проблем. Сподіваємося, дослідницька спільнота буде стежити за можливою “ентропією стандартів” тут; іноді застарілі обмеження можуть вплинути на майбутні стандарти)

Опубліковано вперше у середу, 19 березня 2025 року

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]