Зв'язатися з нами

Складність субтитрів відео зі швидкістю понад 1 кадр/с

Кут Андерсона

Складність субтитрів відео зі швидкістю понад 1 кадр/с

mm
Стежки в сцені з баскетболу - джерело: https://www.youtube.com/watch?v=ORfjgE6n2Pc

Здатність систем машинного навчання розпізнавати події, що відбуваються у відео, має вирішальне значення для майбутнього створення відео на основі штучного інтелекту – не в останню чергу тому, що набори відеоданих потребують точних субтитрів для створення моделей, які відповідають запиту користувача та не надмірно... галюцинація.

Приклад схеми субтитрів із проекту Google VidReCap. Джерело: https://sites.google.com/view/vidrecap

Приклад схеми субтитрів з проєкту VidReCap від Google. Джерело: https://sites.google.com/view/vidrecap

Вручну створювати субтитри для масштабу відео, необхідного для ефективного навчання, є недобросовісною перспективою. Хоча можна навчити системи штучного інтелекту автоматично створювати субтитри до відео, для різноманітності та охоплення все ще потрібна велика кількість створених людиною прикладів як основна правда.

Що ще важливіше, майже кожна сучасна модель субтитрів до відео на основі штучного інтелекту працює зі швидкістю 1 кадр/с, що не є достатньо щільним показником захоплення, щоб розпізнати варіації у багатьох сценаріях: раптові зміни мікровиразу для систем розпізнавання емоцій; швидкісні змагання у швидкісних видах спорту, таких як баскетбол; бурхливі рухи; швидкі скорочення в драматичних фільмах, де такі системи, як PySceneDetect можуть не ідентифікувати їх (або не використовуються); і багато інших сценаріїв, коли вікно уваги явно має бути більш інтенсивним.

Натисніть, щоб відтворити. Швидкі, але кардинальні дії в тому, що інакше може бути одним із найповільніших видів спорту у світі, коли Алекс Хіггінс виграє чемпіонат світу проти Рея Рірдона в 1982 році. Джерело: https://www.youtube.com/watch?v=_1PuqKno_Ok

Рухайся швидко і зламай логіку

Така низька ставка є стандартною з різних логістичних причин. По-перше, субтитри до відео є ресурсомісткою діяльністю, незалежно від того, чи система вивчає один послідовний кадр за раз, чи використовує різні методи для семантичного зв’язування рядка кадрів у послідовність субтитрів, яку можна інтерпретувати. У будь-якому випадку, контекстне вікно неминуче обмежений апаратними обмеженнями.

Інша причина, чому 1 кадр/с є поточним стандартом, полягає в тому, що відео зазвичай не наповнене швидкими подіями; тому зайвим буде приділяти 300 фреймам статичного снукерного столу таку саму увагу, як долі секунди, за яку забита чорна куля виграє чемпіонат (див. приклад вище).

Можна використовувати ширші вторинні підказки для визначення ключових моментів у спортивному відео, таких як стійка реакція натовпу на швидкий слем-данк у баскетбольному матчі. Однак такі підказки можуть виникати з інших причин (наприклад, неочікувані травми гравців) і на них не можна покладатися. Це один із прикладів того, як неправильно позначений набір відеоданих може призвести до генеративної відеомоделі, яка галюцинує або неправильно інтерпретує інструкції, тобто тому, що модель може показувати травму гравця, коли її попросили згенерувати слем-данк (оскільки «вторинна підказка» щодо ажіотажу натовпу не була виключною для одного конкретного типу події).

Це багато в чому «бюджетна» проблема, а в інших — процедурна проблема. Дотеперішні фреймворки працювали за принципом, що розріджені ключові кадри можуть ефективно фіксувати важливу інформацію, але це ефективніше для встановлення жанру та інших аспектів теми відео, оскільки в цьому випадку докази зберігаються протягом кількох кадрів.

F-16

Нова стаття з Китаю пропонує рішення у вигляді першої мультимодальної моделі великої мови (MLLM або просто LLM), яка може аналізувати відео зі швидкістю 16 кадрів в секунду замість стандартного 1 кадру в секунду, уникаючи головних підводних каменів збільшення швидкості аналізу.

У тестах автори стверджують, що нова система під назвою F-16, перевершує за своїми характеристиками сучасні моделі, такі як GPT-4o та Gemini-1.5 Pro від Google. Хоча інші сучасні моделі змогли досягти або перевершити результати F-16 у випробуваннях, конкуруючі моделі були набагато більшими та громіздкішими.

Хоча F-16 був навчений на деякому серйозному обладнанні (що ми розглянемо найближчим часом), логічний висновок зазвичай набагато менш вимогливий, ніж навчання. Тому ми можемо сподіватися, що код (обіцяний до випуску найближчим часом) зможе працювати на вітчизняних графічних процесорах середнього або високого рівня.

Для життєздатності аматорської сцени (і це здебільшого включає професійну сцену візуальних ефектів) потрібна така модель відеосубтитрування, яка може працювати, можливо, квантований, на споживчих системах, щоб уся генеративна відеосцена не мігрувала до комерційних систем на основі API або змушувала споживачів підключати локальні фреймворки до комерційних онлайн-сервісів GPU.

Крім масштабування

Автори зауважують, що такий підхід є практичною альтернативою збільшенню наборів даних. Можна також зробити висновок, що якщо ви збираєтеся використовувати більше даних для вирішення проблеми, цей підхід все одно буде кращим, оскільки нова система розрізняє події більш детально.

Вони заявляють:

«Низька частота дискретизації може призвести до критичної втрати візуальної інформації, особливо у відео зі швидкою зміною сцен, складними деталями або швидким рухом. Крім того, якщо ключові кадри пропущені, але модель навчена на мітках, які покладаються на інформацію про ключові кадри, їй може бути важко узгодити свої передбачення з очікуваним вмістом, що потенційно може призвести до галюцинацій і погіршення продуктивності…

«… F-16 досягає показників SOTA за загальною оцінкою якості відео серед моделей аналогічного розміру та демонструє явну перевагу в розумінні відео з високою частотою кадрів, перевершуючи комерційні моделі, такі як GPT-4o. Ця робота відкриває нові напрямки для розвитку розуміння відео з високою частотою кадрів у мультимодальних дослідженнях LLM».

Команда новий папір має назву Поліпшення Розуміння відео LLM із 16 кадрами в секунду, і походить від восьми авторів з Університету Цінхуа та ByteDance.

Метод

Оскільки послідовні кадри часто містять зайву інформацію, F-16 застосовує вирівнювач із високою частотою кадрів для стиснення та кодування ключових деталей руху, зберігаючи візуальну семантику. Кожен кадр спочатку обробляється попередньо підготовленим кодувальником зображень, витягуючи представлення функцій перед тим, як передавати його до вирівнювача на основі Лінійні одиниці похибки Гауса (GELUs).

Архітектура F-16 обробляє відео зі швидкістю 16 FPS, захоплюючи більше кадрів, ніж традиційні моделі з низькою частотою кадрів, а його вирівнювач з високою частотою кадрів зберігає візуальну семантику, одночасно ефективно кодуючи динаміку руху без додавання додаткових візуальних маркерів. Джерело: https://arxiv.org/pdf/2503.13956

Архітектура F-16 обробляє відео зі швидкістю 16 FPS, захоплюючи більше кадрів, ніж традиційні моделі з низькою частотою кадрів, а його вирівнювач з високою частотою кадрів зберігає візуальну семантику, одночасно ефективно кодуючи динаміку руху без додавання додаткових візуальних маркерів. Джерело: https://arxiv.org/pdf/2503.13956

Щоб ефективно обробляти збільшену кількість кадрів, F-16 групує кадри в невеликі вікна обробки, об’єднуючи візуальні функції за допомогою трирівневого Багатошаровий персептрон (MLP), допомагаючи зберегти лише найрелевантніші деталі руху та зменшуючи непотрібне дублювання, зберігаючи при цьому часовий потік дій. Просторова максимальне об'єднання рівень додатково стискає кількість токенів, утримуючи обчислювальні витрати в межах.

Потім оброблені відеотокени подаються в Qwen2-7B LLM, який генерує текстові відповіді на основі виділених візуальних функцій і заданої підказки користувача.

Структуруючи відеовхід таким чином, F-16 дозволяє, як стверджують автори, більш точне розпізнавання подій у динамічних сценах, зберігаючи при цьому ефективність.

Коротка версія

F-16 розширює попередньо підготовлене зображення LLM, LLaVA-OneVision, для обробки відео шляхом трансформації його конвеєра візуального вхідного сигналу. У той час як стандартні LLM зображень обробляють окремі кадри, вирівнювач F-16 з високою частотою кадрів переформатує кілька кадрів у форму, яку модель може ефективніше обробляти; це дозволяє уникнути перевантаження системи надлишковою інформацією, зберігаючи при цьому ключові сигнали руху, необхідні для точного розуміння відео.

Щоб забезпечити сумісність із основою на основі зображень, F-16 повторно використовує попередньо навчені параметри шляхом реструктуризації свого вирівнювача в підматриці. Цей підхід дозволяє інтегрувати знання з однокадрових моделей, одночасно адаптуючись до послідовного введення відео.

Вирівнювач спочатку стискає послідовності кадрів у формат, оптимізований для LLM, зберігаючи найбільш інформативні функції, відкидаючи непотрібні деталі. Дизайн архітектури дозволяє системі обробляти відео з високою частотою кадрів, зберігаючи обчислювальні вимоги під контролем, що, на думку авторів, є доказом того, що масштабування не є єдиним (або найкращим) шляхом для створення субтитрів у відео.

Зміна темпу

Оскільки обробка відео зі швидкістю 16 кадрів/с покращує розуміння руху, але збільшує обчислювальні витрати, особливо під час логічного висновку, F-16 представляє декодування зі змінною частотою кадрів метод, що дозволяє динамічно регулювати частоту кадрів без повторного навчання.

Вирівнювачі для одного кадру та високої частоти кадрів, доступні для F-16.

Вирівнювачі для одного кадру та високої частоти кадрів, доступні для F-16.

Ця гнучкість дозволяє моделі ефективно працювати з нижчою частотою кадрів в секунду, коли висока точність не потрібна, і зменшує витрати на обчислення.

Під час тестування, коли вибрано нижчу частоту кадрів, F-16 повторно використовує попередньо навчені параметри вирівнювача, повторюючи вхідні кадри, щоб відповідати очікуваним розмірам. Це гарантує, що модель все ще може ефективно обробляти відео без зміни своєї архітектури.

На відміну від простого зменшення дискретизації (тобто простого видалення кадрів), яке ризикує втратити критичні деталі руху, цей метод зберігає вивчені зображення руху, зберігаючи точність навіть при зниженій частоті кадрів. Для загального розуміння відео нижчий параметр FPS може пришвидшити висновок без суттєвої втрати продуктивності, тоді як високошвидкісний аналіз руху може використовувати всі можливості 16 FPS.

Дані та тести

Створений на Qwen2-7B, FP-16 розширює LLaVA-OneVision за допомогою SigLIP як кодувальник зображень. З відеокадрами, відібраними зі швидкістю 16 FPS, з кожного відео можна отримати до 1,760 кадрів. Для довших відеокліпів кадри відбиралися рівномірно (тобто більш рідко).

Для навчання F-16 використовував ті ж загальні набори відеоданих, що й F-XNUMX LLaVA-Відео, У тому числі LLaVA-Відео-178K, NEXT-QA, ActivityNet-QA та PerceptionTest.

F-16 був додатково налаштований на високошвидкісних спортивних наборах даних FineGym, Дайвінг48 та SoccerNet. Автори також підготували колекцію з 276 ігор НБА, зіграних у період з 13 по 25 листопада 2024 року, зосередившись на тому, чи був вдалий удар (завдання, яке вимагає обробки з високою частотою кадрів).

Модель оцінювалася за допомогою Тестовий набір NSVA, з оцінкою ефективності F1 бал.

Моделі гімнастики та стрибків у воду оцінювали на основі точності розпізнавання подій, тоді як моделі футболу та баскетболу відстежували результати передач та кидків.

Модель пройшла навчання для 1 епоха використання 128 Графічні процесори NVIDIA H100 (і стандартних 80 ГБ відеопам’яті на графічний процесор, це передбачало використання 10,24 терабайт пам’яті графічного процесора; навіть за останніми стандартами, це кластер графічного процесора з найвищими характеристиками, який я особисто зустрічав у відповідності до літератури з досліджень комп’ютерного зору). А рівень навчання 2×10⁻⁵ використовувався під час навчання.

Крім того, a Лора був точно налаштований на спортивні дані з використанням адаптерів LoRA з 64 графічним процесором протягом 5 епох. Тут навчили лише LLM, залишивши кодувальник зображень заморожені.

Конкурентними фреймворками, протестованими в початковому раунді на «загальне розуміння відео», були GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; ВідеоLLaMA2-7B; Відеочат 2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; LLaVA-Відео-7BІ НВІЛА-7Б;

Моделі оцінювали на Відео-ММЕ; VideoVista; TemporalBench; MotionBench; Next-QA; МЛВУІ LongVideoBench.

Порівняння результатів перевірки якості відео в різних моделях, що показує обмеження FPS і продуктивність у кількох тестах. F-16 досягає SOTA серед моделей 7B за Video-MME, NQA, TPB і MB, конкуруючи з фірмовими моделями, такими як GPT-4o і Gemini-1.5-Pro.

Порівняння результатів перевірки якості відео в різних моделях, що показує обмеження FPS і продуктивність у кількох тестах. F-16 досягає SOTA серед моделей 7B за Video-MME, NQA, TPB і MB, конкуруючи з фірмовими моделями, такими як GPT-4o і Gemini-1.5-Pro.

З цих результатів автори стверджують:

«У наборах даних Video-MME Short, Medium і NeXT-QA, кожен з яких призначений для розуміння короткого відео, наша модель перевершує попередню модель 7B SOTA на 3.2%, 1.0% і 0.9% за точністю, підкреслюючи її високу продуктивність на коротких відео.

«Для контрольних тестів, що оцінюють розуміння довгого відео, таких як Video-MME Long, LongVideoBench і MLVU, складніше через меншу вибірку кадрів, через що кадри у вікні обробки демонструють більш значні варіації.

«Це збільшує складність для вирівнювача модальностей ефективного кодування часових змін в межах обмеженого представлення токенів. Як результат, F-16 демонструє незначне падіння продуктивності порівняно з [LLaVA-Video-7B], який навчається на тому ж наборі відеоданих».

Обробка з високою частотою кадрів у F-16, як продовжують автори, також призвела до покращення TemporalBench на 13.5% і MotionBench на 2.5% порівняно з існуючими моделями 7B, а результати були такі ж, як комерційні моделі, такі як GPT-4o та Gemini-1.5-Pro.

Розуміння високошвидкісного спортивного відео

F-16 був протестований на FineGym, Diving48, SoccerNet і наборах даних NBA, щоб оцінити його здатність розуміти високошвидкісні спортивні дії.

Використовуючи 10,000 1 анотованих вручну кліпів NBA, навчання було зосереджено на русі м’яча та діях гравців, а також на тому, чи могли моделі правильно визначити, чи був кидок вдалим, використовуючи набір тестів NSVA, оцінений за балом FXNUMX.

Результати аналізу швидкісного спортивного відео. F-16 із вирівнювачем з високою частотою кадрів показав кращі результати, ніж аналог із низькою частотою кадрів у всіх спортивних завданнях. GPT-4o та Gemini-1.5-Pro ​​також були оцінені на NBA та SoccerNet QA, де знання внутрішнього навчання не були потрібні.

Результати аналізу швидкісного спортивного відео. F-16 із вирівнювачем з високою частотою кадрів показав кращі результати, ніж аналог із низькою частотою кадрів у всіх спортивних завданнях. GPT-4o та Gemini-1.5-Pro ​​також були оцінені на NBA та SoccerNet QA, де знання внутрішнього навчання не були потрібні.

На FineGym, який вимірює розпізнавання гімнастичних дій, F-16 показав на 13.8% кращі результати, ніж попередня модель 7B SOTA, продемонструвавши покращене розуміння дрібних рухів.

Дайвінг48 вимагав визначення складних рухів, таких як зліт, сальто, поворот та політ фази, і F-16 показав більш високу точність розпізнавання цих переходів.

Для SoccerNet модель проаналізувала 10-секундні ролики, ідентифікуючи передачі м’яча, і результати показали покращення в порівнянні з існуючими моделями 7B, вказуючи на те, що вищий FPS сприяє відстеженню невеликих і швидких рухів.

У наборі даних NBA здатність F-16 визначати результати кидків наблизилася до точності більших запатентованих моделей, таких як GPT-4o та Gemini-1.5-Pro, що ще раз свідчить про те, що вища частота кадрів покращує його здатність обробляти динамічний рух.

Змінна частота кадрів

F-16 тестували з різною частотою кадрів, щоб оцінити його адаптивність. Замість перенавчання він обробляв нижчий FPS, повторюючи кадри відповідно до вхідної структури вирівнювача. Цей підхід зберіг більшу продуктивність, ніж просте видалення (схильний до втрати точності).

Результати свідчать про те, що хоча зниження кадрів в секунду мало певний вплив на розпізнавання руху, F-16 все ж перевершив моделі з низькою частотою кадрів і зберіг високі результати навіть нижче 16 кадрів в секунду.

Зліва споживання часу різними модулями F-16 під час висновку, виміряне на 300 відео з набору Video-MME Long при різних тестових FPS і довжині послідовності. Правильно, порівняння продуктивності Video-MME для моделей, навчених і протестованих на різних FPS. Суцільною лінією позначено моделі, навчені та протестовані на однаковій частоті кадрів на секунду, тоді як пунктирна лінія показує продуктивність, коли модель, навчену на 16 кадрів на секунду, тестується з нижчою частотою кадрів.

Зліва споживання часу різними модулями F-16 під час висновку, виміряне на 300 відео з набору Video-MME Long при різних тестових FPS і довжині послідовності. Правильно, порівняння продуктивності Video-MME для моделей, навчених і протестованих на різних FPS. Суцільною лінією позначено моделі, навчені та протестовані на однаковій частоті кадрів на секунду, тоді як пунктирна лінія показує продуктивність, коли модель, навчену на 16 кадрів на секунду, тестується з нижчою частотою кадрів.

Обробка з високою частотою кадрів F-16 збільшила вимоги до обчислень, хоча його вирівнювач допоміг керувати цими витратами, стиснувши надлишкові візуальні маркери.

Модель вимагала більше FLOP на відео, ніж моделі з нижчими кадрами в секунду, але також досягла кращої точності на маркер, що свідчить про те, що стратегії вибору кадру та стиснення маркерів допомогли компенсувати додаткові обчислення.

Висновок

Важко переоцінити важливість або складність цього конкретного напряму дослідження – особливо цього року, який має стати рік прориву для генеративного відео, усуваючи недоліки курації відеоданих і якості субтитрів в різке полегшення.

Слід також підкреслити, що проблеми, пов’язані з отриманням точних описів деталей внутрішнього відео, не можуть бути вирішені виключно використанням VRAM, часу або дискового простору. Метод, за допомогою якого події виокремлюються/виділяються з інших довгих і нудних уривків відео (наприклад, із відеокліпами про гольф чи снукер), виграє від переосмислення семантичних підходів і механізмів, які зараз домінують у рішеннях SOTA, оскільки деякі з цих обмежень були встановлені в часи, де було більше ресурсів.

(до речі, навіть якщо 16 кадрів/с здається дуже низькою частотою кадрів для 2025 року, цікаво відзначити, що це також рідна навчальна швидкість відеокліпів, які використовуються у надзвичайно популярних Ван 2.1 генеративна відеомодель та швидкість, з якою вона, таким чином, працює з найменшою кількістю проблем. Сподіваємося, що дослідницька сфера буде стежити за можливою «ентропією стандартів» тут; іноді застарілі обмеження може увічнити стандарти майбутнього)

 

Вперше опубліковано в середу, 19 березня 2025 р

Письменник машинного навчання, фахівець із домену синтезу зображень людини. Колишній керівник відділу досліджень Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai