Connect with us

Wyzwanie napisania napisów wideo z prędkością ponad 1 klatkę na sekundę

Kąt Andersona

Wyzwanie napisania napisów wideo z prędkością ponad 1 klatkę na sekundę

mm
Trails in a basketball scene - source: https://www.youtube.com/watch?v=ORfjgE6n2Pc

Możliwość rozpoznawania zdarzeń wewnątrz wideo przez systemy machine learning jest kluczowa dla przyszłości generacji wideo opartej na AI – nie tylko dlatego, że zestawy wideo wymagają dokładnych napisów, aby wytworzyć modele, które przestrzegają żądania użytkownika i nie halucynują nadmiernie, ale także dlatego, że halucynacje mogą prowadzić do błędnych interpretacji.

Przykład schematu napisów z projektu VidReCap firmy Google. Źródło: https://sites.google.com/view/vidrecap

Przykład schematu napisów z projektu VidReCap firmy Google. Źródło: https://sites.google.com/view/vidrecap

Ręczne napisywanie napisów do filmów w skali potrzebnej do skutecznych zbiorów danych szkoleniowych jest nie do pomyślenia. Chociaż możliwe jest szkolenie systemów AI do automatycznego napisywania napisów, wiele przykładów wygenerowanych przez człowieka jest nadal potrzebnych jako prawda, dla różnorodności i pokrycia.

Co więcej, prawie każdy obecny model napisów wideo oparty na AI działa z prędkością 1 klatki na sekundę, co nie jest wystarczająco gęstym pobieraniem, aby rozróżnić zmiany w wielu scenariuszach: nagłe mikro-zmiany wyrazu twarzy dla systemów rozpoznawania emocji; szybkie zdarzenia w sportach o wysokiej prędkości, takich jak koszykówka; gwałtowne ruchy; szybkie cięcia w dramatycznych filmach, gdzie systemy takie jak PySceneDetect mogą nie być w stanie je zidentyfikować (lub nie są używane); i wiele innych scenariuszy, w których okno uwagi wymaga większej intensywności.

Kliknij, aby odtworzyć. Szybka, ale przełomowa akcja w jednym z najwolniejszych sportów na świecie, gdy Alex Higgins wygrywa mistrzostwa świata przeciwko Rayowi Reardonowi w 1982 roku. Źródło: https://www.youtube.com/watch?v=_1PuqKno_Ok

Ruszać szybko i łamać logikę

Ten niski wskaźnik jest standardem z różnych przyczyn logistycznych. Po pierwsze, napisywanie napisów wideo jest czynnością wymagającą dużych zasobów, niezależnie od tego, czy system studiuje jeden sekwencyjny klatkę na raz, czy używa różnych metod, aby semantycznie zunifikować ciąg klatek w sekwencję napisów. W każdym przypadku okno kontekstowe jest nieuniknienie ograniczone przez ograniczenia sprzętowe.

Inną przyczyną, dla której 1 klatka na sekundę jest obecnie standardem, jest to, że filmy wideo nie są zwykle wypełnione szybkimi zdarzeniami; jest więc zbędne, aby nadać 300 klatkom statycznego stołu do snookera taką samą uwagę, jak sekundzie, w której wygrana czarna piłka wygrywa mistrzostwa (patrz przykład powyżej).

Możliwe jest używanie szerszych wskazówek wtórnych, aby zidentyfikować przełomowe momenty w filmie sportowym, takich jak trwała reakcja publiczności na szybki wsad w grze koszykówki. Jednak takie wskazówki mogą wystąpić z innych powodów (takich jak nieoczekiwane urazy graczy) i nie mogą być ufać. To jest jeden z przykładów, jak błędnie oznaczony zbiór danych wideo może prowadzić do modelu generatywnego wideo, który halucynuje lub błędnie interpretuje polecenia, tzn. ponieważ model może wyświetlić uraz gracza, gdy został poproszony o wygenerowanie wsadu (ponieważ “wtórna wskazówka” podniecenia publiczności nie była wyłączna dla jednego konkretnego typu zdarzenia).

To jest w wielu ways “problem budżetowy” i w innych ways “problem proceduralny”. Ramy do tej pory działały na zasadzie, że rzadkie klatki mogą skutecznie przechwytywać istotne informacje, ale jest to bardziej skuteczne w ustaleniu gatunku i innych aspektów przedmiotu filmu, ponieważ dowody w tym przypadku utrzymują się przez wiele klatek.

F-16

Nowy artykuł z Chin oferuje rozwiązanie w postaci pierwszego wielomodalnego dużego modelu językowego (MLLM, lub po prostu LLM), który może analizować wideo z prędkością 16 klatek na sekundę zamiast standardowych 1 klatki na sekundę, unikając przy tym głównych pułapek zwiększania prędkości analizy.

W testach autorzy twierdzą, że nowy system, zatytułowany F-16, przewyższa własne zaawansowane modele, takie jak GPT-4o i Google’s Gemini-1.5 pro. Chociaż inne obecne modele były w stanie dopasować lub przewyższyć wyniki F-16 w testach, rywalizujące modele były znacznie większe i mniej wydajne.

Chociaż F-16 został przeszkolony na poważnym sprzęcie (jak będziemy badać nieco później), inferencja jest zwykle znacznie mniej wymagająca niż szkolenie. Dlatego możemy liczyć, że kod (obiecany na najbliższą przyszłość) będzie w stanie działać na średnim lub wysokim poziomie domowych GPU.

Co jest potrzebne do życia sceny hobbystycznej (co obejmuje również profesjonalną scenę VFX, większość czasu) to model napisów wideo tego rodzaju, który może działać, być może kwantyzowany, na systemach konsumenckich, aby cała scena generatywnego wideo nie przeniosła się do API-opartych systemów komercyjnych lub zmusiła konsumentów do podłączenia lokalnych ram do komercyjnych usług online GPU.

Poza skalowaniem

Autorzy obserwują, że tego rodzaju podejście jest praktyczną alternatywą dla skalowania zbiorów danych. Można również wnioskować, że jeśli ktoś miałby rzucić więcej danych na problem, to jest to nadal rodzaj podejścia, który mógłby być preferowany, ponieważ nowy system rozróżnia zdarzenia w bardziej drobny sposób.

Stwierdzają:

‘Niska częstotliwość próbkowania może skutkować utratą krytycznych informacji wizualnych, szczególnie w filmach z szybko zmieniającymi się scenami, drobnych szczegółach lub szybkim ruchu. Dodatkowo, jeśli klatki kluczowe są pomijane, a model jest szkolony na etykietach, które polegają na informacjach z klatek kluczowych, może on mieć trudności z dopasowaniem swoich predykacji do oczekiwanego zawartości, potencjalnie prowadząc do halucynacji i pogorszenia wydajności…

‘… F-16 osiąga najlepsze wyniki w ogólnym pytaniu wideo wśród modeli o podobnej wielkości i wykazuje wyraźną przewagę w zrozumieniu wideo o wysokiej częstotliwości klatek, przewyższając komercyjne modele, takie jak GPT-4o. Ta praca otwiera nowe kierunki dla rozwoju zrozumienia wideo o wysokiej częstotliwości klatek w badaniach nad wielomodalnymi LLM.’

Nowy artykuł nowy artykuł zatytułowany Poprawa zrozumienia wideo LLM z 16 klatkami na sekundę, pochodzi od ośmiu autorów z Tsinghua University i ByteDance.

Metoda

Ponieważ kolejne klatki często zawierają redundacyjne informacje, F-16 stosuje wysoką częstotliwość klatek, aby kompresować i zakodować kluczowe szczegóły ruchu, zachowując przy tym semantykę wizualną. Każda klatka jest najpierw przetwarzana przez wstępnie przeszkolony encoder obrazu, wyodrębniając reprezentacje cech przed przekazaniem do alignera opartego na Gaussian Error Linear Units (GELUs).

Architektura F-16 przetwarza wideo z prędkością 16 klatek na sekundę, przechwytując więcej klatek niż tradycyjne modele o niskiej częstotliwości klatek, a jego wysoka częstotliwość klatek zachowuje semantykę wizualną, efektywnie kodując dynamikę ruchu bez dodawania dodatkowych tokenów wizualnych. Źródło: https://arxiv.org/pdf/2503.13956

Architektura F-16 przetwarza wideo z prędkością 16 klatek na sekundę, przechwytując więcej klatek niż tradycyjne modele o niskiej częstotliwości klatek, a jego wysoka częstotliwość klatek zachowuje semantykę wizualną, efektywnie kodując dynamikę ruchu bez dodawania dodatkowych tokenów wizualnych. Źródło: https://arxiv.org/pdf/2503.13956

Aby obsłużyć zwiększoną liczbę klatek w sposób wydajny, F-16 grupuje klatki w małe okna przetwarzania, łącząc cechy wizualne za pomocą trójwarstwowego Multi-Layer Perceptron (MLP), pomagając w zachowaniu tylko najbardziej istotnych szczegółów ruchu i redukując niepotrzebne powielenie, przy zachowaniu przepływu czasowego działań. Warstwa max-pooling dalej kompresuje liczbę tokenów, utrzymując koszty obliczeniowe w granicach.

Przetworzone tokeny wideo są następnie wprowadzane do Qwen2-7B LLM, który generuje odpowiedzi tekstowe na podstawie wyodrębnionych cech wizualnych i danego promtu użytkownika.

Poprzez strukturyzowanie wejścia wideo w ten sposób, F-16 umożliwia, zdaniem autorów, bardziej precyzyjne rozpoznawanie zdarzeń w dynamicznych scenach, przy jednoczesnym zachowaniu wydajności.

Krótka wersja

F-16 rozszerza wstępnie przeszkolony model obrazu LLM, LLaVA-OneVision, do przetwarzania wideo, transformując jego potok wejścia wizualnego. Podczas gdy standardowe modele LLM obrazu obsługują izolowane klatki, wysoka częstotliwość klatek F-16 reformuje wiele klatek w postaci, którą model może bardziej efektywnie przetwarzać; tym samym unika on przytłoczenia systemu informacjami redundacyjnymi, przy zachowaniu kluczowych wskazówek ruchu niezbędnych do dokładnego zrozumienia wideo.

Aby zapewnić zgodność z jego podstawą obrazu, F-16 ponownie wykorzystuje wstępnie przeszkolone parametry, reorganizując swój aligner w pod-macierze. To podejście pozwala mu na integrację wiedzy z modeli jednej klatki, przy jednoczesnym dostosowaniu do sekwencyjnego wejścia wideo.

Aligner najpierw kompresuje sekwencje klatek do formatu zoptymalizowanego dla LLM, zachowując najbardziej informacyjne cechy, przy jednoczesnym usuwaniu niepotrzebnych szczegółów. Projekt architektury umożliwia systemowi przetwarzanie wideo o wysokiej częstotliwości klatek, przy jednoczesnym utrzymaniu kosztów obliczeniowych pod kontrolą, co autorzy uznają za dowód, że skalowanie nie jest jedyną (lub najlepszą) drogą do przodu dla napisów wideo.

Zmiana tempa

Ponieważ przetwarzanie wideo z prędkością 16 klatek na sekundę poprawia zrozumienie ruchu, ale zwiększa koszty obliczeniowe, szczególnie podczas inferencji, F-16 wprowadza zmienną częstotliwość klatek metodę, pozwalającą mu na dynamiczne dostosowanie częstotliwości klatek bez ponownego szkolenia.

Jedna klatka i wysoka częstotliwość klatek dostępne dla F-16.

Jedna klatka i wysoka częstotliwość klatek dostępne dla F-16.

Ta elastyczność pozwala modelowi na efektywne działanie przy niższych częstotliwościach klatek, kiedy wysoka precyzja nie jest wymagana, i redukuje koszty obliczeniowe.

Podczas testowania, kiedy niższa częstotliwość klatek jest wybrana, F-16 ponownie wykorzystuje wcześniej przeszkolone parametry alignera, powtarzając klatki wejściowe, aby dopasować wymagane wymiary. To zapewnia, że model może nadal efektywnie przetwarzać wideo bez modyfikacji jego architektury.

W przeciwieństwie do naiwnej próbkowania (tj. po prostu usuwania klatek), które ryzykuje utratę krytycznych szczegółów ruchu, to podejście zachowuje reprezentacje ruchu nauczone przez aligner, utrzymując dokładność nawet przy zmniejszonych częstotliwościach klatek. Dla ogólnego zrozumienia wideo ustawienie niższej częstotliwości klatek może przyspieszyć inferencję bez znaczącej utraty wydajności, podczas gdy analiza ruchu o wysokiej prędkości może nadal wykorzystywać pełną możliwość 16 klatek na sekundę.

Dane i testy

Zbudowany na Qwen2-7B, FP-16 rozszerza LLaVA-OneVision za pomocą SigLIP jako encodera obrazu. Z klatkami wideo próbkowanymi z prędkością 16 klatek na sekundę, do 1,760 klatek można uzyskać z każdego wideo. Dla dłuższych klipów wideo klatki były jednolicie (tj. rzadziej) próbkowane.

Do szkolenia F-16 użyto tych samych ogólnych zbiorów danych wideo, co LLaVA-Video, w tym LLaVA-Video-178K, NExT-QA, ActivityNet-QA i PerceptionTest.

F-16 został dodatkowo dopracowany na wysokich zbiorach danych sportowych FineGym, Diving48 i SoccerNet. Autorzy również skompilowali kolekcję 276 meczów NBA rozegranych między 13 a 25 listopada 2024 roku, koncentrując się na tym, czy strzał był udany (zadanie wymagające przetwarzania wideo o wysokiej częstotliwości klatek), używając zestawu testowego NSVA ocenianego za pomocą F1 score.

Model został oceniony przy użyciu zestawu testowego NSVA, z wydajnością mierzoną przez F1 score.

Modele gimnastyczne i nurkowe były oceniane na podstawie dokładności rozpoznawania zdarzeń, podczas gdy modele piłki nożnej i koszykówki śledziły podania i wyniki strzałów.

Model został przeszkolony przez 1 epoch przy użyciu 128 NVIDIA H100 GPU (i przy standardowej ilości 80 GB VRAM na GPU, co wymagało użycia 10,24 terabajtów pamięci GPU; nawet według współczesnych standardów, jest to najwyższy poziom GPU cluster, jaki osobiście spotkałem, śledząc literaturę badawczą z dziedziny widzenia komputerowego). Zastosowano współczynnik uczenia 2×10⁻⁵ podczas szkolenia.

Ponadto LoRA został dopracowany na danych sportowych przy użyciu adapterów LoRA z 64 GPU przez 5 epok. Tutaj tylko LLM został przeszkolony, pozostawiając encjator obrazu zamrożony.

Przeciwstawne ramy testowane w pierwszej rundzie dla “ogólnego zrozumienia wideo” były GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; VideoLLaMA2-7B; VideoChat2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; LLaVA-Video-7B; i NVILA-7B;

Modele zostały ocenione na Video-MME; VideoVista; TemporalBench; MotionBench; Next-QA; MLVU; i LongVideoBench.

Porównanie wyników zapytań wideo między modelami, pokazując limity FPS i wyniki na różnych benchmarkach. F-16 osiąga najlepsze wyniki wśród modeli 7B na Video-MME, NQA, TPB i MB, rywalizując z modelami komercyjnymi, takimi jak GPT-4o i Gemini-1.5-Pro.

Porównanie wyników zapytań wideo między modelami, pokazując limity FPS i wyniki na różnych benchmarkach. F-16 osiąga najlepsze wyniki wśród modeli 7B na Video-MME, NQA, TPB i MB, rywalizując z modelami komercyjnymi, takimi jak GPT-4o i Gemini-1.5-Pro.

Z tych wyników autorzy stwierdzają:

‘Na zestawach danych Video-MME Short, Medium i NeXT-QA—każdy zaprojektowany do krótkiego zrozumienia wideo—nasz model przewyższa poprzedni model 7B o 3,2%, 1,0% i 0,9% w dokładności, podkreślając jego silną wydajność na krótkich filmach.

‘Dla benchmarków oceniających długie zrozumienie wideo, takich jak Video-MME Long, LongVideoBench i MLVU, wyzwanie jest większe ze względu na rzadsze próbkowanie klatek, powodując, że klatki wewnątrz okna przetwarzania wykazują znaczniejsze różnice.

‘To zwiększa trudność dla alignera, aby skutecznie zakodować zmiany czasowe wewnątrz ograniczonej reprezentacji tokenów. W rezultacie F-16 doświadcza niewielkiego spadku wydajności w porównaniu z [LLaVA-Video-7B], który jest szkolony na tym samym zestawie danych wideo.’

F-16’s przetwarzanie wideo o wysokiej częstotliwości klatek również doprowadziło do 13,5% poprawy na TemporalBench i 2,5% zysku na MotionBench w porównaniu z istniejącymi modelami 7B, i wykazał podobny poziom do modeli komercyjnych, takich jak GPT-4o i Gemini-1.5-Pro.

Zrozumienie wideo sportów o wysokiej prędkości

F-16 został przetestowany na FineGym, Diving48, SoccerNet i NBA, aby ocenić jego zdolność do zrozumienia szybkich działań sportowych.

Używając 10 000 ręcznie oznaczonych klipów NBA, szkolenie koncentrowało się na ruchu piłki i działaniach graczy, i czy modele mogły poprawnie określić, czy strzał był udany, używając zestawu testowego NSVA ocenianego za pomocą F1 score.

Wyniki analizy wideo sportów o wysokiej prędkości. F-16 z wysoką częstotliwością klatek wykonał lepiej niż jego odpowiednik o niskiej częstotliwości klatek we wszystkich zadaniach sportowych. GPT-4o i Gemini-1.5-Pro również zostały ocenione na NBA i SoccerNet QA, gdzie nie było wymagane szkolenie wewnątrz dziedziny.

Wyniki analizy wideo sportów o wysokiej prędkości. F-16 z wysoką częstotliwością klatek wykonał lepiej niż jego odpowiednik o niskiej częstotliwości klatek we wszystkich zadaniach sportowych. GPT-4o i Gemini-1.5-Pro również zostały ocenione na NBA i SoccerNet QA, gdzie nie było wymagane szkolenie wewnątrz dziedziny.

Na FineGym, który mierzy rozpoznawanie działań gimnastycznych, F-16 wykonał 13,8% lepiej niż poprzedni model 7B, demonstrując poprawione drobne zrozumienie ruchu.

Diving48 wymagał identyfikacji złożonych sekwencji ruchu, takich jak start, somersault, skręt i lot, i F-16 pokazał wyższą dokładność w rozpoznawaniu tych przejść.

Dla SoccerNet model analizował 10-sekundowe klipy, identyfikując podania piłki, i wyniki pokazały poprawę w porównaniu z istniejącymi modelami 7B, wskazując, że wyższa częstotliwość klatek przyczynia się do śledzenia małych i szybkich ruchów.

W zestawie danych NBA zdolność F-16 do określania wyników strzałów zbliżyła się do dokładności większych modeli komercyjnych, takich jak GPT-4o i Gemini-1.5-Pro, co dalej sugeruje, że wyższa częstotliwość klatek zwiększa jego zdolność do przetwarzania dynamicznego ruchu.

Zmienne częstotliwości klatek

F-16 został przetestowany przy różnych częstotliwościach klatek, aby zmierzyć jego adaptacyjność. Zamiast ponownego szkolenia, obsłużył niższe częstotliwości klatek, powtarzając klatki, aby dopasować strukturę wejścia alignera. To podejście zachowało więcej wydajności niż proste usuwanie klatek (które może prowadzić do utraty dokładności).

Wyniki wskazują, że chociaż zmniejszenie częstotliwości klatek miało pewien wpływ na rozpoznawanie ruchu, F-16 nadal przewyższył modele o niskiej częstotliwości klatek i utrzymał silne wyniki, nawet poniżej 16 klatek na sekundę.

Lewy, zużycie czasu różnych modułów F-16 podczas inferencji, zmierzone na 300 filmach z zestawu Video-MME Long przy różnych częstotliwościach klatek testowych i długościach sekwencji. Prawy, porównanie wyników Video-MME dla modeli szkolonych i testowanych przy różnych częstotliwościach klatek. Cząstka ciągła reprezentuje modele szkolone i testowane przy tej samej częstotliwości klatek, podczas gdy linia przerywana pokazuje wyniki, gdy model szkolony przy 16 klatkach na sekundę jest testowany przy niższej częstotliwości klatek.

Lewy, zużycie czasu różnych modułów F-16 podczas inferencji, zmierzone na 300 filmach z zestawu Video-MME Long przy różnych częstotliwościach klatek testowych i długościach sekwencji. Prawy, porównanie wyników Video-MME dla modeli szkolonych i testowanych przy różnych częstotliwościach klatek. Cząstka ciągła reprezentuje modele szkolone i testowane przy tej samej częstotliwości klatek, podczas gdy linia przerywana pokazuje wyniki, gdy model szkolony przy 16 klatkach na sekundę jest testowany przy niższej częstotliwości klatek.

Przetwarzanie wideo o wysokiej częstotliwości klatek F-16 zwiększyło wymagania obliczeniowe, chociaż jego aligner pomógł zarządzać tymi kosztami, kompresując redundacyjne tokeny wizualne.

Model wymagał więcej operacji na wideo niż modele o niższych częstotliwościach klatek, ale również osiągnął lepszą dokładność na token, sugerując, że jego strategie selekcji klatek i kompresji tokenów pomogły zrównoważyć dodatkowe obliczenia.

Podsumowanie

Trudno przecenić albo wagę, albo wyzwania tego konkretnego nurtu badań – szczególnie w tym roku, który ma być przełomowym rokiem dla generatywnego wideo, rzucając niedociągnięcia kuracji zbiorów danych wideo i jakości napisów w ostre światło.

Powinno się również podkreślić, że wyzwania związane z uzyskaniem dokładnych opisów wewnętrznych szczegółów wideo nie mogą być rozwiązane wyłącznie przez rzucanie VRAM, czasu lub miejsca na dysku na problem. Sposób, w jaki zdarzenia są izolowane / wyodrębniane z długich i nudnych fragmentów wideo (jak na przykład klipy golfowe lub snookerowe), będzie korzystał z ponownego przemyślenia semantycznych podejść i mechanizmów obecnie dominujących rozwiązania SOTA – ponieważ niektóre z tych ograniczeń zostały ustanowione w czasach bardziej zasobnych.

(incydentalnie, nawet jeśli 16 klatek na sekundę wydaje się bardzo niską częstotliwością klatek dla 2025 roku, jest interesujące zauważyć, że jest to również rodzima szybkość szkolenia klipów wideo używanych w bardzo popularnym modelu generatywnego wideo Wan 2.1, i szybkości, z jaką działa z najmniejszymi problemami. Mam nadzieję, że scena badawcza będzie monitorować możliwą “entropię standardów” tutaj; czasami przestarzałe ograniczenia mogą utrwalać przyszłe standardy)

 

Pierwotnie opublikowane w środę, 19 marca 2025

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.