Kąt Andersona

Wyzwanie tworzenia napisów do filmów z szybkością większą niż 1 kl./s

Opublikowany 19 marca 2025 r.

Martin Anderson

Ślady w scenie koszykówki - źródło: https://www.youtube.com/watch?v=ORfjgE6n2Pc

Możliwość rozpoznawania przez systemy uczenia maszynowego zdarzeń zachodzących w materiale wideo ma kluczowe znaczenie dla przyszłości generowania wideo opartego na sztucznej inteligencji – nie w ostatniej kolejności dlatego, że zestawy danych wideo wymagają dokładnych napisów, aby tworzyć modele zgodne z żądaniem użytkownika i nie powodujące nadmiernego halucynacje.

Przykład schematu napisów z projektu VidReCap firmy Google. Źródło: https://sites.google.com/view/vidrecap

Ręczne dodawanie napisów do skali filmów potrzebnych do efektywnych zestawów danych szkoleniowych jest nie do pomyślenia. Chociaż możliwe jest trenowanie systemów AI do filmów z automatycznym dodawaniem napisów, nadal potrzeba wielu przykładów generowanych przez ludzi jako prawdy naziemnej, dla różnorodności i zasięgu.

Co ważniejsze, niemal każdy obecny model tworzenia napisów do filmów oparty na sztucznej inteligencji działa z szybkością 1 fps, co nie jest wystarczająco gęstym współczynnikiem przechwytywania, aby rozróżniać wariacje w wielu scenariuszach: nagłe zmiany mikroekspresji w systemach rozpoznawania emocji; szybkie zdarzenia w szybkich sportach, takich jak koszykówka; gwałtowne ruchy; szybkie cięcia w dramatycznych filmach, w których systemy takie jak PySceneDetect mogą nie być w stanie ich zidentyfikować (lub nie są używane) oraz wiele innych scenariuszy, w których okno uwagi wyraźnie musi być bardziej intensywne.

Kliknij aby zagrać. Szybka, ale zmieniająca życie akcja w jednym z najwolniejszych sportów na świecie: Alex Higgins zdobywa mistrzostwo świata, pokonując Raya Reardon w 1982 r. Źródło: https://www.youtube.com/watch?v=_1PuqKno_Ok

Działaj szybko i łam logikę

Ta niska stawka jest standardem z różnych przyczyn logistycznych. Po pierwsze, tworzenie napisów do filmów jest czynnością intensywnie wykorzystującą zasoby, niezależnie od tego, czy system bada jedną sekwencyjną klatkę na raz, czy też używa różnych metod, aby semantycznie spójnie połączyć ciąg klatek w interpretowalną sekwencję napisów. W obu przypadkach okno kontekstowe jest nieuchronnie ograniczony przez ograniczenia sprzętowe.

Kolejnym powodem, dla którego standardem jest obecnie 1 fps, jest fakt, że filmy nie są zazwyczaj wypełnione szybkimi wydarzeniami; nie ma więc sensu poświęcać 300 klatkom statycznego stołu bilardowego tyle samo uwagi, co ułamkowi sekundy, w której wbita czarna bila wygrywa mistrzostwa (patrz przykład powyżej).

Możliwe jest wykorzystanie szerszych wskazówek wtórnych do identyfikacji kluczowych momentów w materiale wideo sportowym, takich jak długotrwała reakcja tłumu na szybki wsad w meczu koszykówki. Jednak takie wskazówki mogą pojawić się z innych powodów (takich jak nieoczekiwane kontuzje zawodników) i nie można na nich polegać. To jeden z przykładów, jak błędnie oznaczony zbiór danych wideo może prowadzić do generatywnego modelu wideo, który wywołuje halucynacje lub błędnie interpretuje instrukcje, np. dlatego, że model może wskazywać kontuzję zawodnika, gdy poproszono go o wygenerowanie wsadu (ponieważ „wskazówka wtórna” w postaci wzburzenia tłumu nie była ograniczona do jednego konkretnego rodzaju wydarzenia).

Jest to pod wieloma względami problem „budżetowy”, a pod innymi – problem proceduralny. Dotychczasowe ramy opierały się na zasadzie, że rzadkie klatki kluczowe mogą skutecznie uchwycić istotne informacje, ale jest to skuteczniejsze w ustalaniu gatunku i innych aspektów tematu filmu, ponieważ w takim przypadku dowody utrzymują się w wielu klatkach.

F-16

Nowe opracowanie z Chin oferuje rozwiązanie w postaci pierwszego multimodalnego dużego modelu językowego (MLLM lub po prostu LLM), który może analizować wideo przy 16 klatkach na sekundę zamiast standardowego 1 kl./s, unikając przy tym głównych pułapek związanych ze zwiększeniem szybkości analizy.

W testach autorzy twierdzą, że nowy system o nazwie F-16, przewyższa opatentowane, najnowocześniejsze modele, takie jak GPT-4o i Google Gemini-1.5 pro. Podczas gdy inne obecne modele były w stanie dorównać lub przewyższyć wyniki F-16 w testach, konkurencyjne modele były znacznie większe i nieporęczniejsze.

Chociaż F-16 został wytrenowany na zaawansowanym sprzęcie (co wkrótce omówimy), wnioskowanie jest zazwyczaj znacznie mniej wymagające niż trenowanie. Dlatego możemy mieć nadzieję, że kod (zapowiedziany do wydania w niedalekiej przyszłości) będzie działał na domowych procesorach graficznych średniej lub wysokiej klasy.

Do ożywienia sceny hobbystycznej (a to obejmuje również profesjonalną scenę efektów wizualnych, w większości przypadków) potrzebny jest model napisów wideo tego typu, który może działać, być może skwantowany, w systemach konsumenckich, tak aby cała scena generatywnego wideo nie została przeniesiona do komercyjnych systemów opartych na API lub aby konsumenci nie byli zmuszeni łączyć lokalnych struktur z komercyjnymi usługami GPU online.

Poza skalowaniem

Autorzy zauważają, że tego rodzaju podejście jest praktyczną alternatywą dla skalowania zestawów danych. Można również wnioskować, że gdybyś miał rzucić więcej danych na problem, to nadal jest to rodzaj podejścia, który mógłby być lepszy, ponieważ nowy system rozróżnia zdarzenia w bardziej szczegółowy sposób.

Stwierdzają:

'Próbkowanie niskiej liczby klatek na sekundę może skutkować utratą krytycznych informacji wizualnych, szczególnie w filmach z szybko zmieniającymi się scenami, skomplikowanymi szczegółami lub szybkim ruchem. Ponadto, jeśli pominięto klatki kluczowe, a model jest trenowany na etykietach, które opierają się na informacjach z klatek kluczowych, może mieć trudności z dopasowaniem swoich przewidywań do oczekiwanej zawartości, co potencjalnie prowadzi do halucynacji i pogorszenia wydajności…

„…F-16 osiąga wydajność SOTA w ogólnym zapewnianiu jakości wideo w porównaniu z modelami o podobnej wielkości i wykazuje wyraźną przewagę w rozumieniu wideo o wysokiej liczbie klatek na sekundę, przewyższając modele komercyjne, takie jak GPT-4o. Niniejsza praca otwiera nowe kierunki rozwoju rozumienia wideo o wysokiej liczbie klatek na sekundę w multimodalnych badaniach LLM”.

nowy papier nosi tytuł Ulepszanie Rozumienie materiału wideo LLM z 16 klatkami na sekundęi pochodzi od ośmiu autorów z Uniwersytetu Tsinghua i ByteDance.

Metoda wykonania

Ponieważ kolejne klatki często zawierają nadmiarowe informacje, F-16 stosuje aligner o wysokiej liczbie klatek na sekundę, aby skompresować i zakodować kluczowe szczegóły ruchu, zachowując jednocześnie semantykę wizualną. Każda klatka jest najpierw przetwarzana przez wstępnie wyszkolony koder obrazu, wyodrębniając reprezentacje cech przed przekazaniem do alignera na podstawie Jednostki liniowe błędu Gaussa (GELU).

Architektura F-16 przetwarza wideo z szybkością 16 FPS, przechwytując więcej klatek niż tradycyjne modele o niskiej liczbie klatek na sekundę, a jego aligner o wysokiej liczbie klatek na sekundę zachowuje semantykę wizualną, jednocześnie skutecznie kodując dynamikę ruchu bez dodawania dodatkowych tokenów wizualnych. Źródło: https://arxiv.org/pdf/2503.13956

Architektura F-16 przetwarza wideo z szybkością 16 klatek na sekundę, rejestrując więcej klatek niż tradycyjne modele o niskiej liczbie klatek na sekundę, a moduł wyrównujący klatki o wysokiej liczbie klatek na sekundę zachowuje semantykę wizualną, jednocześnie skutecznie kodując dynamikę ruchu bez dodawania dodatkowych elementów wizualnych. Źródło: https://arxiv.org/pdf/2503.13956

Aby sprawnie obsługiwać zwiększoną liczbę klatek, F-16 grupuje klatki w małe okna przetwarzania, łącząc cechy wizualne za pomocą trójwarstwowego algorytmu Perceptron wielowarstwowy (MLP), pomagając zachować tylko najbardziej istotne szczegóły ruchu i redukując niepotrzebne duplikowanie, przy jednoczesnym zachowaniu przepływu czasowego działań. Przestrzenny maksymalne łączenie Warstwa ta dodatkowo kompresuje liczbę tokenów, utrzymując koszty obliczeniowe w granicach rozsądku.

Przetworzone tokeny wideo są następnie wprowadzane do Qwen2-7B LLM generuje odpowiedzi tekstowe na podstawie wyodrębnionych cech wizualnych i podanego monitu użytkownika.

Autorzy twierdzą, że dzięki takiemu ustrukturyzowaniu danych wideo F-16 umożliwia dokładniejsze rozpoznawanie zdarzeń w dynamicznych scenach, przy jednoczesnym zachowaniu wydajności.

Krótka wersja

F-16 rozszerza wstępnie wyszkolony obraz LLM, LLaVA-JednaWizja, do przetwarzania wideo poprzez transformację jego wizualnego kanału wejściowego. Podczas gdy standardowe systemy LLM obsługują pojedyncze klatki, moduł alignera o wysokiej liczbie klatek w F-16 formatuje wiele klatek do formatu, który model może przetwarzać wydajniej; pozwala to uniknąć przeciążenia systemu zbędnymi informacjami, zachowując jednocześnie kluczowe wskazówki ruchu niezbędne do prawidłowego zrozumienia wideo.

Aby zapewnić zgodność z bazą obrazową, F-16 ponownie wykorzystuje wstępnie wyszkolone parametry, restrukturyzując swój aligner w podmacierzeTakie podejście pozwala na integrację wiedzy z modeli jednoklatkowych, przy jednoczesnym dostosowaniu do sekwencyjnego wejścia wideo.

Aligner najpierw kompresuje sekwencje klatek do formatu zoptymalizowanego dla LLM, zachowując najbardziej informacyjne cechy, a jednocześnie odrzucając zbędne szczegóły. Projekt architektury umożliwia systemowi przetwarzanie wideo o wysokiej liczbie klatek na sekundę przy jednoczesnym zachowaniu wymagań obliczeniowych pod kontrolą, co autorzy przedstawiają jako dowód, że skalowanie nie jest jedynym (ani najlepszym) sposobem na rozwój napisów wideo.

Zmiana tempa

Ponieważ przetwarzanie wideo z szybkością 16 klatek na sekundę poprawia zrozumienie ruchu, ale zwiększa koszty obliczeniowe, szczególnie podczas wnioskowania, F-16 wprowadza dekodowanie ze zmienną liczbą klatek na sekundę metoda umożliwiająca dynamiczne dostosowywanie liczby klatek na sekundę bez konieczności ponownego trenowania.

Dostępne dla F-16 urządzenia do pozycjonowania pojedynczych klatek i klatek o wysokiej liczbie klatek na sekundę.

Taka elastyczność pozwala modelowi działać wydajnie przy niższych wartościach FPS, gdy nie jest wymagana wysoka precyzja, a także zmniejsza obciążenie obliczeniowe.

W czasie testu, gdy wybrana jest niższa liczba klatek na sekundę, F-16 ponownie wykorzystuje wcześniej wytrenowane parametry alignera, powtarzając klatki wejściowe, aby dopasować je do oczekiwanych wymiarów. Dzięki temu model może nadal skutecznie przetwarzać wideo bez modyfikowania swojej architektury.

W przeciwieństwie do naiwnego downsamplingu (tj. po prostu usuwania klatek), który grozi utratą krytycznych szczegółów ruchu, ta metoda zachowuje wyuczone reprezentacje ruchu alignera, utrzymując dokładność nawet przy zmniejszonych szybkościach klatek. W przypadku ogólnego zrozumienia wideo niższe ustawienie FPS może przyspieszyć wnioskowanie bez znacznej utraty wydajności, podczas gdy analiza ruchu o dużej prędkości może nadal wykorzystywać pełną zdolność 16 FPS.

Dane i testy

Zbudowany na bazie Qwen2-7B, FP-16 rozszerza LLaVA-OneVision przy użyciu SigLIP jako koder obrazu. Przy próbkowaniu klatek wideo z częstotliwością 16 FPS można uzyskać do 1,760 klatek z każdego wideo. W przypadku dłuższych klipów wideo klatki były próbkowane równomiernie (tj. rzadsze).

Do celów szkoleniowych samolot F-16 wykorzystywał te same ogólne zestawy danych wideo, co Wideo LLaVA, w tym Wideo LLaVA-178K, NEXT-QA, ActivityNet-QA, Test percepcji.

F-16 został dodatkowo dostrojony do szybkich zestawów danych sportowych FineGym, Nurkowanie48, Piłka nożnaAutorzy przygotowali również zbiór 276 meczów NBA rozegranych między 13 a 25 listopada 2024 r., skupiając się na tym, czy rzut był udany (zadanie wymagające przetwarzania o wysokiej liczbie klatek na sekundę).

Model został oceniony przy użyciu Zestaw testowy NSVA, z wydajnością mierzoną za pomocą Wynik F1.

Modele gimnastyczne i skoków do wody oceniano na podstawie dokładności rozpoznawania zdarzeń, natomiast modele piłkarskie i koszykarskie śledziły podania i wyniki strzałów.

Model został wytrenowany dla 1 epoka za pomocą 128 Procesory graficzne NVIDIA H100 (przy standardowym 80 GB pamięci VRAM na procesor graficzny oznaczało to użycie 10,24 terabajtów pamięci procesora graficznego; nawet według najnowszych standardów jest to klaster procesorów graficznych o najwyższej specyfikacji, na jaki osobiście się natknąłem, śledząc literaturę badań nad komputerowym widzeniem). szybkość uczenia się Podczas treningu użyto 2×10⁻⁵.

Dodatkowo, a LoRA został dostrojony na danych sportowych, używano adapterów LoRA z 64 GPU przez 5 epok. Tutaj trenowano tylko LLM, pozostawiając koder obrazu zamrożone.

Przeciwstawne struktury testowane w pierwszej rundzie pod kątem „ogólnego zrozumienia wideo” to GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; WideoLLaMA2-7B; WideoChat2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; Wideo LLaVA-7BOraz NVILA-7B;

Modele zostały poddane ocenie Wideo-MME; WideoVista; Ławka czasowa; Ławka ruchu; Następne QA; MLVUOraz DługiVideoBench.

Porównanie wyników QA wideo w różnych modelach, pokazujące limity FPS i wydajność w wielu testach porównawczych. F-16 osiąga SOTA wśród modeli 7B w Video-MME, NQA, TPB i MB, rywalizując z zastrzeżonymi modelami, takimi jak GPT-4o i Gemini-1.5-Pro.

Autorzy wyników piszą:

W przypadku zestawów danych Video-MME Short, Medium i NeXT-QA — każdy zaprojektowany do zrozumienia krótkich filmów — nasz model przewyższa poprzedni model 7B SOTA o 3.2%, 1.0% i 0.9% pod względem dokładności, co podkreśla jego wysoką skuteczność w przypadku krótkich filmów.

W przypadku testów porównawczych oceniających rozumienie długiego materiału wideo, takich jak Video-MME Long, LongVideoBench i MLVU, wyzwanie jest większe ze względu na rzadsze próbkowanie klatek, co powoduje, że klatki w oknie przetwarzania wykazują większe różnice.

„Zwiększa to trudność dla modułu dopasowującego modalność w efektywnym kodowaniu zmian czasowych w ramach ograniczonej reprezentacji tokena. W rezultacie F-16 doświadcza niewielkiego spadku wydajności w porównaniu z [LLaVA-Video-7B], który jest trenowany na tym samym zbiorze danych wideo”.

Autorzy dodają, że przetwarzanie o wysokiej liczbie klatek na sekundę w F-16 przyniosło poprawę o 13.5% w TemporalBench i wzrost o 2.5% w MotionBench w porównaniu z istniejącymi modelami 7B, a także osiągnęło poziom zbliżony do modeli komercyjnych, takich jak GPT-4o i Gemini-1.5-Pro.

Zrozumienie wideo sportów o dużej prędkości

F-16 przetestowano na zbiorach danych FineGym, Diving48, SoccerNet i NBA, aby ocenić jego zdolność do rozumienia szybkich akcji sportowych.

Trening, w którym wykorzystano 10,000 1 ręcznie opisanych klipów NBA, koncentrował się na ruchu piłki i działaniach zawodników oraz na tym, czy modele były w stanie prawidłowo określić, czy rzut był celny, przy użyciu zestawu testów NSVA ocenianego za pomocą punktacji FXNUMX.

Wyniki analizy wideo sportowego o dużej prędkości. F-16 z alignerem o dużej liczbie klatek na sekundę wypadł lepiej niż jego odpowiednik o małej liczbie klatek na sekundę we wszystkich zadaniach sportowych. GPT-4o i Gemini-1.5-Pro zostały również ocenione w NBA i SoccerNet QA, gdzie wiedza z zakresu szkoleń w obrębie domeny nie była wymagana.

W teście FineGym, mierzącym rozpoznawanie ruchów gimnastycznych, F-16 uzyskał wynik o 13.8% lepszy od poprzedniego modelu 7B SOTA, wykazując lepsze rozumienie ruchu szczegółowego.

W nurkowaniu48 wymagane było rozpoznanie złożonych sekwencji ruchów, takich jak start, salto, twist, lot fazy, a F-16 wykazał większą dokładność w rozpoznawaniu tych przejść.

W przypadku SoccerNet model analizował 10-sekundowe klipy, identyfikując podania piłki, a wyniki były lepsze od istniejących modeli 7B, co wskazuje, że wyższy wskaźnik FPS przyczynia się do śledzenia małych i szybkich ruchów.

W zbiorze danych NBA zdolność F-16 do określania wyników strzałów zbliżyła się do dokładności większych, zastrzeżonych modeli, takich jak GPT-4o i Gemini-1.5-Pro, co dodatkowo sugeruje, że wyższa liczba klatek na sekundę poprawia zdolność do przetwarzania dynamicznego ruchu.

Zmienna liczba klatek na sekundę

F-16 został przetestowany przy różnych szybkościach klatek, aby zmierzyć jego zdolność adaptacji. Zamiast ponownego szkolenia, obsługiwał niższe FPS, powtarzając klatki, aby dopasować je do struktury wejściowej alignera. To podejście zachowało większą wydajność niż po prostu usunięcie (co może powodować utratę dokładności).

Wyniki wskazują, że chociaż zmniejszenie liczby klatek na sekundę miało pewien wpływ na rozpoznawanie ruchu, F-16 nadal przewyższał modele o niskiej liczbie klatek na sekundę i utrzymywał dobre wyniki nawet przy wartościach poniżej 16 FPS.

Po lewej: zużycie czasu przez różne moduły F-16 podczas wnioskowania, mierzone na 300 filmach z zestawu Video-MME Long przy różnych testach FPS i długościach sekwencji. Po prawej: porównanie wydajności Video-MME dla modeli trenowanych i testowanych przy różnych FPS. Linia ciągła przedstawia modele trenowane i testowane przy tej samej FPS, podczas gdy linia przerywana przedstawia wydajność, gdy model trenowany przy 16 FPS jest testowany przy niższej liczbie klatek na sekundę.

Wysoka liczba klatek na sekundę w F-16 zwiększyła wymagania obliczeniowe, jednak jego moduł wyrównujący pozwolił ograniczyć te koszty poprzez kompresję zbędnych elementów wizualnych.

Model ten wymagał większej liczby FLOP-ów na film niż modele o niższej liczbie klatek na sekundę (FPS), ale osiągnął też większą dokładność na token, co sugeruje, że jego strategie wyboru klatek i kompresji tokenów pomogły zrównoważyć dodatkowe obliczenia.

Podsumowanie

Trudno przecenić znaczenie i wyzwania, jakie niesie ze sobą ten konkretny nurt badań, zwłaszcza w tym roku, który ma być przełomowy rok w przypadku generatywnego wideo, eliminując niedociągnięcia w zakresie gromadzenia danych wideo i jakości napisów w ostrą ulgę.

Należy również podkreślić, że wyzwań związanych z uzyskaniem dokładnych opisów wewnętrznych szczegółów wideo nie można rozwiązać wyłącznie poprzez rzucenie VRAM, czasu lub przestrzeni dyskowej na ten problem. Metoda, za pomocą której zdarzenia są izolowane/wyodrębniane z długich i nudnych fragmentów wideo (jak na przykład klipy wideo z golfa lub snookera), skorzysta na ponownym przemyśleniu semantycznych podejść i mechanizmów obecnie dominujących w rozwiązaniach SOTA – ponieważ niektóre z tych ograniczeń zostały ustanowione w czasach bardziej ubogich w zasoby.

(nawiasem mówiąc, nawet jeśli 16 kl./s wydaje się bardzo niską liczbą klatek na sekundę w 2025 r., warto zauważyć, że jest to również natywna prędkość treningu klipów wideo używanych w niezwykle popularnej Wan 2.1 Generatywny model wideo i szybkość, z jaką działa, przy minimalnej liczbie problemów. Miejmy nadzieję, że środowisko badawcze będzie zwracać uwagę na możliwą „entropię standardów” w tym zakresie; czasami przestarzałe ograniczenia może utrwalić przyszłe standardy)

Pierwsze opublikowanie w środę 19 marca 2025 r.

Powiązane tematy:Tworzenie wideo AI podpisy tworzenie wideo

W przyszłym

Lepsze generatywne wideo AI dzięki tasowaniu klatek podczas treningu

Nie przegap

Dlaczego wideo AI czasami robi to na odwrót

Martin Anderson

Autor tekstów o uczeniu maszynowym, specjalista domenowy w syntezie obrazów ludzkich. Były szef treści badawczych w Metaphysic.ai.
Strona osobista: martinanderson.ai
Kontakt: [email chroniony]
Twitter: @manders_ai