Andersons Blickwinkel
Die Herausforderung der Videobeschriftung bei mehr als 1 Bild pro Sekunde

Die Fähigkeit von Machine-Learning-Systemen, die Ereignisse zu erkennen, die innerhalb eines Videos auftreten, ist für die Zukunft der auf KI basierenden Videogenerierung von entscheidender Bedeutung – nicht zuletzt, weil Videodatensätze genaue Beschriftungen erfordern, um Modelle zu erstellen, die den Anforderungen des Benutzers entsprechen und nicht übermäßig halluzinieren.

Ein Beispiel für ein Beschriftungsschema aus dem VidReCap-Projekt von Google. Quelle: https://sites.google.com/view/vidrecap
Die manuelle Beschriftung der für effektive Trainingsdatensätze erforderlichen Videoanzahl ist ein unerschwingliches Vorhaben. Obwohl es möglich ist, KI-Systeme zu trainieren, um Videos automatisch zu beschriften, werden noch viele von Menschen erstellte Beispiele als Grundwahrheit benötigt, für Vielfalt und Abdeckung.
Wichtiger ist, dass fast jedes aktuelle KI-basierte Video-Beschriftungsmodell mit 1 Bild pro Sekunde operiert, was nicht ausreicht, um Variationen in vielen Szenarien zu erkennen: plötzliche Mikroausdrucksänderungen für Emotions-Erkennungssysteme; schnelle Ereignisse in Hochgeschwindigkeitssportarten wie Basketball; gewaltsame Bewegungen; schnelle Schnitte in dramatischen Filmen, bei denen Systeme wie PySceneDetect möglicherweise nicht in der Lage sind, sie zu identifizieren (oder werden nicht verwendet); und viele andere Szenarien, in denen das Fenster der Aufmerksamkeit eindeutig intensiver sein muss.
Bitte klicken Sie, um abzuspielen. Schnelles, aber lebensveränderndes Handeln in einem der langsamsten Sportarten der Welt, als Alex Higgins den Weltmeistertitel gegen Ray Reardon 1982 gewann. Quelle: https://www.youtube.com/watch?v=_1PuqKno_Ok
Schnell bewegen und Logik brechen
Diese niedrige Rate ist der Standard für verschiedene logistische Gründe. Einerseits ist die Videobeschriftung eine ressourcenintensive Aktivität, egal ob das System einen sequenziellen Frame nach dem anderen studiert oder verschiedene Methoden verwendet, um eine Folge von Frames in eine interpretierbare Beschriftungsfolge zu kohärieren. In beiden Fällen ist das Kontextfenster unweigerlich durch Hardware-Einschränkungen begrenzt.
Ein weiterer Grund für den aktuellen Standard von 1 Bild pro Sekunde ist, dass Videos normalerweise nicht mit schnellen Ereignissen überfüllt sind; es ist daher redundant, 300 Frames eines statischen Snooker-Tisches die gleiche Aufmerksamkeit zu widmen wie dem Bruchteil einer Sekunde, in dem ein gelöster schwarzer Ball den Meistertitel gewinnt (siehe Beispiel oben).
Es ist möglich, breitere sekundäre Hinweise zu verwenden, um wichtige Momente in einem Sportvideo zu identifizieren, wie z. B. die anhaltende Reaktion des Publikums auf einen schnellen Slam-Dunk in einem Basketballspiel. Solche Hinweise können jedoch aus anderen Gründen auftreten (wie unerwartete Verletzungen von Spielern) und sind nicht verlässlich. Dies ist ein Beispiel dafür, wie ein falsch beschrifteter Videodatensatz zu einem generativen Videomodell führen kann, das halluziniert oder Anweisungen falsch interpretiert, d. h. weil das Modell möglicherweise eine Verletzung eines Spielers zeigt, wenn es aufgefordert wurde, einen Slam-Dunk zu generieren (weil der “sekundäre Hinweis” der Aufregung des Publikums nicht exklusiv für eine bestimmte Art von Ereignis war).
Dies ist in vielen Aspekten ein “budgetäres” Problem und in anderen Aspekten ein prozedurales Problem. Rahmenbedingungen haben bisher auf dem Prinzip operiert, dass sparse Schlüsselbilder effektiv wesentliche Informationen erfassen können, aber dies ist effektiver bei der Festlegung von Genre und anderen Aspekten des Themas eines Videos, da Beweise in diesem Fall über mehrere Frames hinweg bestehen.
F-16
Ein neues Papier aus China bietet eine Lösung, in Form des ersten multimodalen großen Sprachmodells (MLLM oder einfach LLM), das Video mit 16 Bildern pro Sekunde analysieren kann, anstatt den Standard von 1 Bild pro Sekunde, und dabei die großen Fallstricke der Erhöhung der Analysegeschwindigkeit vermeidet.
In Tests behaupten die Autoren, dass das neue System, das F-16 genannt wird, proprietäre State-of-the-Art-Modelle wie GPT-4o und Google’s Gemini-1.5 Pro übertrifft. Obwohl andere aktuelle Modelle in der Lage waren, F-16s Ergebnisse in Tests zu erreichen oder zu übertreffen, waren die konkurrierenden Modelle viel größer und unhandlicher.
Obwohl F-16 auf ernsthaften Hardware (wie wir uns bald ansehen werden) trainiert wurde, ist die Inferenz normalerweise viel weniger anspruchsvoll als das Training. Daher können wir hoffen, dass der Code (der für eine nahe Zukunft angekündigt wurde) in der Lage sein wird, auf mittleren oder hochwertigen domestizierten GPUs zu laufen.
Was für die Vitalität der Hobby-Szene (und das schließt die professionelle VFX-Szene meistens ein) benötigt wird, ist ein Video-Beschriftungsmodell dieser Art, das auf Consumer-Systemen operieren kann, so dass die gesamte generative Video-Szene nicht zu API-basierten kommerziellen Systemen migriert oder Verbraucher lokale Frameworks mit kommerziellen Online-GPU-Diensten verbinden muss.
Jenseits des Aufskalierens
Die Autoren bemerken, dass dieser Ansatz eine praktische Alternative zum Aufskalieren von Datensätzen ist. Man kann auch folgern, dass, wenn man mehr Daten auf das Problem werfen würde, dies immer noch der Ansatz wäre, der bevorzugt werden könnte, weil das neue System Ereignisse auf eine feinere Weise unterscheidet.
Sie erklären:
‘Eine niedrige Bildfrequenz kann zu einem Verlust kritischer visueller Informationen führen, insbesondere in Videos mit schnell wechselnden Szenen, feinen Details oder schnellen Bewegungen. Zusätzlich kann es, wenn Schlüsselbilder verpasst werden, aber das Modell auf Labels trainiert wird, die von Schlüsselbildinformationen abhängen, Schwierigkeiten haben, seine Vorhersagen mit dem erwarteten Inhalt abzustimmen, was möglicherweise zu Halluzinationen und verringerter Leistung führen kann…
‘… F-16 erreicht Spitzenleistungen bei der allgemeinen Video-Fragebeantwortung unter Modellen ähnlicher Größe und zeigt einen klaren Vorteil bei der Verarbeitung von Videos mit hoher Bildfrequenz, wobei es kommerzielle Modelle wie GPT-4o übertrifft. Diese Arbeit öffnet neue Wege für die Weiterentwicklung der Verarbeitung von Videos mit hoher Bildfrequenz in der multimodalen LLM-Forschung.’
Das neue Papier trägt den Titel Verbesserung der LLM-Videoverständnis mit 16 Bildern pro Sekunde und stammt von acht Autoren der Tsinghua-Universität und ByteDance.
Methode
Da aufeinanderfolgende Frames oft redundante Informationen enthalten, wendet F-16 einen Hochgeschwindigkeits-Aligner an, um Schlüsselbewegungsdetails zu komprimieren und zu kodieren, während visuelle Semantik erhalten bleibt. Jeder Frame wird zunächst von einem vorgefertigten Bild-Encoder verarbeitet, der Merkmalsdarstellungen extrahiert, bevor er an einen Aligner weitergeleitet wird, der auf Gaussian Error Linear Units (GELUs) basiert.

F-16s Architektur verarbeitet Video mit 16 Bildern pro Sekunde, wodurch mehr Frames als traditionelle Modelle mit niedriger Bildfrequenz erfasst werden, und sein Hochgeschwindigkeits-Aligner bewahrt visuelle Semantik, während er Bewegungsdynamik effizient kodiert, ohne zusätzliche visuelle Token hinzuzufügen. Quelle: https://arxiv.org/pdf/2503.13956
Um die erhöhte Frame-Anzahl effizient zu verarbeiten, gruppiert F-16 Frames in kleine Verarbeitungsfenster, indem es visuelle Merkmale mit einem dreischichtigen Multi-Layer-Perceptron (MLP) kombiniert, was hilft, nur die relevantesten Bewegungsdetails zu erhalten und unnötige Duplizierung zu reduzieren, während der zeitliche Fluss von Aktionen erhalten bleibt. Eine räumliche Max-Pooling-Schicht komprimiert die Token-Anzahl weiter, um die Rechenkosten innerhalb der Grenzen zu halten.
Die verarbeiteten Video-Tokens werden dann in das Qwen2-7B-LLM eingespeist, das textuelle Antworten auf der Grundlage der extrahierten visuellen Merkmale und einer gegebenen Benutzereingabe generiert.
Indem Video-Eingaben auf diese Weise strukturiert werden, ermöglicht F-16, wie die Autoren behaupten, präzisere Ereigniserkennung in dynamischen Szenen, während es gleichzeitig Effizienz aufrechterhält.
Die Kurzversion
F-16 erweitert ein vorgefertigtes Bild-LLM, LLaVA-OneVision, um Video zu verarbeiten, indem es seine visuelle Eingabepipeline transformiert. Während Standard-Bild-LLMs isolierte Frames verarbeiten, reformuliert F-16s Hochgeschwindigkeits-Aligner mehrere Frames in eine Form, die das Modell effizienter verarbeiten kann; dies vermeidet, dass das System mit redundanter Information überwältigt wird, während es gleichzeitig wichtige Bewegungshinweise für ein genaues Videoverständnis erhält.
Um die Kompatibilität mit seiner bildbasierten Grundlage zu gewährleisten, restructuren F-16 seine Aligner in Sub-Matrizen. Dieser Ansatz ermöglicht es, Wissen aus Einzelbild-Modellen zu integrieren, während es sich an sequenzielle Video-Eingaben anpasst.
Der Aligner komprimiert zunächst Frame-Folgen in ein Format, das für das LLM optimiert ist, wobei die informativsten Merkmale erhalten und unnötige Details verworfen werden. Die Architektur-Design ermöglicht es dem System, Video mit hoher Bildfrequenz zu verarbeiten, während es gleichzeitig die Rechenanforderungen unter Kontrolle hält, was die Autoren als Beweis dafür anführen, dass Skalierung nicht der einzige (oder beste) Weg vorwärts für die Video-Beschriftung ist.
Das Variieren des Tempos
Da die Verarbeitung von Video mit 16 Bildern pro Sekunde das Bewegungsverständnis verbessert, aber die Rechenanforderungen erhöht, insbesondere während der Inferenz, führt F-16 eine variable Bildfrequenz-Decodierung ein, die es ermöglicht, die Bildfrequenz dynamisch anzupassen, ohne erneut zu trainieren.

Die verfügbaren Einzelbild- und Hochgeschwindigkeits-Aligner von F-16.
Diese Flexibilität ermöglicht es dem Modell, effizient bei niedrigeren Bildfrequenzen zu operieren, wenn hohe Präzision nicht erforderlich ist, und reduziert die Rechenanforderungen.
Während der Testphase, wenn eine niedrigere Bildfrequenz ausgewählt wird, verwendet F-16 die zuvor trainierten Aligner-Parameter, indem es Eingabe-Frames wiederholt, um die erwarteten Dimensionen zu erreichen. Dies stellt sicher, dass das Modell Video effektiv verarbeiten kann, ohne seine Architektur zu ändern.
Im Gegensatz zu naiver Downsampling (d. h. einfach Frames entfernen), die das Risiko birgt, kritische Bewegungsdetails zu verlieren, bewahrt diese Methode die gelernten Bewegungsrepräsentationen des Aligners, wodurch die Genauigkeit auch bei reduzierter Bildfrequenz erhalten bleibt. Für allgemeines Videoverständnis kann eine niedrigere Bildfrequenz die Inferenz beschleunigen, ohne einen signifikanten Leistungsverlust zu verursachen, während die Analyse von Hochgeschwindigkeitsbewegungen immer noch die volle Fähigkeit von 16 Bildern pro Sekunde nutzen kann.
Daten und Tests
Basierend auf Qwen2-7B erweitert FP-16 LLaVA-OneVision unter Verwendung von SigLIP als Bild-Encoder. Mit Video-Frames, die mit 16 Bildern pro Sekunde abgetastet werden, können bis zu 1.760 Frames aus jedem Video abgerufen werden. Für längere Video-Clips wurden Frames gleichmäßig (d. h. spärlicher) abgetastet.
Für das Training verwendete F-16 die gleichen allgemeinen Video-Datensätze wie LLaVA-Video, einschließlich LLaVA-Video-178K, NExT-QA, ActivityNet-QA und PerceptionTest.
F-16 wurde zusätzlich fein abgestimmt auf die Hochgeschwindigkeits-Sport-Datensätze FineGym, Diving48 und SoccerNet. Die Autoren haben auch eine Sammlung von 276 NBA-Spielen zusammengestellt, die zwischen dem 13. und 25. November 2024 gespielt wurden, mit dem Fokus darauf, ob ein Schuss erfolgreich war (eine Aufgabe, die eine Hochgeschwindigkeitsverarbeitung erfordert).
Das Modell wurde unter Verwendung des NSVA-Testsets ausgewertet, wobei die Leistung durch den F1-Score gemessen wurde.
Gymnastik- und Tauchmodelle wurden anhand der Genauigkeit der Ereigniserkennung ausgewertet, während Fußball- und Basketball-Modelle Pässe und Schussausgänge verfolgten.
Das Modell wurde für 1 Epoch mit 128 NVIDIA H100-GPUs (und bei einem Standard von 80 GB VRAM pro GPU, was die Verwendung von 10,24 Terabytes GPU-Speicher erforderte; selbst nach aktuellen Standards ist dies der höchst ausgestattete GPU-Cluster, den ich persönlich in der Computer-Vision-Forschungsliteratur kenne). Eine Lernrate von 2×10⁻⁵ wurde während des Trainings verwendet.
Darüber hinaus wurde ein LoRA auf Sportdaten fein abgestimmt, wobei LoRA-Adapter mit 64 GPUs für 5 Epochen verwendet wurden. Hier wurde nur das LLM trainiert, während der Bild-Encoder eingefroren blieb.
Gegenüberliegende Frameworks, die in der ersten Runde für das allgemeine Videoverständnis getestet wurden, waren GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; VideoLLaMA2-7B; VideoChat2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; LLaVA-Video-7B; und NVILA-7B;
Die Modelle wurden auf Video-MME; VideoVista; TemporalBench; MotionBench; Next-QA; MLVU; und LongVideoBench ausgewertet.

Vergleich der Video-Fragebeantwortungsergebnisse über Modelle hinweg, die FPS-Grenzen und Leistungen auf mehreren Benchmarks zeigen. F-16 erreicht Spitzenleistungen unter 7B-Modellen auf Video-MME, NQA, TPB und MB, wobei es proprietäre Modelle wie GPT-4o und Gemini-1.5-Pro übertrifft.
Die Autoren erklären:
‘Im Video-MME-Kurz-, Mittel- und NeXT-QA-Datensatz – jedes für das Verständnis kurzer Videos konzipiert – übertrifft unser Modell das vorherige 7B-Spitzenleistungsmodell um 3,2 %, 1,0 % und 0,9 % in der Genauigkeit, was seine starke Leistung bei kurzen Videos unterstreicht.
‘Für Benchmarks, die das Verständnis langer Videos bewerten, wie z. B. Video-MME Long, LongVideoBench und MLVU, ist die Herausforderung größer, da die Frames innerhalb des Verarbeitungsfensters aufgrund der sparseren Frame-Abtastung größere Variationen aufweisen.
‘Dies erhöht die Schwierigkeit für den Modality-Aligner, temporale Änderungen innerhalb der begrenzten Token-Darstellung effektiv zu kodieren. Als Ergebnis erlebt F-16 einen leichten Leistungsabfall im Vergleich zu [LLaVA-Video-7B], das auf dem gleichen Video-Datensatz trainiert wurde.’
F-16s Hochgeschwindigkeitsverarbeitung führte, wie die Autoren fortfahren, auch zu einer 13,5-prozentigen Verbesserung bei TemporalBench und einem 2,5-prozentigen Gewinn bei MotionBench im Vergleich zu bestehenden 7B-Modellen und erreichte eine ähnliche Leistung wie kommerzielle Modelle wie GPT-4o und Gemini-1.5-Pro.
High-Speed-Sport-Video-Verständnis
F-16 wurde auf FineGym, Diving48, SoccerNet und NBA-Datensätze getestet, um seine Fähigkeit zu bewerten, Hochgeschwindigkeits-Sport-Aktionen zu verstehen.
Mit den 10.000 manuell annotierten NBA-Clips konzentrierte sich das Training auf Ballbewegungen und Spieleraktionen und darauf, ob das Modell korrekt bestimmen konnte, ob ein Schuss erfolgreich war, wobei der NSVA-Testsatzt mit F1-Score ausgewertet wurde.

Ergebnisse der Hochgeschwindigkeits-Sport-Video-Analyse. F-16 mit dem Hochgeschwindigkeits-Aligner übertrifft seinen Gegenpart mit niedriger Bildfrequenz bei allen Sportaufgaben. GPT-4o und Gemini-1.5-Pro wurden auch auf NBA- und SoccerNet-QA ausgewertet, wo keine domänenübergreifende Trainingskenntnisse erforderlich waren.
Bei FineGym, das die Erkennung von Gymnastik-Aktionen misst, übertrifft F-16 das vorherige 7B-Spitzenleistungsmodell um 13,8 %, was ein verbessertes feines Bewegungsverständnis zeigt.
Diving48 erforderte die Identifizierung komplexer Bewegungssequenzen wie Absprung, Somersault, Twist und Flug-Phasen, und F-16 zeigte eine höhere Genauigkeit bei der Erkennung dieser Übergänge.
Für SoccerNet analysierte das Modell 10-Sekunden-Clips, um Ballpässe zu identifizieren, und die Ergebnisse zeigten eine Verbesserung gegenüber bestehenden 7B-Modellen, was darauf hindeutet, dass eine höhere Bildfrequenz zur Verfolgung von kleinen und schnellen Bewegungen beiträgt.
Im NBA-Datensatz näherte sich F-16s Fähigkeit, Schussausgänge zu bestimmen, der Genauigkeit größerer kommerzieller Modelle wie GPT-4o und Gemini-1.5-Pro, was weiterhin darauf hindeutet, dass eine höhere Bildfrequenz seine Fähigkeit zur Verarbeitung dynamischer Bewegungen verbessert.
Variable Bildfrequenzen
F-16 wurde bei verschiedenen Bildfrequenzen getestet, um seine Anpassungsfähigkeit zu messen. Anstatt erneut zu trainieren, behandelte es niedrigere Bildfrequenzen, indem es Frames wiederholte, um die erwartete Struktur des Aligners zu erreichen. Dieser Ansatz bewahrte mehr Leistung als einfaches Entfernen von Frames (das das Risiko birgt, kritische Bewegungsdetails zu verlieren).
Die Ergebnisse zeigen, dass die Reduzierung der Bildfrequenz einige Auswirkungen auf die Bewegungserkennung hatte, F-16 jedoch immer noch besser abschnitt als Modelle mit niedriger Bildfrequenz und starke Ergebnisse auch unter 16 Bildern pro Sekunde erzielte.

Links, der Zeitverbrauch der verschiedenen F-16-Module während der Inferenz, gemessen an 300 Videos aus dem Video-MME-Long-Set bei verschiedenen Test-Bildfrequenzen und Sequenzlängen. Rechts, ein Vergleich zwischen der Video-MME-Leistung für Modelle, die bei verschiedenen Bildfrequenzen trainiert und getestet wurden. Die durchgezogene Linie stellt Modelle dar, die bei der gleichen Bildfrequenz trainiert und getestet wurden, während die gestrichelte Linie die Leistung zeigt, wenn ein Modell bei 16 Bildern pro Sekunde trainiert und bei einer niedrigeren Bildfrequenz getestet wird.
F-16s Hochgeschwindigkeitsverarbeitung erhöhte die Rechenanforderungen, obwohl sein Aligner half, diese Kosten zu bewältigen, indem er redundante visuelle Token komprimierte.
Das Modell benötigte mehr FLOPs pro Video als Modelle mit niedrigerer Bildfrequenz, erzielte jedoch auch bessere Genauigkeit pro Token, was darauf hindeutet, dass seine Frame-Auswahl- und Token-Komprimierungsstrategien halfen, die zusätzliche Rechenleistung auszugleichen.
Schlussfolgerung
Es ist schwierig, die Bedeutung oder die Herausforderungen dieser spezifischen Forschungsstränge zu überschätzen – insbesondere in diesem Jahr, das zum Durchbruchjahr für generatives Video werden soll, was die Mängel der Video-Datensatz-Kuration und der Qualität der Beschriftung in scharfem Relief hervorhebt.
Es sollte auch betont werden, dass die Herausforderungen, die mit der Erzielung genauer Beschreibungen von internen Video-Details verbunden sind, nicht ausschließlich durch das Werfen von VRAM, Zeit oder Speicherplatz auf das Problem gelöst werden können. Die Methode, mit der Ereignisse aus ansonsten langen und langweiligen Video-Ausschnitten (wie z. B. Golf- oder Snooker-Video-Clips) isoliert bzw. extrahiert werden, wird von einer Neukonzeption der semantischen Ansätze und Mechanismen profitieren, die derzeit die Spitzenleistungs-Lösungen dominieren – da einige dieser Einschränkungen in ressourcenärmeren Zeiten etabliert wurden.
(Vor allem ist es interessant zu beachten, dass dies auch die native Trainingsgeschwindigkeit von Video-Clips ist, die im sehr beliebten Wan 2.1-generativen Video-Modell verwendet wird, und die Geschwindigkeit, mit der es daher am wenigsten Probleme hat. Hoffentlich wird die Forschungsszene ein Auge auf mögliche “Standards-Entropie” hier haben; manchmal können veraltete Einschränkungen zukünftige Standards perpetuieren)
Erstveröffentlicht am Mittwoch, den 19. März 2025












