Andersons Blickwinkel

Überdenken der Video-KI-Schulung mit benutzerorientierten Daten

Published March 5, 2025

Updated April 26, 2026

Martin Anderson

Examples from the paper ' VideoUFO: A Million-Scale User-Focused Dataset for Text-to-Video Generation'

Die Art von Inhalten, die Benutzer möglicherweise mit einem generativen Modell wie Flux oder Hunyuan Video erstellen möchten, ist möglicherweise nicht immer leicht verfügbar, auch wenn die Inhaltsanfrage relativ allgemein ist und man vermuten könnte, dass der Generator damit umgehen kann.

Ein Beispiel, das in einem neuen Paper veranschaulicht, das wir in diesem Artikel betrachten werden, zeigt, dass das zunehmend veraltete OpenAI-Sora-Modell Schwierigkeiten hat, eine anatomisch korrekte Glühwürmchen-Darstellung zu rendern, wenn es den Prompt ‘Eine Glühwürmchen leuchtet auf einem Grasblatt an einem sommerlichen Abend’ erhält:

OpenAI’s Sora hat ein leicht verzerrtes Verständnis der Glühwürmchen-Anatomie. Quelle: https://arxiv.org/pdf/2503.01739

Da ich Forschungsansprüche selten ohne Überprüfung akzeptiere, habe ich den gleichen Prompt heute in Sora getestet und ein leicht besseres Ergebnis erhalten. Sora konnte jedoch immer noch nicht das Leuchten korrekt rendern – anstelle des Leuchtens am Ende des Glühwürmchenschwanzes, wo die Biolumineszenz auftritt, platzierte es das Leuchten in der Nähe der Insektenfüße:

Mein eigener Test des Forschers-Prompts in Sora ergibt ein Ergebnis, das zeigt, dass Sora nicht versteht, woher das Licht eines Glühwürmchens tatsächlich kommt.

Ironischerweise erreichte der Adobe Firefly-generative Diffusions-Engine, der auf den urheberrechtlich gesicherten Stockfotos und -videos des Unternehmens trainiert wurde, nur eine Erfolgsrate von 1:3, als ich den gleichen Prompt in der generativen KI-Funktion von Photoshop ausprobierte:

Nur die letzte von drei generierten Versionen des Forschers-Prompts produziert in Adobe Firefly (März 2025) überhaupt ein Leuchten, obwohl das Leuchten zumindest im richtigen Teil der Insektenanatomie situiert ist.

Dieses Beispiel wurde von den Forschern in dem neuen Paper hervorgehoben, um zu zeigen, dass die Verteilung, Betonung und Abdeckung in den Trainingssets, die zur Informierung populärer Grundmodelle verwendet werden, möglicherweise nicht mit den Bedürfnissen der Benutzer übereinstimmen, auch wenn der Benutzer nicht nach etwas Besonderem fragt – ein Thema, das die Herausforderungen bei der Anpassung von Hyperscale-Trainingsdatensätzen an ihre effizientesten und leistungsfähigsten Ergebnisse als generative Modelle aufwirft.

Die Autoren erklären:

‘[Sora] kann das Konzept einer leuchtenden Glühwürmchen nicht erfassen, während es erfolgreich Gras und einen Sommer [Abend] generiert. Aus der Datensicht schließen wir, dass dies hauptsächlich daran liegt, dass [Sora] nicht auf Glühwürmchen-bezogene Themen trainiert wurde, während es auf Gras und Nacht trainiert wurde. Darüber hinaus wird [Sora], wenn es das Video sieht, das in [oben] gezeigt wird, verstehen, wie eine leuchtende Glühwürmchen aussehen sollte.’

Sie stellen ein neu kuratiertes Dataset vor und schlagen vor, dass ihre Methodik in zukünftigen Arbeiten verfeinert werden könnte, um Datenkollektionen zu erstellen, die besser mit den Benutzererwartungen übereinstimmen als viele bestehende Modelle.

Daten für die Menschen

Im Wesentlichen geht ihre Vorschlag auf einen Datenkurierungsansatz hinaus, der irgendwo zwischen den benutzerdefinierten Daten für ein Modelltyp wie LoRA (und dieser Ansatz ist viel zu spezifisch für den allgemeinen Gebrauch) und den breiten und relativ unbestimmten High-Volume-Sammlungen (wie das LAION-Dataset, das Stable Diffusion antreibt) liegt, die nicht speziell auf ein Endanwendungsszenario ausgerichtet sind.

Der neue Ansatz, sowohl als Methodik als auch als neuem Dataset, wird (ziemlich umständlich) Users’ FOcus in text-to-video oder VideoUFO genannt. Das VideoUFO-Dataset umfasst 1,9 Millionen Video-Clips, die 1291 benutzerorientierte Themen abdecken. Die Themen selbst wurden aus einem bestehenden Video-Dataset entwickelt und durch diverse Sprachmodelle und Natural Language Processing (NLP)-Techniken verarbeitet:

Beispiele der destillierten Themen, die im neuen Paper vorgestellt werden.

Das VideoUFO-Dataset enthält eine große Menge neuer Videos, die aus YouTube gesammelt wurden – ‘neu’ in dem Sinne, dass die Videos in Frage nicht in Video-Datasets vorkommen, die derzeit in der Literatur populär sind, und daher in vielen der von ihnen kuratierten Subsets (und viele der Videos wurden tatsächlich nach der Erstellung der älteren Datensätze hochgeladen).

Tatsächlich behaupten die Autoren, dass es nur 0,29% Überschneidung mit bestehenden Video-Datasets gibt – eine beeindruckende Demonstration der Neuheit.

Ein Grund dafür könnte sein, dass die Autoren nur YouTube-Videos mit einer Creative-Commons-Lizenz akzeptierten, die weniger wahrscheinlich Benutzer weiter unten in der Pipeline behindern würde: Es ist möglich, dass diese Kategorie von Videos in vorherigen Durchläufen von YouTube und anderen High-Volume-Plattformen weniger priorisiert wurde.

Zweitens wurden die Videos auf der Grundlage vorabgeschätzter Benutzerbedürfnisse angefordert (siehe Bild oben) und nicht willkürlich gesammelt. Diese beiden Faktoren in Kombination könnten zu einer so neuartigen Sammlung führen. Darüber hinaus überprüften die Forscher die YouTube-IDs der beitragenden Videos (d. h. Videos, die später möglicherweise aufgeteilt und für die VideoUFO-Sammlung neu imaginiert wurden) gegen die in bestehenden Sammlungen vorkommenden IDs, was die Behauptung glaubwürdig macht.

Obwohl nicht alles in dem neuen Paper ganz so überzeugend ist, ist es ein interessantes Lesen, das den Umfang hervorhebt, in dem wir immer noch ziemlich der Willkür ungleicher Verteilungen in Datensätzen ausgeliefert sind, was die Hindernisse angeht, mit denen die Forschungsszene oft bei der Datensatzkuratierung konfrontiert ist.

Die neue Arbeit trägt den Titel VideoUFO: A Million-Scale User-Focused Dataset for Text-to-Video Generation und stammt von zwei Forschern, jeweils von der University of Technology Sydney in Australien und der Zhejiang-Universität in China.

Ausgewählte Beispiele aus dem endgültig erhaltenen Dataset.

Ein ‘Personal Shopper’ für KI-Daten

Die Themen und Konzepte, die in der Gesamtheit der Internetbilder und -videos vorkommen, spiegeln nicht unbedingt wider, was der durchschnittliche Endbenutzer letztendlich von einem generativen System verlangen könnte; selbst wenn Inhalt und Nachfrage doch zusammenlaufen (wie bei Pornografie, die reichlich auf dem Internet verfügbar ist und von großem Interesse für viele gen-KI-Benutzer ist), muss dies nicht mit den Absichten und Standards der Entwickler für ein neues generatives System übereinstimmen.

Abgesehen von der großen Menge an NSFW-Material, das täglich hochgeladen wird, ist ein unverhältnismäßiger Teil des im Internet verfügbaren Materials wahrscheinlich von Werbetreibenden und denen, die versuchen, SEO zu manipulieren. Der kommerzielle Eigeninteresse dieser Art macht die Verteilung der Themen weit von unparteiisch entfernt; schlimmer noch, ist es schwierig, KI-basierte Filter-Systeme zu entwickeln, die mit dem Problem umgehen können, da Algorithmen und Modelle, die aus bedeutungsvollen Hyperscale-Daten entwickelt werden, selbst die Tendenzen und Prioritäten der Quelldaten widerspiegeln können.

Daher haben die Autoren der neuen Arbeit das Problem angegangen, indem sie die Aussage umkehrten, indem sie bestimmt haben, was Benutzer wahrscheinlich wollen, und Videos erworben, die diesen Bedürfnissen entsprechen.

Oberflächlich betrachtet scheint dieser Ansatz ebenso wahrscheinlich, einen semantischen Wettlauf nach unten auszulösen, wie eine ausgewogene, Wikipedia-ähnliche Neutralität zu erreichen. Die Kalibrierung der Datenkuratierung um die Benutzeranforderungen herum riskiert, die Vorlieben des kleinsten gemeinsamen Nenners zu verstärken und Nischenbenutzer zu marginalisieren, da die Mehrheitsinteressen unweigerlich größeres Gewicht haben werden.

Trotzdem sollten wir uns ansehen, wie das Paper die Herausforderung angeht.

Konzepte mit Diskretion destillieren

Die Forscher verwendeten das 2024er VidProM-Dataset als Quelle für die Themenanalyse, die später das Projekt informieren würde.

Dieses Dataset wurde gewählt, da es, wie die Autoren erklären, das einzige öffentlich verfügbare 1m+-Dataset ist, das ‘von realen Benutzern geschrieben’ wurde – und es sollte erwähnt werden, dass dieses Dataset selbst von den beiden Autoren des neuen Papers kuratiert wurde.

Das Paper erklärt*:

‘Zuerst betten wir alle 1,67 Millionen Prompts aus VidProM in 384-dimensionale Vektoren mit SentenceTransformers ein. Als nächstes clustern wir diese Vektoren mit K-means. Beachten Sie, dass wir hier die Anzahl der Cluster auf einen relativ großen Wert vorsetzen, d. h. 2.000, und ähnliche Cluster im nächsten Schritt zusammenführen.

‘Schließlich bitten wir GPT-4o darum, für jeden Cluster ein Thema [ein oder zwei Wörter] zu schlussfolgern.’

Die Autoren weisen darauf hin, dass bestimmte Konzepte unterschiedlich, aber bemerkenswert benachbart sind, wie Kirche und Kathedrale. Ein zu feines Kriterium für Fälle dieser Art würde zu Konzept-Einbettungen (z. B.) für jeden Hundezüchter führen, anstatt des Begriffs Hund; während ein zu breites Kriterium zu viele Subkonzepte in ein einzelnes überfülltes Konzept zusammenfassen könnte; daher weist das Paper auf den notwendigen Balanceakt hin, um solche Fälle zu bewerten.

Singular- und Pluralformen wurden zusammengeführt, und Verben in ihre Grundform (Infinitiv) zurückversetzt. Zu breite Begriffe – wie Animation, Szene, Film und Bewegung – wurden entfernt.

Auf diese Weise wurden 1.291 Themen erhalten (mit der vollständigen Liste, die im Anhang des Quell-Papers verfügbar ist).

Auswahl-Web-Scraping

Als nächstes verwendeten die Forscher die offizielle YouTube-API, um Videos basierend auf den aus dem 2024er Dataset destillierten Kriterien zu suchen, um 500 Videos für jedes Thema zu erhalten. Neben der erforderlichen Creative-Commons-Lizenz musste jedes Video eine Auflösung von 720p oder höher haben und kürzer als vier Minuten sein.

Auf diese Weise wurden 586.490 Videos von YouTube gesammelt.

Die Autoren verglichen die YouTube-ID der heruntergeladenen Videos mit einer Reihe von populären Datensätzen: OpenVid-1M; HD-VILA-100M; Intern-Vid; Koala-36M; LVD-2M; MiraData; Panda-70M; VidGen-1M; und WebVid-10M.

Sie fanden heraus, dass nur 1.675 IDs (die oben genannten 0,29%) der VideoUFO-Clips in diesen älteren Sammlungen vorkommen, und es muss zugegeben werden, dass die Liste der Datensatzvergleiche nicht erschöpfend ist, aber sie enthält alle größten und einflussreichsten Spieler in der generativen Video-Szene.

Teilungen und Bewertung

Die erhaltenen Videos wurden anschließend in mehrere Clips unterteilt, gemäß der in dem oben genannten Panda-70M-Paper beschriebenen Methodik. Shot-Grenzen wurden geschätzt, Assemblies genäht und die verketteten Videos in einzelne Clips unterteilt, mit kurzen und detaillierten Untertiteln versehen.

Jeder Datensatz-Eintrag im VideoUFO-Dataset enthält einen Clip, eine ID, Start- und Endzeiten und einen kurzen und einen detaillierten Untertitel.

Die kurzen Untertitel wurden mit der Panda-70M-Methode behandelt, und die detaillierten Video-Untertitel mit Qwen2-VL-7B, entlang der Richtlinien, die in Open-Sora-Plan festgelegt sind. In Fällen, in denen Clips nicht erfolgreich das beabsichtigte Zielkonzept verkörperten, wurden die detaillierten Untertitel für jeden solchen Clip in GPT-4o mini eingegeben, um zu bestimmen, ob es tatsächlich ein passendes Thema war. Obwohl die Autoren eine Bewertung über GPT-4o bevorzugt hätten, wäre dies für Millionen von Video-Clips zu teuer gewesen.

Die Video-Qualitätsbewertung wurde mit sechs Methoden aus dem VBench-Projekt durchgeführt.

Vergleiche

Die Autoren wiederholten den Themen-Extraktionsprozess auf den oben genannten vorherigen Datensätzen. Dazu war es notwendig, die abgeleiteten Kategorien von VideoUFO semantisch mit den unweigerlich unterschiedlichen Kategorien in den anderen Sammlungen zu verbinden; es muss zugegeben werden, dass solche Prozesse nur approximativ äquivalente Kategorien liefern und daher möglicherweise zu subjektiv sind, um empirische Vergleiche zu gewährleisten.

Trotzdem sehen wir in dem folgenden Bild die Ergebnisse, die die Forscher mit dieser Methode erzielten:

Vergleich der grundlegenden Attribute, die über VideoUFO und die vorherigen Datensätze abgeleitet wurden.

Die Forscher erkennen an, dass ihre Analyse auf den bestehenden Untertiteln und Beschreibungen basierte, die in jedem Datensatz bereitgestellt wurden. Sie gestehen ein, dass das erneute Untertiteln älterer Datensätze mit der gleichen Methode wie VideoUFO eine direktere Vergleichsmöglichkeit geboten hätte. Allerdings scheint ihre Schlussfolgerung, dass dieser Ansatz zu teuer wäre, gerechtfertigt.

Generierung

Die Autoren entwickelten einen Benchmark, um die Leistung von Text-zu-Video-Modellen bei benutzerorientierten Konzepten zu bewerten, der BenchUFO genannt wird. Dies umfasste die Auswahl von 791 Nomen aus den 1.291 destillierten Benutzerthemen in VideoUFO. Für jedes ausgewählte Thema wurden dann zehn Text-Prompts aus VidProM zufällig ausgewählt.

Jeder Prompt wurde an ein Text-zu-Video-Modell übergeben, wobei der oben genannte Qwen2-VL-7B-Untertitel-Generator verwendet wurde, um die generierten Ergebnisse zu bewerten. Mit allen generierten Videos, die auf diese Weise untertitelt wurden, wurde SentenceTransformers verwendet, um die Kosinus-Ähnlichkeit für sowohl den Eingabe-Prompt als auch die Ausgabe (abgeleitete) Beschreibung in jedem Fall zu berechnen.

Schema für den BenchUFO-Prozess.

Die bewerteten generativen Modelle waren: Mira; Show-1; LTX-Video; Open-Sora-Plan; Open Sora; TF-T2V; Mochi-1; HiGen; Pika; RepVideo; T2V-Zero; CogVideoX; Latte-1; Hunyuan Video; LaVie; und Pyramidal.

Neben VideoUFO waren MVDiT-VidGen und MVDit-OpenVid die alternativen Trainings-Datensätze.

Die Ergebnisse berücksichtigen die 10 schlechtesten und 50 besten Themen über die Architekturen und Datensätze hinweg.

Ergebnisse für die Leistung der öffentlichen T2V-Modelle im Vergleich zu den von den Autoren trainierten Modellen auf BenchUFO.

Hier kommentieren die Autoren:

‘Aktuelle Text-zu-Video-Modelle performen nicht konsistent gut über alle benutzerorientierten Themen. Insbesondere gibt es einen Punkte-Unterschied zwischen 0,233 und 0,314 zwischen den Top-10 und den schlechtesten 10 Themen. Diese Modelle verstehen möglicherweise nicht effektiv Themen wie “Riesen-Kalmar”, “Tier-Zelle”, “Van Gogh” und “altägyptisch” aufgrund unzureichender Schulung auf solchen Videos.’

‘Aktuelle Text-zu-Video-Modelle zeigen einen bestimmten Grad an Konsistenz in ihren besten Themen. Wir entdecken, dass die meisten Text-zu-Video-Modelle hervorragend darin sind, Videos auf tierbezogene Themen wie “Möwe”, “Panda”, “Delfin”, “Kamel” und “Eule” zu generieren. Wir schließen daraus, dass dies teilweise auf eine Voreingenommenheit gegenüber Tieren in aktuellen Video-Datensätzen zurückzuführen ist.’

Schlussfolgerung

VideoUFO ist ein herausragendes Angebot, wenn man nur vom Standpunkt der frischen Daten aus betrachtet. Wenn es keinen Fehler bei der Bewertung und Eliminierung von YouTube-IDs gegeben hat und wenn das Dataset so viel Material enthält, das neu für die Forschungsszene ist, ist es ein seltenes und potenziell wertvolles Angebot.

Der Nachteil ist, dass man dem Kern der Methodik Glauben schenken muss; wenn man nicht glaubt, dass Benutzeranforderungen die Web-Scraping-Formeln informieren sollten, würde man in ein Dataset investieren, das mit eigenen Vorurteilen und Problemen verbunden ist.

Weiterhin hängt die Nützlichkeit der destillierten Themen von der Zuverlässigkeit der verwendeten Destillationsmethode (die im Allgemeinen durch Budget-Beschränkungen behindert wird) und auch von den Formulierungs-Methoden für das 2024er Dataset ab, das das Quellmaterial liefert.

Trotzdem verdient VideoUFO weitere Untersuchung – und es ist auf Hugging Face verfügbar.

* Meine Ersetzung der Autorenzitate durch Hyperlinks.

Erstveröffentlicht am Mittwoch, 5. März 2025