Andersons Blickwinkel

Warum KI-Videos manchmal falsch wiedergeben

Veröffentlicht 13. März 2025

Martin Anderson

ChatGPT/Firefly-Bild, das einen Jetskifahrer zeigt, der unmöglich eine Spur vor sich hinterlässt.

Wenn 2022 das Jahr war, in dem generative KI die Fantasie einer breiteren Öffentlichkeit beflügelte, dann ist 2025 das Jahr, in dem die neue Generation generativer Video Frameworks aus China scheinen das Gleiche zu bewirken.

Tencents Hunyuan Video hat eine großen Einfluss auf die Hobby-KI-Community mit seiner Open-Source-Veröffentlichung eines Full-World-Video-Diffusion-Modells, das Benutzer auf ihre Bedürfnisse zugeschnitten.

Dicht auf den Fersen ist Alibabas jüngste Wan 2.1, eine der leistungsstärksten Bild-zu-Video-FOSS-Lösungen dieser Zeit – unterstützt jetzt die Anpassung durch Wan LoRAs.

Neben der Verfügbarkeit neuerer menschenzentrierter Grundmodelle Himmelsrollen, zum Zeitpunkt des Schreibens warten wir auch auf die Veröffentlichung von Alibabas umfassendem VACE Suite zur Videoerstellung und -bearbeitung:

Anklicken um abzuspielen. Die bevorstehende Veröffentlichung von Alibabas multifunktionaler KI-Bearbeitungssuite VACE hat die Benutzergemeinschaft begeistert. Quelle: https://ali-vilab.github.io/VACE-Page/

Sudden Impact

Die Forschungsszene im Bereich generative Video-KI selbst ist nicht weniger explosiv; wir befinden uns noch in der ersten Märzhälfte und die Einreichungen vom Dienstag in der Computer Vision-Sektion von Arxiv (einem Zentrum für Beiträge zur generativen KI) beliefen sich auf fast 350 Einträge – eine Zahl, die man eher mit der Hochsaison der Konferenzen in Verbindung bringt.

Die zwei Jahre seit der starten der stabilen Diffusion im Sommer 2022 (und die anschließende Entwicklung von Traumkabine und LoRA Anpassungsmethoden) waren bis vor wenigen Wochen durch das Fehlen weiterer wichtiger Entwicklungen gekennzeichnet, während Neuerscheinungen und Innovationen in einem so halsbrecherischen Tempo voranschritten, dass es fast unmöglich ist, über alles auf dem Laufenden zu bleiben, geschweige denn, alles abzudecken.

Videodiffusionsmodelle wie Hunyuan und Wan 2.1 haben endlich die Lösung gefunden, und nach Jahren erfolgloser Bemühungen von Hunderten von Forschungsinitiativen ist das Problem of zeitliche Konsistenz in Bezug auf die Entstehung des Menschen und größtenteils auch auf Umgebungen und Objekte.

Es besteht kein Zweifel daran, dass VFX-Studios derzeit Personal und Ressourcen einsetzen, um die neuen chinesischen Videomodelle anzupassen, um unmittelbare Herausforderungen wie den Gesichtsaustausch zu lösen, trotz des derzeitigen Mangels an ControlNet-artige Zusatzmechanismen für diese Systeme.

Es muss eine große Erleichterung sein, dass ein so großes Hindernis möglicherweise überwunden wurde, wenn auch nicht auf dem erwarteten Weg.

Von den verbleibenden Problemen ist dieses jedoch nicht unerheblich:

Anklicken um abzuspielen. Basierend auf der Aufforderung „Ein kleiner Stein stürzt einen steilen, felsigen Abhang hinunter und verdrängt dabei Erde und kleine Steine“ macht Wan 2.1, das in der neuen Arbeit die allerhöchste Punktzahl erreichte, einen einfachen Fehler. Quelle: https://videophy2.github.io/

Rückwärts den Hügel hinauf

Alle derzeit verfügbaren Text-zu-Video- und Bild-zu-Video-Systeme, einschließlich kommerzieller Closed-Source-Modelle, neigen dazu, Physikfehler wie den oben gezeigten zu produzieren, bei dem das Video einen Stein zeigt, der rollt bergauf, basierend auf der Eingabeaufforderung „Ein kleiner Stein stürzt einen steilen, felsigen Hang hinunter und verdrängt Erde und kleine Steine '.

Eine Theorie, warum dies geschieht, vor kurzem vorgeschlagen in einer akademischen Zusammenarbeit zwischen Alibaba und den VAE ist, dass Modelle in gewissem Sinne immer mit Einzelbildern trainieren, selbst wenn sie mit Videos trainieren (die zu Trainingszwecken in Einzelbildsequenzen geschrieben werden); und sie lernen möglicherweise nicht unbedingt die richtige zeitliche Reihenfolge von 'Vor' und 'nach' Bilder.

Die wahrscheinlichste Lösung ist jedoch, dass die betreffenden Modelle Datenerweiterung Routinen, bei denen ein Quell-Trainingsclip dem Modell sowohl vorwärts als auch rückwärts ausgesetzt wird und rückwärts, wodurch die Trainingsdaten effektiv verdoppelt werden.

Es ist seit langem bekannt, dass dies nicht willkürlich geschehen sollte, da einige Bewegungen umgekehrt funktionieren, viele jedoch nicht. Ein 2019 Studie von der britischen Universität Bristol wollte eine Methode entwickeln, die unterscheiden konnte äquivariante, unveränderlich und irreversibel Quelldaten-Videoclips, die in einem einzigen Datensatz koexistieren (siehe Abbildung unten), mit der Vorstellung, dass ungeeignete Quellclips aus den Datenerweiterungsroutinen herausgefiltert werden könnten.

Beispiele für drei Bewegungsarten, von denen nur eine frei reversibel ist und gleichzeitig eine plausible physikalische Dynamik beibehält. Quelle: https://arxiv.org/abs/1909.09422

Beispiele für drei Bewegungsarten, von denen nur eine unter Beibehaltung einer plausiblen physikalischen Dynamik frei umkehrbar ist. Quelle: https://arxiv.org/abs/1909.09422

Die Autoren dieser Arbeit formulieren das Problem klar:

„Wir stellen fest, dass der Realismus umgekehrter Videos durch Umkehrartefakte beeinträchtigt wird – Aspekte der Szene, die in der natürlichen Welt nicht möglich wären. Einige Artefakte sind subtil, während andere leicht zu erkennen sind, wie beispielsweise eine umgekehrte Wurfaktion, bei der das geworfene Objekt spontan vom Boden aufsteigt.“

Wir beobachten zwei Arten von Umkehrartefakten: physikalische, die Verstöße gegen die Naturgesetze darstellen, und unwahrscheinliche, die ein mögliches, aber unwahrscheinliches Szenario darstellen. Diese schließen sich nicht aus, und viele umgekehrte Aktionen weisen beide Arten von Artefakten auf, wie zum Beispiel das Glätten eines Blattes Papier.

Beispiele für physikalische Artefakte sind: umgekehrte Schwerkraft (z. B. „etwas fallen lassen“), spontane Impulse auf Objekte (z. B. „einen Stift drehen“) und irreversible Zustandsänderungen (z. B. „eine Kerze abbrennen“). Ein Beispiel für ein unwahrscheinliches Artefakt: einen Teller aus dem Schrank nehmen, abtrocknen und auf den Wäscheständer stellen.

„Diese Art der Wiederverwendung von Daten kommt während des Trainings sehr häufig vor und kann von Vorteil sein – zum Beispiel, um sicherzustellen, dass das Modell nicht nur eine Ansicht eines Bildes oder Objekts lernt, die gespiegelt oder gedreht werden kann, ohne dass ihre zentrale Kohärenz und Logik verloren geht.“

„Das funktioniert natürlich nur bei wirklich symmetrischen Objekten. Und Physik anhand eines ‚umgekehrten‘ Videos zu lernen, funktioniert nur, wenn die umgekehrte Version genauso viel Sinn ergibt wie die vorwärts gerichtete Version.“

Vorübergehende Umkehrungen

Wir haben keine Beweise dafür, dass Systeme wie Hunyuan Video und Wan 2.1 es erlaubten, dem Modell während des Trainings beliebig „umgekehrte“ Clips zu zeigen (keine der Forschergruppen hat sich zu den Datenerweiterungsroutinen konkret geäußert).

Doch die einzige vernünftige Alternative, angesichts so viele Berichte (und meine eigene praktische Erfahrung) scheint zu sein, dass Hyperscale-Datensätze, die diese Modelle antreiben, Clips enthalten können, die tatsächlich Bewegungen aufweisen, die umgekehrt erfolgen.

Der Stein im oben eingebetteten Beispielvideo wurde mit Wan 2.1 generiert und ist Teil einer neuen Studie, die untersucht, wie gut Videodiffusionsmodelle mit physikalischen Gesetzen umgehen.

Bei Tests für dieses Projekt erreichte Wan 2.1 hinsichtlich seiner Fähigkeit, physikalische Gesetze konsequent einzuhalten, nur eine Punktzahl von 22 %.

Das ist jedoch die beste Punktzahl aller für die Arbeit getesteten Systeme, was darauf hindeutet, dass wir möglicherweise unseren nächsten Stolperstein für Video-KI gefunden haben:

Ergebnisse führender Open- und Closed-Source-Systeme, wobei die Ergebnisse der Frameworks von menschlichen Kommentatoren bewertet wurden. Quelle: https://arxiv.org/pdf/2503.06800

Von führenden Open- und Closed-Source-Systemen erzielte Punktzahlen, wobei die Ausgabe der Frameworks von menschlichen Kommentatoren ausgewertet wird. Quelle: https://arxiv.org/pdf/2503.06800

Die Autoren der neuen Arbeit haben ein Benchmarking-System entwickelt, das sich nun in der zweiten Iteration befindet und den Namen VideoPhymit dem Code verfügbar auf GitHub.

Obwohl der Umfang der Arbeit über das hinausgeht, was wir hier umfassend abdecken können, wollen wir einen allgemeinen Blick auf ihre Methodik und ihr Potenzial zur Festlegung einer Metrik werfen, die dazu beitragen könnte, den Verlauf zukünftiger Modelltrainingssitzungen von diesen bizarren Umkehrfällen zu vermeiden.

Die Studie, durchgeführt von sechs Forschern der UCLA und Google Research, heißt VideoPhy-2: Eine anspruchsvolle aktionszentrierte physikalische Commonsense-Evaluierung bei der Videogenerierung. Ein überfülltes Begleit Projektseite ist ebenfalls verfügbar, zusammen mit Code und Datensätzen bei GitHubund einen Dataset-Viewer bei Hugging Face.

Anklicken um abzuspielen. Hier gelingt es dem gefeierten OpenAI Sora-Modell nicht, die Wechselwirkungen zwischen Rudern und Reflexionen zu verstehen und ist nicht in der Lage, einen logischen physikalischen Fluss für die Person im Boot oder für die Art und Weise, wie das Boot mit ihr interagiert, bereitzustellen.

Methodik

Die Autoren beschreiben die neueste Version ihrer Arbeit, VideoPhy-2, als „anspruchsvoller, vernünftiger Bewertungsdatensatz für Aktionen in der realen Welt“. Die Sammlung umfasst 197 Aktionen aus einer Reihe unterschiedlicher körperlicher Aktivitäten wie Hula-Hoop, Gymnastik und Tennissowie Objektinteraktionen, wie beispielsweise einen Gegenstand biegen, bis er bricht.

Mithilfe eines großen Sprachmodells (LLM) werden aus diesen Seed-Aktionen 3840 Eingabeaufforderungen generiert. Die Eingabeaufforderungen werden dann verwendet, um mithilfe der verschiedenen getesteten Frameworks Videos zu synthetisieren.

Während des gesamten Prozesses haben die Autoren eine Liste mit „Kandidaten“-physikalischen Regeln und Gesetzen entwickelt, die von KI-generierten Videos erfüllt werden sollten. Zur Auswertung verwendeten sie Vision-Language-Modelle.

Die Autoren geben an:

„Beispielsweise würde in einem Video eines Tennisspielers eine physikalische Regel lauten, dass ein Tennisball unter der Einwirkung der Schwerkraft einer parabolischen Flugbahn folgen sollte. Um eine Goldstandard-Beurteilung zu ermöglichen, bitten wir menschliche Kommentatoren, jedes Video anhand der allgemeinen semantischen Übereinstimmung und des physikalischen gesunden Menschenverstands zu bewerten und die Einhaltung verschiedener physikalischer Regeln zu kennzeichnen.“

Oben: Aus einer Aktion wird mithilfe eines LLM eine Textaufforderung generiert und mithilfe eines Text-zu-Video-Generators ein Video erstellt. Ein Vision-Language-Modell untertitelt das Video und identifiziert mögliche physikalische Regeln. Unten: Menschliche Kommentatoren bewerten den Realismus des Videos, bestätigen Regelverstöße, ergänzen fehlende Regeln und prüfen, ob das Video der ursprünglichen Aufforderung entspricht.

Zunächst kuratiert das Forschungsteam eine Reihe von Aktionen, um den physischen Alltagssinn in KI-generierten Videos zu bewerten. Sie begannen mit über 600 Aktionen aus dem Kinetik, UCF-101und SSv2 Datensätze mit Schwerpunkt auf Aktivitäten im Zusammenhang mit Sport, Objektinteraktionen und realer Physik.

Zwei unabhängige Gruppen von in MINT-Fächern ausgebildeten studentischen Kommentatoren (mit mindestens einem Bachelor-Abschluss) überprüften und filterten die Liste und wählten Aktionen aus, die Prinzipien testeten wie Schwerkraft, Schwungund Elastizität, während Aufgaben mit geringer Bewegung wie Eingabe, eine Katze streichelnden Kauen.

Nach weiterer Verfeinerung mit Gemini-2.0-Flash-Exp Um Duplikate zu vermeiden, umfasste der endgültige Datensatz 197 Aktionen, von denen 54 Objektinteraktionen beinhalteten und 143 sich auf körperliche und sportliche Aktivitäten konzentrierten:

Beispiele aus den destillierten Aktionen.

Im zweiten Schritt generierten die Forscher mithilfe von Gemini-2.0-Flash-Exp 20 Eingabeaufforderungen für jede Aktion im Datensatz, was insgesamt 3,940 Eingabeaufforderungen ergab. Der Fokus lag auf sichtbaren physischen Interaktionen, die in einem generierten Video klar dargestellt werden konnten. Nicht-visuelle Elemente wie Emotionen, sensorische Detailsund abstrakte Sprache, aber es wurden verschiedene Charaktere und Objekte eingebaut.

Anstatt einer einfachen Eingabeaufforderung wie „Ein Bogenschütze lässt den Pfeil los‘wurde das Modell dahingehend gelenkt, eine detailliertere Version zu erstellen, wie beispielsweise „Ein Bogenschütze spannt die Bogensehne wieder vollständig und lässt dann den Pfeil los, der geradeaus fliegt und ins Schwarze auf einer Papierzielscheibe trifft.'.

Da moderne Videomodelle längere Beschreibungen interpretieren können, verfeinerten die Forscher die Untertitel mithilfe der Mistral-NeMo-12B-Anleitung Prompter-Upsampler, um visuelle Details hinzuzufügen, ohne die ursprüngliche Bedeutung zu verändern.

Beispielaufforderungen aus VideoPhy-2, kategorisiert nach physischen Aktivitäten oder Objektinteraktionen. Jede Aufforderung ist mit der entsprechenden Aktion und dem relevanten physikalischen Prinzip verknüpft, das sie testet.

Für die dritte Phase wurden physikalische Regeln nicht aus Textaufforderungen, sondern aus generierten Videos abgeleitet, da generative Modelle Schwierigkeiten haben können, konditionierten Textaufforderungen zu folgen.

Die Videos wurden zunächst mit VideoPhy-2-Eingabeaufforderungen erstellt und anschließend mit Gemini-2.0-Flash-Exp mit Untertiteln versehen, um wichtige Details zu extrahieren. Das Modell schlug drei erwartete physikalische Regeln pro Video vor, die von menschlichen Kommentatoren überprüft und durch die Identifizierung zusätzlicher potenzieller Verstöße erweitert wurden.

Beispiele aus den hochskalierten Untertiteln.

Um die schwierigsten Aktionen zu identifizieren, erstellten die Forscher anschließend Videos mit CogVideoX-5B mit Eingabeaufforderungen aus dem VideoPhy-2-Datensatz. Anschließend wählten sie 60 von 197 Aktionen aus, bei denen das Modell weder den Eingabeaufforderungen noch dem grundlegenden physikalischen Menschenverstand durchgehend folgte.

Diese Aktionen umfassten physikintensive Interaktionen wie Impulsübertragung beim Diskuswerfen, Zustandsänderungen wie das Biegen eines Objekts bis zum Bruch, Balanceaufgaben wie Seiltanzen und komplexe Bewegungen wie Rückwärtssaltos, Stabhochsprung und Pizzawerfen. Insgesamt wurden 1,200 Aufforderungen ausgewählt, um den Schwierigkeitsgrad des Teildatensatzes zu erhöhen.

Der resultierende Datensatz umfasste 3,940 Untertitel – 5.72-mal mehr als die frühere Version von VideoPhy. Die durchschnittliche Länge der Originaluntertitel beträgt 16 Token, während die hochgerechneten Untertitel 138 Token erreichen – 1.88-mal bzw. 16.2-mal länger.

Der Datensatz enthält außerdem 102,000 menschliche Anmerkungen zu semantischer Einhaltung, physischem Menschenverstand und Regelverstößen in mehreren Videogenerierungsmodellen.

Evaluierung

Anschließend definierten die Forscher klare Kriterien für die Bewertung der Videos. Ziel war es vor allem zu beurteilen, wie gut jedes Video zur Eingabeaufforderung passte und grundlegenden physikalischen Prinzipien folgte.

Anstatt die Videos einfach nach Präferenz zu bewerten, nutzten sie bewertungsbasiertes Feedback, um konkrete Erfolge und Misserfolge zu erfassen. Menschliche Kommentatoren bewerteten die Videos auf einer fünfstufigen Skala, was detailliertere Beurteilungen ermöglichte. Bei der Bewertung wurde auch geprüft, ob die Videos verschiedenen physikalischen Regeln und Gesetzen folgten.

Für die menschliche Bewertung wurde eine Gruppe von 12 Kommentatoren aus Tests auf Amazon Mechanical Turk (AMT) ausgewählt und nach Erhalt detaillierter Fernanweisungen bewertet. Der Fairness halber: semantische Adhärenz und körperlicher gesunder Menschenverstand wurden separat ausgewertet (in der ursprünglichen VideoPhy-Studie wurden sie gemeinsam bewertet).

Die Kommentatoren bewerteten zunächst, wie gut die Videos zu ihren Eingabeaufforderungen passten. Anschließend bewerteten sie die physikalische Plausibilität, die Bewertung von Regelverstößen und den allgemeinen Realismus auf einer fünfstufigen Skala. Um einen fairen Vergleich zwischen den Modellen zu gewährleisten, wurden nur die Originalaufforderungen angezeigt.

Die den AMT-Annotatoren präsentierte Schnittstelle.

Obwohl das menschliche Urteilsvermögen weiterhin der Goldstandard ist, ist es teuer und mit einer Anzahl der VorbehalteDaher ist eine automatisierte Auswertung für schnellere und skalierbarere Modellbewertungen unerlässlich.

Die Autoren des Artikels testeten mehrere Videosprachenmodelle, darunter Gemini-2.0-Flash-Exp und VideoScore, auf ihre Fähigkeit, Videos hinsichtlich semantischer Genauigkeit und „physischem gesunden Menschenverstand“ zu bewerten.

Die Modelle bewerteten jedes Video erneut auf einer Fünf-Punkte-Skala, während eine separate Klassifizierungsaufgabe ermittelte, ob physikalische Regeln befolgt, verletzt oder unklar waren.

Experimente zeigten, dass bestehende Video-Sprachmodelle Schwierigkeiten hatten, menschliche Urteile zu treffen, hauptsächlich aufgrund schwacher physikalischer Argumentation und der Komplexität der Eingabeaufforderungen. Um die automatisierte Auswertung zu verbessern, entwickelten die Forscher VideoPhy-2-Autoeval, ein 7B-Parameter-Modell, das genauere Vorhersagen in drei Kategorien liefern soll: semantische Adhärenz; körperlicher gesunder Menschenverstandeschriebenen Art und Weise; und Regelkonformität, fein abgestimmt auf die VideoCon-Physik Modell mit 50,000 menschlichen Anmerkungen*.

Daten und Tests

Mit diesen Tools testeten die Autoren eine Reihe generativer Videosysteme, sowohl über lokale Installationen als auch, wo nötig, über kommerzielle APIs: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Soraeschriebenen Art und Weise; und Luma Ray.

Die Modelle wurden, soweit möglich, mit hochskalierten Untertiteln versehen, mit der Ausnahme, dass Hunyuan Video und VideoCrafter2 mit 77 Token arbeiten. CLIP Einschränkungen und kann keine Eingabeaufforderungen über einer bestimmten Länge akzeptieren.

Die Länge der erstellten Videos wurde auf unter 6 Sekunden begrenzt, da kürzere Ausgaben leichter auszuwerten sind.

Die Fahrdaten stammten aus dem VideoPhy-2-Datensatz, der in einen Benchmark- und einen Trainingsdatensatz aufgeteilt wurde. Pro Modell wurden 590 Videos generiert, mit Ausnahme von Sora und Ray2; aufgrund des Kostenfaktors (für diese wurden entsprechend weniger Videos generiert).

(Weitere Einzelheiten zur Bewertung finden Sie im Originaldokument, das dort ausführlich aufgeführt ist.)

Die erste Evaluierung befasste sich mit körperliche Aktivitäten/Sport (PA) und Objektinteraktionen (OI) und testete sowohl den allgemeinen Datensatz als auch die oben erwähnte „schwierigere“ Teilmenge:

Ergebnisse der Vorrunde.

Hier kommentieren die Autoren:

„Selbst das leistungsstärkste Modell, Wan2.1-14B, erreicht bei der vollständigen und harten Aufteilung unseres Datensatzes nur 32.6 % bzw. 21.9 %. Seine im Vergleich zu anderen Modellen relativ starke Leistung ist auf die Vielfalt der multimodalen Trainingsdaten sowie auf eine robuste Bewegungsfilterung zurückzuführen, die bei einer Vielzahl von Aktionen eine hohe Videoqualität gewährleistet.“

Darüber hinaus beobachten wir, dass geschlossene Modelle wie Ray2 schlechter abschneiden als offene Modelle wie Wan2.1-14B und CogVideoX-5B. Dies deutet darauf hin, dass geschlossene Modelle bei der Erfassung physikalischer Zusammenhänge offenen Modellen nicht unbedingt überlegen sind.

„Bemerkenswerterweise erreicht Cosmos-Diffusion-7B beim Hard Split das zweitbeste Ergebnis und übertrifft sogar das viel größere Modell HunyuanVideo-13B. Dies könnte auf die hohe Repräsentation menschlicher Handlungen in den Trainingsdaten sowie auf synthetisch gerenderte Simulationen zurückzuführen sein.“

Die Ergebnisse zeigten, dass Videomodelle bei körperlichen Aktivitäten wie Sport größere Schwierigkeiten hatten als bei einfacheren Objektinteraktionen. Dies deutet darauf hin, dass die Verbesserung KI-generierter Videos in diesem Bereich bessere Datensätze erfordert – insbesondere hochwertiges Filmmaterial von Sportarten wie Tennis, Diskuswerfen, Baseball und Cricket.

Die Studie untersuchte auch, ob die physikalische Plausibilität eines Modells mit anderen Videoqualitätsmetriken wie Ästhetik und Bewegungsglätte korrelierte. Die Ergebnisse zeigten keine starke Korrelation. Das bedeutet, dass ein Modell seine Leistung auf VideoPhy-2 nicht allein durch die Erzeugung optisch ansprechender oder flüssiger Bewegungen verbessern kann – es erfordert ein tieferes Verständnis des physikalischen Alltags.

Obwohl das Dokument zahlreiche qualitative Beispiele enthält, scheinen nur wenige der statischen Beispiele im PDF-Dokument mit den umfangreichen Videobeispielen der Autoren auf der Projektwebsite in Zusammenhang zu stehen. Daher betrachten wir zunächst eine kleine Auswahl der statischen Beispiele und anschließend einige weitere Projektvideos.

Die obere Reihe zeigt mit Wan2.1 erstellte Videos. (a) In Ray2 bleibt der Jetski links zurück, bevor er sich rückwärts bewegt. (b) In Hunyuan-13B verformt sich der Vorschlaghammer mitten im Schwung, und ein zerbrochenes Holzbrett erscheint unerwartet. (c) In Cosmos-7B schleudert der Speer Sand ab, bevor er den Boden berührt.

Zum obigen qualitativen Test kommentieren die Autoren:

„[Wir] beobachten Verstöße gegen den gesunden Menschenverstand, wie etwa Jetskis, die unnatürlich rückwärts fahren, und die Verformung eines massiven Vorschlaghammers, die den Prinzipien der Elastizität widerspricht. Doch selbst Wan leidet unter dem Mangel an gesundem Menschenverstand, wie [der Clip am Anfang dieses Artikels] zeigt.“

„In diesem Fall zeigen wir, dass ein Stein ins Rollen kommt und bergauf beschleunigt, wobei er dem physikalischen Gesetz der Schwerkraft trotzt.“

Weitere Beispiele vom Projektstandort:

Anklicken um abzuspielen. Hier lautete die Bildunterschrift: „Eine Person dreht kräftig ein nasses Handtuch, wobei das Wasser in einem sichtbaren Bogen nach außen spritzt“ – die dabei entstehende Wasserquelle ähnelt jedoch eher einem Wasserschlauch als einem Handtuch.

Anklicken um abzuspielen. Hier lautete die Bildunterschrift: „Ein Chemiker gießt eine klare Flüssigkeit aus einem Becher in ein Reagenzglas und vermeidet dabei sorgfältig Verschütten“, aber wir können sehen, dass die Wassermenge, die in den Becher gegeben wird, nicht mit der Menge übereinstimmt, die aus dem Krug herauskommt.

Wie eingangs erwähnt, übersteigt der Umfang des zu diesem Projekt gehörenden Materials bei weitem den hier behandelten Umfang. Eine umfassende Beschreibung der Vorgehensweise der Autoren sowie weitere Testbeispiele und Verfahrensdetails finden Sie daher im Quelldokument, auf der Projektwebsite und auf den zuvor erwähnten verwandten Websites.

* Was die Herkunft der Anmerkungen betrifft, so wird in dem Dokument lediglich „für diese Aufgaben erworben“ angegeben – es scheint, als ob viele von 12 AMT-Mitarbeitern erstellt wurden.

Erstveröffentlichung Donnerstag, 13. März 2025

Verwandte Themen:AI-Video KI-Videoerstellung Text-zu-Video-Modelle