Robotik

Meta V-JEPA 2: Das KI-Modell, das Robotern gesunden Menschenverstand verleiht

Veröffentlicht am 17. Juli 2025

Aktualisiert am 18. Mai 2026

Von

Dr. Assad Abbas

Meta V-JEPA 2: The AI Model Bringing Common Sense to Robots

Metas Video Joint Embedding Predictive Architecture 2 (V-JEPA 2) ist ein bedeutender Fortschritt in der Künstlichen Intelligenz (KI). Es hilft Robotern, physische Interaktionen zu verstehen und vorherzusagen. Das Modell wird auf über einer Million Stunden Video trainiert. Dies ermöglicht es Robotern, zu lernen und vorherzusagen, was als Nächstes passieren wird. Es ermöglicht auch Robotern, Aktionen in neuen Umgebungen zu planen, sodass sie mit unbekannten Objekten effektiver interagieren können.

V-JEPA 2 verwendet selbstüberwachtes Lernen. Es lernt direkt aus Videodaten, ohne menschliche Annotationen zu benötigen. Dies unterscheidet es von anderen KI-Modellen, die auf annotierten Daten angewiesen sind. Roboter können Ergebnisse auf der Grundlage des visuellen Kontexts vorhersagen. Sie können sich anpassen und Aktionen entsprechend planen. Dies bringt uns näher an die Erreichung von Fortgeschrittener Maschinenintelligenz (AMI) heran.

Basierend auf Metas Joint Embedding Predictive Architecture (JEPA) verbessert V-JEPA 2 die Aktionenvorhersage und die Weltmodellierung, sodass Roboter neue Aufgaben in unbekannten Umgebungen bewältigen können. Meta teilt dieses Modell mit der Forschungsgemeinschaft, um den Fortschritt der KI zu beschleunigen und die Fähigkeiten von Robotern zu verbessern.

Warum gesunder Menschenverstand in Robotern immer schwer war

Gesunder Menschenverstand ist die Fähigkeit, grundlegende Entscheidungen zu treffen. Zum Beispiel, zu wissen, dass ein Becher umkippt, wenn er geneigt wird, oder zu verstehen, dass ein Stuhl einen Pfad blockieren könnte. Für Menschen kommt diese Erkenntnis natürlicherweise durch Erfahrung. Allerdings stehen Roboter vor Herausforderungen, wenn es darum geht, diese Intuition zu entwickeln.

Die meisten Roboter sind für spezifische Aufgaben in kontrollierten Umgebungen programmiert. Sie erfüllen diese Aufgaben gut. Aber wenn sich Situationen ändern oder unerwartete Elemente auftauchen, haben Roboter Schwierigkeiten. Sie erkennen oft nicht Ursache und Wirkung oder die Folgen ihrer Aktionen. Zum Beispiel kann ein Roboter wissen, wie man einen Becher auf eine flache Oberfläche stellt. Aber er kann nicht vorhersehen, dass das Kippen des Bechers dazu führen kann, dass er umfällt.

Aktuelle KI-Modelle, wie zum Beispiel Modelle, die auf Verstärkendem Lernen (RL) basieren, haben Einschränkungen. RL erfordert eine erhebliche Menge an Trial-and-Error-Lernen. Dies macht den Prozess langsam und ressourcenintensiv. Große Sprachmodelle (LLM) sind in der Sprache sehr gut, aber sie haben keine Verbindung zur physischen Welt. Sie halluzinieren oft Antworten, die nur auf Text basieren, was sie in dynamischen Situationen unzuverlässig macht. Traditionelle Computer-Vision-Modelle sind auch in ihren Fähigkeiten eingeschränkt. Diese Modelle sind aufgabenorientiert und können sich nicht an neue oder unerwartete Szenarien anpassen.

Um diese Probleme zu lösen, empfehlen Experten die Verwendung von Weltmodellen. Weltmodelle ermöglichen es Robotern, zukünftige Aktionen auf der Grundlage vergangener Erfahrungen zu simulieren und vorherzusagen. Diese Modelle helfen Robotern, die physischen Dynamiken der Welt zu verstehen. Zum Beispiel, vorherzusagen, was passiert, wenn ein Objekt bewegt wird oder wenn zwei Objekte kollidieren. Metas V-JEPA 2 ist das erste Modell, das diese Prinzipien integriert. Es lernt direkt aus rohen Videodaten. Dies macht es anpassungsfähig an reale Umgebungen, sodass Roboter auf der Grundlage dynamischer physischer Interaktionen planen und entscheiden können.

Verständnis von V-JEPA 2

V-JEPA 2 ist ein selbstüberwachtes Lernmodell, das von Metas Fundamental AI Research (FAIR)-Team entwickelt wurde. Im Gegensatz zu herkömmlichen KI-Modellen, die annotierte Daten erfordern, lernt V-JEPA 2 aus unannotierten Videos, indem es die fehlenden Teile von Videosequenzen vorhersagt. Dieser Prozess wird als Vorhersage auf der Repräsentationsebene bezeichnet. Anstatt sich auf jeden Pixel zu konzentrieren, arbeitet V-JEPA 2 mit abstrakten Repräsentationen, die die wichtigsten Dynamiken und Beziehungen zwischen Objekten und Aktionen in der Umgebung erfassen.

Das Modell basiert auf Metas Joint Embedding Predictive Architecture (JEPA), das für das Verständnis physischer Dynamiken konzipiert ist. Es hat zwei wichtige Komponenten: einen Encoder, der rohe Videos verarbeitet, um nützliche Repräsentationen zu erstellen, und einen Prädiktor, der diese Repräsentationen verwendet, um zukünftige Ereignisse vorherzusagen. V-JEPA 2 wird auf über einer Million Stunden Video trainiert, was es ermöglicht, komplexe Muster in der physischen Welt zu lernen. Durch das Lernen aus Videos kann das Modell zukünftige Aktionen und Interaktionen vorhersagen, was die Planung und Entscheidungsfindung von Robotern verbessert.

V-JEPA 2 hilft Robotern, Zero-Shot-Planung durchzuführen. Dies bedeutet, dass Roboter Aufgaben in neuen Umgebungen bewältigen können, ohne vorherige Schulung. Stattdessen können Roboter Aufgaben wie das Aufnehmen und Ablegen von Objekten in neuen Orten ausführen, auch wenn sie diese Aufgaben noch nie zuvor gesehen haben. Dies macht V-JEPA 2 eine bedeutende Verbesserung in der Aktionenvorhersage und Weltmodellierung, was Roboter anpassungsfähiger an neue Situationen macht.

Das Modell lernt aus rohen Videodaten, was es Robotern ermöglicht, zukünftige Ereignisse vorherzusagen. Dies macht Roboter in realen Situationen leistungsfähiger. V-JEPA 2 bringt uns näher an Roboter heran, die Aufgaben wie Menschen planen und ausführen können. Meta teilt V-JEPA 2 mit der Forschungsgemeinschaft, um den Fortschritt der KI zu beschleunigen. Roboter, die V-JEPA 2 verwenden, können in dynamischen Umgebungen operieren, sich schnell anpassen und Aufgaben effizienter planen.

Funktionsweise von V-JEPA 2: Der zweistufige Prozess

V-JEPA 2 funktioniert in zwei deutlich unterscheidbaren Stufen. Jede Stufe ermöglicht es dem Modell, aus rohen Videodaten zu lernen und diese Kenntnisse anschließend für informierte Entscheidungen in realen Aufgaben anzuwenden.

Stufe 1: Aktionenfreies Repräsentationslernen

V-JEPA 2 beginnt mit einer großen Vorverarbeitung auf über 1 Million Stunden Video und 1 Million Bildern. Das Modell lernt, indem es die fehlenden Teile von Videosequenzen vorhersagt. Es verarbeitet das Video als 3D-Tubelets, die als primäre Token für das Modell dienen. Das Modell verwendet eine Vision-Transformer (ViT)-Architektur mit 3D-Rotary-Position-Embeddings (3D-RoPE), um sowohl räumliche als auch zeitliche Informationen effektiver zu erfassen.

Der Encoder verarbeitet die Tubelets, um hochdimensionale Feature-Vektoren zu erstellen. Diese Vektoren repräsentieren sowohl die räumlichen als auch die zeitlichen Dynamiken des Videos. Das Modell verwendet ein Mask-Denoising-Objektiv, bei dem große Teile des Videos verborgen sind. Das Modell versucht, den verborgenen Inhalt vorherzusagen, indem es die sichtbaren Teile verwendet. Ein Exponential-Moving-Average (EMA)-Ziel-Encoder hilft dem Modell, triviale Lösungen zu vermeiden und stabiles Lernen zu gewährleisten. Die Verlustfunktion minimiert den L1-Abstand zwischen den Vorhersagen und der Ausgabe des EMA-Ziel-Encoders, wobei der Fokus auf höheren Konzepten wie Objektpersistenz und Bewegung liegt, anstatt auf pixelgenauen Details.

Stufe 2: Aktionenbedingte Planung und Steuerung

In der zweiten Stufe wechselt das Modell zur aktionsbedingten Schulung. Die Encoder-Gewichte sind eingefroren, und ein neuer Prädiktor wird mit Daten aus Roboterinteraktionen trainiert. Diese Daten umfassen Video-Beobachtungen und die entsprechenden Steuerungsaktionen, typischerweise aus dem DROID-Datensatz (etwa 62 Stunden Roboterdaten). Jetzt kann das Modell den zukünftigen Zustand einer Umgebung auf der Grundlage des aktuellen Zustands und möglicher Aktionen vorhersagen.

V-JEPA 2 stellt ein zielbedingtes Energie-Minimierungsproblem auf. Es codiert sowohl die aktuelle Beobachtung als auch ein Zielbild in Feature-Maps. Das Modell vorhersagt dann, wie der Zustand mit unterschiedlichen Aktionen ändert. Die optimale Aktionenfolge wird durch Minimierung des L1-Abstands zwischen dem vorhergesagten zukünftigen Zustand und der Zielrepräsentation gefunden. Die Cross-Entropy-Methode (CEM) wird für die Trajektorienoptimierung verwendet.

Nur die erste Aktion der optimalen Folge wird ausgeführt, und der Prozess wird in einer rekursiven Steuerungsschleife wiederholt. Dies ermöglicht Echtzeit-Planung und Anpassung. Durch die Verwendung von 3D-Tubelet-Verarbeitung erfasst V-JEPA 2 sowohl räumliche als auch zeitliche Abhängigkeiten, was es Robotern ermöglicht, über Bewegung, Objektinteraktionen und die Folgen ihrer Aktionen in komplexen Umgebungen nachzudenken. Dies ermöglicht Zero-Shot-Planung und -Steuerung, auch in neuen Szenarien, ohne die Notwendigkeit von aufgabenorientierten Demonstrationen oder Belohnungsingenieurwesen.

Anwendungen von V-JEPA 2 in der Robotik

V-JEPA 2 verändert die Art und Weise, wie Roboter mit der Welt interagieren. Viele Anwendungen sind noch in Entwicklung, aber das Modell hat starke Fähigkeiten in kontrollierten Umgebungen demonstriert.

Pick-and-Place-Manipulation

In Laborumgebungen hat V-JEPA 2 es Robotern ermöglicht, Pick-and-Place-Aufgaben mit minimaler Schulung auszuführen. Mit nur 62 Stunden Daten aus dem DROID-Datensatz können Roboter verschiedene Objekte manipulieren, einschließlich starrer und deformierbarer Objekte. Diese Fähigkeit ist in Bereichen wie Logistik, Fertigung und Haushaltsrobotik von entscheidender Bedeutung, wo Objekte erheblich in Größe und Komplexität variieren.

Navigieren in dynamischen Umgebungen

V-JEPA 2 kann temporale Dynamiken modellieren, was es nützlich für Echtzeit-Navigieren in Umgebungen mit sich bewegenden Menschen, Tieren oder Hindernissen macht. Obwohl es noch nicht in autonomen Fahrzeugen oder Drohnen eingesetzt wurde, können seine Vorhersagefähigkeiten Roboter helfen, Veränderungen vorherzusagen und ihre Pfade anzupassen. Dies ist entscheidend für Sicherheit und Effizienz in belebten Umgebungen.

Mensch-Roboter-Interaktion

Indem V-JEPA 2 lernt, menschliche Aktionen vorherzusagen, kann es die menschliche Robotik-Kollaboration verbessern. Roboter können in geteilten Räumen wie Krankenhäusern, Häusern oder industriellen Flächen natürlicher und sicherer reagieren. Obwohl dies noch in Arbeit ist, stellt diese Fähigkeit einen Schritt in Richtung sozial bewusster Roboter dar, die sich an ihre Umgebung anpassen können.

Generalisierung und Zero-Shot-Planung

V-JEPA 2 kann über Aufgaben und Umgebungen generalisieren. Roboter können die gelernten Repräsentationen in neuen Situationen ohne zusätzliche Schulung verwenden. Diese Zero-Shot-Planung ermöglicht es Robotern, sich schnell an neue Aufgaben anzupassen, wodurch die Notwendigkeit neuer Datenerfassung oder erneuter Schulung reduziert wird.

Echtzeit-Entscheidungsfindung und Effizienz

Mit seiner effizienten Konstruktion unterstützt V-JEPA 2 Echtzeit-Planung und -Steuerung. Meta berichtet, dass V-JEPA 2 30-mal schneller ist als Nvidias Cosmos-Modell in einigen Benchmarks. Diese Geschwindigkeit ist für Aufgaben erforderlich, die schnelle Entscheidungen erfordern, wie robotische Manipulation oder Navigation in sich ändernden Umgebungen.

Praktische Herausforderungen und Einschränkungen

Obwohl V-JEPA 2 bedeutende Fortschritte in selbstüberwachtem Lernen und robotischer Planung gemacht hat, gibt es noch Herausforderungen zu überwinden, bevor es weit verbreitet eingesetzt werden kann. Hier sind die wichtigsten Einschränkungen:

Abhängigkeit von visuellen Daten allein

V-JEPA 2 wird ausschließlich auf Video- und Bilddaten trainiert. Dies macht es effektiv für visuelle Aufgaben, aber begrenzt seine Fähigkeit, multisensorische Aufgaben wie taktilen Manipulation oder die Verwendung von auditiven Hinweisen auszuführen. Roboter in der realen Welt verlassen sich auf mehrere sensorische Eingaben.

Empfindlichkeit gegenüber Kameraposition und -kalibrierung

Das Modell verlässt sich auf monokulare RGB-Eingaben, was die Leistung beeinträchtigen kann, wenn die Basis oder Referenzrahmen des Roboters nicht sichtbar ist. Manuelle Anpassungen der Kamerasetups können erforderlich sein, um konsistente Leistung zu gewährleisten.

Einschränkungen in der langfristigen und mehrstufigen Planung

V-JEPA 2 funktioniert gut bei kurzen Aufgaben, aber es hat Schwierigkeiten bei langfristiger Planung. Die Ansammlung von Fehlern in Vorhersagen und die Erweiterung von Aktionsräumen machen komplexe, mehrstufige Operationen schwierig.

Hohe Rechenanforderungen

Obwohl es schneller ist als Modelle wie Nvidias Cosmos, hat V-JEPA 2 über 1,2 Milliarden Parameter. Dies erfordert erhebliche Rechenressourcen, was für kleinere Labore oder Organisationen mit begrenzter Infrastruktur eine Herausforderung darstellen kann.

Generalisierung in unstrukturierten Umgebungen

V-JEPA 2 funktioniert gut in kontrollierten Umgebungen, aber es kann in unbekannten oder unstrukturierten Umgebungen Schwierigkeiten haben. Sein Erfolgsquotient bei Pick-and-Place-Aufgaben liegt bei etwa 80 %, aber es kann in Randfällen versagen.

Integration in vollständige Roboter-Stacks

Um nützlich zu sein, muss V-JEPA 2 in Motorsteuerungen, Echtzeit-Sensoren und Aufgabenplaner integriert werden. Die Erreichung einer reibungslosen Interoperabilität in dynamischen Umgebungen bleibt eine Herausforderung.

Ethische und Vorurteilsaspekte

Wie alle großen Modelle kann V-JEPA 2 Vorurteile aus seinen Trainingsdaten übernehmen. In realen Anwendungen, insbesondere bei der menschlichen Interaktion, können diese Vorurteile zu ungewollten Ergebnissen führen. Ethische Aufsicht ist unerlässlich.

Fazit

V-JEPA 2 stellt einen bedeutenden Fortschritt in KI und Robotik dar. Es ermöglicht Robotern, die physische Welt wie menschliches Verhalten zu verstehen und zu interagieren. Obwohl das Modell starke Leistungen bei der Vorhersage von Aktionen, dem Verständnis der Welt und der Planung ohne vorherige Schulung gezeigt hat, gibt es noch einige Herausforderungen.

V-JEPA 2 verlässt sich auf visuelle Daten und hat einige Einschränkungen bei multisensorischen Aufgaben, langfristiger Planung und Integration in vollständige Roboter-Systeme. Seine Fähigkeit, jedoch, Echtzeit-Entscheidungen zu treffen und sich an neue Umgebungen anzupassen, macht es sehr nützlich für komplexe reale Situationen.

Meta arbeitet weiter an der Verbesserung von V-JEPA 2, was zum Fortschritt der KI und zur Steigerung der Intelligenz von Robotern beitragen wird. Dieser Fortschritt wird für Branchen wie Gesundheitswesen, Logistik und autonome Fahrzeuge von großem Wert sein. V-JEPA 2 hat großes Potenzial und wird eine entscheidende Rolle in der Zukunft der Robotik spielen.

Dr. Assad Abbas

Dr. Assad Abbas, ein ordentlicher Associate Professor an der COMSATS University Islamabad, Pakistan, hat seinen Ph.D. von der North Dakota State University, USA, erhalten. Seine Forschung konzentriert sich auf fortschrittliche Technologien, einschließlich Cloud-, Fog- und Edge-Computing, Big-Data-Analytics und KI. Dr. Abbas hat wesentliche Beiträge mit Veröffentlichungen in renommierten wissenschaftlichen Zeitschriften und Konferenzen geleistet. Er ist auch der Gründer von MyFastingBuddy.