Robotica

Meta V-JEPA 2: Het AI-model dat robots common sense bijbrengt

Published July 17, 2025

Updated April 26, 2026

Dr. Assad Abbas

Meta V-JEPA 2: The AI Model Bringing Common Sense to Robots

Meta’s Video Joint Embedding Predictive Architecture 2 (V-JEPA 2) is een significante vooruitgang in Artificiële Intelligentie (AI). Het helpt robots om fysieke interacties te begrijpen en te voorspellen. Het model is getraind op meer dan een miljoen uur aan video. Dit stelt robots in staat om te leren en te anticiperen wat er vervolgens zal gebeuren. Het stelt robots ook in staat om acties te plannen in nieuwe omgevingen, waardoor ze onbekende objecten effectiever kunnen benaderen.

V-JEPA 2 gebruikt self-supervised learning. Het leert direct van videodata, zonder dat menselijke annotaties nodig zijn. Dit onderscheidt het van andere AI-modellen die afhankelijk zijn van gelabelde data. Robots kunnen uitkomsten voorspellen op basis van visuele context. Ze kunnen zich aanpassen en acties plannen zoals nodig. Dit brengt ons dichter bij het bereiken van Geavanceerde Machine Intelligentie (AMI).

Door voort te bouwen op Meta’s Joint Embedding Predictive Architecture (JEPA), verbetert V-JEPA 2 actievoorspelling en wereldmodellering, waardoor robots nieuwe taken in onbekende omgevingen aankunnen. Meta deelt dit model met de onderzoekscommunity om de vooruitgang in AI te versnellen en de mogelijkheden van robots te verbeteren.

Waarom common sense in robots altijd moeilijk is geweest

Common sense is de mogelijkheid om basisbeslissingen te nemen. Bijvoorbeeld, weten dat een kopje omvalt als het wordt omgedraaid of begrijpen dat een stoel een pad kan blokkeren. Voor mensen komt deze kennis van nature door ervaring. Echter, robots hebben moeite om deze intuïtie te ontwikkelen.

De meeste robots zijn geprogrammeerd voor specifieke taken in gecontroleerde omgevingen. Ze doen het goed in deze taken. Maar als situaties veranderen of onverwachte elementen verschijnen, hebben robots moeite. Ze herkennen vaak niet de oorzaak en het gevolg of voorspellen de gevolgen van acties. Bijvoorbeeld, een robot kan weten hoe een kopje op een plat oppervlak te plaatsen, maar het kan niet voorzien dat het kantelen van het kopje ervoor kan zorgen dat het omvalt.

Huidige AI-modellen, zoals die gebaseerd zijn op Versterking Lerend (RL), hebben beperkingen. RL vereist een aanzienlijke hoeveelheid trial-and-error leren. Dit maakt het proces langzaam en bron-intensief. Grote taalmodellen (LLM’s) excelleren in taal, maar ontbreken een basis in de fysieke wereld. Ze hallucineren vaak antwoorden op basis van alleen tekst, waardoor ze onbetrouwbaar zijn in dynamische situaties. Traditionele computer vision modellen zijn ook beperkt in hun mogelijkheden. Deze modellen zijn taak-specifiek en falen om zich aan te passen aan nieuwe of onverwachte scenario’s.

Om deze problemen aan te pakken, raden deskundigen aan om wereldmodellen te gebruiken. Wereldmodellen stellen robots in staat om toekomstige acties te simuleren en te voorspellen op basis van eerdere ervaringen. Deze modellen helpen robots om de fysieke dynamiek van de wereld te begrijpen. Bijvoorbeeld, voorspellen wat er gebeurt als een object wordt verplaatst of als twee objecten botsen. Meta’s V-JEPA 2 is het eerste model dat deze principes integreert. Het leert direct van ruwe videodata. Dit maakt het aanpasbaar aan echte wereldomgevingen, waardoor robots kunnen redeneren en plannen op basis van dynamische fysieke interacties.

V-JEPA 2 begrijpen

V-JEPA 2 is een self-supervised learning model gemaakt door Meta’s Fundamental AI Research (FAIR) team. In tegenstelling tot traditionele AI-modellen die gelabelde data vereisen, leert V-JEPA 2 van ongelabelde video door de ontbrekende delen van video sequenties te voorspellen. Dit proces wordt representation-level predictie genoemd. In plaats van te focussen op elk pixel, werkt V-JEPA 2 met abstracte representaties die de sleuteldynamiek en relaties tussen objecten en acties in de omgeving vastleggen.

Het model is gebouwd op Meta’s Joint Embedding Predictive Architecture (JEPA), ontworpen om fysieke dynamiek te begrijpen. Het heeft twee belangrijke componenten: een encoder, die ruwe video verwerkt om nuttige representaties te creëren, en een predictor, die deze representaties gebruikt om toekomstige gebeurtenissen te voorspellen. V-JEPA 2 is getraind op meer dan een miljoen uur aan video, waardoor het complexe patronen in de fysieke wereld kan leren. Door van video te leren, kan het model toekomstige acties en interacties voorspellen, waardoor robots beter kunnen plannen en beslissingen nemen.

V-JEPA 2 helpt robots zero-shot planning uit te voeren. Dit betekent dat robots taken in nieuwe omgevingen kunnen uitvoeren, zelfs zonder eerdere training. In plaats daarvan kunnen robots taken uitvoeren zoals het oppakken van objecten en deze in nieuwe locaties plaatsen, zelfs als ze deze taken nooit eerder hebben gezien. Dit maakt V-JEPA 2 een significante verbetering in actievoorspelling en wereldmodellering, waardoor robots meer aanpasbaar zijn aan nieuwe situaties.

Het model leert van ruwe videodata, waardoor robots toekomstige gebeurtenissen kunnen voorspellen. Dit maakt robots meer capabel in echte wereldsituaties. V-JEPA 2 brengt ons dichter bij robots die taken kunnen plannen en uitvoeren zoals mensen. Meta deelt V-JEPA 2 met de onderzoekscommunity om de vooruitgang in AI te versnellen. Robots die V-JEPA 2 gebruiken, kunnen opereren in dynamische omgevingen, snel aanpassen en taken efficiënter plannen.

Hoe V-JEPA 2 werkt: Het tweestapsproces

V-JEPA 2 werkt in twee duidelijke stappen. Elke stap stelt het model in staat om van ruwe videodata te leren en deze kennis vervolgens toe te passen om geïnformeerde beslissingen te nemen in echte wereldtaken.

Stap 1: Actievrije representatieleer

V-JEPA 2 begint met grootschalige pre-training op meer dan 1 miljoen uur aan video en 1 miljoen afbeeldingen. Het model leert door de ontbrekende delen van video sequenties te voorspellen. Het verwerkt de video als 3D tubelets, die dienen als de primaire tokens voor het model. Het model gebruikt een Vision Transformer (ViT) architectuur met 3D Rotary Position Embeddings (3D-RoPE) om zowel spatiale als temporele informatie effectiever te vastleggen.

De encoder verwerkt de tubelets om hoge-dimensionale feature vectoren te creëren. Deze vectoren vertegenwoordigen zowel de spatiale als de temporele dynamiek van de video. Het model gebruikt een maskerdenoisingdoel, waarbij grote delen van de video worden verborgen. Het model probeert de verborgen inhoud te voorspellen door de zichtbare delen te gebruiken. Een Exponential Moving Average (EMA) target encoder helpt het model om triviale oplossingen te vermijden en zorgt voor stabiel leren. De verliesfunctie minimaliseert de L1-afstand tussen de voorspellingen en de uitvoer van de EMA-target encoder, met een focus op hogere concepten zoals objectpermanence en beweging, in plaats van pixelniveau details.

Stap 2: Actie-geconditioneerde planning en controle

In de tweede stap, schakelt het model over naar actie-geconditioneerde training. De encoder gewichten worden bevroren en een nieuwe predictor wordt getraind met behulp van gegevens van robotinteracties. Deze gegevens omvatten video observaties en de corresponderende controle acties, meestal van de DROID dataset (ongeveer 62 uur aan robotgegevens). Nu kan het model de toekomstige staat van een omgeving voorspellen op basis van zowel de huidige staat als mogelijke acties.

V-JEPA 2 stelt een doel-geconditioneerde energieminimalisatieprobleem op. Het codeert zowel de huidige observatie als een doelafbeelding in feature maps. Het model voorspelt vervolgens hoe de staat zal veranderen met verschillende actie sequenties. De optimale actie sequentie wordt gevonden door de L1-afstand tussen de voorspelde toekomstige staat en de doelrepresentatie te minimaliseren. De Cross-Entropy Method (CEM) wordt gebruikt voor trajectoptimalisatie.

Alleen de eerste actie van de optimale sequentie wordt uitgevoerd en het proces wordt herhaald in een receding horizon controle lus. Dit stelt real-time planning en aanpassing mogelijk. Door 3D tubelet verwerking te gebruiken, legt V-JEPA 2 zowel spatiale als temporele afhankelijkheden vast, waardoor robots kunnen redeneren over beweging, objectinteracties en de gevolgen van hun acties in complexe omgevingen. Dit stelt zero-shot planning en controle mogelijk, zelfs in nieuwe scenario’s, zonder de noodzaak voor taak-specifieke demonstraties of beloningsengineering.

Toepassingen van V-JEPA 2 in robotica

V-JEPA 2 verandert de manier waarop robots met de wereld omgaan. Veel toepassingen worden nog ontwikkeld, maar het model heeft sterke capaciteiten aangetoond in gecontroleerde omgevingen.

Pick-and-place manipulatie

In laboratoriumomgevingen heeft V-JEPA 2 robots in staat gesteld om pick-and-place taken uit te voeren met minimale training. Met behulp van slechts 62 uur aan gegevens van de DROID dataset, kunnen robots verschillende objecten manipuleren, waaronder zowel starre als vervormbare objecten. Deze capaciteit is cruciaal in domeinen zoals logistiek, fabricage en huishoudrobotica, waar objecten aanzienlijk in grootte en complexiteit variëren.

Navigatie in dynamische omgevingen

V-JEPA 2 kan temporele dynamiek modelleren, waardoor het nuttig is voor real-time navigatie in omgevingen met bewegende mensen, dieren of obstakels. Hoewel het nog niet is gebruikt in autonome voertuigen of drones, kunnen de predictieve capaciteiten van het model helpen bij het anticiperen op veranderingen en het aanpassen van routes. Dit is cruciaal voor veiligheid en efficiëntie in drukke omgevingen.

Mens-robot interactie

Door te leren om menselijke acties te voorspellen, kan V-JEPA 2 mens-robot samenwerking verbeteren. Robots kunnen meer natuurlijk en veilig reageren in gedeelde ruimtes, zoals ziekenhuizen, huizen of industriële vloeren. Hoewel dit nog in ontwikkeling is, vertegenwoordigt deze capaciteit een stap naar sociaal bewuste robots die zich kunnen aanpassen aan hun omgeving.

Generalisatie en zero-shot planning

V-JEPA 2 kan generaliseren over taken en omgevingen. Robots kunnen de geleerde representaties gebruiken in nieuwe situaties zonder aanvullende training. Deze zero-shot planning stelt robots in staat om snel aan te passen aan nieuwe taken, waardoor de noodzaak voor nieuwe gegevensverzameling of opnieuw trainen wordt verminderd.

Real-time besluitvorming en efficiëntie

Met zijn efficiënte ontwerp, ondersteunt V-JEPA 2 real-time planning en controle. Meta rapporteert dat V-JEPA 2 30x sneller is dan Nvidia’s Cosmos model in sommige benchmarks. Deze snelheid is essentieel voor taken die snelle beslissingen nodig hebben, zoals robotmanipulatie of navigatie in veranderende omgevingen.

Praktische uitdagingen en beperkingen

Hoewel V-JEPA 2 significante vooruitgang heeft geboekt in self-supervised learning en robotplanning, zijn er nog uitdagingen om aan te pakken voordat het breed kan worden ingezet. Hier zijn de belangrijkste beperkingen:

Afhankelijkheid van visuele data alleen

V-JEPA 2 is getraind op uitsluitend video- en afbeeldingsdata. Dit maakt het effectief voor visuele taken, maar beperkt de mogelijkheid om multi-sensore taken uit te voeren, zoals tactiele manipulatie of het gebruik van auditieve signalen. Robots in de echte wereld vertrouwen op meerdere sensorische inputs.

Gevoeligheid voor camerapositie en kalibratie

Het model is afhankelijk van monochrome RGB-input, wat de prestaties kan verslechteren als de basis of referentiekader van de robot niet zichtbaar is. Handmatige aanpassingen van camerainstellingen kunnen nodig zijn om consistente prestaties te garanderen.

Beperkingen in langetermijn- en multi-stap planning

V-JEPA 2 presteert goed bij korte horizon taken, maar heeft moeite met langetermijnplanning. De accumulatie van fouten in voorspellingen en de expansie van actieruimtes maken complexe, multi-stap operaties moeilijk.

Hoge computatie-eisen

Hoewel sneller dan modellen zoals Nvidia’s Cosmos, heeft V-JEPA 2 meer dan 1,2 miljard parameters. Dit vereist significante computatiebronnen, wat een uitdaging kan vormen voor kleinere laboratoria of organisaties met beperkte infrastructuur.

Generalisatie in ongestructureerde omgevingen

V-JEPA 2 presteert goed in gecontroleerde omgevingen, maar kan problemen ondervinden in onbekende of ongestructureerde omgevingen. De succesratio in pick-and-place taken ligt rond de 80%, maar kan falen in randgevallen.

Integratie met complete robotstapels

Om nuttig te zijn, moet V-JEPA 2 worden geïntegreerd met motorcontrollers, real-time sensoren en taakplanners. Het bereiken van soepele interoperabiliteit in dynamische omgevingen blijft een uitdaging.

Ethische en biasoverwegingen

Net als alle grote modellen, kan V-JEPA 2 biases erven van de trainingsdata. In echte wereldtoepassingen, met name die waarbij menselijke interactie betrokken is, kunnen deze biases ongewenste resultaten opleveren. Ethische toezicht is essentieel.

De bottom line

V-JEPA 2 vertegenwoordigt een significante vooruitgang in AI en robotica. Het stelt robots in staat om de fysieke wereld te begrijpen en te interacteren zoals menselijk gedrag. Hoewel het model sterke prestaties heeft getoond in actievoorspelling, wereldbegrip en planning zonder eerdere training, heeft het nog enkele uitdagingen.

V-JEPA 2 is afhankelijk van visuele data en heeft enkele beperkingen in multi-sensore taken, langetermijnplanning en integratie met complete robotstapels. Echter, de mogelijkheid om in real-time beslissingen te nemen en zich aan te passen aan nieuwe omgevingen, maakt het zeer nuttig voor complexe echte wereldsituaties.

Meta blijft V-JEPA 2 verfijnen, wat zal bijdragen aan de vooruitgang in AI en het maken van slimmere robots. Deze vooruitgang zal waardevol zijn voor industrieën zoals gezondheidszorg, logistiek en autonome voertuigen. V-JEPA 2 heeft een groot potentieel en zal een cruciale rol spelen in de toekomst van robotica.

Dr. Assad Abbas

Dr. Assad Abbas, een gewaardeerde associate professor aan de COMSATS University Islamabad, Pakistan, heeft zijn Ph.D. behaald aan de North Dakota State University, USA. Zijn onderzoek richt zich op geavanceerde technologieën, waaronder cloud-, fog- en edge computing, big data analytics en AI. Dr. Abbas heeft substantiële bijdragen geleverd met publicaties in gerenommeerde wetenschappelijke tijdschriften en conferenties. Hij is ook de oprichter van MyFastingBuddy.