Robotica
Meta V-JEPA 2: Het AI-model dat robots meer mensenkennis geeft

Meta’s Video Joint Embedding Predictive Architecture 2 (V-JEPA 2) is een belangrijke stap vooruit in Kunstmatige Intelligentie (AI). Het helpt robots om fysieke interacties te begrijpen en te voorspellen. Het model is getraind op meer dan een miljoen uur aan video. Dit stelt robots in staat om te leren en te anticiperen op wat er vervolgens zal gebeuren. Het stelt robots ook in staat om acties te plannen in nieuwe omgevingen, waardoor ze onbekende objecten effectiever kunnen hanteren.
V-JEPA 2 gebruikt zelfsuperviserend leren. Het leert rechtstreeks van videodata, zonder dat menselijke annotaties nodig zijn. Dit onderscheidt het van andere AI-modellen die afhankelijk zijn van gelabelde data. Robots kunnen resultaten voorspellen op basis van visuele context. Ze kunnen zich aanpassen en acties plannen als nodig. Dit brengt ons dichter bij het bereiken van Geavanceerde Machine Intelligentie (AMI).
Door voort te bouwen op Meta’s Joint Embedding Predictive Architecture (JEPA), verbetert V-JEPA 2 de actievoorspelling en wereldmodellering, waardoor robots nieuwe taken in onbekende omgevingen kunnen uitvoeren. Meta deelt dit model met de onderzoeksgemeenschap om de vooruitgang in AI te versnellen en de mogelijkheden van robots te verbeteren.
Waarom mensenkennis in robots altijd moeilijk is geweest
Mensenkennis is de mogelijkheid om basisbeslissingen te nemen. Bijvoorbeeld, weten dat een kopje omvalt als het wordt omgedraaid of begrijpen dat een stoel een pad kan blokkeren. Voor mensen komt deze kennis van nature door ervaring. Echter, robots hebben moeite om deze intuïtie te ontwikkelen.
De meeste robots zijn geprogrammeerd voor specifieke taken in gecontroleerde omgevingen. Ze doen het goed in deze taken. Maar als situaties veranderen of onverwachte elementen verschijnen, hebben robots moeite. Ze herkennen vaak niet de oorzaak en het gevolg of voorspellen de gevolgen van acties. Bijvoorbeeld, een robot kan weten hoe een kopje op een plat oppervlak te plaatsen, maar kan niet voorzien dat het omkiepen van het kopje ervoor kan zorgen dat het omvalt.
Huidige AI-modellen, zoals modellen op basis van Versterking Lerend (RL), hebben beperkingen. RL vereist een aanzienlijke hoeveelheid trial-and-error lerend. Dit maakt het proces langzaam en bronintensief. Grote taalmodellen (LLM’s) excelleren in taal, maar ontbreken een basis in de fysieke wereld. Ze hallucineren vaak antwoorden op basis van alleen tekst, waardoor ze onbetrouwbaar zijn in dynamische situaties. Traditionele computer vision-modellen zijn ook beperkt in hun mogelijkheden. Deze modellen zijn taakspecifiek en falen bij het aanpassen aan nieuwe of onverwachte scenario’s.
Om deze problemen aan te pakken, raden deskundigen aan om wereldmodellen te gebruiken. Wereldmodellen stellen robots in staat om toekomstige acties te simuleren en te voorspellen op basis van eerdere ervaringen. Deze modellen helpen robots om de fysieke dynamiek van de wereld te begrijpen. Bijvoorbeeld, voorspellen wat er gebeurt als een object wordt verplaatst of als twee objecten botsen. Meta’s V-JEPA 2 is het eerste model dat deze principes integreert. Het leert rechtstreeks van ruwe videodata. Dit maakt het aanpasbaar aan echte omgevingen, waardoor robots kunnen redeneren en plannen op basis van dynamische fysieke interacties.
Wereldmodellen begrijpen
V-JEPA 2 is een zelfsuperviserend lerend model dat is gemaakt door Meta’s Fundamental AI Research (FAIR)-team. In tegenstelling tot traditionele AI-modellen die gelabelde data vereisen, leert V-JEPA 2 van ongelabelde video door de ontbrekende delen van videosequenties te voorspellen. Dit proces wordt representation-level predictie genoemd. In plaats van te focussen op elk pixel, werkt V-JEPA 2 met abstracte representaties die de belangrijkste dynamiek en relaties tussen objecten en acties in de omgeving vastleggen.
Het model is gebouwd op Meta’s Joint Embedding Predictive Architecture (JEPA), dat is ontworpen om fysieke dynamiek te begrijpen. Het heeft twee belangrijke componenten: een encoder, die ruwe video verwerkt om nuttige representaties te creëren, en een predictor, die deze representaties gebruikt om toekomstige gebeurtenissen te voorspellen. V-JEPA 2 is getraind op meer dan een miljoen uur aan video, waardoor het complexe patronen in de fysieke wereld kan leren. Door van video te leren, kan het model toekomstige acties en interacties voorspellen, waardoor robots beter kunnen plannen en beslissingen nemen.
V-JEPA 2 helpt robots om zero-shot planning uit te voeren. Dit betekent dat robots taken in nieuwe omgevingen kunnen uitvoeren, zelfs zonder eerdere training. In plaats daarvan kunnen robots taken uitvoeren zoals het oppakken van objecten en ze in nieuwe locaties plaatsen, zelfs als ze deze taken nooit eerder hebben gezien. Dit maakt V-JEPA 2 een significante verbetering in actievoorspelling en wereldmodellering, waardoor robots meer aanpasbaar zijn aan nieuwe situaties.
Het model leert van ruwe videodata, waardoor robots toekomstige gebeurtenissen kunnen voorspellen. Dit maakt robots meer capabel in echte situaties. V-JEPA 2 brengt ons dichter bij robots die taken kunnen plannen en uitvoeren zoals mensen. Meta deelt V-JEPA 2 met de onderzoeksgemeenschap om de vooruitgang in AI te versnellen. Robots die V-JEPA 2 gebruiken, kunnen opereren in dynamische omgevingen, snel aanpassen en taken efficiënter plannen.
Hoe V-JEPA 2 werkt: Het tweestapsproces
V-JEPA 2 werkt in twee duidelijke stappen. Elke stap stelt het model in staat om van ruwe videodata te leren en deze kennis vervolgens toe te passen om geïnformeerde beslissingen te nemen in echte taken.
Stap 1: Actie-vrije representatie lerend
V-JEPA 2 begint met grootschalige pre-training op meer dan 1 miljoen uur aan video en 1 miljoen afbeeldingen. Het model leert door de ontbrekende delen van videosequenties te voorspellen. Het verwerkt de video als 3D-tubelets, die dienen als de primaire tokens voor het model. Het model gebruikt een Vision Transformer (ViT)-architectuur met 3D-Rotary Position Embeddings (3D-RoPE) om zowel spatiale als temporele informatie effectiever te vastleggen.
De encoder verwerkt de tubelets om hoge-dimensionale functievector te creëren. Deze vectoren vertegenwoordigen zowel de spatiale als de temporele dynamiek van de video. Het model gebruikt een maskerdenoisingdoel, waarbij grote delen van de video worden verborgen. Het model probeert de verborgen inhoud te voorspellen door de zichtbare delen te gebruiken. Een Exponential Moving Average (EMA)-doelencoder helpt het model om triviale oplossingen te vermijden en zorgt voor stabiel lerend. De verliesfunctie minimaliseert de L1-afstand tussen de voorspellingen en de uitvoer van de EMA-doelencoder, met een focus op hogere-niveau-concepten zoals objectpermanence en beweging, in plaats van pixelniveau-details.
Stap 2: Actie-geconditioneerde planning en controle
In de tweede stap, schakelt het model over naar actie-geconditioneerde training. De encoder-gewichten worden bevroren en een nieuwe predictor wordt getraind met data van robotinteracties. Deze data omvat videowaarnemingen en de corresponderende controleacties, meestal van de DROID-dataset (ongeveer 62 uur aan robotdata). Nu kan het model de toekomstige staat van een omgeving voorspellen op basis van zowel de huidige staat als mogelijke acties.
V-JEPA 2 stelt een doel-geconditioneerde energieminimisatieprobleem op. Het codeert zowel de huidige observatie als een doelafbeelding in functiekaarten. Het model voorspelt vervolgens hoe de staat zal veranderen met verschillende actiesequenties. De optimale actiesequentie wordt gevonden door de L1-afstand tussen de voorspelde toekomstige staat en de doelrepresentatie te minimaliseren. De Cross-Entropy Methode (CEM) wordt gebruikt voor trajectoptimalisatie.
Alleen de eerste actie van de optimale sequentie wordt uitgevoerd en het proces wordt herhaald in een receding horizon controlelus. Dit stelt het model in staat om in real-time te plannen en aan te passen. Door 3D-tubeletverwerking te gebruiken, kan V-JEPA 2 zowel spatiale als temporele afhankelijkheden vastleggen, waardoor robots kunnen redeneren over beweging, objectinteracties en de gevolgen van hun acties in complexe omgevingen. Dit stelt het model in staat om zero-shot planning en controle uit te voeren, zelfs in nieuwe scenario’s, zonder de noodzaak voor taakspecifieke demonstraties of beloningsengineering.
Toepassingen van V-JEPA 2 in robotica
V-JEPA 2 verandert de manier waarop robots met de wereld omgaan. Veel toepassingen worden nog ontwikkeld, maar het model heeft al sterke mogelijkheden getoond in gecontroleerde omgevingen.
Pick-and-Place-manipulatie
In laboratoriumomgevingen heeft V-JEPA 2 robots in staat gesteld om pick-and-place-taken uit te voeren met minimale training. Met slechts 62 uur aan data van de DROID-dataset, kunnen robots verschillende objecten manipuleren, inclusief zowel starre als vervormbare objecten. Deze mogelijkheid is cruciaal in sectoren zoals logistiek, fabricage en huishoudrobotica, waar objecten aanzienlijk verschillen in grootte en complexiteit.
Navigatie in dynamische omgevingen
V-JEPA 2 kan temporele dynamiek modelleren, waardoor het nuttig is voor real-time navigatie in omgevingen met bewegende mensen, dieren of obstakels. Hoewel het nog niet is gebruikt in autonome voertuigen of drones, kunnen de predictiemogelijkheden van het model helpen bij het anticiperen op veranderingen en het aanpassen van routes. Dit is essentieel voor veiligheid en efficiëntie in drukke omgevingen.
Mens-robotinteractie
Door te leren menselijke acties te voorspellen, kan V-JEPA 2 de mens-robotinteractie verbeteren. Robots kunnen meer natuurlijk en veilig reageren in gedeelde ruimtes, zoals ziekenhuizen, huizen of industriële vloeren. Hoewel dit nog in ontwikkeling is, vertegenwoordigt deze mogelijkheid een stap naar sociaal bewuste robots die zich kunnen aanpassen aan hun omgeving.
Generalisatie en zero-shot planning
V-JEPA 2 kan generaliseren over taken en omgevingen. Robots kunnen geleerde representaties gebruiken in nieuwe situaties zonder aanvullende training. Deze zero-shot planning stelt robots in staat om snel aan te passen aan nieuwe taken, waardoor de noodzaak voor nieuwe dataverzameling of hertraining wordt verminderd.
Real-time beslissingen en efficiëntie
Met zijn efficiënte ontwerp, ondersteunt V-JEPA 2 real-time planning en controle. Meta rapporteert dat V-JEPA 2 30x sneller is dan Nvidia’s Cosmos-model in sommige benchmarks. Deze snelheid is essentieel voor taken die snelle beslissingen vereisen, zoals robotmanipulatie of navigatie in veranderende omgevingen.
Praktische uitdagingen en beperkingen
Hoewel V-JEPA 2 aanzienlijke vooruitgang heeft geboekt in zelfsuperviserend leren en robotplanning, zijn er nog uitdagingen om aan te pakken voordat het breed kan worden ingezet. Hier zijn de belangrijkste beperkingen:
Afhankelijkheid van visuele data alleen
V-JEPA 2 is getraind op alleen videodata en beelddata. Dit maakt het effectief voor visuele taken, maar beperkt de mogelijkheid om multi-sensore taken uit te voeren, zoals tactiele manipulatie of het gebruik van auditieve signalen. Robots in de echte wereld vertrouwen op meerdere sensoren.
Gevoeligheid voor camerapositie en kalibratie
Het model is afhankelijk van monochrome RGB-invoer, wat de prestaties kan verslechteren als de basis of referentiekader van de robot niet zichtbaar is. Handmatige aanpassingen van camerainstellingen kunnen nodig zijn om consistentie te garanderen.
Beperkingen in langetermijn- en multi-stap planning
V-JEPA 2 presteert goed met korte-horizonttaken, maar heeft moeite met langetermijnplanning. De accumulatie van fouten in voorspellingen en de uitbreiding van actieruimtes maken complexe, multi-stapoperaties moeilijk.
Hoge rekenkundige eisen
Hoewel sneller dan modellen zoals Nvidia’s Cosmos, heeft V-JEPA 2 meer dan 1,2 miljard parameters. Dit vereist aanzienlijke rekenkundige middelen, wat een uitdaging kan zijn voor kleinere laboratoria of organisaties met beperkte infrastructuur.
Generalisatie in ongestructureerde omgevingen
V-JEPA 2 presteert goed in gecontroleerde omgevingen, maar kan problemen ondervinden in onbekende of ongestructureerde omgevingen. De succesratio in pick-and-place-taken is ongeveer 80%, maar kan falen in randgevallen.
Integratie met complete robotstapels
Om nuttig te zijn, moet V-JEPA 2 worden geïntegreerd met motorcontrollers, real-time sensoren en taakplanners. Het bereiken van soepele interoperabiliteit in dynamische omgevingen blijft een uitdaging.
Ethische en biasoverwegingen
Net als alle grote modellen, kan V-JEPA 2 bias erven van zijn trainingsdata. In echte toepassingen, met name die waarbij menselijke interactie betrokken is, kunnen deze bias ongewenste resultaten opleveren. Ethische toezicht is essentieel.
De onderste regel
V-JEPA 2 vertegenwoordigt een aanzienlijke vooruitgang in AI en robotica. Het stelt robots in staat om de fysieke wereld te begrijpen en te interacteren zoals menselijk gedrag. Hoewel het model een sterke prestatie heeft getoond in het voorspellen van acties, het begrijpen van de wereld en het plannen zonder eerdere training, heeft het nog steeds enkele uitdagingen.
V-JEPA 2 is afhankelijk van visuele data en heeft enkele beperkingen in multi-sensore taken, langetermijnplanning en integratie met complete robotstapels. Echter, de mogelijkheid om in real-time beslissingen te nemen en zich aan te passen aan nieuwe omgevingen, maakt het zeer nuttig voor complexe echte situaties.
Meta werkt aan het verfijnen van V-JEPA 2, wat zal bijdragen aan de vooruitgang in AI en het maken van robots slimmer. Deze vooruitgang zal waardevol zijn voor sectoren zoals gezondheidszorg, logistiek en autonome voertuigen. V-JEPA 2 heeft een groot potentieel en zal een cruciale rol spelen in de toekomst van robotica.












