Robotica

Meta V-JEPA 2: il modello di intelligenza artificiale che porta il buon senso ai robot

Pubblicato il Luglio 17, 2025

Il dottor Assad Abbas

Meta V-JEPA 2: il modello di intelligenza artificiale che porta il buon senso ai robot

Meta's Architettura predittiva di incorporamento congiunto video 2 (V-JEPA 2) è un progresso significativo in Artificial Intelligence (AI)Aiuta i robot a comprendere e prevedere le interazioni fisiche. Il modello è addestrato su oltre un milione di ore di video. Questo permette ai robot di apprendere e prevedere cosa accadrà in seguito. Permette inoltre ai robot di pianificare azioni in nuovi ambienti, consentendo loro di interagire con oggetti non familiari in modo più efficace.

Usi V-JEPA 2 apprendimento auto-supervisionatoImpara direttamente dai dati video, senza richiedere annotazioni umane. Questo lo rende diverso da altri modelli di intelligenza artificiale che si basano su dati etichettati. I robot possono prevedere i risultati in base al contesto visivo. Possono adattarsi e pianificare le azioni secondo necessità. Questo ci avvicina al raggiungimento Intelligenza artificiale avanzata (AMI).

Basandosi sulla Joint Embedding Predictive Architecture (JEPA) di Meta, V-JEPA 2 migliora la previsione delle azioni e la modellazione del mondo, consentendo ai robot di gestire nuovi compiti in contesti non familiari. Meta condivide questo modello con la comunità scientifica per accelerare il progresso dell'intelligenza artificiale e migliorare le capacità dei robot.

Perché il buon senso nei robot è sempre stato difficile

Il buon senso è la capacità di prendere decisioni di base. Ad esempio, sapere che una tazza si verserà se rovesciata o capire che una sedia potrebbe bloccare un passaggio. Per gli esseri umani, questa conoscenza deriva naturalmente dall'esperienza. Tuttavia, i robot incontrano difficoltà nello sviluppare questa stessa intuizione.

La maggior parte dei robot è programmata per svolgere compiti specifici in ambienti controllati. Svolgono questi compiti con successo. Ma quando le situazioni cambiano o si presentano elementi imprevisti, i robot incontrano difficoltà. Spesso non riescono a riconoscere causa ed effetto o a prevedere le conseguenze delle azioni. Ad esempio, un robot potrebbe sapere come posizionare una tazza su una superficie piana. Tuttavia, potrebbe non prevedere che inclinarla potrebbe farla rovesciare.

Gli attuali modelli di intelligenza artificiale, come quelli basati sull'apprendimento per rinforzo (RL), presentano delle limitazioni. L'apprendimento basato sulla pratica richiede un notevole processo di tentativi ed errori. Questo rende il processo lento e dispendioso in termini di risorse. Modelli linguistici di grandi dimensioni (LLM) eccellono nelle lingue ma mancano di radicamento nel mondo fisico. Spesso allucinazioni risposte basate esclusivamente sul testo, rendendole inaffidabili in situazioni dinamiche. Le risposte tradizionali visione computerizzata I modelli presentano anche capacità limitate. Sono specifici per un compito specifico e non riescono ad adattarsi a scenari nuovi o inaspettati.

Per affrontare queste problematiche, gli esperti raccomandano l'utilizzo di modelli di mondo. I modelli di mondo consentono ai robot di simulare e prevedere azioni future sulla base di esperienze passate. Questi modelli aiutano i robot a comprendere le dinamiche fisiche del mondo. Ad esempio, prevedono cosa accadrà quando un oggetto viene spostato o quando due oggetti entrano in collisione. Il V-JEPA 2 di Meta è il primo modello a integrare questi principi. Apprende direttamente dai dati video grezzi. Questo lo rende adattabile agli ambienti del mondo reale, consentendo ai robot di ragionare e pianificare sulla base di interazioni fisiche dinamiche.

Comprensione di V-JEPA 2

V-JEPA 2 è un modello di apprendimento autosupervisionato creato dal team Fundamental AI Research (FAIR) di Meta. A differenza dei tradizionali modelli di intelligenza artificiale che richiedono dati etichettati, V-JEPA 2 apprende da video non etichettati prevedendo le parti mancanti delle sequenze video. Questo processo è noto come previsione a livello di rappresentazione. Invece di concentrarsi su ogni pixel, V-JEPA 2 utilizza rappresentazioni astratte che catturano le dinamiche e le relazioni chiave tra oggetti e azioni nell'ambiente.

Il modello si basa sulla Joint Embedding Predictive Architecture (JEPA) di Meta, progettata per comprendere le dinamiche fisiche. È composto da due componenti chiave: un encoder, che elabora i video grezzi per creare rappresentazioni utili, e un predittore, che utilizza tali rappresentazioni per prevedere eventi futuri. V-JEPA 2 è stato addestrato su oltre un milione di ore di video, il che gli consente di apprendere modelli complessi del mondo fisico. Imparando dai video, il modello è in grado di prevedere azioni e interazioni future, migliorando il modo in cui i robot pianificano e prendono decisioni.

V-JEPA 2 aiuta i robot a pianificare in modo "zero-shot". Ciò significa che i robot possono gestire compiti in nuovi ambienti anche senza un addestramento preliminare. Possono invece eseguire compiti come raccogliere oggetti e posizionarli in nuove posizioni, anche se non li hanno mai visti prima. Questo rende V-JEPA 2 un miglioramento significativo nella previsione delle azioni e nella modellazione del mondo, rendendo i robot più adattabili a nuove situazioni.

Il modello apprende dai dati video grezzi, consentendo ai robot di prevedere eventi futuri. Questo rende i robot più capaci in situazioni reali. V-JEPA 2 ci avvicina a robot in grado di pianificare ed eseguire compiti come gli esseri umani. Meta sta condividendo V-JEPA 2 con la comunità scientifica per accelerare il progresso dell'intelligenza artificiale. I robot che utilizzano V-JEPA 2 possono operare in ambienti dinamici, adattarsi rapidamente e pianificare i compiti in modo più efficiente.

Come funziona V-JEPA 2: il processo in due fasi

V-JEPA 2 funziona in due fasi distinte. Ogni fase consente al modello di apprendere dai dati video grezzi e successivamente di applicare questa conoscenza per prendere decisioni informate in attività reali.

Fase 1: Apprendimento della rappresentazione senza azione

V-JEPA 2 inizia con un pre-addestramento su larga scala su oltre 1 milione di ore di video e 1 milione di immagini. Il modello apprende prevedendo le parti mancanti delle sequenze video. Elabora il video come tubetti 3D, che fungono da token primari per il modello. Il modello utilizza un Trasformatore di visione (ViT) architettura con 3D Rotary Position Embeddings (3D-RoPE) per catturare in modo più efficace le informazioni spaziali e temporali.

L'encoder elabora i tubetti per creare vettori di caratteristiche ad alta dimensionalità. Questi vettori rappresentano sia la dinamica spaziale che temporale del video. Il modello utilizza un obiettivo di denoising a maschera, in cui ampie porzioni del video sono nascoste. Il modello tenta di prevedere il contenuto nascosto utilizzando le parti visibili. Un encoder target a media mobile esponenziale (EMA) aiuta il modello a evitare soluzioni banali e garantisce un apprendimento stabile. La funzione di perdita riduce al minimo la distanza L1 tra le previsioni e l'output dell'encoder target EMA, concentrandosi su concetti di livello superiore come la permanenza e il movimento dell'oggetto, piuttosto che sui dettagli a livello di pixel.

Fase 2: Pianificazione e controllo condizionati dall'azione

Nella seconda fase, il modello passa all'addestramento condizionato dall'azione. I pesi dell'encoder vengono congelati e un nuovo predittore viene addestrato utilizzando i dati delle interazioni con il robot. Questi dati includono osservazioni video e le corrispondenti azioni di controllo, in genere provenienti da Set di dati DROID (circa 62 ore di dati del robot). Ora il modello è in grado di prevedere lo stato futuro di un ambiente basandosi sia sullo stato attuale che sulle possibili azioni.

V-JEPA 2 imposta un problema di minimizzazione dell'energia condizionato all'obiettivo. Codifica sia l'osservazione corrente che un'immagine obiettivo in mappe di caratteristiche. Il modello prevede quindi come lo stato cambierà con diverse sequenze di azioni. La sequenza di azioni ottimale viene trovata minimizzando la distanza L1 tra lo stato futuro previsto e la rappresentazione obiettivo. Il metodo dell'entropia incrociata (CEM) viene utilizzato per l'ottimizzazione della traiettoria.

Viene eseguita solo la prima azione della sequenza ottimale e il processo viene ripetuto in un ciclo di controllo a orizzonte regressivo. Ciò consente pianificazione e adattamento in tempo reale. Utilizzando l'elaborazione 3D dei tubetti, V-JEPA 2 cattura le dipendenze sia spaziali che temporali, consentendo ai robot di ragionare sul movimento, sulle interazioni con gli oggetti e sulle conseguenze delle loro azioni in ambienti complessi. Ciò consente la pianificazione e il controllo "zero-shot", anche in nuovi scenari, senza la necessità di dimostrazioni specifiche per l'attività o di un'ingegneria delle ricompense.

Applicazioni di V-JEPA 2 in robotica

V-JEPA 2 sta cambiando il modo in cui i robot interagiscono con il mondo. Molte applicazioni sono ancora in fase di sviluppo, ma il modello ha dimostrato ottime capacità in ambienti controllati.

Manipolazione pick-and-place

In laboratorio, V-JEPA 2 ha permesso ai robot di eseguire operazioni di pick-and-place con un addestramento minimo. Utilizzando solo 62 ore di dati dal dataset DROID, i robot possono manipolare vari oggetti, sia rigidi che deformabili. Questa capacità è fondamentale in settori come la logistica, la produzione e la robotica domestica, dove gli oggetti variano significativamente in termini di dimensioni e complessità.

Navigazione in ambienti dinamici

V-JEPA 2 è in grado di modellare le dinamiche temporali, il che lo rende utile per la navigazione in tempo reale in ambienti con persone, animali o ostacoli in movimento. Sebbene non sia ancora stato utilizzato in veicoli autonomi o droni, le sue capacità predittive possono aiutare i robot ad anticipare i cambiamenti e ad adattare i propri percorsi. Questo è fondamentale per la sicurezza e l'efficienza negli ambienti affollati.

Interazione uomo-robot

Imparando a prevedere le azioni umane, V-JEPA 2 può migliorare la collaborazione uomo-robot. I robot possono rispondere in modo più naturale e sicuro in spazi condivisi, come ospedali, case o capannoni industriali. Sebbene ancora in fase di sviluppo, questa capacità rappresenta un passo avanti verso robot socialmente consapevoli e in grado di adattarsi all'ambiente circostante.

Generalizzazione e pianificazione Zero-Shot

V-JEPA 2 può essere generalizzato a diverse attività e ambienti. I robot possono utilizzare le rappresentazioni apprese in nuove situazioni senza richiedere ulteriore addestramento. Questa pianificazione "zero-shot" consente ai robot di adattarsi rapidamente a nuovi compiti, riducendo così la necessità di raccogliere nuovi dati o di riqualificarli.

Decisioni in tempo reale ed efficienza

Grazie al suo design efficiente, V-JEPA 2 supporta la pianificazione e il controllo in tempo reale. Meta segnala che V-JEPA 2 è 30x più veloce del modello Cosmos di Nvidia in alcuni benchmark. Questa velocità è essenziale per attività che richiedono decisioni rapide, come la manipolazione robotica o la navigazione in ambienti mutevoli.

Sfide e limiti pratici

Sebbene V-JEPA 2 abbia compiuto progressi significativi nell'apprendimento autosupervisionato e nella pianificazione robotica, ci sono ancora delle sfide da affrontare prima che possa essere ampiamente implementato. Ecco i principali limiti:

Affidamento esclusivo ai dati visivi

V-JEPA 2 è addestrato esclusivamente su dati video e immagini. Questo lo rende efficace per le attività visive, ma ne limita la capacità di svolgere compiti multisensoriali, come la manipolazione tattile o l'utilizzo di segnali uditivi. I robot del mondo reale si basano su molteplici input sensoriali.

Sensibilità alla posizione della telecamera e alla calibrazione

Il modello si basa su un input RGB monoculare, che può compromettere le prestazioni se la base o il sistema di riferimento del robot non sono visibili. Potrebbero essere necessarie regolazioni manuali alle impostazioni della telecamera per garantire prestazioni costanti.

Limitazioni nella pianificazione a lungo termine e in più fasi

V-JEPA 2 funziona bene con compiti a breve termine, ma ha difficoltà nella pianificazione a lungo termine. L'accumulo di errori nelle previsioni e l'espansione degli spazi d'azione rendono difficili operazioni complesse e articolate in più fasi.

Elevate esigenze computazionali

Sebbene più veloce di modelli come Cosmos di Nvidia, V-JEPA 2 ha oltre 1.2 miliardi di parametri. Ciò richiede notevoli risorse di calcolo, il che può rappresentare una sfida per i laboratori più piccoli o le organizzazioni con infrastrutture limitate.

Generalizzazione in ambienti non strutturati

V-JEPA 2 funziona bene in contesti controllati, ma potrebbe presentare problemi in ambienti non familiari o non strutturati. Il suo tasso di successo nelle attività pick-and-place è di circa l'80%, ma potrebbe fallire in casi limite.

Integrazione con stack robotici completi

Per essere utile, V-JEPA 2 deve integrarsi con i controllori dei motori, i sensori in tempo reale e i pianificatori di attività. Raggiungere un'interoperabilità fluida in ambienti dinamici rimane una sfida.

Considerazioni etiche e pregiudiziali

Come tutti i modelli di grandi dimensioni, V-JEPA 2 potrebbe ereditare distorsioni dai suoi dati di addestramento. Nelle applicazioni reali, in particolare quelle che prevedono l'interazione umana, queste distorsioni potrebbero portare a risultati indesiderati. La supervisione etica è essenziale.

Conclusione

V-JEPA 2 rappresenta un progresso significativo nell'intelligenza artificiale e nella robotica. Permette ai robot di comprendere e interagire con il mondo fisico, proprio come fa il comportamento umano. Sebbene il modello abbia dimostrato ottime prestazioni nel prevedere azioni, comprendere il mondo e pianificare senza un addestramento preliminare, deve ancora affrontare diverse sfide.

V-JEPA 2 si basa su dati visivi e presenta alcune limitazioni nelle attività multisensoriali, nella pianificazione a lungo termine e nell'integrazione con sistemi robotici completi. Tuttavia, la sua capacità di prendere decisioni in tempo reale e di adattarsi a nuovi ambienti lo rende estremamente utile in situazioni complesse del mondo reale.

Meta continua a perfezionare V-JEPA 2, contribuendo al progresso dell'intelligenza artificiale e a rendere i robot più intelligenti. Questo progresso sarà prezioso per settori come la sanità, la logistica e i veicoli autonomi. V-JEPA 2 ha un grande potenziale e svolgerà un ruolo fondamentale nel futuro della robotica.

Il dottor Assad Abbas

Il Dott. Assad Abbas, Professore Associato Tenured presso la COMSATS University di Islamabad, Pakistan, ha conseguito il dottorato di ricerca presso la North Dakota State University, Stati Uniti. La sua ricerca si concentra su tecnologie avanzate, tra cui cloud computing, fog computing ed edge computing, analisi dei big data e intelligenza artificiale. Il Dott. Abbas ha apportato contributi sostanziali con pubblicazioni su autorevoli riviste scientifiche e conferenze. È anche il fondatore di Il mio compagno di digiuno.