Robótica

Meta V-JEPA 2: O modelo de IA que traz bom senso aos robôs

Publicado 17 de julho de 2025

Dr.Assad Abbas

Meta V-JEPA 2: O modelo de IA que traz bom senso aos robôs

Meta's Arquitetura preditiva de incorporação conjunta de vídeo 2 (V-JEPA 2) é um avanço significativo em Inteligência Artificial (IA). Ajuda robôs a compreender e prever interações físicas. O modelo é treinado com mais de um milhão de horas de vídeo. Isso permite que os robôs aprendam e antecipem o que acontecerá em seguida. Também permite que os robôs planejem ações em novos ambientes, permitindo que interajam com objetos desconhecidos de forma mais eficaz.

Usos do V-JEPA 2 aprendizagem auto-supervisionada. Ele aprende diretamente a partir de dados de vídeo, sem a necessidade de anotações humanas. Isso o diferencia de outros modelos de IA que dependem de dados rotulados. Os robôs podem prever resultados com base no contexto visual. Eles podem se adaptar e planejar ações conforme necessário. Isso nos aproxima de alcançar Inteligência de Máquina Avançada (AMI).

Com base na Joint Embedding Predictive Architecture (JEPA) da Meta, o V-JEPA 2 aprimora a previsão de ações e a modelagem de mundo, permitindo que robôs realizem novas tarefas em ambientes desconhecidos. A Meta está compartilhando este modelo com a comunidade de pesquisa para acelerar o progresso da IA e aprimorar as capacidades dos robôs.

Por que o senso comum em robôs sempre foi difícil

O bom senso é a capacidade de tomar decisões básicas. Por exemplo, saber que uma xícara vai derramar se tombar ou entender que uma cadeira pode bloquear o caminho. Para os humanos, esse conhecimento surge naturalmente por meio da experiência. No entanto, os robôs enfrentam desafios para desenvolver essa mesma intuição.

A maioria dos robôs é programada para tarefas específicas em ambientes controlados. Eles se saem bem nessas tarefas. Mas quando as situações mudam ou surgem elementos inesperados, os robôs enfrentam dificuldades. Frequentemente, eles não conseguem reconhecer causa e efeito ou prever as consequências das ações. Por exemplo, um robô pode saber como colocar uma xícara em uma superfície plana. No entanto, ele pode não prever que inclinar a xícara pode fazer com que ela derrame.

Modelos atuais de IA, como aqueles baseados em Aprendizagem por Reforço (AR), enfrentam limitações. A vida real exige uma quantidade significativa de aprendizado por tentativa e erro. Isso torna o processo lento e exige muitos recursos. Modelos de linguagem grande (LLMs) destacam-se na linguagem, mas carecem de base no mundo físico. Muitas vezes, alucinar respostas baseadas apenas em texto, tornando-as pouco confiáveis em situações dinâmicas. Tradicional visão computacional Os modelos também são limitados em suas capacidades. Esses modelos são específicos para cada tarefa e não conseguem se adaptar a cenários novos ou inesperados.

Para abordar essas questões, especialistas recomendam a utilização de modelos de mundo. Os modelos de mundo permitem que robôs simulem e prevejam ações futuras com base em experiências passadas. Esses modelos ajudam os robôs a compreender a dinâmica física do mundo. Por exemplo, prever o que acontecerá quando um objeto for movido ou quando dois objetos colidirem. O V-JEPA 2 da Meta é o primeiro modelo a integrar esses princípios. Ele aprende diretamente a partir de dados brutos de vídeo. Isso o torna adaptável a ambientes do mundo real, permitindo que robôs raciocinem e planejem com base em interações físicas dinâmicas.

Compreendendo o V-JEPA 2

O V-JEPA 2 é um modelo de aprendizado autossupervisionado criado pela equipe de Pesquisa Fundamental em IA (FAIR) da Meta. Diferentemente dos modelos tradicionais de IA que exigem dados rotulados, o V-JEPA 2 aprende com vídeos não rotulados, prevendo as partes ausentes das sequências de vídeo. Esse processo é conhecido como predição em nível de representação. Em vez de focar em cada pixel, o V-JEPA 2 trabalha com representações abstratas que capturam as principais dinâmicas e relações entre objetos e ações no ambiente.

O modelo é baseado na Joint Embedding Predictive Architecture (JEPA) da Meta, projetada para compreender a dinâmica física. Ele possui dois componentes principais: um codificador, que processa o vídeo bruto para criar representações úteis, e um preditor, que usa essas representações para prever eventos futuros. O V-JEPA 2 é treinado com mais de um milhão de horas de vídeo, o que lhe permite aprender padrões complexos no mundo físico. Ao aprender com o vídeo, o modelo pode prever ações e interações futuras, aprimorando a forma como os robôs planejam e tomam decisões.

O V-JEPA 2 auxilia robôs a realizar o planejamento de tiro zero. Isso significa que os robôs podem executar tarefas em novos ambientes mesmo sem treinamento prévio. Em vez disso, os robôs podem executar tarefas como pegar objetos e colocá-los em novos locais, mesmo que nunca tenham visto essas tarefas antes. Isso torna o V-JEPA 2 uma melhoria significativa na previsão de ações e na modelagem de mundo, tornando os robôs mais adaptáveis a novas situações.

O modelo aprende com dados brutos de vídeo, permitindo que robôs prevejam eventos futuros. Isso torna os robôs mais capazes em situações do mundo real. O V-JEPA 2 nos aproxima de robôs que podem planejar e executar tarefas como humanos. A Meta está compartilhando o V-JEPA 2 com a comunidade de pesquisa para acelerar o progresso da IA. Robôs que usam o V-JEPA 2 podem operar em ambientes dinâmicos, adaptar-se rapidamente e planejar tarefas com mais eficiência.

Como o V-JEPA 2 opera: o processo de duas etapas

O V-JEPA 2 funciona em duas etapas distintas. Cada etapa permite que o modelo aprenda com dados brutos de vídeo e, posteriormente, aplique esse conhecimento para tomar decisões informadas em tarefas do mundo real.

Etapa 1: Aprendizagem de representação livre de ação

O V-JEPA 2 começa com um pré-treinamento em larga escala em mais de 1 milhão de horas de vídeo e 1 milhão de imagens. O modelo aprende prevendo partes ausentes de sequências de vídeo. Ele processa o vídeo como tubelets 3D, que servem como tokens primários para o modelo. O modelo emprega um Transformador de visão (ViT) arquitetura com incorporações de posição rotativa 3D (3D-RoPE) para capturar informações espaciais e temporais de forma mais eficaz.

O codificador processa os tubelets para criar vetores de características de alta dimensão. Esses vetores representam a dinâmica espacial e temporal do vídeo. O modelo utiliza um objetivo de redução de ruído por máscara, no qual grandes partes do vídeo são ocultadas. O modelo tenta prever o conteúdo oculto usando as partes visíveis. Um codificador de alvo de Média Móvel Exponencial (EMA) ajuda o modelo a evitar soluções triviais e garante um aprendizado estável. A função de perda minimiza a distância L1 entre as previsões e a saída do codificador de alvo de EMA, concentrando-se em conceitos de nível superior, como permanência e movimento do objeto, em vez de detalhes em nível de pixel.

Etapa 2: Planejamento e controle condicionados pela ação

Na segunda etapa, o modelo passa para o treinamento condicionado à ação. Os pesos do codificador são congelados e um novo preditor é treinado usando dados das interações do robô. Esses dados incluem observações em vídeo e as ações de controle correspondentes, normalmente do Conjunto de dados DROID (cerca de 62 horas de dados do robô). Agora, o modelo consegue prever o estado futuro de um ambiente com base tanto no estado atual quanto nas possíveis ações.

O V-JEPA 2 configura um problema de minimização de energia condicionado a um objetivo. Ele codifica tanto a observação atual quanto uma imagem-alvo em mapas de características. O modelo então prevê como o estado mudará com diferentes sequências de ações. A sequência de ações ótima é encontrada minimizando a distância L1 entre o estado futuro previsto e a representação-alvo. O Método de Entropia Cruzada (CEM) é usado para otimização de trajetórias.

Apenas a primeira ação da sequência ótima é executada, e o processo é repetido em um loop de controle de horizonte regressivo. Isso permite planejamento e adaptação em tempo real. Utilizando o processamento de tubelets 3D, o V-JEPA 2 captura dependências espaciais e temporais, o que permite que os robôs raciocinem sobre movimento, interações de objetos e as consequências de suas ações em ambientes complexos. Isso permite planejamento e controle de tiro zero, mesmo em novos cenários, sem a necessidade de demonstrações específicas de tarefas ou engenharia de recompensas.

Aplicações do V-JEPA 2 em Robótica

O V-JEPA 2 está mudando a forma como os robôs interagem com o mundo. Muitas aplicações ainda estão em desenvolvimento, mas o modelo demonstrou fortes capacidades em ambientes controlados.

Manipulação de Pick-and-Place

Em ambientes de laboratório, o V-JEPA 2 permitiu que robôs realizassem tarefas de pegar e colocar objetos com treinamento mínimo. Usando apenas 62 horas de dados do conjunto de dados DROID, os robôs podem manipular diversos objetos, incluindo objetos rígidos e deformáveis. Essa capacidade é crucial em áreas como logística, manufatura e robótica doméstica, onde os objetos variam significativamente em tamanho e complexidade.

Navegação em Ambientes Dinâmicos

O V-JEPA 2 pode modelar dinâmicas temporais, o que o torna útil para navegação em tempo real em ambientes com pessoas, animais ou obstáculos em movimento. Embora ainda não tenha sido utilizado em veículos autônomos ou drones, suas capacidades preditivas podem ajudar robôs a antecipar mudanças e ajustar suas trajetórias. Isso é fundamental para a segurança e a eficiência em ambientes movimentados.

Interação Humano-Robô

Ao aprender a prever ações humanas, o V-JEPA 2 pode aprimorar a colaboração entre humanos e robôs. Os robôs podem responder de forma mais natural e segura em espaços compartilhados, como hospitais, residências ou indústrias. Embora ainda em desenvolvimento, essa capacidade representa um passo em direção a robôs com consciência social e capazes de se adaptar ao ambiente.

Generalização e Planejamento Zero-Shot

O V-JEPA 2 permite generalizações entre tarefas e ambientes. Os robôs podem utilizar representações aprendidas em novas situações sem a necessidade de treinamento adicional. Esse planejamento de tiro zero permite que os robôs se adaptem rapidamente a novas tarefas, reduzindo assim a necessidade de nova coleta de dados ou retreinamento.

Tomada de decisão e eficiência em tempo real

Com seu design eficiente, o V-JEPA 2 oferece suporte ao planejamento e controle em tempo real. A Meta relata que o V-JEPA 2 é 30x mais rápido que o modelo Cosmos da Nvidia em alguns benchmarks. Essa velocidade é essencial para tarefas que exigem decisões rápidas, como manipulação robótica ou navegação em ambientes em constante mudança.

Desafios práticos e limitações

Embora o V-JEPA 2 tenha feito progressos significativos em aprendizagem autossupervisionada e planejamento robótico, ainda há desafios a serem enfrentados antes que ele possa ser amplamente implementado. Aqui estão as principais limitações:

Confiança apenas em dados visuais

O V-JEPA 2 é treinado exclusivamente com dados de vídeo e imagem. Isso o torna eficaz para tarefas visuais, mas limita sua capacidade de realizar tarefas multissensoriais, como manipulação tátil ou uso de sinais auditivos. Robôs do mundo real dependem de múltiplas entradas sensoriais.

Sensibilidade à posição da câmera e calibração

O modelo utiliza entrada RGB monocular, o que pode prejudicar o desempenho caso a base ou o referencial do robô não estejam visíveis. Ajustes manuais nas configurações da câmera podem ser necessários para garantir um desempenho consistente.

Limitações no planejamento de longo prazo e em várias etapas

O V-JEPA 2 tem bom desempenho em tarefas de curto prazo, mas tem dificuldades com planejamento de longo prazo. O acúmulo de erros nas previsões e a expansão dos espaços de ação dificultam operações complexas e multietapas.

Altas demandas computacionais

Embora mais rápido que modelos como o Cosmos da Nvidia, o V-JEPA 2 possui mais de 1.2 bilhão de parâmetros. Isso requer recursos computacionais significativos, o que pode representar um desafio para laboratórios menores ou organizações com infraestrutura limitada.

Generalização em ambientes não estruturados

O V-JEPA 2 tem bom desempenho em ambientes controlados, mas pode apresentar problemas em ambientes desconhecidos ou desestruturados. Sua taxa de sucesso em tarefas de coleta e colocação é de cerca de 80%, mas pode falhar em casos extremos.

Integração com pilhas robóticas completas

Para ser útil, o V-JEPA 2 precisa se integrar a controladores de motores, sensores em tempo real e planejadores de tarefas. Alcançar uma interoperabilidade fluida em ambientes dinâmicos continua sendo um desafio.

Considerações éticas e tendenciosas

Como todos os grandes modelos, o V-JEPA 2 pode herdar vieses de seus dados de treinamento. Em aplicações do mundo real, particularmente envolvendo interação humana, esses vieses podem levar a resultados indesejados. A supervisão ética é essencial.

Concluindo!

O V-JEPA 2 representa um avanço significativo em IA e robótica. Ele permite que robôs entendam e interajam com o mundo físico de forma semelhante ao comportamento humano. Embora o modelo tenha demonstrado forte desempenho na previsão de ações, compreensão do mundo e planejamento sem treinamento prévio, ele ainda enfrenta diversos desafios.

O V-JEPA 2 depende de dados visuais e apresenta algumas limitações em tarefas multissensoriais, planejamento de longo prazo e integração com sistemas robóticos completos. No entanto, sua capacidade de tomar decisões em tempo real e se adaptar a novos ambientes o torna altamente útil para situações complexas do mundo real.

A Meta continua aprimorando o V-JEPA 2, que contribuirá para o avanço da IA e para tornar os robôs mais inteligentes. Esse progresso será valioso para setores como saúde, logística e veículos autônomos. O V-JEPA 2 tem grande potencial e desempenhará um papel crucial no futuro da robótica.

Tópicos relacionados:3 leis da robótica robótica alimentada por áudio robôs colaborativos meta V-JEPA 2 aprendizagem auto-supervisionada robôs de vídeo transformador de visão

A seguir

A Era Humanoide Não Está Chegando — Ela Já Está Aqui

Não Perca

Robôs móveis colaborativos habilitados por IA: o caminho amigável para a automação da manufatura