로보틱스

Meta V-JEPA 2: 로봇에 공통 감각을 가져오는 AI 모델

Published July 17, 2025

Updated April 26, 2026

Dr. Assad Abbas

Meta V-JEPA 2: The AI Model Bringing Common Sense to Robots

Meta의 Video Joint Embedding Predictive Architecture 2 (V-JEPA 2)는 인공 지능(AI)의重大 발전이다. 로봇이 물리적 상호 작용을 이해하고 예측하는 데 도움이 된다. 이 모델은 1백만 시간 이상의 비디오로 훈련되어 로봇이 다음에 일어날 일을 학습하고 예측할 수 있도록 한다. 또한 로봇이 새로운 환경에서 행동을 계획할 수 있도록 해준다. 이는 로봇이 익숙하지 않은 물체와 더 효과적으로 상호 작용할 수 있게 해준다.

V-JEPA 2는 자율 학습을 사용한다. 비디오 데이터에서 직접 학습하여 인간의 주석이 필요하지 않다. 이는 다른 AI 모델이 레이블된 데이터에 의존하는 것과 다르다. 로봇은 시각적 맥락에 따라 결과를 예측할 수 있다. 필요에 따라 행동을 조정하고 계획할 수 있다. 이것은 고급 기계 지능(AMI)을 달성하는 데 우리를 더ใกล게 가져다준다.

Meta의 Joint Embedding Predictive Architecture(JEPA)를 기반으로 하는 V-JEPA 2는 행동 예측과 세계 모델링을 강화하여 로봇이 익숙하지 않은 환경에서 새로운 작업을 처리할 수 있게 한다. Meta는 이 모델을 연구 커뮤니티와 공유하여 AI의 발전을 가속화하고 로봇의 능력을 향상시키기 위해 노력하고 있다.

로봇에서 공통 감각이 항상 어려웠던 이유

공통 감각은 기본적인 결정 능력을 의미한다. 예를 들어, 컵을 기울이면 내용물이 넘치거나 의자가 경로를 방해할 수 있다는 것을 아는 것과 같다. 인간에게는 이러한 지식이 경험을 통해 자연스럽게 얻어진다. 그러나 로봇은 이러한 직관을 개발하는 데 어려움을 겪는다.

대부분의 로봇은 특정 작업을 위해 제어된 환경에서 프로그래밍된다. 이러한 작업에서 잘 작동한다. 그러나 상황이 변경되거나 예기치 않은 요소가 나타나면 로봇은 어려움을 겪는다. 원인과 결과를 인식하거나 행동의 결과를 예측하지 못한다. 예를 들어, 로봇은 컵을 평면에 올려놓는 방법을 알 수 있다. 그러나 컵을 기울이면 내용물이 넘칠 수 있다는 것을 예측하지 못할 수 있다.

현재의 AI 모델, 예를 들어 강화 학습(RL)에 기반한 모델은 제한을 가지고 있다. 강화 학습은 많은 시도와 오류를 필요로 하는 학습过程이다. 이는 과정은 느리고 자원 집약적이다. 대규모 언어 모델(LLM)은 언어에서 우수하지만 물리적 세계에 대한 지식이 부족하다. 텍스트만으로 응답을 상상하여 동적인 상황에서 신뢰할 수 없다. 전통적인 컴퓨터 비전 모델도 능력에 제한이 있다. 이러한 모델은 작업 특정적이며 새로운 또는 예기치 않은 시나리오에 적응하지 못한다.

이러한 문제를 해결하기 위해 전문가들은 세계 모델을 사용할 것을 권장한다. 세계 모델은 로봇이 과거의 경험에 따라 미래의 행동을 시뮬레이션하고 예측할 수 있게 해준다. 이러한 모델은 물리적 세계의 역학을 이해하는 데 도움이 된다. 예를 들어, 물체를 이동하거나 두 물체가 충돌할 때 무엇이 일어날지 예측하는 것과 같다. Meta의 V-JEPA 2는 이러한 원리를 통합한 최초의 모델이다. 원시 비디오 데이터에서 직접 학습하여 실제 환경에 적응할 수 있다. 로봇이 동적인 물리적 상호 작용에 따라 이유와 계획을 세울 수 있게 해준다.

V-JEPA 2 이해

V-JEPA 2는 Meta의 Fundamental AI Research(FAIR) 팀이 개발한 자율 학습 모델이다. 전통적인 AI 모델이 레이블된 데이터를 필요로 하는 반면, V-JEPA 2는 비디오 데이터에서 직접 학습한다. 이는 비디오 시퀀스의 누락된 부분을 예측하는 것을 통해 이루어진다. 이 과정은 표현 수준 예측으로 알려져 있다. 모든 픽셀에 초점을 맞추지 않고, V-JEPA 2는 환경에서 물체와 행동 사이의 핵심 역학과 관계를 포착하는 추상적인 표현으로 작동한다.

이 모델은 물리적 역학을 이해하기 위한 Meta의 Joint Embedding Predictive Architecture(JEPA)를 기반으로 한다. 두 가지 주요 구성 요소가 있다. 인코더는 원시 비디오를 처리하여 유용한 표현을 생성한다. 예측기는 이러한 표현을 사용하여 미래의 이벤트를 예측한다. V-JEPA 2는 1백만 시간 이상의 비디오로 훈련되어 물리적 세계의 복잡한 패턴을 학습할 수 있다. 비디오에서 학습함으로써, 이 모델은 미래의 행동과 상호 작용을 예측하여 로봇이 계획하고 결정할 수 있게 해준다.

V-JEPA 2는 로봇이 제로샷 계획을 수행할 수 있게 해준다. 즉, 로봇은 이전에 훈련되지 않은 새로운 환경에서 작업을 처리할 수 있다. 대신, 로봇은 이전에 본 적 없는 작업을 수행할 수 있다. 이는 행동 예측과 세계 모델링에서重大 발전이며, 로봇이 새로운 상황에 더 잘 적응할 수 있게 해준다.

이 모델은 원시 비디오 데이터에서 학습하여 로봇이 미래의 이벤트를 예측할 수 있게 해준다. 이는 로봇이 실제 상황에서 더 능숙하게 작동할 수 있게 해준다. V-JEPA 2는 로봇이 인간과 같은 방식으로 계획하고 작업을 수행할 수 있게 해준다. Meta는 V-JEPA 2를 연구 커뮤니티와 공유하여 AI의 발전을 가속화하고 있다. V-JEPA 2를 사용하는 로봇은 동적인 환경에서 작동할 수 있으며, 빠르게 적응하고, 작업을 더 효율적으로 계획할 수 있다.

V-JEPA 2의 작동: 2단계 과정

V-JEPA 2는 두 가지 DISTINCT한 단계로 작동한다. 각 단계는 모델이 원시 비디오 데이터에서 학습하여 실제 작업에서 정보에 기반한 결정할 수 있게 해준다.

단계 1: 행동 없는 표현 학습

V-JEPA 2는 1백만 시간 이상의 비디오와 1백만 개의 이미지로 대규모 사전 훈련을 시작한다. 모델은 비디오 시퀀스의 누락된 부분을 예측하여 학습한다. 비디오는 3D tubelets로 처리되며, 이는 모델의 주요 토큰이다. 모델은 Vision Transformer (ViT) 아키텍처와 3D Rotary Position Embeddings (3D-RoPE)를 사용하여 공간적 및 시간적 정보를 더 효과적으로 포착한다.

인코더는 tubelets를 처리하여 고차원 특징 벡터를 생성한다. 이러한 벡터는 비디오의 공간적 및 시간적 역학을 나타낸다. 모델은 마스크 노이즈 목적 함수를 사용하여 비디오의 큰 부분을 숨긴다. 모델은 가시적인 부분을 사용하여 숨겨진 내용을 예측한다. Exponential Moving Average (EMA) 타겟 인코더는 모델이 비중한 해결책을 피하고 안정적인 학습을 보장한다. 손실 함수는 예측과 EMA 타겟 인코더의 출력 사이의 L1 거리를 최소화한다. 이는 픽셀 수준의 세부 사항보다는 더 높은 수준의 개념, 즉 물체의 지속성과 운동에 초점을 맞춘다.

단계 2: 행동 조건 계획 및 제어

두 번째 단계에서, 모델은 행동 조건 훈련으로 전환한다. 인코더의 가중치는 동결되고, 새로운 예측기가 로봇 상호 작용 데이터를 사용하여 훈련된다. 이 데이터에는 비디오 관찰과 해당 제어 동작이 포함된다. 일반적으로 DROID 데이터 세트(로봇 데이터 약 62시간)에서 가져온다. 이제 모델은 현재 상태와 가능한 행동에 따라 환경의 미래 상태를 예측할 수 있다.

V-JEPA 2는 목표 조건 에너지 최소화 문제를 설정한다. 현재 관찰과 목표 이미지를 특징 맵으로 인코딩한다. 모델은 다양한 행동 시퀀스에 따라 상태가 어떻게 변경될지 예측한다. 최적의 행동 시퀀스는 예측된 미래 상태와 목표 표현 사이의 L1 거리를 최소화하여 찾는다. Cross-Entropy Method (CEM)을 사용하여 궤도 최적화를 수행한다.

최적 시퀀스의 첫 번째 행동만 수행되고, 반복되는 지평선 제어 루프에서 이过程이 반복된다. 이는 실시간 계획 및 적응을 가능하게 한다. 3D tubelet 처리를 사용하여, V-JEPA 2는 공간적 및 시간적 의존성을 포착하여 로봇이 동적인 환경에서 운동, 물체 상호 작용, 그리고 행동의 결과에 대해 이유를 세울 수 있게 해준다. 이는 새로운 시나리오에서 제로샷 계획 및 제어가 가능하게 하며, 작업 특정적인 시연이나 보상 엔지니어링이 필요하지 않다.

V-JEPA 2의 로봇ICS에서의 응용

V-JEPA 2는 로봇이 세계와 상호 작용하는 방식을 변화시키고 있다. 아직 많은 응용 프로그램이 개발 중이지만, 이 모델은 제어된 환경에서 강력한 능력을 보여주었다.

픽업 및 배치 조작

실험실 환경에서, V-JEPA 2는 로봇이 최소한의 훈련으로 픽업 및 배치 작업을 수행할 수 있게 해주었다. DROID 데이터 세트의 62시간의 데이터만 사용하여, 로봇은 다양한 물체, 유연한 물체를 포함하여 조작할 수 있다. 이는 물류, 제조, 홈 로봇ICS와 같은 분야에서 중요하다. 여기서 물체는 크기와 복잡성에 따라 크게 다르다.

동적인 환경에서의 내비게이션

V-JEPA 2는 시간적 역학을 모델링할 수 있으므로, 동적인 환경에서 이동하는 사람, 동물, 또는 장애물이 있는 환경에서 실시간 내비게이션에 유용하다. 아직 자율 주행 자동차 또는 드론에서 사용되지 않았지만, 예측 능력은 로봇이 변경을 예측하고 경로를 조정할 수 있게 해준다. 이는 바쁜 환경에서 안전과 효율성을 위해 중요하다.

인간-로봇 상호 작용

인간의 행동을 예측하는 것을 학습함으로써, V-JEPA 2는 인간-로봇 협력을 개선할 수 있다. 로봇은 공유 공간에서 더 자연스럽고 안전하게 반응할 수 있다. 병원, 집, 또는 산업용 바닥과 같은 곳이다. 아직 진행 중이지만, 이것은 사회적으로 인식된 로봇이 환경에 적응하는 데 중요한 단계이다.

일반화 및 제로샷 계획

V-JEPA 2는 작업과 환경에서 일반화할 수 있다. 로봇은 새로운 상황에서 학습된 표현을 사용하여 추가적인 훈련 없이 작업을 수행할 수 있다. 이는 제로샷 계획을 가능하게 하여 로봇이 새로운 작업에 빠르게 적응할 수 있다. 이는 새로운 데이터 수집 또는 재훈련의 필요성을 줄여준다.

실시간 의사 결정 및 효율성

효율적인 설계로, V-JEPA 2는 실시간 계획 및 제어를 지원한다. Meta는 V-JEPA 2가 일부 벤치마크에서 Nvidia의 Cosmos 모델보다 30배 빠르다고 보고 있다. 이는 빠른 결정이 필요한 작업, 예를 들어 로봇 조작 또는 동적인 환경에서의 내비게이션에서 중요하다.

실제적인 도전과 제한

尽管 V-JEPA 2는 자율 학습과 로봇 계획에서重大 발전을 이루었다. 그러나 아직 해결해야 할 도전과 제한이 있다. 주요 제한은 다음과 같다:

시각적 데이터만 의존

V-JEPA 2는 비디오와 이미지 데이터만으로 훈련된다. 이는 시각적 작업에는 효과적이지만, 다중 감각 작업, 예를 들어 촉각적 조작 또는 청각적 신호를 사용하는 작업에는 제한된다. 실제 로봇은 여러 감각 입력에 의존한다.

카메라 위치 및 캘리브레이션에 대한 민감성

모델은 단일 카메라 RGB 입력에 의존한다. 로봇의 기준 프레임이 보이지 않는 경우 성능이 저하될 수 있다. 일관된 성능을 보장하기 위해 카메라 설정에 수동 조정이 필요할 수 있다.

장기 및 다단계 계획의 제한

V-JEPA 2는 단기 지평선 작업에서 잘 작동하지만, 장기 계획에는 어려움을 겪는다. 예측의 오차 누적과 행동 공간의 확장으로 인해 복잡한 다단계 작업이 어려워진다.

고計算 요구

Nvidia의 Cosmos 모델보다 빠르지만, V-JEPA 2는 12억 개의 매개 변수가 있다. 이는重大 계산 자원을 필요로 하며, 이는 작은 연구소 또는 인프라가 제한된 조직에서는 도전이 될 수 있다.

비구조화된 환경에서의 일반화

V-JEPA 2는 제어된 환경에서 잘 작동하지만, 익숙하지 않은 또는 비구조화된 환경에서는 어려움을 겪을 수 있다. 픽업 및 배치 작업에서 성공률은 약 80%이지만, 에지 케이스에서 실패할 수 있다.

완전한 로봇 스택との 통합

유용하기 위해서, V-JEPA 2는 모터 컨트롤러, 실시간 센서, 및 작업 플래너와 통합되어야 한다. 동적인 환경에서 원활한 상호 운용성을 달성하는 것은 여전히 도전이다.

윤리 및 편향 고려

모든 큰 모델과 마찬가지로, V-JEPA 2는 훈련 데이터에서 편향을 물려받을 수 있다. 실제 응용 프로그램, 특히 인간 상호 작용에서, 이러한 편향은 의도하지 않은 결과를 초래할 수 있다. 윤리적 감시가 필수적이다.

결론

V-JEPA 2는 AI와 로봇ICS에서重大 발전이다. 로봇이 물리적 세계와 상호 작용하는 방식을 인간의 행동과 유사하게 만든다.尽管 이 모델은 행동 예측, 세계 이해, 및 이전 훈련 없이 계획에서 강한 성능을 보여주었지만, 아직 여러 도전을 겪고 있다.

V-JEPA 2는 시각적 데이터에 의존하며, 다중 감각 작업, 장기 계획, 및 완전한 로봇 시스템과의 통합에 제한이 있다. 그러나 실제 상황에서 빠른 결정과 적응을 가능하게 하는 능력은 복잡한 실제 상황에서 매우 유용하다.

Meta는 V-JEPA 2를 계속 개선하고 있으며, 이는 AI의 발전과 로봇을 더智能하게 만드는 데 기여할 것이다. 이는 의료, 물류, 자율 주행 자동차와 같은 산업에서 가치가 있을 것이다. V-JEPA 2는重大 잠재력을 가지고 있으며 로봇ICS의 미래에서 중요한 역할을 할 것이다.

Dr. Assad Abbas

Dr. Assad Abbas, COMSATS University Islamabad, 파키스탄의 정교수는 North Dakota State University, USA에서 박사학위를 취득했습니다. 그의 연구는 클라우드, 포그, 에지 컴퓨팅, 빅데이터 분석, AI를 포함한 고급 기술에 중점을 두고 있습니다. Dr. Abbas는 유명한 과학 저널 및 컨퍼런스에 게재된 논문으로 상당한 기여를 했습니다. 그는 또한 MyFastingBuddy의 창립자입니다.