λ‘œλ³΄ν‹±μŠ€

메타 V-JEPA 2: λ‘œλ΄‡μ—κ²Œ 곡톡 감각을 κ°€μ Έμ˜€λŠ” AI λͺ¨λΈ

mm
Meta V-JEPA 2: The AI Model Bringing Common Sense to Robots

메타의 비디오 조인트 임베딩 예측 아키텍처 2 (V-JEPA 2)는 인공지능(AI)의重大 발전입니다. 로봇이 물리적 상호작용을 이해하고 예측하는 것을 도와줍니다. 이 모델은 1백만 시간 이상의 비디오로 훈련되었습니다. 이를 통해 로봇이 다음에 일어날 일을 예측하고 새로운 환경에서 행동을 계획할 수 있습니다.

V-JEPA 2는 자가 지도 학습(self-supervised learning)을 사용합니다. 레이블이 달린 데이터가 필요 없는 비디오 데이터에서 직접 학습합니다. 이는 다른 AI 모델과 다릅니다. 로봇이 시각적 맥락에 따라 결과를 예측할 수 있습니다. 필요한 경우 행동을 조정하고 계획할 수 있습니다. 이는 고급 기계 지능(Advanced Machine Intelligence, AMI)을 달성하는 데 더 가까이 다가가는 것입니다.

메타의 조인트 임베딩 예측 아키텍처(JEPA)를 기반으로 하는 V-JEPA 2는 행동 예측과 세계 모델링을 강화하여 로봇이 새로운 환경에서 새로운 작업을 수행할 수 있습니다. 메타는 이 모델을 연구 커뮤니티와 공유하여 AI의 발전을 가속화하고 로봇의 능력을 향상시키고자 합니다.

로봇에서 공통 감각이 어려운 이유

공통 감각은 기본적인 결정을 내리는 능력입니다. 예를 들어, 컵을 기울이면 내용물이 넘치고, 의자가 경로를 방해할 수 있다는 것을 알 수 있습니다. 인간에게는 이러한 지식이 경험을 통해 자연스럽게 옵니다. 그러나 로봇은 이와 같은 직관을 개발하는 데 어려움을 겪습니다.

대부분의 로봇은 특정 작업을 위해 제어된 환경에서 프로그래밍됩니다. 이러한 작업을 잘 수행합니다. 그러나 상황이 변경되거나 예상치 못한 요소가 나타나면 로봇이 어려움을 겪습니다. 원인과 결과를 인식하거나 행동의 결과를 예측하는 데 실패합니다. 예를 들어, 로봇이 컵을 평면에 올려놓는 방법을 알 수 있지만, 컵을 기울이면 내용물이 넘칠 수 있다는 것을 예측하지 못할 수 있습니다.

현재의 AI 모델, 예를 들어 강화 학습(Reinforcement Learning, RL)에 기반한 모델은 제한을 가지고 있습니다. 강화 학습은 많은 시도와 오류를 필요로 합니다. 이는 proceso를 느리게 하고 자원 집중적으로 만듭니다. 큰 언어 모델(Large Language Models, LLM)은 언어에서 우수하지만 물리적 세계에서 근거가 없습니다. 텍스트만으로 응답을 상상할 수 있으므로 동적인 상황에서 신뢰할 수 없습니다. 전통적인 컴퓨터 비전 모델도 능력이 제한적입니다. 이러한 모델은 작업 특정적이며 새로운 또는 예상치 못한 시나리오에 적응하지 못합니다.

이러한 문제를 해결하기 위해 전문가들은 세계 모델을 사용하는 것을 권장합니다. 세계 모델은 로봇이 과거 경험에 기반하여 미래의 행동을 시뮬레이션하고 예측할 수 있도록 합니다. 이러한 모델은 물리적 세계의 역학을 이해하는 데 도움이 됩니다. 예를 들어, 객체를 이동하거나 두 개의 객체가 충돌할 때 무슨 일이 일어날지 예측하는 것입니다. 메타의 V-JEPA 2는 이러한 원리를 통합하는 첫 번째 모델입니다. 원시 비디오 데이터에서 직접 학습합니다. 이는 로봇이 동적인 물리적 상호작용에 기반하여 이유와 계획을 세울 수 있도록 합니다.

V-JEPA 2 이해

V-JEPA 2는 메타의 기본 AI 연구 팀(Fundamental AI Research, FAIR)이 개발한 자가 지도 학습 모델입니다. 전통적인 AI 모델과 달리 레이블이 달린 데이터가 필요하지 않습니다. 비디오 시퀀스의 누락된 부분을 예측함으로써 학습합니다. 이는 표현 수준 예측으로 알려져 있습니다. 픽셀마다 집중하지 않고, 객체와 행동 간의 관계를 캡처하는 추상적인 표현을 사용합니다.

이 모델은 메타의 조인트 임베딩 예측 아키텍처(JEPA)를 기반으로 합니다. 이는 물리적 역학을 이해하기 위해 설계되었습니다. 두 가지 주요 구성 요소가 있습니다. 인코더는 원시 비디오를 처리하여 유용한 표현을 생성합니다. 예측기는 이러한 표현을 사용하여 미래의 사건을 예측합니다. V-JEPA 2는 1백만 시간 이상의 비디오로 훈련되었습니다. 이는 물리적 세계에서 복잡한 패턴을 학습할 수 있도록 합니다. 비디오에서 학습함으로써, 모델은 미래의 행동과 상호작용을 예측할 수 있습니다. 로봇이 계획하고 결정하는 방식을 향상시킵니다.

V-JEPA 2는 로봇이 제로샷 계획을 수행할 수 있도록 합니다. 이는 로봇이 새로운 환경에서 작업을 수행할 수 있음을 의미합니다. 이전에 이러한 작업을 본 적이 없더라도, 로봇은 객체를 उठ거나 새로운 위치에 배치하는 작업을 수행할 수 있습니다. 이는 V-JEPA 2가 행동 예측과 세계 모델링에서重大 발전을 이루었다는 것을 의미합니다. 로봇이 새로운 상황에 더 잘 적응할 수 있도록 합니다.

이 모델은 원시 비디오 데이터에서 학습함으로써, 로봇이 미래의 사건을 예측할 수 있도록 합니다. 이는 로봇이 실제 상황에서 더 능숙하게 작동할 수 있도록 합니다. V-JEPA 2는 로봇이 인간과 같은 방식으로 계획하고 작업을 수행할 수 있도록 합니다. 메타는 V-JEPA 2를 연구 커뮤니티와 공유하여 AI의 발전을 가속화하고자 합니다.

V-JEPA 2의 작동: 2단계 프로세스

V-JEPA 2는 두 가지 구별되는 단계로 작동합니다. 각 단계는 모델이 원시 비디오 데이터에서 학습하고 이후 실제 작업에 지식을 적용할 수 있도록 합니다.

단계 1: 행동 없는 표현 학습

V-JEPA 2는 1백만 시간 이상의 비디오와 1백만 개의 이미지로 대규모 사전 훈련을 시작합니다. 모델은 비디오 시퀀스의 누락된 부분을 예측함으로써 학습합니다. 비디오는 3D 튜브렛으로 처리됩니다. 이는 모델의 기본 토큰입니다. 모델은 비전 트랜스포머(Vision Transformer, ViT) 아키텍처와 3D 로테리 포지션 임베딩(3D-RoPE)을 사용하여 공간적 및 시간적 정보를 더 효과적으로 캡처합니다.

인코더는 튜브렛을 처리하여 고차원 특징 벡터를 생성합니다. 이러한 벡터는 비디오의 공간적 및 시간적 역학을 나타냅니다. 모델은 마스크 노이즈 목적 함수를 사용합니다. 여기서 비디오의 큰 부분이 숨겨집니다. 모델은 보이는 부분을 사용하여 숨겨진 내용을 예측하려고 합니다. 지수 이동 평균(Exponential Moving Average, EMA) 타겟 인코더는 모델이 사소한 해결책을 피하고 안정적인 학습을 보장합니다. 손실 함수는 예측과 EMA 타겟 인코더의 출력 사이의 L1 거리를 최소화합니다. 이는 픽셀 수준의 세부 사항보다는 객체 영속성 및 운동과 같은 고수준 개념에 초점을 맞춥니다.

단계 2: 행동 조건 계획 및 제어

두 번째 단계에서, 모델은 행동 조건 훈련으로 전환합니다. 인코더의 가중치는 동결되고, 새로운 예측기가 로봇 상호작용 데이터를 사용하여 훈련됩니다. 이 데이터에는 비디오 관찰과 해당 제어 동작이 포함됩니다. 일반적으로 DROID 데이터セット(로봇 데이터 약 62시간)에서 가져옵니다. 이제 모델은 현재 상태와 가능한 행동에 기반하여 환경의 미래 상태를 예측할 수 있습니다.

V-JEPA 2는 목표 조건 에너지 최소화 문제를 설정합니다. 현재 관찰과 목표 이미지를 특징 맵으로 인코딩합니다. 모델은 상태가 다양한 행동 시퀀스에 따라 어떻게 변경될지 예측합니다. 최적의 행동 시퀀스는 예측된 미래 상태와 목표 표현 사이의 L1 거리를 최소화하여 찾습니다. 교차 엔트로피 방법(Cross-Entropy Method, CEM)을 사용하여 궤도 최적화를 수행합니다.

최적 시퀀스의 첫 번째 행동만 수행되고, 이 프로세스는 재귀적 제어 루프에서 반복됩니다. 이는 실시간 계획 및 적응을 가능하게 합니다. 3D 튜브렛 처리를 사용하여, V-JEPA 2는 공간적 및 시간적 의존성을 캡처하여 로봇이 복잡한 환경에서 운동, 객체 상호작용 및 행동의 결과에 대해 이유를 할 수 있도록 합니다. 이는 제로샷 계획 및 제어를 가능하게 하며, 작업 특정 시연이나 보상 공학이 필요하지 않습니다.

로봇공학에서 V-JEPA 2의 응용

V-JEPA 2는 로봇이 세계와 상호작용하는 방식을 변경하고 있습니다. 많은 응용 프로그램이 개발 중입니다. 그러나 이 모델은 제어된 환경에서 강한 능력을展示했습니다.

피킹 및 플레이스 조작

실험실 환경에서, V-JEPA 2는 로봇이 최소한의 훈련으로 피킹 및 플레이스 작업을 수행할 수 있도록 했습니다. DROID 데이터セット의 62시간 데이터만 사용하여, 로봇은 다양한 객체를 조작할 수 있습니다. 이는 물류, 제조, 홈 로봇공학 등 다양한 분야에서 중요합니다.

동적 환경에서의 내비게이션

V-JEPA 2는 시간적 역학을 모델링할 수 있으므로, 동적으로 변경되는 환경에서 실시간 내비게이션에 유용합니다. 아직 자율 주행 자동차나 무인 항공기에 사용되지 않았지만, 예측 능력은 로봇이 변경을 예측하고 경로를 조정하는 데 도움이 될 수 있습니다. 이는 바쁜 환경에서 안전과 효율성을 위해 중요합니다.

인간-로봇 상호작용

로봇이 인간의 행동을 예측하는 것을 학습함으로써, V-JEPA 2는 인간-로봇 협력을 개선할 수 있습니다. 로봇은 공유 공간에서 더 자연스럽고 안전하게 반응할 수 있습니다. 아직 진행 중이지만, 이는 사회적으로 인식하는 로봇을 향한 한 걸음입니다.

일반화 및 제로샷 계획

V-JEPA 2는 작업과 환경을 넘어서 일반화할 수 있습니다. 로봇은 새로운 상황에서 학습된 표현을 사용하여 작업을 수행할 수 있습니다. 이는 제로샷 계획을 가능하게 하며, 새로운 데이터 수집이나 재훈련의 필요성을 줄입니다.

실시간 의사 결정 및 효율성

효율적인 설계로 인해, V-JEPA 2는 실시간 계획 및 제어를 지원합니다. 메타는 V-JEPA 2가 일부 벤치마크에서 Nvidia의 Cosmos 모델보다 30배 빠르다고 보고했습니다. 이는 빠른 quyết정을 요구하는 작업, 예를 들어 로봇 조작 또는 변경되는 환경에서의 내비게이션에서 중요합니다.

실제적인 도전과 제한

V-JEPA 2는 자가 지도 학습과 로봇 계획에서重大 발전을 이루었지만, 아직 해결해야 할 도전과 제한이 있습니다.

시각 데이터만 의존

V-JEPA 2는 비디오와 이미지 데이터만으로 훈련되므로, 시각 작업에는 효과적이지만, 다중 감각 작업에는 제한이 있습니다. 실제 로봇은 여러 감각 입력에 의존합니다.

카메라 위치 및 캘리브레이션에 대한 민감성

모델은 단일 RGB 입력에 의존하므로, 로봇의 기준 프레임이 보이지 않는 경우 성능이 저하될 수 있습니다. 일관된 성능을 보장하기 위해 카메라 설정에 수동 조정이 필요할 수 있습니다.

장기 및 다단계 계획의 제한

V-JEPA 2는 단기 작업에서 잘 수행하지만, 장기 계획에는 어려움을 겪습니다. 예측의 오차 누적과 행동 공간의 확장은 복잡한 다단계 작업을 어렵게 만듭니다.

높은 계산 요구

Nvidia의 Cosmos 모델보다 빠르지만, V-JEPA 2에는 12억 개가 넘는 매개변수가 있습니다. 이는大量 계산 자원을 필요로 하므로, 작은 연구실이나 인프라가 제한된 조직에서는 도전이 될 수 있습니다.

비정형 환경에서의 일반화

V-JEPA 2는 제어된 환경에서 잘 수행하지만, 비정형 환경에서는 어려움을 겪을 수 있습니다. 피킹 및 플레이스 작업에서 성공률은 약 80%지만, 에지 케이스에서 실패할 수 있습니다.

전체 로봇 스택との 통합

유용하기 위해서, V-JEPA 2는 모터 컨트롤러, 실시간 센서 및 작업 플래너와 통합되어야 합니다. 동적인 환경에서 원활한 상호 운용성을 달성하는 것은 여전히 도전입니다.

윤리 및 편향 고려

모든 큰 모델과 마찬가지로, V-JEPA 2는 훈련 데이터에서 편향을 물려받을 수 있습니다. 실제 응용 프로그램, 특히 인간 상호작용에서는, 이러한 편향은 예기치 못한 결과를 초래할 수 있습니다. 윤리적 감시가 필수적입니다.

결론

V-JEPA 2는 AI와 로봇공학에서重大 발전을 나타냅니다. 로봇이 물리적 세계와 상호작용하는 방식을 인간의 행동과 더ใกล르게 만듭니다. 행동을 예측하고, 세계를 이해하며, 사전 훈련 없이 계획하는 능력은 강력하지만, 아직 제한이 있습니다.

V-JEPA 2는 시각 데이터만 의존하며, 다중 감각 작업, 장기 계획 및 완전한 로봇 시스템과의 통합에 제한이 있습니다. 그러나 실시간 결정과 새로운 환경에 대한 적응能力은 복잡한 실제 상황에서 매우 유용합니다.

메타는 V-JEPA 2를 계속 개선하고 있습니다. 이는 AI의 발전과 로봇을 더 지능적으로 만드는 데 기여할 것입니다. 이러한 진행은 의료, 물류, 자율 주행 자동차 등 다양한 산업에서 가치가 있을 것입니다. V-JEPA 2는伟大한 잠재력을 가지고 있으며, 로봇공학의 미래에서 중요한 역할을 할 것입니다.

Dr. Assad Abbas, COMSATS University Islamabad, νŒŒν‚€μŠ€νƒ„μ˜ μ •κ΅μˆ˜λŠ” North Dakota State University, USAμ—μ„œ λ°•μ‚¬ν•™μœ„λ₯Ό μ·¨λ“ν–ˆμŠ΅λ‹ˆλ‹€. 그의 μ—°κ΅¬λŠ” ν΄λΌμš°λ“œ, 포그, 에지 μ»΄ν“¨νŒ…, 빅데이터 뢄석, AIλ₯Ό ν¬ν•¨ν•œ κ³ κΈ‰ κΈ°μˆ μ— 쀑점을 두고 μžˆμŠ΅λ‹ˆλ‹€. Dr. AbbasλŠ” 유λͺ…ν•œ κ³Όν•™ 저널 및 μ»¨νΌλŸ°μŠ€μ— 게재된 λ…Όλ¬ΈμœΌλ‘œ μƒλ‹Ήν•œ κΈ°μ—¬λ₯Ό ν–ˆμŠ΅λ‹ˆλ‹€. κ·ΈλŠ” λ˜ν•œ MyFastingBuddy의 μ°½λ¦½μžμž…λ‹ˆλ‹€.