Робототехніка
Meta V-JEPA 2: Модель штучного інтелекту, що наближає роботів до здорового глузду

Мета Прогнозна архітектура спільного вбудовування відео 2 (V-JEPA 2) є значним прогресом у Штучний інтелект (AI)Це допомагає роботам розуміти та передбачати фізичні взаємодії. Модель навчається на понад мільйоні годин відео. Це дозволяє роботам навчатися та передбачати, що станеться далі. Це також дає роботам змогу планувати дії в нових середовищах, що дозволяє їм ефективніше взаємодіяти з незнайомими об'єктами.
V-JEPA 2 використання самоконтрольне навчанняВін навчається безпосередньо з відеоданих, не вимагаючи людських анотацій. Це відрізняє його від інших моделей штучного інтелекту, які спираються на позначені дані. Роботи можуть передбачати результати на основі візуального контексту. Вони можуть адаптуватися та планувати дії за потреби. Це наближає нас до досягнення... Розширений машинний інтелект (AMI).
Спираючись на спільну прогностичну архітектуру вбудовування (JEPA) від Meta, V-JEPA 2 покращує прогнозування дій та моделювання світу, дозволяючи роботам виконувати нові завдання в незнайомих умовах. Meta ділиться цією моделлю з дослідницькою спільнотою, щоб пришвидшити прогрес штучного інтелекту та покращити можливості роботів.
Чому здоровий глузд у роботах завжди був складним завданням
Здоровий глузд — це здатність приймати елементарні рішення. Наприклад, знання того, що чашка розллється, якщо її перекинути, або розуміння того, що стілець може загородити шлях. Для людей це знання приходить природно завдяки досвіду. Однак роботи стикаються з труднощами в розвитку цієї ж інтуїції.
Більшість роботів запрограмовані для виконання певних завдань у контрольованому середовищі. Вони добре справляються з цими завданнями. Але коли ситуація змінюється або виникають неочікувані елементи, роботи зазнають труднощів. Вони часто не розпізнають причину та наслідок або не передбачають наслідки дій. Наприклад, робот може знати, як поставити чашку на рівну поверхню. Однак він може не передбачити, що нахил чашки може призвести до її розливання.
Сучасні моделі штучного інтелекту, такі як ті, що базуються на навчанні з підкріпленням (RL), стикаються з обмеженнями. RL вимагає значної кількості навчання методом спроб і помилок. Це робить процес повільним і ресурсоємним. Великі мовні моделі (LLM) чудово володіють мовою, але не мають ґрунту у фізичному світі. Вони часто галюцинація відповіді, засновані виключно на тексті, що робить їх ненадійними в динамічних ситуаціях. Традиційні комп'ютерне бачення Моделі також обмежені у своїх можливостях. Ці моделі є специфічними для певних завдань і не адаптуються до нових або неочікуваних сценаріїв.
Для вирішення цих проблем експерти рекомендують використовувати моделі світу. Моделі світу дозволяють роботам моделювати та прогнозувати майбутні дії на основі минулого досвіду. Ці моделі допомагають роботам розуміти фізичну динаміку світу. Наприклад, передбачати, що станеться, коли об'єкт рухається або коли два об'єкти зіткнуться. V-JEPA 2 від Meta — це перша модель, яка інтегрує ці принципи. Вона навчається безпосередньо на основі необроблених відеоданих. Це робить її адаптованою до реальних середовищ, дозволяючи роботам міркувати та планувати на основі динамічних фізичних взаємодій.
Розуміння V-JEPA 2
V-JEPA 2 — це модель самонавчання, створена командою фундаментальних досліджень штучного інтелекту (FAIR) компанії Meta. На відміну від традиційних моделей штучного інтелекту, які потребують маркованих даних, V-JEPA 2 навчається на немаркованих відео, прогнозуючи відсутні частини відеопослідовностей. Цей процес відомий як прогнозування на рівні представлення. Замість того, щоб зосереджуватися на кожному пікселі, V-JEPA 2 працює з абстрактними представленнями, які фіксують ключову динаміку та взаємозв'язки між об'єктами та діями в середовищі.
Модель побудована на архітектурі прогнозування спільного вбудовування (JEPA) від Meta, розробленій для розуміння фізичної динаміки. Вона має два ключові компоненти: кодер, який обробляє необроблене відео для створення корисних представлень, та предиктор, який використовує ці представлення для прогнозування майбутніх подій. V-JEPA 2 навчена на понад мільйоні годин відео, що дозволяє їй вивчати складні закономірності у фізичному світі. Навчаючись на відео, модель може передбачати майбутні дії та взаємодії, покращуючи те, як роботи планують та приймають рішення.
V-JEPA 2 допомагає роботам виконувати планування з нульовим результатом. Це означає, що роботи можуть виконувати завдання в нових середовищах навіть без попереднього навчання. Натомість роботи можуть виконувати такі завдання, як піднімання предметів та розміщення їх у нових місцях, навіть якщо вони ніколи раніше не стикалися з цими завданнями. Це робить V-JEPA 2 значним покращенням у прогнозуванні дій та моделюванні світу, роблячи роботів більш адаптованими до нових ситуацій.
Модель навчається на основі необроблених відеоданих, що дозволяє роботам передбачати майбутні події. Це робить роботів більш здатними до реальних ситуацій. V-JEPA 2 наближає нас до роботів, які можуть планувати та виконувати завдання, як люди. Meta ділиться V-JEPA 2 з дослідницькою спільнотою для прискорення прогресу штучного інтелекту. Роботи, що використовують V-JEPA 2, можуть працювати в динамічних середовищах, швидко адаптуватися та ефективніше планувати завдання.
Як працює V-JEPA 2: Двоетапний процес
V-JEPA 2 працює у два окремі етапи. Кожен етап дозволяє моделі навчатися на основі необроблених відеоданих і згодом застосовувати ці знання для прийняття обґрунтованих рішень у реальних завданнях.
Етап 1: Навчання без дій на основі репрезентацій
V-JEPA 2 починається з масштабного попереднього навчання на понад 1 мільйоні годин відео та 1 мільйоні зображень. Модель навчається, прогнозуючи відсутні частини відеопослідовностей. Вона обробляє відео як 3D-трубочки, які служать основними токенами для моделі. Модель використовує... Трансформатор зору (ViT) архітектура з вбудовуванням 3D-ротаційних позицій (3D-RoPE) для ефективнішого захоплення як просторової, так і часової інформації.
Кодер обробляє трубочки для створення високовимірних векторів ознак. Ці вектори представляють як просторову, так і часову динаміку відео. Модель використовує об'єктив шумозаглушення маски, де великі частини відео приховані. Модель намагається передбачити прихований контент, використовуючи видимі частини. Цільовий кодер експоненціального ковзного середнього (EMA) допомагає моделі уникати тривіальних рішень і забезпечує стабільне навчання. Функція втрат мінімізує відстань L1 між прогнозами та виходом цільового кодера EMA, зосереджуючись на концепціях вищого рівня, таких як сталість та рух об'єкта, а не на деталях на рівні пікселів.
Етап 2: Планування та контроль, зумовлені діями
На другому етапі модель переходить до навчання на основі дії. Вагові коефіцієнти енкодера заморожуються, а новий предиктор навчається з використанням даних про взаємодію робота. Ці дані включають відеоспостереження та відповідні керуючі дії, зазвичай від Набір даних DROID (близько 62 годин даних робота). Тепер модель може передбачати майбутній стан середовища на основі як поточного стану, так і можливих дій.
V-JEPA 2 ставить задачу мінімізації енергії, обумовлену метою. Вона кодує як поточне спостереження, так і зображення цілі в карти ознак. Потім модель передбачає, як стан змінюватиметься з різними послідовностями дій. Оптимальна послідовність дій знаходиться шляхом мінімізації відстані L1 між прогнозованим майбутнім станом та представленням цілі. Для оптимізації траєкторії використовується метод перехресної ентропії (CEM).
Виконується лише перша дія оптимальної послідовності, а процес повторюється в циклі керування віддаленим горизонтом. Це дозволяє планувати та адаптуватися в режимі реального часу. Використовуючи 3D-обробку трубочок, V-JEPA 2 фіксує як просторові, так і часові залежності, що дозволяє роботам міркувати про рух, взаємодію об'єктів та наслідки своїх дій у складних середовищах. Це забезпечує безпрограшне планування та керування навіть у нових сценаріях без необхідності демонстрацій для конкретних завдань або розробки винагород.
Застосування V-JEPA 2 у робототехніці
V-JEPA 2 змінює спосіб взаємодії роботів зі світом. Багато застосувань все ще розробляються, але модель продемонструвала потужні можливості в контрольованих середовищах.
Маніпуляції "піклуй та розмісти"
У лабораторних умовах V-JEPA 2 дозволив роботам виконувати завдання з переміщення з мінімальним навчанням. Використовуючи лише 62 години даних з набору даних DROID, роботи можуть маніпулювати різними об'єктами, включаючи як жорсткі, так і деформовані. Ця здатність є критично важливою в таких галузях, як логістика, виробництво та домашня робототехніка, де об'єкти значно відрізняються за розміром та складністю.
Навігація в динамічних середовищах
V-JEPA 2 може моделювати часову динаміку, що робить його корисним для навігації в режимі реального часу в середовищах з рухомими людьми, тваринами або перешкодами. Хоча він ще не використовувався в автономних транспортних засобах або дронах, його прогностичні здібності можуть допомогти роботам передбачати зміни та коригувати свої траєкторії. Це є ключовим фактором безпеки та ефективності в умовах інтенсивного руху.
Взаємодія людина-робот
Навчившись передбачати дії людини, V-JEPA 2 може покращити співпрацю між людиною та роботом. Роботи можуть реагувати природніше та безпечніше у спільних просторах, таких як лікарні, будинки чи промислові цехи. Хоча ця здатність все ще перебуває в розробці, вона є кроком до соціально свідомих роботів, які можуть адаптуватися до навколишнього середовища.
Узагальнення та планування з нульовим результатом
V-JEPA 2 може узагальнювати результати для різних завдань та середовищ. Роботи можуть використовувати вивчені представлення в нових ситуаціях без необхідності додаткового навчання. Таке планування з нульовим результатом дозволяє роботам швидко адаптуватися до нових завдань, тим самим зменшуючи потребу в новому зборі даних або перенавчанні.
Прийняття рішень та ефективність у режимі реального часу
Завдяки своїй ефективній конструкції, V-JEPA 2 підтримує планування та контроль у режимі реального часу. Meta повідомляє, що V-JEPA 2 є 30x швидше, ніж модель Nvidia Cosmos у деяких бенчмарках. Ця швидкість є важливою для завдань, що потребують швидких рішень, таких як роботизоване маніпулювання або навігація в умовах зміни середовища.
Практичні труднощі та обмеження
Хоча V-JEPA 2 досяг значного прогресу в самостійному навчанні та робототехнічному плануванні, все ще існують проблеми, які необхідно вирішити, перш ніж його можна буде широко розгорнути. Ось основні обмеження:
Опора лише на візуальні дані
V-JEPA 2 навчається виключно на відео- та графічних даних. Це робить його ефективним для візуальних завдань, але обмежує його здатність виконувати мультисенсорні завдання, такі як тактильна маніпуляція або використання слухових підказок. Реальні роботи покладаються на численні сенсорні вхідні дані.
Чутливість до положення камери та калібрування
Модель використовує монокулярний RGB-вхід, що може погіршити продуктивність, якщо основа робота або система відліку не видно. Для забезпечення стабільної роботи може знадобитися ручне налаштування камери.
Обмеження довгострокового та багатоетапного планування
V-JEPA 2 добре справляється з короткостроковими завданнями, але має труднощі з довгостроковим плануванням. Накопичення помилок у прогнозах та розширення простору дій ускладнюють складні, багатоетапні операції.
Високі обчислювальні вимоги
Хоча V-JEPA 2 швидший за такі моделі, як Cosmos від Nvidia, він має понад 1.2 мільярда параметрів. Це вимагає значних обчислювальних ресурсів, що може створювати проблеми для невеликих лабораторій або організацій з обмеженою інфраструктурою.
Узагальнення в неструктурованих середовищах
V-JEPA 2 добре працює в контрольованих умовах, але може зіткнутися з проблемами в незнайомих або неструктурованих середовищах. Його рівень успішності в завданнях вибору та розміщення становить близько 80%, але він може зазнати невдачі в крайніх випадках.
Інтеграція з повними роботизованими стеками
Щоб бути корисним, V-JEPA 2 має інтегруватися з контролерами двигунів, датчиками реального часу та планувальниками завдань. Досягнення безперебійної сумісності в динамічних середовищах залишається складним завданням.
Етичні та упереджені міркування
Як і всі великі моделі, V-JEPA 2 може успадковувати упередження зі своїх навчальних даних. У реальних застосуваннях, особливо тих, що пов'язані з взаємодією з людьми, ці упередження можуть призвести до непередбачуваних результатів. Етичний нагляд є важливим.
Bottom Line
V-JEPA 2 являє собою значний прогрес у галузі штучного інтелекту та робототехніки. Він дозволяє роботам розуміти фізичний світ та взаємодіяти з ним, подібно до людської поведінки. Хоча модель продемонструвала високу ефективність у прогнозуванні дій, розумінні світу та плануванні без попереднього навчання, вона все ще стикається з кількома проблемами.
V-JEPA 2 спирається на візуальні дані та має деякі обмеження в мультисенсорних завданнях, довгостроковому плануванні та інтеграції з повними роботизованими системами. Однак, його здатність приймати рішення в режимі реального часу та адаптуватися до нових середовищ робить його дуже корисним для складних реальних ситуацій.
Meta продовжує вдосконалювати V-JEPA 2, що сприятиме розвитку штучного інтелекту та зробить роботів розумнішими. Цей прогрес буде цінним для таких галузей, як охорона здоров'я, логістика та автономні транспортні засоби. V-JEPA 2 має великий потенціал і відіграватиме вирішальну роль у майбутньому робототехніки.