Робототехніка

Дослідники MIT поєднують дані руху роботів з мовними моделями для покращення виконання завдань

Published March 27, 2024

Updated April 4, 2026

Alex McFarland

Роботи для домашнього використання все частіше навчаються виконувати складні завдання через навчання за прикладом, процес, у якому їх програмують копіювати рухи, продемонстровані людиною. Хоча роботам вдається бути відмінними міміками, вони часто мають труднощі з адаптацією до переривань або несподіваних ситуацій, які виникають під час виконання завдань. Без явної програми для обробки цих відхилень роботам доводиться починати завдання заново. Щоб подолати цю проблему, інженери MIT розробляють новий підхід, який має на меті надати роботам певний рівень здорового глузду при зустрічі з несподіваними ситуаціями, дозволяючи їм адаптуватися та продовжувати свої завдання без потреби ручного втручання.

Новий підхід

Дослідники MIT розробили метод, який поєднує дані руху роботів з “здоровим глуздом” більших мовних моделей (LLM). З’єднавши ці два елементи, підхід дозволяє роботам логічно розбивати задане домашнє завдання на підзадачі та фізично адаптуватися до переривань у кожній підзадачі. Це дозволяє роботам продовжувати виконання завдання без необхідності перезапуску всього завдання з початку, і усуває потребу для інженерів явно програмувати виправлення для кожного можливого збою на шляху.
Як пояснює аспірант Яньвей Ван з відділу електротехніки та комп’ютерних наук (EECS) MIT, “Наш метод дозволяє роботам самостійно виправляти помилки виконання та покращувати загальний успіх завдання.”

Щоб продемонструвати свій новий підхід, дослідники використали просте завдання: викопування кульок з однієї чаші та їхнє виливання в іншу. Традиційно інженери рухали б робота через рухи викопування та виливання в одному безперервному русі, часто забезпечуючи кілька демонстрацій людини для того, щоб робот міг їх наслідувати. Однак, як зазначає Ван, “демонстрація людини – це одна довга, безперервна траєкторія.” Команда зрозуміла, що хоча людина може продемонструвати одне завдання в одному русі, завдання залежить від послідовності підзадач. Наприклад, робот повинен спочатку досягнути до чаші, перш ніж він зможе викопати, і він повинен викопати кульки, перш ніж рухатися до порожньої чаші.

Якщо робот робить помилку під час будь-якої з цих підзадач, його єдиним виходом є зупинка та перезапуск з початку, якщо інженери явно не позначать кожну підзадачу та не запрограмують чи не зібрають нові демонстрації для того, щоб робот міг відновитися від збою. Ван підкреслює, що “цей рівень планування дуже трудомісткий.” Саме тут вступає в дію новий підхід дослідників. Використовуючи потужність LLM, робот може автоматично визначити підзадачі, задіяні в загальному завдання, та визначити потенційні дії відновлення в разі переривань. Це усуває потребу для інженерів ручного програмування робота для обробки кожного можливого сценарію збою, роблячи робота більш адаптивним та ефективним у виконанні домашніх завдань.

Роль великих мовних моделей

LLM відіграють важливу роль у новому підході дослідників MIT. Ці глибокі моделі навчання обробляють величезні бібліотеки тексту, встановлюючи зв’язки між словами, реченнями та абзацами. Через ці зв’язки LLM може генерувати нові речення на основі вивчених шаблонів, фактично розуміючи, який тип слова або фрази ймовірно слідуватиме після попереднього.

Дослідники зрозуміли, що цю здатність LLM можна використати для автоматичного визначення підзадач у рамках більшого завдання та потенційних дій відновлення в разі переривань. З’єднавши “здоровий глузд” LLM з даними руху роботів, новий підхід дозволяє роботам логічно розбивати завдання на підзадачі та адаптуватися до несподіваних ситуацій. Ця інтеграція LLM та робототехніки має потенціал революціонізувати спосіб програмування та навчання домашніх роботів, роблячи їх більш адаптивними та здатними справлятися з реальними викликами.

По мірі розвитку галузі робототехніки інтеграція технологій штучного інтелекту, таких як LLM, стане дедалі важливішою. Підхід дослідників MIT є суттєвим кроком до створення домашніх роботів, які можуть не тільки наслідувати людські дії, але й розуміти підляжущу логіку та структуру завдань, які вони виконують. Це розуміння буде ключовим для розробки роботів, які можуть працювати автономно та ефективно в складних, реальних середовищах.

До розумнішого, більш адаптивного майбутнього для домашніх роботів

Дозволяючи роботам самостійно виправляти помилки виконання та покращувати загальний успіх завдання, цей метод вирішує одну з основних проблем у програмуванні роботів: адаптивність до реальних ситуацій.

Імплікації цього дослідження виходять далеко за межі простого завдання викопування кульок. По мірі того, як домашні роботизовані пристрої стають все більш поширеними, їм доведеться бути здатними виконувати широкий спектр завдань у динамічних, неструктурованих середовищах. Здатність розбивати завдання на підзадачі, розуміти підляжущу логіку та адаптуватися до переривань буде суттєвою для ефективної роботи цих роботів.

Крім того, інтеграція LLM та робототехніки демонструє потенціал технологій штучного інтелекту для революціонізування способу програмування та навчання роботів. По мірі розвитку цих технологій ми можемо очікувати побачити більш інтелектуальні, адаптивні та автономні роботи в наших домах та робочих місцях.

Робота дослідників MIT є критичним кроком до створення домашніх роботів, які можуть справді зрозуміти та орієнтуватися в складностях реального світу. По мірі того, як цей підхід буде вдосконалюватися та застосовуватися до більш широкого спектра завдань, він має потенціал трансформувати спосіб нашого життя та роботи, роблячи їх легшими та ефективнішими.

Unite.AI

Дослідники MIT поєднують дані руху роботів з мовними моделями для покращення виконання завдань

Новий підхід

Роль великих мовних моделей

До розумнішого, більш адаптивного майбутнього для домашніх роботів

You may like