Робототехніка
Роботи здатні вивчати складні завдання за допомогою кількох демонстрацій

В одному з останніх розробок у сфері робототехніки дослідники з Університету Південної Каліфорнії (USC) створили систему, в якій роботами можна вивчати складні завдання за допомогою кількох демонстрацій. Що ще більш вражає, деякі з цих демонстрацій можуть бути не ідеальними.
Дослідження було представлено на Конференції з навчання роботів (CoRL) 18 листопада під назвою “Вивчення з демонстрацій за допомогою сигнальної тимчасової логіки.”
Система
Якість кожної демонстрації вимірюється, щоб система могла вивчати з успіхів і невдач. На відміну від поточних методів, які вимагають щонайменше 100 демонстрацій для навчання конкретному завдання, нова система потребує лише кількох. У直осмісному порядку, спосіб, яким ці роботизовані системи вивчають, схожий на те, як люди вивчають один в одного. Наприклад, люди спостерігають і вивчають у інших виконання завдань успішно або неідеально.
Аніруддх Пуранік є головним автором дослідження та аспірантом з комп’ютерних наук в школі інженерії USC Viterbi.
“Багато систем машинного навчання та навчання з підкріпленням вимагають великої кількості даних та сотень демонстрацій – вам потрібно, щоб людина демонструвала знову і знову, що не є реальним,” сказав Пуранік.
“Також, більшість людей не мають знань про програмування, щоб явно зазначити, що робот повинен робити, і людина не може демонструвати все, що робот повинен знати,” він продовжував. “Що, якщо робот зустріне щось, чого він раніше не бачив? Це ключовий виклик.”
Дослідники використали “сигнальну тимчасову логіку” або STL для визначення якості демонстрацій, ранжуючи їх відповідно та створюючи внутрішні нагороди.
Є дві основні причини, чому дослідники вирішили використовувати STL:
- Вивчаючи через демонстрації, роботизовані системи можуть підхопити недоліки або навіть небезпечну поведінку та нежадані дії.
- Демонстрації можуть відрізнятися за якістю залежно від користувача, який їх надає, і деякі демонстрації є кращими індикаторами бажаної поведінки, ніж інші.
Розробивши систему в такий спосіб, робот все одно може вивчати з неідеальних демонстрацій, навіть якщо вони не відповідають логічним вимогам. Інакше кажучи, він робить свій власний висновок про точність або успіх.
Стефанос Ніколайдіс є співавтором та асистентом професора комп’ютерних наук в USC Viterbi.
“Скажімо, роботизовані системи вивчають з різних типів демонстрацій – це може бути практична демонстрація, відео чи симуляції – якщо я роблю щось дуже небезпечне, стандартні підходи роблять одну з двох речей: або вони повністю ігнорують це, або ще гірше, робот вивчає неправильну річ,” говорить Ніколайдіс.
“Натомість, у дуже розумній спосіб, ця робота використовує деякі загальні розумові висновки у формі логіки для розуміння, які частини демонстрації є добрими, а які частини не є,” він продовжує. “По суті, це саме те, що роблять люди.”
Сигнальна тимчасова логіка
Роботизовані системи можуть розмірковувати про поточні та майбутні результати через STL, яка є виразною математичною символічною мовою. Раніше до STL дослідження спиралися на “лінійну тимчасову логіку”.
Джьо Дешмукх є колишнім інженером Toyota та асистентом професора комп’ютерних наук в USC.
“Коли ми йдемо у світ кіберфізичних систем, як роботизовані системи та самохідні автомобілі, де час є важливим, лінійна тимчасова логіка стає трохи незручною, оскільки вона розмірковує про послідовності істинних/хибних значень для змінних, тоді як STL дозволяє розмірковувати про фізичні сигнали,” говорить Дешмукх.
Команда дослідників була здивована рівнем успіху системи.
“У порівнянні зі стандартним алгоритмом, який широко використовується в роботизованих додатках, ви бачите різницю порядку величини в тому, скільки демонстрацій потрібно,” говорить Ніколайдіс.
За словами дослідників, системи можуть вивчати з симуляторів водіння та в кінцевому підсумку відео. Наступним кроком є тестування на реальних роботах, оскільки початкове тестування проводилось на ігровому симуляторі. Система буде корисною для застосувань, таких як ті, що використовуються в домашніх середовищах, складах та роботизованих системах для дослідження космосу.
“Якщо ми хочемо, щоб роботизовані системи були хорошими партнерами та допомагали людям, вони повинні спочатку вивчати та адаптуватися до людських уподобань дуже ефективно,” говорить Ніколайдіс. “Наш метод забезпечує це.”










