Робототехника
Как роботы учатся просить о помощи

В развивающемся мире робототехники выделяется новаторское сотрудничество между Принстонским университетом и Google. Инженеры этих престижных учреждений разработали инновационный метод, который учит роботов важнейшему навыку: распознавать, когда им нужна помощь и как ее попросить. Эта разработка знаменует собой значительный шаг вперед в робототехнике, устраняя разрыв между автономным функционированием и взаимодействием человека и робота.
На пути к созданию более умных и независимых роботов всегда стояла одна серьезная проблема: сложность и двусмысленность человеческого языка. В отличие от двоичной ясности компьютерных кодов, человеческий язык пронизан нюансами и тонкостями, что делает его лабиринтом для роботов. Например, такая простая команда, как «поднять миску», может стать сложной задачей, если имеется несколько мисок. Роботы, способные чувствовать окружающую среду и реагировать на язык, часто оказываются на распутье, когда сталкиваются с такой языковой неопределенностью.
Количественная оценка неопределенности
Решая эту проблему, команда Принстона и Google представила новый подход, позволяющий количественно оценить «размытость» человеческого языка. Этот метод, по сути, измеряет уровень неопределенности в языковых командах и использует эту метрику для управления действиями робота. В ситуациях, когда команда может иметь несколько интерпретаций, робот теперь может оценить уровень неопределенности и решить, когда следует обратиться за дополнительными разъяснениями. Например, в среде с несколькими мисками более высокая степень неопределенности побудит робота спросить, какую миску взять, тем самым избегая потенциальных ошибок или неэффективности.
Этот подход не только дает роботам возможность лучше понимать язык, но также повышает их безопасность и эффективность при выполнении задач. Интегрировав большие языковые модели (LLM), подобные тем, что лежат в основе ChatGPT, исследователи сделали значительный шаг в более тесном согласовании действий роботов с человеческими ожиданиями и потребностями.
Роль больших языковых моделей
Интеграция LLM играет ключевую роль в этом новом подходе. LLM играют важную роль в обработке и интерпретации человеческого языка. В этом контексте они используются для оценки и измерения неопределенности, присутствующей в языковых командах, передаваемых роботам.
Однако зависимость от степеней LLM не лишена недостатков. Как отметила исследовательская группа, результаты степеней LLM иногда могут быть ненадёжными.
Анирудха Маджумдар, доцент Принстона, подчеркивает важность этого баланса:
«Слепое следование планам, разработанным LLM, может привести к тому, что роботы будут действовать небезопасно или ненадежно, и поэтому нам нужно, чтобы наши роботы на основе LLM знали, когда они чего-то не знают».
Это подчеркивает необходимость детального подхода, при котором LLM используются как инструменты для руководства, а не как безошибочные лица, принимающие решения.
Практическое применение и тестирование
Практичность этого метода была проверена в различных сценариях, продемонстрировав его универсальность и эффективность. В одном из таких испытаний использовался роботизированный манипулятор, которому было поручено сортировать игрушечные продукты питания по различным категориям. Эта простая установка продемонстрировала способность робота эффективно выполнять задания с однозначным выбором.

Изображение: Принстонский университет
Сложность значительно возросла в другом эксперименте, в котором роботизированная рука была установлена на колесной платформе на офисной кухне. Здесь робот столкнулся с реальными проблемами, такими как определение правильного предмета для микроволновой печи, когда ему было предложено несколько вариантов.
Благодаря этим тестам роботы успешно продемонстрировали свою способность использовать количественную неопределенность для принятия решений или поиска разъяснений, тем самым подтвердив практическую полезность этого метода.
Будущие последствия и исследования
Заглядывая в будущее, можно сказать, что последствия этого исследования выходят далеко за рамки текущих приложений. Команда под руководством Маджумдара и аспиранта Аллена Рена изучает, как этот подход можно применить к более сложным проблемам восприятия роботов и искусственного интеллекта. Сюда входят сценарии, в которых роботам необходимо объединять зрительную и языковую информацию для принятия решений, что еще больше сокращает разрыв между роботизированным пониманием и человеческим взаимодействием.
Продолжающиеся исследования направлены не только на повышение способности роботов выполнять задачи с более высокой точностью, но и на то, чтобы ориентироваться в мире с пониманием, близким к человеческому познанию. Это исследование может проложить путь к созданию роботов, которые не только будут более эффективными и безопасными, но и будут лучше соответствовать тонким требованиям среды обитания человека.
Вы можете найти опубликованные исследования здесь.












