Искусственный интеллект

OpenAgents: открытая платформа для языковых агентов в дикой природе

опубликованный 22 ноября 2023

Кунал Кеджривал

Недавние разработки показали, что языковые агенты, особенно те, которые созданы на основе больших языковых моделей (LLM), обладают потенциалом для выполнения широкого спектра сложных задач в различных средах с использованием естественного языка. Однако в настоящее время основное внимание в большинстве структур языковых агентов уделяется созданию языковых агентов для проверки концепции. При таком подходе зачастую практически не уделяется внимания проектам на уровне приложений и часто игнорируется доступность этих агентов для неопытных пользователей.

Чтобы преодолеть текущие ограничения, с которыми сталкиваются языковые агенты, разработчики придумали Фреймворк OpenAgents, открытая платформа для размещения и развертывания языковых агентов. в дикой природе и при выполнении множества повседневных задач. Платформа OpenAgents построена на трех агентах.

Агент данных: Помогает в анализе данных с использованием инструментов обработки данных и языков запросов, таких как SQL, или языков программирования, таких как Python.

Агенты плагинов: Помогает, предоставляя доступ к более чем 200+ инструментам API, полезным для повседневных задач.

Веб-агенты: Помогает в просмотре веб-страниц, сохраняя при этом вашу анонимность.

Платформа OpenAgents использует веб-интерфейс пользователя, оптимизированный для частых сбоев и быстрого реагирования, пытаясь позволить обычным пользователям взаимодействовать с функциями агента, в то же время предлагая исследователям и разработчикам беспрепятственный опыт развертывания в их локальных установках. Можно с уверенностью сказать, что структура OpenAgents — это попытка обеспечить прочную основу для облегчения реальных оценок и создания инновационных, эффективных и продвинутых языковых агентов.

В сегодняшней статье мы более подробно углубимся в структуру OpenAgents и поговорим о ней более подробно. Мы поговорим о работе и архитектуре структуры, а также обсудим общие проблемы и результаты. Итак, давайте начнем.

OpenAgents и языковые агенты: введение

Языковые агенты по своей сути произошли от интеллектуальных агентов. Предполагается, что эти интеллектуальные агенты обладают автономными возможностями решения проблем, а также способностью чувствовать окружающую среду, принимать решения и действовать соответствующим образом. Благодаря достижениям в области больших языковых моделей глобальное сообщество разработчиков использовало концепцию интеллектуальных агентов и LLM для создания языковых агентов. Эти агенты используют программирование на естественном языке (НЛП) для выполнения широкого спектра сложных задач в различных средах, и недавно они продемонстрировали замечательный потенциал.

Современные платформы языковых агентов, такие как Gravitas и Chase, в первую очередь предоставляют консольный интерфейс, адаптированный для разработчиков, а также экспериментальные реализации. Однако они часто ограничивают доступ более широкой аудитории, особенно для тех, кто не владеет программированием. Кроме того, текущие тесты агентов создаются разработчиками с особыми требованиями к детерминированной оценке, особенно в сценариях, требующих просмотра веб-страниц, кодирования, использования инструментов или их комбинации.

Стремясь разработать интеллектуальные и языковые агенты на базе LLM для более широкой пользовательской базы, такие признанные игроки, как OpenAI и Microsoft, внедрили ряд хорошо продуманных продуктов, включая расширенный анализ данных, также известный как интерпретатор кода, и плагины для браузера. Хотя эти агенты эффективны в своих функциях, они оказывают ограниченную помощь сообществу разработчиков. Это ограничение возникает из-за того, что код бизнес-логики и реализации модели не являются открытыми, что ограничивает возможности разработчиков и исследователей для их дальнейшего изучения, а также ограничивает свободный доступ для пользователей.

Пытаясь решить эту проблему, разработчики придумали OpenAgents, платформа с открытым исходным кодом для размещения и использования агентов, в настоящее время построенная на основе трех внутренних агентов.

Агент данных: Помогает в анализе данных с использованием инструментов обработки данных и языков запросов, таких как SQL, или языков программирования, таких как Python.

Агенты плагинов: Помогает, предоставляя доступ к более чем 200+ инструментам API, полезным для повседневных задач.

Веб-агенты: Помогает в просмотре веб-страниц, сохраняя при этом вашу анонимность.

На следующем рисунке показана платформа OpenAgents для обычных пользователей, разработчиков и исследователей.

Вместо использования пакета или консолей, ориентированных на программистов, обычные пользователи могут взаимодействовать с тремя агентами в рамках OpenAgents, используя онлайн-веб-интерфейс.
Разработчики могут использовать бизнес-логику и исследовательские коды, предоставляемые платформой OpenAgents, для беспрепятственного развертывания серверной и внешней частей для дальнейших разработок.
Исследователи имеют возможность либо создавать новые языковые агенты с нуля, либо реализовывать методы, связанные с агентами, с использованием общих компонентов и примеров, а также оценивать их производительность с помощью веб-интерфейса.

Подводя итог, можно сказать, что платформа OpenAgents изначально задумывалась как целостная и реалистичная платформа для автоматической оценки языковых агентов, которая позволяет пользователям взаимодействовать с этими агентами для выполнения широкого спектра задач. Взаимодействие агентов и отзывы пользователей сохраняются и анализируются для дальнейшего развития и оценки.

Для тех, кто не в курсе, LLM подсказки это процесс, который позволяет разработчикам создавать инструкции, которые защищают от состязательных или неправильных входных данных, улучшают эстетику вывода и удовлетворяют внутреннюю логику. На этапе разработки разработчики, работающие над платформой OpenAgents, используют технику подсказок LLM, чтобы подчеркнуть важность эффективного определения требований приложения. Однако вскоре разработчики заметили, что накопление этих инструкций или подсказок LLM может иногда быть значительным, что может повлиять на возможности обработки контекста в рамках LLM, а также на ограничения токенов. Разработчики также отметили, что для эффективного развертывания этих агентов в реальном мире модели агентов должны не только демонстрировать исключительную производительность, но также быть в состоянии решать широкий спектр интерактивных сценариев в режиме реального времени. Хотя текущие структуры агентов обеспечив производительность, они часто игнорируют соображения реального мира, особенно в режиме реального времени, что часто скрывает истинный потенциал структур LLM, жертвуя скоростью реагирования или точностью.

На следующем рисунке мы непосредственно сравниваем платформу OpenAgents с существующими работами по тестированию концепции агента и созданию прототипов.

OpenAgents: Проектирование и реализация платформы

Системный дизайн или архитектуру платформы OpenAgents можно разделить на два основных компонента: Пользовательский интерфейс, включая как бэкэнд, так и интерфейс, и Языковой агент, включающий инструменты, языковые модели и среды. Платформа OpenAgents предоставляет интерфейс для связи между пользователями и агентами. Поток взаимодействия в рамках выглядит следующим образом.

Агенты используют доступные им инструменты для планирования и выполнения необходимых действий в среде после получения входных данных от пользователей. Архитектура или систематический дизайн структуры продемонстрированы на следующем изображении.

Пользовательский интерфейс

Разработчики платформы OpenAgents приложили много усилий и усилий для разработки не только высокофункционального, но и удобного пользовательского интерфейса после решения проблемы нагрузки с хост-агентами и многократно используемой бизнес-логикой. В результате платформа OpenAgents может похвастаться поддержкой широкого спектра технических задач, включая обработку ошибок, операции внутреннего сервера, потоковую передачу данных и многое другое, при этом основная цель состоит в том, чтобы сделать платформу OpenAgents удобной для пользователя, но высокоэффективной и эффективной. можно использовать одновременно.

Языковой агент

В рамках OpenAgents языковой агент состоит из трех основных компонентов: интерфейс инструмента, языковая модель и сама среда. Метод подсказок, реализованный в среде OpenAgents, создает последовательный процесс, которому должны следовать агенты, который начинается с Наблюдение -> Обсуждение -> Действие. Платформа также предлагает LLM генерировать анализируемый текст с повышенной эффективностью, а интерфейс инструмента состоит из анализаторов, которые могут переводить эти анализируемые тексты, сгенерированные LLM, в исполняемые действия, такие как вызовы API или генерация кода. Эти действия затем выполняются платформой в пределах соответствующей среды.

Агенты OpenAgents

В основе OpenAgents лежат три различных агента: Агент данных это помогает при анализе данных с использованием инструментов обработки данных и языков запросов, таких как SQL, или языков программирования, таких как Python, Агенты плагинов которая помогает, предоставляя доступ к более чем 200+ инструментам API, полезным для повседневных задач, и Веб-агенты это помогает просматривать веб-страницы, сохраняя при этом вашу анонимность. Эти агенты имеют индивидуальный опыт в предметной области, аналогичный плагинам ChatGPT, однако, в отличие от ChatGPT, реализация OpenAgents основана исключительно на открытом языке интерфейса прикладного программирования или API.

Агент данных

Агент данных в среде OpenAgents был разработан и развернут таким образом, чтобы решать широкий спектр задач, связанных с данными, с которыми конечные пользователи сталкиваются на регулярной основе. Агенты данных поддерживают генерацию и выполнение кода на двух языках программирования, а именно SQL и Python, а также в распоряжении агента имеется несколько инструментов обработки данных, включая Профилирование данных для предоставления основных данных, Поиск данных Kaggle для поиска наборов данных и Инструмент ECharts для построения интерактивных электронных диаграмм. Более того, платформа OpenAgents предлагает агенту данных активно использовать эти инструменты для эффективного реагирования на запросы конечных пользователей. Кроме того, учитывая исчерпывающие требования к кодированию, платформа OpenAgents выбирает встроенные языковые модели для агента данных, и код генерирует не агент, а такие инструменты, как Python, ECharts и SQL. Благодаря такому подходу платформа способна полностью использовать возможности программирования языковых моделей и, таким образом, снизить нагрузку на агента данных.

С помощью этих инструментов обработки данных агент данных способен управлять многочисленными запросами, ориентированными на данные, и умело выполнять визуализацию, манипулирование и запросы данных, тем самым выходя за рамки генерации кода и текста. На следующем рисунке показан агент данных в действии и инструменты, доступные обычным пользователям.

Агент плагинов

Агент плагина в структуре OpenAgents был тщательно разработан разработчиками для удовлетворения многогранных требований пользователя для выполнения повседневных задач, включая поиск в Интернете, онлайн-покупки, чтение новостей или создание веб-сайтов и приложений, предоставляя доступ к более чем 200 плагинам, уделяя особое внимание. оплата осуществляется за интерфейс вызова функций, запросы API и длину ответа API. Некоторые из известных плагинов включают в себя

Google Поиск
Wolfram Alpha
Zapier
Klarna
Coursera
Show Me
Говорить
СпроситеВашPDF
БизТок
Клук

В зависимости от своих потребностей и требований пользователи могут выбрать количество плагинов, которые они хотят использовать с помощью агентов плагинов, и работа продемонстрирована на рисунке ниже.

Кроме того, чтобы помочь пользователям в ситуациях, когда они не уверены, какой плагин лучше всего соответствует их требованиям, платформа OpenAgents предлагает пользователям функцию, которая автоматически выбирает плагины, наиболее соответствующие их инструкциям.

Веб-агенты

Платформа OpenAgents представляет веб-агент как специализированный инструмент, призванный повысить эффективность и возможности чат-агента. Хотя в чат-агенте по-прежнему находится основной интерфейс взаимодействия, при необходимости он легко включает в себя веб-агент. Окончательный ответ затем доставляется конечному пользователю веб-агентом, и этот процесс показан на рисунке ниже.

Стратегия проектирования, реализованная в этих веб-агентах, приносит большую пользу, поскольку агент чата систематически обрабатывает важные параметры или инициирует URL-адреса, прежде чем они будут переданы веб-агенту, обеспечивая тем самым лучшее соответствие между требованиями пользователя и генерируемыми выходными данными, таким образом что приводит к четкому общению. Кроме того, эта стратегия также позволяет веб-агентам обрабатывать многоуровневые и адаптируемые запросы пользователей, используя динамическую многоповоротную веб-навигацию в сочетании с диалогами в чате. Таким образом, четко разграничивая роли и обязанности агентов чата и мультибраузера, платформа OpenAgents открывает путь для совершенствования и развития каждого отдельного модуля.

OpenAgents: практическое применение и развертывание в реальных условиях

В этом разделе мы поговорим о траектории развития платформы OpenAgents от теории до внедрения в реальном мире, а также о возникших проблемах и полученных знаниях, а также о сложностях оценки, с которыми столкнулись разработчики.

Использование подсказок для преобразования больших языковых моделей в реальные приложения

При использовании подсказок LLM для создания реальных приложений для конечных пользователей платформа OpenAgents использует подсказки для указания определенных требований. Целью некоторых инструкций является обеспечение соответствия вывода определенному формату, что позволяет обрабатывать внутреннюю логику, в то время как целью других инструкций является повышение эстетической привлекательности вывода, тогда как остальные защищают структуру от потенциальных злонамеренные атаки.

Неконтролируемые факторы реального мира

Когда разработчики развернули платформу OpenAgents в реальном мире, их приветствовал целый ряд неконтролируемых реальных факторов, вызванных интернет-инфраструктурой, пользователями, бизнес-логикой и многим другим. Эти неконтролируемые факторы заставили разработчиков переоценить и перенастроить некоторые предположения на основе предыдущих исследований, и в конечном итоге они могут привести к ситуациям, когда конечные пользователи могут быть не удовлетворены ответом, который генерирует платформа.

Сложность оценки

Хотя созданные агенты, предназначенные непосредственно для приложений, могут иметь более широкое применение и способствовать лучшей оценке, они усложняют создание приложений на основе LLM, что затрудняет анализ производительности приложений. Кроме того, этот подход также увеличивает нестабильность и расширяет системную цепочку LLM из-за этого фреймворку сложно адаптироваться к различным компонентам. Таким образом, имеет смысл усовершенствовать конструкцию системы и логику работы этих агентов, чтобы упростить процедуры и обеспечить эффективный результат.

Заключение

В этой статье мы говорили о платформе OpenAgents, открытой платформе для размещения и развертывания языковых агентов. в дикой природе и при выполнении множества повседневных задач. Платформа OpenAgents построена на основе трех агентов: агента данных, помогает с анализом данных с использованием инструментов обработки данных и языков запросов, таких как SQL, или языков программирования, таких как Python, агентов плагинов, помогает, предоставляя доступ к более чем 200+ инструментам API, полезным для повседневных задач, а веб-агенты помогают просматривать веб-страницы, сохраняя при этом вашу анонимность. . Платформа OpenAgents использует веб-интерфейс пользователя, оптимизированный для частых сбоев и быстрого реагирования, пытаясь позволить обычным пользователям взаимодействовать с функциями агента, в то же время предлагая исследователям и разработчикам беспрепятственный опыт развертывания в их локальных установках. Предоставляя прозрачную, целостную и легко развертываемую платформу, OpenAgents стремится сделать потенциал LLM доступным для более широкого круга пользователей, не ограничиваясь исследователями и разработчиками, но также и конечными пользователями с ограниченными техническими знаниями.

Похожие темы:LLM открытые агенты

Кунал Кеджривал

«Инженер по профессии, писатель душой». Кунал — технический писатель с глубокой любовью и пониманием ИИ и машинного обучения, стремящийся упростить сложные концепции в этих областях с помощью своей увлекательной и информативной документации.