Инструменты ИИ 101

За пределами ChatGPT: AI-агент – новый мир работников

mm

С достижениями в области глубокого обучения, обработки естественного языка (NLP) и ИИ мы живем в эпоху, когда ИИ-агенты могут составлять значительную часть глобальной рабочей силы. Эти ИИ-агенты, превосходящие чат-ботов и голосовых помощников, формируют новую парадигму как для отраслей, так и для нашей повседневной жизни. Но что действительно значит жить в мире, дополненном этими “работниками”? Эта статья глубоко погружается в эту развивающуюся ландшафт, оценивая последствия, потенциал и проблемы, которые лежат впереди.

Краткий обзор: Эволюция ИИ-работников

Прежде чем понять надвигающуюся революцию, важно признать ИИ-обусловленную эволюцию, которая уже произошла.

  • Традиционные системы вычислений: С базовых алгоритмов вычислений началось это путешествие. Эти системы могли решать предопределенные задачи, используя фиксированный набор правил.
  • Чат-боты и ранние голосовые помощники: По мере развития технологий развивались и наши интерфейсы. Инструменты, такие как Siri, Cortana и ранние чат-боты, упрощали взаимодействие пользователя с ИИ, но имели ограниченное понимание и возможности.
  • Нейронные сети и глубокое обучение: Нейронные сети ознаменовали поворотный момент, имитируя функции человеческого мозга и эволюционируя через опыт. Техники глубокого обучения еще больше улучшили это, позволяя совершенствовать распознавание изображений и речи.
  • Трансформеры и продвинутые модели NLP: Введение архитектур трансформеров революционизировало ландшафт NLP. Системы, такие как ChatGPT от OpenAI, BERT и T5, позволили сделать прорывы в общении между человеком и ИИ. С их глубоким пониманием языка и контекста эти модели могут вести осмысленные разговоры, создавать контент и отвечать на сложные вопросы с беспрецедентной точностью.

Вход ИИ-агента: больше, чем просто разговор

Сегодняшний ИИ-ландшафт намекает на что-то более обширное, чем инструменты для разговора. ИИ-агенты, превосходящие простые функции чата, могут теперь выполнять задачи, учиться на своем окружении, принимать решения и даже демонстрировать креативность. Они не просто отвечают на вопросы; они решают проблемы.

Традиционные модели программного обеспечения работали на четком пути. Заинтересованные стороны выражали цель программным менеджерам, которые затем проектировали конкретный план. Инженеры выполняли этот план через строки кода. Эта “наследственная парадигма” программной функциональности была четкой, включающей множество человеческих вмешательств.

ИИ-агенты, однако, работают по-другому. Агент:

  1. Имеет цели, которых он стремится достичь.
  2. Может взаимодействовать со своей средой.
  3. Разрабатывает план на основе этих наблюдений, чтобы достичь своей цели.
  4. Проводит необходимые действия, корректируя свой подход на основе меняющегося состояния окружения.

Что действительно отличает ИИ-агентов от традиционных моделей, так это их способность автономно создавать пошаговый план для реализации цели. По сути, в то время как ранее программист предоставлял план, сегодня ИИ-агенты сами определяют свой курс.

Рассмотрим повседневный пример. В традиционном проектировании программного обеспечения программа уведомляла бы пользователей о просроченных задачах на основе предопределенных условий. Разработчики устанавливали бы эти условия на основе спецификаций, предоставленных менеджером продукта.

В парадигме ИИ-агента сам агент определяет, когда и как уведомить пользователя. Он оценивает окружение (привычки пользователя, состояние приложения) и решает лучший курс действий. Процесс становится более динамичным, более актуальным.

ChatGPT ознаменовал отход от своего традиционного использования с интеграцией плагинов, что позволило ему использовать внешние инструменты для выполнения нескольких запросов. Он стал ранним проявлением концепции агента. Если мы рассмотрим простой пример: пользователь, спрашивающий о погоде в Нью-Йорке, ChatGPT, используя плагины, мог взаимодействовать с внешним API погоды, интерпретировать данные и даже корректировать курс на основе полученных ответов.

Текущий ландшафт ИИ-агентов

Текущий ландшафт ИИ-агентов

ИИ-агенты, включая Auto-GPT, AgentGPT и BabyAGI, возвещают новую эру в обширной вселенной ИИ. Хотя ChatGPT популяризировал генеративный ИИ за счет требования человеческого ввода, видение за ИИ-агентами заключается в том, чтобы позволить ИИ работать самостоятельно, направляясь к целям с минимальным человеческим вмешательством. Этот трансформационный потенциал был подчеркнут метеоритным ростом Auto-GPT, собравшим более 107 000 звезд на GitHub всего за шесть недель после своего создания, что является беспрецедентным ростом по сравнению с устоявшимися проектами, такими как пакет для науки о данных “pandas”.

ИИ-агенты против ChatGPT

Многие продвинутые ИИ-агенты, такие как Auto-GPT и BabyAGI, используют архитектуру GPT. Их основной фокус заключается в минимизации необходимости человеческого вмешательства в выполнении задач ИИ. Описательные термины, такие как “GPT в цикле”, характеризуют работу моделей, таких как AgentGPT и BabyAGI. Они работают в итерационных циклах, чтобы лучше понять запросы пользователей и усовершенствовать свои выходные данные. Тем временем Auto-GPT расширяет границы еще дальше, включая доступ в Интернет и возможности выполнения кода, что значительно расширяет его возможности решения проблем.

Инновации в ИИ-агентах

  1. Долгосрочная память: Традиционные модели LLM имеют ограниченную память, сохраняя только недавние сегменты взаимодействий. Для комплексных задач воспоминание всего разговора или даже предыдущих разговоров становится решающим. Чтобы преодолеть это, ИИ-агенты приняли рабочие процессы встраивания, преобразуя текстовые разговоры в числовые массивы, предлагая решение ограничений памяти.
  2. Возможности просмотра веб-страниц: Чтобы оставаться в курсе последних событий, Auto-GPT был оснащен возможностями просмотра с помощью API Google Search. Это вызвало дебаты в сообществе ИИ относительно объема знаний ИИ.
  3. Выполнение кода: За пределами генерации кода Auto-GPT может выполнять как shell-, так и код на Python. Эта беспрецедентная возможность позволяет ему взаимодействовать с другими программными продуктами, расширяя его операционную область.

АРХИТЕКТУРА ИИ-СИСТЕМЫ, ВОСПОЛЬЗУЮЩЕЙСЯ БОЛЬШОЙ ЯЗЫКОВОЙ МОДЕЛЬЮ И АГЕНТАМИ

Диаграмма визуализирует архитектуру ИИ-системы, работающей на основе большой языковой модели и агентов.

  • Входные данные: Система получает данные из различных источников: прямых команд пользователей, структурированных баз данных, веб-контента и реальных сенсоров окружения.
  • Большая языковая модель и агенты: В ядре большая языковая модель обрабатывает эти входные данные, сотрудничая со специализированными агентами, такими как Auto-GPT для цепочки мыслей, AgentGPT для веб-специфических задач, BabyAGI для задач, специфичных для задач, и HuggingGPT для командной обработки.
  • Выходные данные: Как только информация обработана, она преобразуется в удобный для пользователя формат, а затем передается на устройства, которые могут действовать или влиять на внешнюю среду.
  • Компоненты памяти: Система сохраняет информацию как на временной, так и на постоянной основе, используя кэши и базы данных.
  • Окружение: Это внешняя область, которая влияет на сенсоры и подвергается влиянию действий системы.

Продвинутые ИИ-агенты: Auto-GPT, BabyAGI и многое другое

AutoGPT и AgentGPT

AutoGPT, детище, выпущенное на GitHub в марте 2023 года, является блестящим приложением на Python, которое использует силу GPT, трансформационной генеративной модели OpenAI. Что отличает Auto-GPT от его предшественников, так это его автономность – он предназначен для выполнения задач с минимальным человеческим руководством и имеет уникальную способность самозапуска промптов. Пользователям просто нужно определить общую цель, и Auto-GPT создает необходимые промпты для достижения этой цели, что делает его потенциально революционным шагом к истинному искусственному общему интеллекту (ИОИ).

С функциями, охватывающими подключение к Интернету, управление памятью и возможности хранения файлов с помощью GPT-3.5, этот инструмент способен решать широкий спектр задач, от обычных, таких как составление электронных писем, до сложных задач, которые обычно требуют гораздо больше человеческого участия.

С другой стороны, AgentGPT, также построенный на основе фреймворка GPT, является пользовательским интерфейсом, который не требует обширных знаний программирования для настройки и использования. AgentGPT позволяет пользователям определять цели ИИ, которые он затем разбивает на выполнимые задачи.

ИНТЕРФЕЙС AGENTGPT

ИНТЕРФЕЙС AGENTGPT

Кроме того, AgentGPT выделяется своей универсальностью. Он не ограничивается созданием чат-ботов. Платформа расширяет свои возможности до создания различных приложений, таких как боты Discord, и даже интегрируется без проблем с Auto-GPT. Этот подход гарантирует, что даже те, кто не имеет обширного опыта программирования, могут выполнять задачи, такие как полностью автономальное программирование, генерация текста, перевод языка и решение проблем.

LangChain – это фреймворк, который объединяет большие языковые модели (LLM) с различными инструментами и использует агентов, часто воспринимаемых как “ботов”, для определения и выполнения конкретных задач путем выбора подходящего инструмента. Эти агенты без проблем интегрируются с внешними ресурсами, а векторная база данных в LangChain хранит неструктурированные данные, облегчая быстрое извлечение информации для LLM.

BabyAGI

Затем есть BabyAGI, упрощенный, но мощный агент. Чтобы понять возможности BabyAGI, представьте себе цифрового менеджера проекта, который автономно создает, организует и выполняет задачи с четким фокусом на заданных целях. Хотя большинство ИИ-обусловленных платформ ограничены своей предварительно обученной базой знаний, BabyAGI выделяется своей способностью адаптироваться и учиться на опыте. Он обладает глубокой способностью различать обратную связь и, подобно людям, основывать решения на пробах и ошибках.

Заметно, что основная сила BabyAGI заключается не только в его адаптивности, но и в его способности выполнять код для конкретных целей. Он блестит в сложных областях, таких как торговля криптовалютами, робототехника и автономное вождение, что делает его универсальным инструментом в многочисленных приложениях.

ЗАДАЧА ДРИВЕН АВТОНОМНЫЙ АГЕНТ BABYAGI

https://yoheinakajima.com/task-driven-autonomous-agent-utilizing-gpt-4-pinecone-and-langchain-for-diverse-applications/

Процесс можно категоризировать на три агента:

  1. Исполнительный агент: Сердце системы, этот агент использует API OpenAI для обработки задач. Учитывая цель и задачу, он запрашивает API OpenAI и извлекает результаты задач.
  2. Агент создания задач: Эта функция создает новые задачи на основе предыдущих результатов и текущих целей. Промпт отправляется в API OpenAI, который затем возвращает потенциальные задачи, организованные в виде списка словарей.
  3. Агент приоритизации задач: На заключительном этапе задачи упорядочиваются по приоритету. Этот агент использует API OpenAI для переупорядочения задач, гарантируя, что наиболее важные задачи выполняются первыми.

В сотрудничестве с языковой моделью OpenAI BabyAGI использует возможности Pinecone для контекстно-ориентированного хранения и извлечения результатов задач.

Ниже приведена демонстрация BabyAGI по ссылке.

Чтобы начать, вам понадобится действительный ключ OpenAPI. Для легкого доступа в интерфейсе есть раздел настроек, где можно ввести ключ OpenAPI. Кроме того, если вы хотите управлять затратами, не забудьте установить ограничение на количество итераций.

Как только я настроил приложение, я провел небольшой эксперимент. Я опубликовал промпт в BabyAGI: “Создайте краткую нить твитов, сосредоточенную на пути личностного роста, затрагивающую вехи, проблемы и трансформирующую силу непрерывного обучения”.

BabyAGI ответил хорошо продуманным планом. Это не было просто шаблоном, а комплексной дорожной картой, указывающей на то, что лежащий в основе ИИ действительно понял нюансы запроса.

ЗАДАЧА ДРИВЕН АВТОНОМНЫЙ АГЕНТ BABYAGI

Deepnote AI Copilot

Deepnote AI Copilot меняет динамику изучения данных в блокнотах. Но что отличает его?

В своей основе Deepnote AI направлен на то, чтобы дополнить рабочий процесс данных ученых. Как только вы предоставите базовую инструкцию, ИИ приступает к действию, разрабатывая стратегии, выполняя запросы SQL, визуализируя данные с помощью Python и представляя свои выводы в артикулированной форме.

Одна из сильных сторон Deepnote AI заключается в его всестороннем понимании вашего рабочего пространства. Понимая схемы интеграции и файловые системы, он идеально согласовывает свои планы выполнения с контекстом организации, гарантируя, что его выводы всегда актуальны.

Интеграция ИИ с средой блокнота создает уникальный цикл обратной связи. Он активно оценивает выходные данные кода, что делает его умелым в самокоррекции и гарантирует, что результаты соответствуют заданным целям.

Deepnote AI выделяется своей прозрачной работой, предоставляя четкое понимание своих процессов. Слияние кода и выходных данных гарантирует, что его действия всегда подотчетны и воспроизводимы.

CAMEL

CAMEL – это фреймворк, направленный на содействие сотрудничеству между ИИ-агентами, стремясь к эффективному выполнению задач с минимальным человеческим надзором.

ИИ-АГЕНТ CAMEL

https://github.com/camel-ai/camel

Он делит свои операции на два основных типа агентов:

  • Агент пользователя ИИ излагает инструкции.
  • Агент-помощник ИИ выполняет задачи на основе предоставленных директив.

Одной из целей CAMEL является разгадка сложностей мыслительных процессов ИИ, направленная на оптимизацию синергий между несколькими агентами. С функциями, такими как ролевая игра и инициирующее промптинг, он гарантирует, что задачи ИИ идеально согласуются с человеческими целями.

Симуляция Westworld: жизнь в ИИ

Выведенная из вдохновений, таких как программное обеспечение Unity, и адаптированная на Python, симуляция Westworld – это шаг в симуляции и оптимизации сред, где взаимодействуют несколько ИИ-агентов, почти как цифровое общество.

ГЕНЕРАТИВНЫЕ АГЕНТЫ

ГЕНЕРАТИВНЫЕ АГЕНТЫ

Эти агенты не просто цифровые сущности. Они имитируют правдоподобное человеческое поведение, от повседневных рутин до сложных социальных взаимодействий. Их архитектура расширяет большую языковую модель для хранения опыта, размышлений и использования для динамического планирования поведения.

Интерактивная среда песочницы Westworld, напоминающая The Sims, оживляет город, населенный генеративными агентами. Здесь пользователи могут взаимодействовать, наблюдать и направлять этих агентов на протяжении их дня, наблюдая за возникающими поведениями и сложными социальными динамиками.

Симуляция Westworld представляет собой гармоничное слияние вычислительной мощи и человеческих нюансов. Объединяя обширные языковые модели с динамическими симуляциями агентов, она прокладывает путь к созданию ИИ-опыта, который поразительно неотличим от реальности.

Заключение

ИИ-агенты могут быть невероятно универсальными и они формируют отрасли, меняют рабочие процессы и ermögают подвиги, которые когда-то казались невозможными. Но, как и все революционные инновации, они не без своих недостатков.

Хотя они имеют силу изменить саму ткань нашей цифровой жизни, эти агенты все еще сталкиваются с определенными проблемами, некоторые из которых являются внутренне человеческими, такими как понимание контекста в нюансированных сценариях или решение проблем, лежащих за пределами их обучающих наборов данных.

В следующей статье мы глубже погрузимся в AutoGPT и GPT Engineer, изучая, как настроить и использовать их. Кроме того, мы исследуем причины, по которым эти ИИ-агенты иногда терпят неудачу, такие как застревание в циклах, среди других проблем. Итак, оставайтесь на связи!

Я провел последние пять лет, погружаясь в увлекательный мир машинного обучения и глубокого обучения. Моя страсть и экспертиза привели меня к участию в более чем 50 различных проектах программной инженерии, с особым акцентом на ИИ/МО. Мое непрекращающееся любопытство также привело меня к обработке естественного языка, области, которую я с нетерпением жду возможности изучить дальше.