Инструменты ИИ 101
Большие Модели Действий (LAMs): Новый Рубеж в Взаимодействиях на Основе ИИ
Почти год назад Мустафа Сулейман, сооснователь DeepMind, предсказал, что эра генеративного ИИ скоро уступит место чему-то более интерактивному: системам, способным выполнять задачи, взаимодействуя с программными приложениями и человеческими ресурсами. Сегодня мы начинаем видеть, как это видение принимает форму с разработкой Rabbit AI‘s новой операционной системы, основанной на ИИ, R1. Эта система продемонстрировала впечатляющую способность отслеживать и имитировать человеческие взаимодействия с приложениями. В основе R1 лежит Большая Модель Действий (LAM), продвинутый помощник ИИ, умелый в понимании намерений пользователя и выполнении задач от его имени. Хотя ранее она была известна под другими терминами, такими как Интерактивный ИИ и Большая Агентная Модель, концепция LAMs набирает обороты как ключевое нововведение в взаимодействиях на основе ИИ. Эта статья исследует детали LAMs, как они отличаются от традиционных больших языковых моделей (LLMs), представляет систему Rabbit AI’s R1 и смотрит, как Apple движется к подходу, подобному LAM. Она также обсуждает потенциальные применения LAMs и проблемы, с которыми они сталкиваются.
Понимание Больших Моделей Действий или Агентных Моделей (LAMs)
LAM – это продвинутый агент ИИ, сконструированный для понимания человеческих намерений и выполнения конкретных целей. Эти модели отлично подходят для понимания человеческих потребностей, планирования сложных задач и взаимодействия с различными моделями, приложениями или людьми для выполнения своих планов. LAMs выходят за рамки простых задач ИИ, таких как генерация ответов или изображений; они являются полноценными системами, предназначенными для обработки сложных действий, таких как планирование путешествий, назначение встреч и управление электронной почтой. Например, при планировании путешествий LAM координирует с приложением погоды для прогнозов, взаимодействует с сервисами бронирования рейсов, чтобы найти подходящие рейсы, и взаимодействует с системами бронирования отелей, чтобы обеспечить проживание. В отличие от многих традиционных моделей ИИ, которые полагаются исключительно на нейронные сети, LAMs используют гибридный подход, сочетающий нейро-символическое программирование. Это интеграция символического программирования помогает в логическом рассуждении и планировании, в то время как нейронные сети способствуют распознаванию сложных сенсорных шаблонов. Это сочетание позволяет LAMs решать широкий спектр задач, отмечая их как тонкое развитие в взаимодействиях на основе ИИ.
Сравнение LAMs с LLMs
В отличие от LAMs, LLMs – это агенты ИИ, которые отлично подходят для интерпретации подсказок пользователя и генерации текстовых ответов, помогая в основном с задачами, которые включают обработку языка. Однако их объем обычно ограничен текстовыми действиями. С другой стороны, LAMs расширяют возможности ИИ за пределы языка, позволяя им выполнять сложные действия для достижения конкретных целей. Например, хотя LLM может эффективно составить электронное письмо на основе инструкций пользователя, LAM идет дальше, не только составляя, но и понимая контекст, решая о подходящем ответе и управляя доставкой электронного письма.
Кроме того, LLMs обычно предназначены для предсказания следующего токена в последовательности текста и для выполнения написанных инструкций. Напротив, LAMs оснащены не только пониманием языка, но и способностью взаимодействовать с различными приложениями и реальными системами, такими как устройства IoT. Они могут выполнять физические действия, контролировать устройства и управлять задачами, которые требуют взаимодействия с внешней средой, такими как бронирование встреч или заказ билетов. Это интеграция языковых навыков с практическим выполнением позволяет LAMs работать в более разнообразных сценариях, чем LLMs.
LAMs в Действии: Rabbit R1
Rabbit R1 стоит как пример LAMs в практическом использовании. Это устройство, работающее на ИИ, может управлять несколькими приложениями через одно, удобное для пользователя интерфейс. Оснащенное 2,88-дюймовым сенсорным экраном, поворотной камерой и колесом прокрутки, R1 находится в элегантном, округлом корпусе, созданном в сотрудничестве с Teenage Engineering. Оно работает на процессоре MediaTek с частотой 2,3 ГГц, усиленном 4 ГБ оперативной памяти и 128 ГБ хранилища.
В основе R1 лежит его LAM, который интеллектуально контролирует функциональность приложений и упрощает сложные задачи, такие как управление музыкой, бронирование транспорта, заказ продуктов и отправка сообщений, все из одной точки взаимодействия. Таким образом R1 устраняет хлопоты переключения между несколькими приложениями или несколькими входами для выполнения этих задач.
LAM внутри R1 был первоначально обучен, наблюдая за человеческими взаимодействиями с популярными приложениями, такими как Spotify и Uber. Это обучение позволило LAM ориентироваться в интерфейсах пользователя, распознавать иконки и обрабатывать транзакции. Это обширное обучение позволяет R1 адаптироваться гибко к практически любому приложению. Кроме того, специальный режим обучения позволяет пользователям вводить и автоматизировать новые задачи, непрерывно расширяя возможности R1 и делая его динамичным инструментом в области взаимодействий на основе ИИ.
Прогресс Apple в Направлении Возможностей, Подобных LAM, в Siri
Команда исследований ИИ Apple недавно поделилась идеями о своих усилиях по улучшению возможностей Siri через новую инициативу, похожую на те, что у LAMs. Инициатива, изложенная в исследовательской работе о Reference Resolution As Language Modeling (ReALM), направлена на улучшение способности Siri понимать контекст разговора, обрабатывать визуальный контент на экране и обнаруживать окружающие действия. Подход, принятый ReALM при обработке входных данных интерфейса пользователя (UI), проводит параллели с функциональностью, наблюдаемой в Rabbit AI’s R1, демонстрируя намерение Apple улучшить понимание Siri взаимодействий пользователя.
Это развитие указывает на то, что Apple рассматривает возможность принятия технологий LAM для уточнения того, как пользователи взаимодействуют со своими устройствами. Хотя нет явных объявлений о развертывании ReALM, потенциал для значительного улучшения взаимодействия Siri с приложениями предполагает перспективные достижения в том, чтобы сделать помощника более интуитивным и отзывчивым.
Потенциальные Применения LAMs
LAMs имеют потенциал расширить свое влияние далеко за пределы улучшения взаимодействий между пользователями и устройствами; они могут обеспечить значительные выгоды в нескольких отраслях.
- Сервисы Клиентов: LAMs могут улучшить сервисы клиентов, независимо обрабатывая запросы и жалобы по различным каналам. Эти модели могут обрабатывать запросы с использованием естественного языка, автоматизировать решения и управлять планированием, предоставляя персонализированную службу на основе истории клиента для улучшения удовлетворенности.
- Здравоохранение: В здравоохранении LAMs могут помочь управлять уходом за пациентами, организовывать встречи, управлять рецептами и облегчать связь между службами. Они также полезны для удаленного мониторинга, интерпретации медицинских данных и оповещения персонала в случае чрезвычайных ситуаций, особенно полезных для хронического и ухода за пожилыми людьми.
- Финансы: LAMs могут предлагать персонализированные финансовые советы и управлять задачами, такими как балансировка портфеля и предложения по инвестициям. Они также могут отслеживать транзакции для обнаружения и предотвращения мошенничества, интегрируясь без проблем с банковскими системами для быстрого реагирования на подозрительные действия.
Проблемы LAMs
Несмотря на их значительный потенциал, LAMs сталкиваются с несколькими проблемами, которые необходимо решить.
- Приватность и Безопасность Данных: Учитывая широкий доступ к личной и конфиденциальной информации, необходимой для функционирования LAMs, обеспечение приватности и безопасности данных является серьезной проблемой. LAMs взаимодействуют с личными данными по нескольким приложениям и платформам, вызывая обеспокоенность по поводу безопасной обработки, хранения и обработки этой информации.
- Этические и Регуляторные Проблемы: Поскольку LAMs принимают на себя более автономные роли в принятии решений и взаимодействии с человеческой средой, этические соображения становятся все более важными. Вопросы об ответственности, прозрачности и степени делегирования решений машинам являются критическими. Кроме того, могут быть регуляторные проблемы при развертывании таких передовых систем ИИ в различных отраслях.
- Сложность Интеграции: LAMs требуют интеграции с различными программными и аппаратными системами для эффективного выполнения задач. Эта интеграция сложна и может быть сложной для управления, особенно при координации действий по различным платформам и службам, таким как бронирование рейсов, проживания и других логистических деталей в режиме реального времени.
- Масштабируемость и Адаптивность: Хотя LAMs предназначены для адаптации к широкому спектру сценариев и приложений, масштабирование этих решений для эффективного и эффективного выполнения в различных реальных средах остается проблемой. Обеспечение того, чтобы LAMs могли адаптироваться к меняющимся условиям и поддерживать производительность по различным задачам и потребностям пользователей, является важным для их долгосрочного успеха.
Итог
Большие Модели Действий (LAMs) появляются как значительное нововведение в ИИ, влияя не только на взаимодействия с устройствами, но и на более широкие отраслевые применения. Демонстрируемые Rabbit AI’s R1 и исследуемые в прогрессе Apple с Siri, LAMs устанавливают сцену для более интерактивных и интуитивных систем ИИ. Эти модели готовы улучшить эффективность и персонализацию в таких секторах, как сервисы клиентов, здравоохранение и финансы.
Однако развертывание LAMs сопровождается проблемами, включая проблемы с приватностью данных, этические вопросы, сложности интеграции и масштабируемости. Решение этих проблем имеет важное значение, поскольку мы продвигаемся к более широкому принятию технологий LAM, стремясь использовать их возможности ответственно и эффективно. Поскольку LAMs продолжают развиваться, их потенциал для трансформации цифровых взаимодействий остается значительным, подчеркивая их важность в будущем ландшафте ИИ.












