Штучний Інтелект
Великі моделі дії (LAM): наступний рубіж у взаємодії на основі ШІ
Майже рік тому Мустафа Сулейман, співзасновник DeepMind, передвіщений що епоха генеративний ШІ незабаром поступиться місцем чомусь більш інтерактивному: системам, здатним виконувати завдання, взаємодіючи з програмними додатками та людськими ресурсами. Сьогодні ми починаємо бачити, як це бачення формується з розвитком Кролик А.Інова операційна система на основі ШІ, R1. Ця система продемонструвала вражаючу здатність відстежувати та імітувати взаємодію людини з програмами. В основі R1 лежить Велика модель дії (LAM), вдосконалений помічник зі штучним інтелектом, який вміє розуміти наміри користувачів і виконувати завдання від їх імені. Хоча раніше відомий іншими термінами, такими як Інтерактивний ШІ та Велика агентська модель, концепція LAM набирає обертів як ключова інновація у взаємодії на основі ШІ. У цій статті розглядаються деталі LAM, чим вони відрізняються від традиційнихarge мовні моделі (LLM), представляє систему R1 від Rabbit AI та розглядає, як Apple рухається до підходу, подібного до LAM. Також обговорюються потенційні способи використання LAM та проблеми, з якими вони стикаються.
Розуміння великих дій або агентських моделей (LAM)
LAM — це передовий агент штучного інтелекту, розроблений для розуміння людських намірів і виконання конкретних цілей. Ці моделі відмінно розуміють людські потреби, планують складні завдання та взаємодіють з різними моделями, програмами або людьми для реалізації своїх планів. LAM виходять за рамки простих завдань штучного інтелекту, таких як створення відповідей або зображень; це повноцінні системи, призначені для виконання складних завдань, таких як планування подорожей, планування зустрічей і керування електронною поштою. Наприклад, під час планування подорожей LAM координуватиме роботу з додатком погоди для прогнозів, взаємодіятиме зі службами бронювання авіарейсів, щоб знайти відповідні рейси, і взаємодіятиме з системами бронювання готелів, щоб забезпечити проживання. На відміну від багатьох традиційних моделей ШІ, які залежать виключно від нейронні мережі, LAM використовують комбінування гібридного підходу нейросимволічне програмування. Ця інтеграція символьне програмування допомагає в логічних міркуваннях і плануванні, тоді як нейронні мережі сприяють розпізнаванню складних сенсорних моделей. Ця суміш дозволяє LAM вирішувати широкий спектр завдань, позначаючи їх як нюансований розвиток у взаємодії на основі ШІ.
Порівняння LAM з LLM
На відміну від LAM, LLM — це агенти штучного інтелекту, які чудово інтерпретують підказки користувача та генерують текстові відповіді, допомагаючи головним чином із завданнями, які передбачають обробку мови. Однак їх сфера застосування зазвичай обмежується діяльністю, пов’язаною з текстом. З іншого боку, LAM розширюють можливості ШІ за межі мови, дозволяючи їм виконувати складні дії для досягнення конкретних цілей. Наприклад, у той час як LLM може ефективно писати електронний лист на основі інструкцій користувача, LAM йде далі, не лише створюючи, але й розуміючи контекст, приймаючи рішення щодо відповідної відповіді та керуючи доставкою електронного листа.
Крім того, LLM зазвичай розроблені для передбачення наступного токена в послідовності тексту та для виконання письмових інструкцій. Навпаки, LAM оснащені не тільки розумінням мови, але й здатністю взаємодіяти з різними програмами та системами реального світу, такими як пристрої IoT. Вони можуть виконувати фізичні дії, керувати пристроями та керувати завданнями, які вимагають взаємодії із зовнішнім середовищем, як-от бронювання зустрічей або резервування. Ця інтеграція мовних навичок із практичним виконанням дозволяє LAM працювати в більш різноманітних сценаріях, ніж LLM.
LAMs in Action: The Rabbit R1
Команда Кролик R1 виступає як яскравий приклад LAM у практичному використанні. Цей пристрій на основі штучного інтелекту може керувати декількома програмами через єдиний зручний інтерфейс. Оснащений 2.88-дюймовим сенсорним екраном, камерою, що обертається, і колесом прокрутки, R1 розміщено в гладкому округлому корпусі, створеному у співпраці з Teenage Engineering. Він працює на базі процесора MediaTek 2.3 ГГц, доповненого 4 ГБ пам’яті та 128 ГБ пам’яті.
В основі R1 лежить його LAM, який інтелектуально контролює функціональні можливості додатків і спрощує такі складні завдання, як керування музикою, бронювання транспорту, замовлення продуктів і надсилання повідомлень, усе з однієї точки взаємодії. Таким чином R1 усуває клопоти, пов’язані з перемиканням між кількома програмами або кількома логінами для виконання цих завдань.
LAM у R1 спочатку тренувався шляхом спостереження за взаємодією людини з такими популярними програмами, як Spotify і Uber. Цей тренінг дозволив LAM орієнтуватися в інтерфейсі користувача, розпізнавати піктограми та обробляти транзакції. Це широке навчання дозволяє R1 плавно адаптуватися практично до будь-якого застосування. Крім того, спеціальний режим навчання дозволяє користувачам вводити та автоматизувати нові завдання, постійно розширюючи спектр можливостей R1 і роблячи його динамічним інструментом у сфері взаємодії на основі ШІ.
Досягнення Apple у напрямку розвитку можливостей Siri, натхненних LAM
Дослідницька команда Apple зі штучного інтелекту нещодавно поділилася інформацією про свої зусилля щодо вдосконалення можливостей Siri за допомогою нової ініціативи, подібної до LAM. Ініціатива, викладена в дослідницькій статті про Роздільна здатність посилання як моделювання мови (ReALM) має на меті покращити здатність Siri розуміти контекст розмови, обробляти візуальний контент на екрані та виявляти активність у навколишньому середовищі. Підхід, який застосовує ReALM до обробки вхідних даних інтерфейсу користувача (UI), проводить паралелі з функціональністю, що спостерігається в R1 Rabbit AI, демонструючи намір Apple покращити розуміння Siri взаємодії з користувачем.
Цей розвиток вказує що Apple розглядає можливість впровадження технологій LAM для покращення взаємодії користувачів зі своїми пристроями. Хоча немає явних оголошень щодо розгортання ReALM, потенціал для значного покращення взаємодії Siri з програмами свідчить про багатообіцяючі досягнення у створенні асистента більш інтуїтивним та чуйним.
Потенційні застосування LAM
LAM мають потенціал розширити свій вплив далеко за межі покращення взаємодії між користувачами та пристроями; вони можуть забезпечити значні переваги в багатьох галузях.
- Обслуговування клієнтів: LAMs можуть покращити обслуговування клієнтів шляхом незалежної обробки запитів і скарг через різні канали. Ці моделі можуть обробляти запити за допомогою природної мови, автоматизувати рішення та керувати плануванням, надаючи персоналізовані послуги на основі історії клієнтів для підвищення рівня задоволеності.
- Охорона здоров'я: У сфері охорони здоров’я LAM може допомогти керувати доглядом за пацієнтами, організовуючи зустрічі, керуючи рецептами та полегшуючи зв’язок між службами. Вони також корисні для віддаленого моніторингу, інтерпретації медичних даних і оповіщення персоналу в надзвичайних ситуаціях, особливо корисні для лікування хронічних людей і людей похилого віку.
- Фінанси: LAM можуть надавати персоналізовані фінансові поради та керувати такими завданнями, як збалансування портфеля та інвестиційні пропозиції. Вони також можуть відстежувати транзакції, щоб виявляти та запобігати шахрайству, бездоганно інтегруючись із банківськими системами для швидкого усунення підозрілих дій.
Проблеми LAM
Незважаючи на свій значний потенціал, LAM стикаються з кількома проблемами, які потребують вирішення.
- Конфіденційність і безпека даних: Враховуючи широкий доступ до особистої та конфіденційної інформації, необхідний LAM для функціонування, забезпечення конфіденційності та безпеки даних є серйозною проблемою. LAM взаємодіють з особистими даними в багатьох програмах і платформах, що викликає занепокоєння щодо безпечної обробки, зберігання та обробки цієї інформації.
- Проблеми етики та регулювання: Оскільки LAM беруть на себе більш автономні ролі в прийнятті рішень і взаємодії з людським середовищем, етичні міркування стають все більш важливими. Питання про підзвітність, прозорість і ступінь прийняття рішень, делегованих машинам, є критичними. Крім того, у розгортанні таких передових систем штучного інтелекту в різних галузях можуть виникнути проблеми з регулюванням.
- Складність інтеграції: LAM потребують інтеграції з різними програмними та апаратними системами для ефективного виконання завдань. Ця інтеграція складна, і керувати нею може бути складно, особливо під час координації дій на різних платформах і службах, таких як бронювання авіаквитків, розміщення та інші логістичні деталі в режимі реального часу.
- Масштабованість і адаптивність: Хоча LAM розроблено для адаптації до широкого діапазону сценаріїв і додатків, масштабування цих рішень для послідовної та ефективної обробки різноманітних середовищ реального світу залишається проблемою. Переконайтеся, що LAM можуть адаптуватися до мінливих умов і підтримувати продуктивність у різних завданнях і потребах користувачів, що має вирішальне значення для їх довгострокового успіху.
Bottom Line
Моделі великих дій (LAM) стають значною інновацією в галузі штучного інтелекту, впливаючи не лише на взаємодію пристроїв, а й на ширші галузеві застосування. Продемонстровані на прикладі Rabbit AI R1 та досліджені в удосконаленнях Apple з Siri, LAM створюють основу для більш інтерактивних та інтуїтивно зрозумілих систем штучного інтелекту. Ці моделі готові підвищити ефективність та персоналізацію в таких секторах, як обслуговування клієнтів, охорона здоров'я та фінанси.
Однак розгортання LAM пов’язане з проблемами, зокрема проблемами конфіденційності даних, етичними проблемами, складністю інтеграції та масштабованістю. Вирішення цих проблем має важливе значення, оскільки ми просуваємося до ширшого впровадження технологій LAM, прагнучи відповідально та ефективно використовувати їхні можливості. Оскільки LAM продовжують розвиватися, їхній потенціал для трансформації цифрових взаємодій залишається значним, що підкреслює їхню важливість у майбутньому ландшафті ШІ.








