Зв'язатися з нами

Автомобіль LLM: прорив у спілкуванні між людиною та аудіо-відео

Штучний Інтелект

Автомобіль LLM: прорив у спілкуванні між людиною та аудіо-відео

Оскільки автономні транспортні засоби (АВ) наближаються до широкого впровадження, залишається серйозна проблема: подолати розрив у спілкуванні між людьми-пасажирами та їхніми роботами-шоферами. Незважаючи на те, що AV-пристрої досягли значних успіхів у навігації в складних дорожніх умовах, їм часто важко інтерпретувати нюанси природної мови команд, які так легко сприймаються водіями.

Введіть інноваційне дослідження з Лайлської школи цивільної та будівельної інженерії університету Пердью. На чолі з доцентом Зіраном Вангом команда інженерів запровадила інноваційний підхід до покращення взаємодії АВ-людини за допомогою штучного інтелекту. Їхнє рішення полягає в інтеграції великих мовних моделей (LLM), таких як ChatGPT, у системи автономного керування».

Сила природної мови в AV

LLM представляють стрибок вперед у здатності ШІ розуміти та генерувати текст, схожий на людину. Ці складні системи штучного інтелекту навчаються на величезній кількості текстових даних, що дозволяє їм сприймати контекст, нюанси та неявне значення так, як традиційні запрограмовані відповіді не можуть.

У контексті автономних транспортних засобів LLM пропонують трансформаційну здатність. На відміну від звичайних AV-інтерфейсів, які покладаються на певні голосові команди або введення кнопок, LLM можуть інтерпретувати широкий спектр інструкцій природною мовою. Це означає, що пасажири можуть спілкуватися зі своїми автомобілями так само, як і з водієм.

Покращення можливостей AV-зв’язку є значним. Уявіть, що ви говорите своєму автомобілю: «Я запізнююсь», і він автоматично розраховує найефективніший маршрут, регулюючи стиль водіння, щоб безпечно мінімізувати час у дорозі. Або розгляньте можливість сказати: «Мене трохи нудить», спонукаючи транспортний засіб налаштувати свій профіль руху для більш плавної їзди. Ці нюанси взаємодії, які водії інтуїтивно розуміють, стають можливими для AV завдяки інтеграції LLM.

Доцент Університету Пердью Зіран Ван стоїть біля тестового автономного автомобіля, який він і його студенти спорядили для інтерпретації команд від пасажирів за допомогою ChatGPT або інших великих мовних моделей. (Фото університету Пердью/Джон Андервуд)

Дослідження Пердью: методологія та результати

Щоб перевірити потенціал LLM в автономних транспортних засобах, команда Purdue провела серію експериментів, використовуючи автономний транспортний засіб четвертого рівня – лише один крок від повної автономності, як визначено SAE International.

Дослідники почали з того, що навчили ChatGPT відповідати на низку команд, від прямих вказівок на кшталт «Будь ласка, їдьте швидше» до більш непрямих запитів на зразок «Мене зараз трохи нудить». Потім вони інтегрували цю навчену модель з існуючими системами автомобіля, що дозволило йому враховувати такі фактори, як правила дорожнього руху, дорожні умови, погода та дані датчиків під час інтерпретації команд.

Експериментальна установка була суворою. Більшість випробувань проводилися на випробувальному полігоні в Колумбусі, штат Індіана, на колишній злітно-посадковій смузі аеропорту, яка дозволяла проводити безпечні високошвидкісні випробування. Додаткові тести на паркування були проведені на майданчику стадіону Purdue's Ross-Ade. Під час експериментів AV-система з LLM реагувала як на попередньо вивчені, так і на нові команди від пасажирів.

Результати були багатообіцяючими. Учасники повідомили про значно нижчі показники дискомфорту порівняно з типовим досвідом у AV четвертого рівня без допомоги LLM. Автомобіль незмінно перевершував базові показники безпеки та комфорту, навіть коли відповідав на команди, яким його спеціально не навчали.

Можливо, найбільш вражаючим є те, що система продемонструвала здатність навчатися та адаптуватися до індивідуальних уподобань пасажирів протягом поїздки, демонструючи потенціал справді персоналізованого автономного транспорту.

Аспірант університету Пердью Кан Куй катається в тестовому автономному автомобілі. Мікрофон на консолі сприймає його команди, які інтерпретуються великими мовними моделями в хмарі. Автомобіль керує відповідно до інструкцій, створених на основі великих мовних моделей. (Фото університету Пердью/Джон Андервуд)

Наслідки для майбутнього транспорту

Для користувачів переваги різноманітні. Здатність природно спілкуватися з AV скорочує криву навчання, пов’язану з новими технологіями, роблячи автономні транспортні засоби більш доступними для ширшого кола людей, включаючи тих, кого можуть лякати складні інтерфейси. Крім того, можливості персоналізації, продемонстровані в дослідженні Purdue, передбачають майбутнє, де AVs зможуть адаптуватися до індивідуальних уподобань, забезпечуючи індивідуальний досвід для кожного пасажира.

Ця покращена взаємодія також може підвищити безпеку. Завдяки кращому розумінню намірів і стану пасажира, наприклад розпізнавання, коли хтось поспішає або почувається погано, AV можуть відповідним чином коригувати свою поведінку за кермом, потенційно зменшуючи кількість аварій, спричинених неправильним спілкуванням або дискомфортом пасажира.

З точки зору промисловості, ця технологія може стати ключовою відмінністю на конкурентному ринку AV. Виробники, які можуть запропонувати більш інтуїтивно зрозумілий і чутливий досвід користувача, можуть отримати значну перевагу.

Виклики та майбутні напрямки

Незважаючи на багатообіцяючі результати, перед появою на дорогах загального користування AV-систем, інтегрованих у LLM, залишається вирішити кілька проблем. Одним із ключових питань є час обробки. Поточній системі в середньому потрібно 1.6 секунди для інтерпретації та відповіді на команду – це прийнятно для некритичних сценаріїв, але потенційно проблематично в ситуаціях, що вимагають швидкого реагування.

Інше важливе занепокоєння полягає в тому, що LLM можуть «галюцинувати» або неправильно тлумачити команди. Незважаючи на те, що дослідження включало механізми безпеки для пом’якшення цього ризику, комплексне вирішення цієї проблеми має вирішальне значення для впровадження в реальному світі.

Забігаючи вперед, команда Вана вивчає кілька шляхів для подальших досліджень. Вони оцінюють інші магістратури, зокрема асистентів Google Gemini та Llama AI від Meta, щоб порівняти продуктивність. Попередні результати свідчать про те, що ChatGPT наразі перевершує інші за показниками безпеки та ефективності, хоча опубліковані результати будуть незабаром.

Інтригуючим напрямком майбутнього є потенціал для зв’язку між автомобілями за допомогою LLM. Це могло б уможливити більш складне управління дорожнім рухом, наприклад, AV, які передають перевагу на перехрестях.

Крім того, команда розпочинає проект із вивчення великих моделей зору – систем штучного інтелекту, навчених на зображеннях, а не на тексті – щоб допомогти AV-пристроям орієнтуватися в екстремальних зимових погодних умовах, поширених на Середньому Заході. Це дослідження, підтримане Центром підключеного та автоматизованого транспорту, може ще більше підвищити адаптивність і безпеку автономних транспортних засобів.

Bottom Line

Революційне дослідження Університету Пердью щодо інтеграції великих мовних моделей з автономними транспортними засобами знаменує собою ключовий момент у транспортних технологіях. Забезпечуючи більш інтуїтивно зрозумілу та оперативну взаємодію між людиною та AV, ця інновація вирішує критичну проблему впровадження AV. Незважаючи на те, що такі перешкоди, як швидкість обробки та можливі неправильні інтерпретації, залишаються, багатообіцяючі результати дослідження прокладають шлях до майбутнього, де спілкування з нашими автомобілями буде таким же природним, як спілкування з людиною-водієм. Оскільки ця технологія розвивається, вона має потенціал змінити не лише те, як ми подорожуємо, але й те, як ми сприймаємо штучний інтелект і взаємодіємо з ним у повсякденному житті.

 

Алекс МакФарланд — журналіст і письменник, що займається штучним інтелектом, досліджує останні розробки в галузі штучного інтелекту. Він співпрацював з численними стартапами та публікаціями зі штучного інтелекту по всьому світу.