Штучний інтелект
Розуміння на дорозі: Чи може Alpamayo від NVIDIA вирішити проблему «краївських випадків» самохідних транспортних засобів?

Самохідні транспортні засоби зробили помітний прогрес за останні десять років, накопичивши мільйони миль і виконуючи добре на автомагістралях, в контрольованих зонах тестування та в окремих міських зонах. Однак, навіть у 2026 році, реальна їзда продовжує розкривати критичні обмеження. Наприклад, незахищені ліві повороти під час сильного дощу, зони будівництва з тьмяними або відсутніми позначками смуг, і перехрестя, де аварійні працівники використовують імпровізовані ручні сигнали, все ще можуть викликати труднощі у передових самохідних системах.
Ці ситуації не є рідкісними аномаліями, які можна вирішити лише за допомогою додаткових даних. Натомість, вони підкреслюють глибшу проблему в сучасній технології автономних транспортних засобів. Сучасні системи компетентні у виявленні об’єктів і картографуванні середовища, однак їм важко розмірковувати про майбутні події, інтерпретувати наміри інших учасників дорожнього руху та приймати рішення, залежні від контексту. Отже, сприйняття само по собі є недостатнім для забезпечення безпеки в складних, непередбачуваних сценаріях.
Для вирішення цієї проблеми NVIDIA представила Alpamayo на CES 2026. Ця сім’я відкритих Vision-Language-Action моделей включає явний шар розмірковування над сприйняттям. Об’єднуючи сприйняття з розмірковуванням, Alpamayo дозволяє транспортним засобам рухатися в рідких і складних ситуаціях на дорозі більш безпечно, забезпечуючи при цьому інтерпретовані пояснення для кожного рішення. Отже, це представляє собою значний крок до автономних систем, які можуть думати, пояснювати та адаптуватися, а не просто спостерігати.
Розуміння проблеми «краївських випадків» у самохідних транспортних засобах
Краївські випадки є однією з найскладніших проблем у самохідних автомобілях. Це рідкісні ситуації, у яких найбезпечніша дія залежить від тонкого контексту, неписаних соціальних правил та реального часу взаємодії з іншими учасниками дорожнього руху. Наприклад, пішохід може помахати рукою автомобілю, щоб той проїхав перехрестя, навіть якщо він технічно має право першості. Або зона будівництва може мати тьмяні позначки смуг, які суперечать тимчасовим конусам. Ці ситуації не трапляються часто, можливо, раз на кілька тисяч миль, але вони спричиняють велику частку інцидентів з безпеки та системних помилок.
Звіт про роз’єднання Каліфорнії 2024 року чітко показує це. Серед 31 ліцензованих автономних транспортних компаній понад 2 800 тестових транспортних засобів проїхали сотні тисяч миль. Однак багато невдач трапилися в незвичайних дорожніх розкладах, імпровізованому регулюванні руху або коли поведінка людини була непередбачуваною. Це саме ті рідкісні ситуації, з якими традиційні самохідні моделі мають труднощі. Люди, навпаки, можуть орієнтуватися в них за допомогою досвіду, швидкого мислення та судження в моменті. Автономні системи часто виходять з ладу, коли реальний світ виглядає інакше, ніж те, що вони бачили під час навчання.
Сучасна технологія самохідних транспортних засобів дуже хороша у сприйнятті. Системи можуть виявляти транспортні засоби, велосипедистів, пішохідів та дорожні знаки з високою точністю за допомогою камер, лідару та радару. Крім того, моделі «від початку до кінця» конвертують дані сенсорів безпосередньо у команди керування та прискорення. На знайомих дорогах це дозволяє транспортним засобам рухатися гладко та безпечно.
Однак сприйняття само по собі не може впоратися з усіма ситуаціями. Воно не може відповісти на важливі питання, які виникають у складних або непередбачуваних сценаріях. Наприклад, чи вийде пішохід на дорогу? Чи безпечніше поступитися в цей момент або ризикнути трохи? Моделі «чорної скриньки» роблять ці питання складнішими, оскільки вони не можуть пояснити свої рішення. Отже, команди з безпеки та регулювання можуть знайти складнощі у довірі до цих систем.
Планувальники, засновані на правилах, також мають обмеження. Хоча вони забезпечують чіткі інструкції, програмування правил для кожного рідкісного випадку швидко стає неможливим. Отже, залежність лише від сприйняття або фіксованих правил залишає пробіли у безпеці та процесі прийняття рішень.
Ці виклики показують, чому шар розмірковування необхідний для автономних транспортних засобів. Така система може зрозуміти ситуацію, передбачити, що може статися далі, та приймати рішення, які люди та регулювальники можуть довіряти. Крім того, моделі розмірковування можуть виробляти пояснення, які можна переглянути, збільшуючи довіру до дій транспортного засобу.
NVIDIA Alpamayo та зміна до автономності, заснованої на розмірковуванні
NVIDIA представляє Alpamayo, платформу, орієнтовану на розмірковування, призначену для вирішення краївських випадків, які продовжують гальмувати прогрес до рівня 4 автономного руху. Однак, на відміну від повністю самохідної системи всередині транспортного засобу, Alpamayo функціонує як відкрите середовище для дослідження та розробки. Воно поєднує три тісно пов’язані компоненти: моделі Vision-Language-Action, каркас симуляції AlpaSim та великомасштабні фізичні набори даних про водіння. Разом ці елементи підтримують вивчення, тестування та доопрацювання політик водіння, які повинні діяти під нещастям та соціальною складністю, залишаючись зрозумілими для людських оглядачів.
Ядром цієї платформи є Alpamayo 1. У цій моделі близько 10 мільярдів параметрів поєднують розширений зір та мовний хребет з присвяченим модулем дії та прогнозування траєкторії. Отже, система може обробляти вхідні дані з декількох камер, передбачати майбутнє руху транспортного засобу та генерувати чіткі, природні пояснення для кожного рішення. Ці пояснення слідують структурованій послідовності. Спочатку система визначає найближчих учасників дорожнього руху. Потім вона оцінює їхні ймовірні наміри. Після цього вона оцінює обмеження видимості та ризики безпеки. Нарешті, вона вибирає відповідну маневр. Наприклад, коли транспортний засіб для доставки блокує частину смуги, модель може розглянути можливість появи пішохода ззаду нього. Потім вона перевіряє рух у сусідніх смугах. Отже, вона може вибрати обережний шляховий рух, а не раптову зміну смуги. Цей процес розмірковування близько відображає, як ретельний людський водій подумав би про ту саму ситуацію.
Методи навчання далі підкріплюють цей акцент на розмірковуванні. Спочатку Alpamayo розвиває загальне причинно-наслідкове розуміння з великомасштабних багатомодальних наборів даних. Після цього його доопрацьовують за допомогою конкретних даних як з реальних записів, так і з симуляцій. Крім того, фізична симуляція забезпечує безпекові обмеження, такі як підтримання достатньої зупинної відстані та уникнення небезпечних припущень про відповідальність. У той самий час система оцінює альтернативні майбутні результати, а не покладатися на один прогноз. Отже, розглядаючи, що може статися далі, та віддаючи перевагу обережним реакціям, модель зменшує ризик невдачі у незнайомих умовах.
Натомість системи, керовані сприйняттям, часто добре працюють у звичайних умовах, але мають труднощі, коли дорожні розклади, погода або поведінка людини відрізняються від попереднього досвіду. Генеруючи пояснення, які можна переглянути та протестувати, Alpamayo дає інженерам чітке розуміння причин невдач. Крім того, вона забезпечує регулювальникам більш прозорую основу для оцінки безпеки, яка підтримує прогрес за межі обмежених пілотних розгортань.
Як Alpamayo застосовує ланцюгове розмірковування до краївських випадків
Alpamayo вирішує складні ситуації на дорозі шляхом явного, реального розмірковування, яке адаптується до реальної поведінки на дорозі. Натомість ніж реагувати на сцени в цілому, система розбиває кожну ситуацію на послідовність логічних кроків. Отже, рішення не генеруються як один вихід, а як результат структурованого аналізу. Цій підхід відображає людське розмірковування та зменшує несподівану поведінку в незнайомих умовах.
Спочатку модель визначає всіх відповідних агентів у сцені, включаючи транспортні засоби, пішохідів, велосипедистів та тимчасові об’єкти. Потім вона виводить ймовірні наміри, розглядаючи рухові моделі, контекст та соціальні сигнали. Після цього вона оцінює обмеження видимості, окулювання та можливі приховані небезпеки. Крім того, вона розглядає контрфактичні результати, такі як те, що може статися, якщо пішохід раптово вийде на дорогу. Лише після цього вона порівнює кілька можливих траєкторій з безпековими обмеженнями, перш ніж вибрати остаточну дію. У той самий час система генерує чітке, природне пояснення кроків у порядку.
Цей процес стає критичним у двозначних середовищах. Наприклад, коли транспортний засіб для доставки блокує частину вузької міської смуги, Alpamayo не покладатися виключно на вивчений шаблон. Натомість, вона розмірковує про ситуацію крок за кроком. Вона визначає окулювану область за транспортним засобом. Потім вона передбачає можливе виникнення пішохода або велосипедиста. Після цього вона перевіряє рух у сусідніх смугах у короткому часовому горизонті. Отже, вона може вибрати незначну латеральну корекцію, яка зберігає безпековий буфер, а не зобов’язується до повної зміни смуги. Це рішення підтримується розмірковуванням, а не лише оцінками довіри.
Крім того, ланцюгове розмірковування покращує прозорість під час тестування та аналізу невдач. Інженери можуть перевірити саме те місце, де шлях рішення вийшов з ладу, наприклад, неправильне висновок намірів або надмірно оптимістична оцінка ризику. Отже, помилки стають легшими для діагностики та виправлення. Це відрізняється від моделей «чорної скриньки», де поведінку можна спостерігати, але не можна суттєво пояснити.
Симуляція ще більше посилює цей процес розмірковування. Через каркас симуляції AlpaSim Alpamayo працює в замкнутих середовищах, де кожна дія впливає на майбутні стани. Розробники можуть вводити рідкісні, але реалістичні краївські випадки, включаючи раптове переходження дороги під блиском, агресивні злиття великих транспортних засобів або перехрестя, де водії покладаються на жести, а не на сигнали. Оскільки сприйняття, розмірковування та дія працюють разом, система повинна розмірковувати під тиском, а не перегравати статичні сценарії.
Нарешті, масштабованість досягається через структуру вчителя та учня. Великі моделі Alpamayo здійснюють ланцюгове розмірковування в центрах даних та генерують траєкторії разом з поясненнями кроків у порядку як над реальними, так і над симульованими даними. Менші моделі потім вивчають з цих вихідних даних та несуть ту саму структуру розмірковування у розгортання на апаратному забезпеченні транспортного засобу. Отже, причинно-слідова логіка зберігається навіть тоді, коли застосовуються обчислювальні обмеження. У той самий час стандартизовані пояснення кроків підтримують послідовне тестування та регулювання. Разом ці механізми посилюють надійність та наближають автономні системи до безпечної роботи в реальних краївських випадках.
Закриття прогалини довгих хвостів даних через розмірковування та симуляцію
Системи, засновані на розмірковуванні, такі як Alpamayo, не розв’язують проблему краївських випадків, просто збираючи більше даних про водіння. Натомість, вони змінюють, як існуючі дані інтерпретуються, розширюються та тестуються. Отже, прогрес залежить від використання даних більш ефективно, а не лише від збільшення кількості миль. NVIDIA вирішує цю проблему шляхом тісної інтеграції своїх фізичних наборів даних про водіння з середовищем симуляції AlpaSim, обидва з яких призначені для підтримки розвитку, орієнтованого на розмірковування.
Набори даних фізичної інженерії NVIDIA включають понад 1 700 годин синхронізованих даних про водіння, зібраних у 25 країнах та тисячах міст. Дані поєднують вхідні дані з камер, лідару та радару для захоплення широкого спектра реальної поведінки на дорозі. Насамперед, ці записи виходять за межі однієї області або культури водіння. Отже, вони відображають різні норми руху, погодні умови, дорожні конструкції та неформальну практику водіння. Ця різноманітність піддає моделі реалістичним прикладам рідкісних та плутаних ситуацій, таких як нечіткі перехрестя, пошкоджені позначки смуг або дороги, де перемовини замінюють суворе дотримання правил. Отже, моделі розмірковування тренуються на умовах, які більше нагадують реальну складність.
Однак реальні дані самі по собі не можуть представити кожну рідкісну ситуацію. Для цього симуляція грає центральну роль у закритті прогалини довгих хвостів. Через AlpaSim розробники можуть генерувати велику кількість контрольованих, але реалістичних сценаріїв, які відображають складні та незвичайні ситуації. Це можуть бути часткова деградація сенсорів, непередбачуваний рух пішоходів або незнайомі небезпеки довкілля. Оскільки симуляція працює в замкнутому циклі, кожне рішення про водіння впливає на те, що відбувається далі. Отже, система повинна розмірковувати через еволюційні умови, а не реагувати на статичні вхідні дані.
Валідация також стає більш структурованою в цьому середовищі. Крім вимірювання точності траєкторії, розробники можуть перевірити, чи залишаються пояснення кроків послідовними та правдоподібними під тиском. Це дозволяє оцінювати не лише те, чи поводився транспортний засіб безпечно, а й чи був процес прийняття рішень правильним, тим самим зміщуючи оцінку безпеки з проб та помилок на систематичне розмірковування. Об’єднуючи різноманітні реальні дані про водіння з симуляцією, орієнтованою на розмірковування, Alpamayo допомагає зменшити виклик довгих хвостів у вимірюваному, переглянутому порядку, підтримуючи безпечний прогрес до просунутого автономного водіння.
Вплив на галузь та постійні виклики
Alpamayo узгоджується з більш широкою стратегією автономного водіння NVIDIA шляхом інтеграції великомасштабної підготовки, симуляції та розгортання транспортних засобів. Навчання та оцінка відбуваються на високопродуктивних системах GPU у центрах даних. Тим часом менші моделі, виведені з цієї роботи, працюють на апаратному забезпеченні автомобілів, таких як платформа DRIVE Thor, забезпечуючи прийняття рішень у реальному часі у транспортних засобах. Аналогічні системи розширюються до робототехніки через платформи, засновані на Jetson. Отже, Alpamayo дозволяє як автомобілям, так і іншим фізичним системам використовувати спільну базу розробки.
Галузевий інтерес відображає цей підхід. Деякі виробники та дослідницькі групи тестують Alpamayo як шар розмірковування над існуючими системами сприйняття. Наприклад, Mercedes-Benz планує дослідити інтеграцію у майбутніх транспортних засобах, тоді як Jaguar Land Rover вивчає його використання для оцінки складних ситуацій на дорозі. У той самий час організації, такі як Lucid, Uber та Berkeley DeepDrive, застосовують Alpamayo для тестування політики та валідации безпеки. Отже, платформу розглядають не як заміну автономних стеків, а як інструмент для покращення логіки безпеки та підтримки цілей рівня 4.
Незважаючи на ці досягнення, залишаються кілька ключових викликів, які вимагають уважного розгляду. Зокрема, ланцюгове розмірковування може описувати рішення після факту, а не відображати фактичний внутрішній процес, ускладнюючи розслідування аварій. Крім того, перенесення обережної поведінки з великих моделей у менші моделі транспортних засобів ризикує ослабити маржу безпеки, якщо валідация недостатня. Отже, суворе тестування є суттєвим для підтримання послідовної поведінки під тиском обчислень.
Різниці у розподілі створюють постійні ризики. Розуміння, засноване на розмірковуванні, яке тренується у структурованих міських середовищах, може не перейти гладко до регіонів з неформальним рухом, густими азіатськими перехрестями або ґрунтовими сільськими дорогами. Отже, ретельна локальна валідация та адаптація є суттєвими для підтримання безпеки у різних умовах. Крім того, публічне довіря та регулювання залежать від демонстрації того, що висновки розмірковування ведуть до реальних поліпшень безпеки, таких як зменшення роз’єднань, майже аварій та порушень правил.
Хоча відкритий підхід Alpamayo до розробки заохочує співпрацю, його інтеграція з екосистемою NVIDIA викликає питання про довгострокову залежність від NVIDIA. Тим не менш, загальний зсув до автономності, заснованої на розмірковуванні, очевидний, і, підкреслюючи прозорість, підзвітність та вимірювані результати безпеки, цей підхід наближається самохідних систем до безпечного розгортання за межі контрольованих пілотних програм.
Висновок
Автономне водіння досягло точки, де сприйняття само по собі вже недостатньо. Хоча транспортні засоби можуть бачити дорогу з високою точністю, складні ситуації все ще вимагають розуміння, судження та пояснення. Отже, системи, засновані на розмірковуванні, такі як Alpamayo, позначають суттєвий зсув у тому, як ці виклики вирішуються. Об’єднуючи структуроване розмірковування, реалістичну симуляцію та прозору оцінку, цей підхід націлюється на краївські випадки, які мають найбільше значення для безпеки.
Крім того, він забезпечує інструменти, які інженери та регулювальники можуть перевірити та поставити під сумнів, що є суттєвим для довіри. Однак розмірковування не усуває весь ризик. Ретельна валідация, локальне тестування та регулювання нагляд залишаються суттєвими. Тим не менш, зосереджуючись на тому, чому рішення приймаються, а не лише на тому, які дії здійснюються, автономність, заснована на розмірковуванні, наближається самохідну технологію до безпечного та відповідального розгортання на реальних дорогах.












