Моделі та платформи ШІ
Розуміння на дорозі: Чи може NVIDIA Alpamayo вирішити проблему «крайніх випадків» у самохідних транспортних засобах?

Самохідні транспортні засоби зробили значний прогрес за останні десять років, накопичивши мільйони миль і виконуючи свої функції добре на автомагістралях, в контрольованих тестових зонах і в окремих міських районах. Однак, навіть у 2026 році, реальна їзда продовжує викривляти критичні обмеження. Наприклад, непротектовані ліві повороти під час сильного дощу, зони будівництва з тьмяними або відсутніми позначеннями смуг, і перехрестя, де працівники екстрених служб використовують імпровізовані ручні сигнали, все ще можуть викликати труднощі у передових самохідних системах.
Ці ситуації не є рідкісними аномаліями, які можна вирішити лише за допомогою більшої кількості даних. Натомість, вони підкреслюють глибшу проблему у сучасній технології автономних транспортних засобів. Сучасні системи компетентні у виявленні об’єктів і картуванні середовища, однак вони мають труднощі у розумінні майбутніх подій, інтерпретації намірів інших учасників дорожнього руху і прийнятті контекстно-чутливих рішень. Отже, сприйняття само по собі є недостатнім для забезпечення безпеки у складних, непередбачуваних сценаріях.
Для вирішення цієї проблеми NVIDIA представила Alpamayo на CES 2026. Ця сім’я відкритих моделей Vision-Language-Action включає явний шар розуміння над сприйняттям. Об’єднуючи сприйняття з розумінням, Alpamayo дозволяє транспортним засобам рухатися у рідких і складних ситуаціях більш безпечно, забезпечуючи при цьому інтерпретовані пояснення для кожного рішення. Отже, це представляє суттєвий крок до автономних систем, які можуть думати, пояснювати і адаптуватися, а не просто спостерігати.
Розуміння проблеми «крайніх випадків» у самохідних транспортних засобах
Крайні випадки є однією з найбільш складних проблем у самохідних автомобілях. Це рідкісні ситуації, у яких найбезпечніша дія залежить від тонкого контексту, неписаних соціальних правил і реального взаємодії з іншими учасниками дорожнього руху. Наприклад, пішохід може помахати рукою автомобілю, щоб пропустити його на перехресті, навіть якщо він технічно має право першості. Або зона будівництва може мати тьмяні позначення смуг, які суперечать тимчасовим конусам. Ці ситуації не трапляються часто, можливо, лише раз на кілька тисяч миль, але вони спричиняють велику частку аварій і системних помилок.
Звіт про роз’єднання 2024 року в Каліфорнії чітко показує це. Серед 31 ліцензованих автономних транспортних засобів, понад 2 800 тестових транспортних засобів проїхали сотні тисяч миль. Однак багато невдач трапилися в незвичайних дорожніх умовах, імпровізованому регулюванні руху або коли поведінка людини була непередбачуваною. Це саме ті рідкісні ситуації, з якими традиційні самохідні моделі мають труднощі у xửлінні. Люди, навпаки, можуть орієнтуватися в них за допомогою досвіду, швидкого мислення і судження в моменті. Автономні системи часто виходять з ладу, коли реальний світ виглядає інакше, ніж те, що вони бачили під час навчання.
Сучасна технологія самохідних транспортних засобів дуже хороша у сприйнятті. Системи можуть виявляти транспортні засоби, велосипедистів, пішохідів і дорожні знаки з високою точністю за допомогою камер, лідарів і радарів. Крім того, моделі «від початку до кінця» перетворюють дані з датчиків безпосередньо у команди керування і прискорення. На знайомих дорогах це дозволяє транспортним засобам рухатися гладко і безпечно.
Однак, сприйняття само по собі не може впоратися з усіма ситуаціями. Воно не може відповісти на важливі питання, які виникають у складних або непередбачуваних сценаріях. Наприклад, чи вийде пішохід на дорогу? Чи безпечніше поступитися в цей момент або ризикнути? Чому одна маневр безпечніша за іншу? Моделі «чорної скриньки» роблять ці питання складнішими, оскільки вони не можуть пояснити свої рішення. Отже, команди з безпеки і регулювання можуть знайти складнощі у довірі до цих систем.
Планувальники, засновані на правилах, також мають обмеження. Хоча вони забезпечують чіткі інструкції, програмування правил для кожного рідкісного випадку швидко стає неможливим. Отже, залежність лише від сприйняття або фіксованих правил залишає пробіли у безпеці і прийнятті рішень.
Ці виклики показують, чому шар розуміння необхідний для самохідних транспортних засобів. Така система може зрозуміти ситуацію, передбачити, що може статися далі, і прийняти рішення, які люди і регулювальники можуть довіряти. Крім того, моделі розуміння можуть генерувати пояснення, які можна переглянути, збільшуючи довіру до дій транспортного засобу.
NVIDIA Alpamayo і зміщення до автономності, заснованої на розумінні
NVIDIA представила Alpamayo, платформу, орієнтовану на розуміння, розроблену для вирішення крайніх випадків, які продовжують уповільнювати прогрес до рівня 4 автономного руху. Однак, замість того, щоб діяти як повністю самохідна система всередині транспортного засобу, Alpamayo функціонує як відкрите середовище для дослідження і розробки. Воно поєднує три тісно пов’язані компоненти: моделі Vision-Language-Action, фреймворк симуляції AlpaSim і великомасштабні фізичні набори даних про водіння. Разом ці елементи підтримують вивчення, тестування і вдосконалення політик водіння, які повинні діяти під неоднозначністю і соціальною складністю, залишаючись зрозумілими для людських оглядачів.
Ядром цієї платформи є Alpamayo 1. У цій моделі близько 10 мільярдів параметрів поєднують розширений зір і мову з присвяченим модулем дії і передбачення траєкторії. Отже, система може обробляти вхідні дані з кількох камер, передбачати майбутнє руху транспортного засобу і генерувати чіткі, природні пояснення для кожного рішення. Ці пояснення слідують структурованій послідовності. Спочатку система визначає найближчих учасників дорожнього руху. Потім вона оцінює їхні ймовірні наміри. Після цього вона оцінює обмеження видимості і ризики безпеки. Нарешті, вона вибирає підходящий маневр. Наприклад, коли транспортний засіб блокує частину смуги, модель може розглянути можливість появи пішохода позаду нього. Потім вона перевіряє рух у сусідніх смугах. Отже, вона може вибрати обережний маневр, а не різкий поворот.
Методи навчання ще більше посилюють цю увагу на розумінні. Спочатку Alpamayo розвиває загальне каузальне розуміння з великомасштабних багатомодальних наборів даних. Після цього воно досягає уточнення за допомогою конкретних даних як з реальних записів, так і з симуляцій. Крім того, фізична симуляція забезпечує дотримання обмежень безпеки, таких як підтримання достатньої зупинної відстані і уникнення небезпечних припущень. Разом з тим, система оцінює альтернативні майбутні результати, а не залежить від одного прогнозу. Отже, розглядаючи, що може статися далі, і віддаючи перевагу обережним реакціям, модель зменшує ризик невдачі у незнайомих умовах.
Натомість, системи, керовані сприйняттям, часто добре виконують у звичайних умовах, але мають труднощі, коли дорожнє обладнання, погода або поведінка людини відрізняються від попереднього досвіду. Генеруючи пояснення, які можна переглянути, Alpamayo забезпечує інженерам чітке уявлення про причини невдач. Крім того, вона забезпечує регулювальникам більш прозору основу для оцінки безпеки, яка підтримує прогрес за межами обмежених пілотних програм.
Як Alpamayo застосовує ланцюгове розуміння до крайніх випадків
Alpamayo вирішує складні ситуації за допомогою явного, реального розуміння, яке адаптується до реальної поведінки на дорозі. Замість реакції на сцени в цілому, система розбиває кожну ситуацію на послідовність логічних кроків. Отже, рішення не генеруються як один вивід, а як результат структурованого аналізу. Цей підхід віддзеркалює людське розуміння і зменшує непередбачувану поведінку у незнайомих умовах.
Спочатку модель визначає всіх відповідних агентів у сцені, включаючи транспортні засоби, пішохідів, велосипедистів і тимчасові об’єкти. Потім вона робить висновок про ймовірні наміри, розглядаючи рухові моделі, контекст і соціальні сигнали. Після цього вона оцінює обмеження видимості, закриття і можливі приховані небезпеки. Крім того, вона розглядає контрфактичні результати, такі як те, що може статися, якщо пішохід раптом вийде на дорогу. Лише після цього вона порівнює кілька можливих траєкторій з обмеженнями безпеки, перш ніж вибрати остаточну дію. Разом з тим, система генерує чітке, природне пояснення ланцюга розуміння, яке пояснює кожний крок у порядку.
Цей процес стає критичним у двозначних середовищах. Наприклад, коли транспортний засіб блокує частину вузької міської смуги, Alpamayo не залежить лише від вивченого шаблону. Замість цього вона розбирається у ситуації крок за кроком. Вона визначає закриту область позаду транспортного засобу. Потім вона передбачає можливе появи пішохода або велосипедиста. Після цього вона перевіряє рух у сусідніх смугах у короткій перспективі. Отже, вона може вибрати незначну бічну корекцію, яка зберігає буфер безпеки, а не приймає повний поворот. Це рішення підтримується розумінням, а не лише оцінками впевненості.
Крім того, ланцюгове розуміння покращує прозорість під час тестування і аналізу невдач. Інженери можуть перевірити точно, де шлях рішення зазнав невдачі, наприклад, неправильний висновок про наміри або надто оптимістична оцінка ризику. Отже, помилки стають легшими для діагностики і виправлення. Це відрізняється від моделей «чорної скриньки», де поведінку можна спостерігати, але не пояснити суттєво.
Симуляція ще більше посилює цей процес розуміння. Через фреймворк AlpaSim, Alpamayo діє у замкнутих середовищах, де кожна дія впливає на майбутні стани. Розробники можуть вводити рідкісні, але реалістичні крайні випадки, включаючи раптове переходження пішохода під блиском, агресивні злиття великих транспортних засобів або перехрестя, де водії покладаються на жести замість сигналів. Оскільки сприйняття, розуміння і дія діють разом, система повинна розуміти під тиском, а не відтворювати статичні сценарії.
Нарешті, масштабованість досягається за допомогою структури «вчитель-учень». Великі моделі Alpamayo виконують ланцюгове розуміння у центрах обробки даних і генерують траєкторії разом з поясненнями ланцюга розуміння по реальним і симульованим даним. Менші моделі потім вивчають з цих виводів і несуть ту ж структуру розуміння у розгортання на апаратному забезпеченні транспортного засобу. Отже, каузальна логіка зберігається навіть при обмеженнях обчислювальних ресурсів. Разом з тим, стандартизовані пояснення ланцюга розуміння підтримують послідовне тестування і регулювання. Разом ці механізми посилюють надійність і наближають автономні системи до безпечної роботи у реальних крайніх випадках.
Закриття прогалини довгих даних через розуміння і симуляцію
Системи, засновані на розумінні, такі як Alpamayo, не вирішують проблему крайніх випадків, просто збираючи більше даних про водіння. Замість цього, вони змінюють, як існуючі дані інтерпретуються, розширюються і тестируються. Отже, прогрес залежить від більш ефективного використання даних, а не лише від збільшення кількості миль. NVIDIA вирішує цю проблему за допомогою тісної інтеграції фізичних наборів даних про водіння з середовищем симуляції AlpaSim, обидва з яких розроблені для підтримки розвитку, орієнтованого на розуміння.
Фізичні набори даних про водіння NVIDIA включають понад 1 700 годин синхронізованих даних про водіння, зібраних у 25 країнах і тисячах міст. Дані поєднують вхідні дані з камер, лідарів і радарів, щоб захопити широкий спектр реальної поведінки на дорозі. Крім того, ці записи виходять за межі одного регіону або культури водіння. Отже, вони відображають різні стандарти руху, погодні умови, дорожнє обладнання і неформальну поведінку на дорозі. Ця різноманітність піддає моделі реалістичним прикладам рідкісних і заплутаних ситуацій, таких як нечіткі перехрестя, пошкоджені позначення смуг або дороги, де домовленість замість суворого дотримання правил. Отже, моделі розуміння тренуються на умовах, які більш точно відображають реальну складність.
Однак, реальні дані сами по собі не можуть представляти кожний рідкісний сценарій. Через це симуляція грає центральну роль у закритті прогалини довгих даних. Через AlpaSim розробники можуть генерувати велику кількість контрольованих, але реалістичних сценаріїв, які відображають складні і незвичайні ситуації. Ці можуть включати часткову деградацію датчиків, непередбачуваний рух пішоходів або незнайомі небезпеки середовища. Оскільки симуляція діє у замкнутому циклі, кожне рішення про водіння впливає на те, що відбувається далі. Отже, система повинна розуміти через еволюційні умови, а не реагувати на статичні вхідні дані.
Валідация також стає більш структурованою у цьому середовищі. Крім вимірювання точності траєкторії, розробники можуть перевірити, чи залишаються пояснення ланцюга розуміння послідовними і правдоподібними під тиском. Це дозволяє оцінювати не лише те, чи діяв транспортний засіб безпечно, а й чи був процес прийняття рішень правильним, перейшовши від оцінки безпеки з проб і помилок до систематичного розуміння. Об’єднуючи різноманітні реальні дані про водіння з симуляцією, орієнтованою на розуміння, Alpamayo допомагає зменшити проблему довгих даних у вимірюваному і перегляданому вигляді, підтримуючи безпечніший прогрес до автономного водіння.
Вплив на галузь і тривалі виклики
Alpamayo відповідає більш широкій стратегії автономного водіння NVIDIA, інтегруючи великомасштабну підготовку, симуляцію і розгортання транспортних засобів. Навчання і оцінка відбуваються на високопродуктивних системах GPU у центрах обробки даних. Тим часом менші моделі, отримані з цієї роботи, діють на апаратному забезпеченні автомобілів, наприклад, на платформі DRIVE Thor, забезпечуючи прийняття рішень у реальному часі у транспортних засобах. Аналогічні системи розширюються до робототехніки через платформи на основі Jetson. Отже, Alpamayo дозволяє як автомобілям, так і іншим фізичним системам використовувати спільну базу розвитку.
Галузевий інтерес відображає цей підхід. Декілька виробників і дослідницьких груп тестують Alpamayo як шар розуміння над існуючими системами сприйняття. Наприклад, Mercedes-Benz планує дослідити інтеграцію у майбутніх транспортних засобах, тоді як Jaguar Land Rover вивчає його використання для оцінки складних ситуацій на дорозі. Разом з тим, організації, такі як Lucid, Uber і Berkeley DeepDrive, застосовують Alpamayo для тестування політики і валідації безпеки. Отже, платформа розглядається не як заміна автономних стеків, а як інструмент для покращення логіки безпеки і підтримки цілей рівня 4.
Незважаючи на ці досягнення, залишаються кілька ключових викликів, які вимагають уважного розгляду. Зокрема, ланцюгове розуміння може описувати рішення після факту, а не відображати фактичний внутрішній процес, ускладнюючи розслідування аварій. Крім того, перехід обережної поведінки з великих моделей у менші моделі транспортних засобів ризикує ослабити маржу безпеки, якщо валідация недостатня. Отже, ретельне тестування є суттєвим для підтримання послідовної поведінки під тиском обчислювальних обмежень.
Різниці у розподілі створюють тривалі ризики. Розуміння, треноване у структурованих міських середовищах, може не переходити гладко до регіонів з неформальним рухом, густими азійськими перехрестями або ґрунтовими сільськими дорогами. Отже, ретельна локальна валідация і адаптація є суттєвими для підтримання безпеки у різних умовах. Крім того, публічне довіра і регулювання залежать від демонстрації того, що виводи розуміння приводять до реальних покращень у безпеці, таких як зниження роз’єднань, майже аварій і порушень правил.
Хоча відкритий підхід Alpamayo до розвитку заохочує співпрацю, його інтеграція з екосистемою NVIDIA викликає питання про довгострокову залежність від NVIDIA. Тим не менш, загальне зміщення до автономності, заснованої на розумінні, є очевидним, і, підкреслюючи прозорість, підзвітність і вимірювані результати безпеки, цей підхід наближається до безпечного розгортання самохідних систем за межами контрольованих пілотних програм.
Висновок
Автономне водіння досягло точки, де сприйняття само по собі вже недостатньо. Хоча транспортні засоби можуть бачити дорогу з високою точністю, складні ситуації все ще вимагають розуміння, судження і пояснення. Отже, системи, засновані на розумінні, такі як Alpamayo, представляють суттєвий зсув у тому, як ці виклики вирішуються. Об’єднуючи структуроване розуміння, реалістичну симуляцію і прозорість оцінки, цей підхід націлений на крайні випадки, які мають найбільше значення для безпеки.
Крім того, він забезпечує інструменти, які інженери і регулювальники можуть перевірити і поставити під сумнів, що є суттєвим для довіри. Однак, розуміння не усуває весь ризик. Ретельна валідация, локальне тестування і регулювання залишаються необхідними. Тим не менш, зосереджуючись на тому, чому приймаються рішення, а не лише на тому, які дії здійснюються, автономність, заснована на розумінні, наближається до безпечного і відповідального розгортання на реальних дорогах.












