Штучний інтелект

Інферентне виведення ІІ на великих масштабах: дослідження високопродуктивної архітектури NVIDIA Dynamo

Published April 24, 2025

Updated April 26, 2026

Dr. Assad Abbas

AI Inference at Scale: Exploring NVIDIA Dynamo’s High-Performance Architecture

Як технологія Штучного інтелекту (ІІ) розвивається, зростає потреба в ефективних та масштабованих рішеннях для інферентного виведення. Незабаром інферентне виведення ІІ стане ще важливішим, ніж навчання, оскільки компанії будуть зосереджені на швидкому запуску моделей для отримання прогнозів в режимі реального часу. Ця трансформація підкреслює необхідність потужної інфраструктури для обробки великих обсягів даних з мінімальними затримками.

Інферентне виведення є важливим у галузях, таких як автономні транспортні засоби, виявлення шахрайства та медична діагностика в режимі реального часу. Однак воно має унікальні виклики, особливо при масштабуванні для задоволення вимог завдань, таких як потокове відео, аналіз даних в режимі реального часу та аналіз клієнтських даних. Традиційні моделі ІІ мають труднощі з ефективним обробленням цих завдань з високим пропусканням, що часто призводить до високих витрат і затримок. Коли підприємства розширюють свої можливості ІІ, їм потрібні рішення для управління великими обсягами запитів на інферентне виведення без жертвування продуктивністю або збільшення витрат.

Саме тут вступає в дію NVIDIA Dynamo. Запущений у березні 2025 року, Dynamo – це новий каркас ІІ, розроблений для вирішення проблем інферентного виведення ІІ на великих масштабах. Він допомагає підприємствам прискорити завдання інферентного виведення, зберігаючи при цьому високу продуктивність і знижуючи витрати. Розроблений на основі потужної архітектури GPU компанії NVIDIA та інтегрований з інструментами, такими як CUDA, TensorRT та Triton, Dynamo змінює спосіб, у який компанії керують інферентним виведенням ІІ, роблячи його простішим і ефективнішим для підприємств усіх розмірів.

Розростання проблеми інферентного виведення ІІ на великих масштабах

Інферентне виведення ІІ – це процес використання попередньо навченої моделі машинного навчання для отримання прогнозів з реальних даних, і воно є важливим для багатьох застосунків ІІ в режимі реального часу. Однак традиційні системи часто зустрічають труднощі при обробці зростаючого попиту на інферентне виведення ІІ, особливо в галузях, таких як автономні транспортні засоби, виявлення шахрайства та медична діагностика.

Попит на ІІ в режимі реального часу зростає швидко, що обумовлено необхідністю швидкого прийняття рішень. У звіті Forrester за травень 2024 року було встановлено, що 67% підприємств інтегрують генеративний ІІ у свої операції, підкреслюючи важливість ІІ в режимі реального часу. Інферентне виведення є основою багатьох завдань ІІ, таких як надання автономним транспортним засобам можливості швидко приймати рішення, виявлення шахрайства у фінансових транзакціях та допомога у медичних діагнозах, таких як аналіз медичних зображень.

Незважаючи на цей попит, традиційні системи мають труднощі з обробкою масштабу цих завдань. Одним з основних проблем є недо використання GPU. Наприклад, використання GPU у багатьох системах залишається на рівні 10-15%, що означає, що значна обчислювальна потужність залишається невикористаною. Коли завдання інферентного виведення ІІ зростає, виникають додаткові виклики, такі як обмеження пам’яті та кеш-трешинг, які призводять до затримок і зниження загальної продуктивності.

Досягнення низької затримки є важливим для застосунків ІІ в режимі реального часу, але традиційні системи часто не можуть впоратися з цим, особливо при використанні інфраструктури хмарних обчислень. У звіті McKinsey встановлено, що 70% проектів ІІ не досягають своїх цілей через проблеми з якістю даних та інтеграцією. Ці виклики підкреслюють необхідність більш ефективних та масштабованих рішень; саме тут вступає в дію NVIDIA Dynamo.

Оптимізація інферентного виведення ІІ за допомогою NVIDIA Dynamo

NVIDIA Dynamo – це відкритий, модульний каркас, який оптимізує великомасштабні завдання інферентного виведення ІІ у розподілених багатогPU- середовищах. Він спрямований на вирішення спільних проблем генеративного ІІ та моделей висновування, таких як недо використання GPU, обмеження пам’яті та неефективне маршрутизація запитів. Dynamo поєднує апаратні оптимізації з інноваціями у сфері програмного забезпечення для вирішення цих проблем, пропонуючи більш ефективне рішення для застосунків ІІ з високим попитом.

Одним з ключових функцій Dynamo є його архітектура служб, розділена на окремі компоненти. Цей підхід розділяє обчислювально інтенсивну фазу попереднього заповнення, яка обробляє контекстну обробку, від фази декодування, яка включає генерацію токенів. Призначаючи кожну фазу окремим кластерам GPU, Dynamo дозволяє проводити незалежну оптимізацію. Фаза попереднього заповнення використовує високопам’ятні GPU для швидшої контекстної інгестії, тоді як фаза декодування використовує GPU, оптимізовані для затримки, для ефективної генерації токенів. Це розділення підвищує пропускну здатність, роблячи моделі, такі як Llama 70B, вдвічі швидшими.

Він включає планувальник ресурсів GPU, який динамічно розподіляє ресурси GPU на основі використання в режимі реального часу, оптимізуючи робочі навантаження між кластерами попереднього заповнення та декодування для запобігання надрозподілові та бездіяльності циклів. Іншою ключовою функцією є кеш-чутливий розумний маршрутизатор, який забезпечує направлення вхідних запитів до GPU, які містять відповідні дані кеша ключ-значення (KV), тим самим мінімізуючи повторювані обчислення та підвищуючи ефективність. Ця функція особливо корисна для багатоступеневих моделей висновування, які генерують більше токенів, ніж стандартні великі моделі мови.

Бібліотека NVIDIA Inference TranXfer Library (NIXL) є ще одним критичним компонентом, який забезпечує низькозатримковий зв’язок між GPU та гетерогенними рівнями пам’яті/зберігання, такими як HBM та NVMe. Ця функція підтримує отримання даних кеша KV за менш ніж один мілісекунду, що є важливим для завдань, чутливих до часу. Розподілені менеджери кеша KV також допомагають вивантажувати menos частенько використовувані дані кеша в системну пам’ять або SSD, звільняючи пам’ять GPU для активних обчислень. Цій підхід підвищує загальну продуктивність системи до 30 разів, особливо для великих моделей, таких як DeepSeek-R1 671B.

NVIDIA Dynamo інтегрується з повним стеком компанії NVIDIA, включаючи CUDA, TensorRT та Blackwell GPU, а також підтримує популярні бекенди інферентного виведення, такі як vLLM та TensorRT-LLM. Тестові результати показують до 30-разове збільшення кількості токенів на GPU в секунду для моделей, таких як DeepSeek-R1 на системах GB200 NVL72.

Як наступник сервера інферентного виведення Triton, Dynamo розроблений для ІІ-фабрик, яким потрібні масштабовані та ефективні рішення інферентного виведення. Він приносить користь автономним системам, аналізу даних в режимі реального часу та багатомодельним агентським робочим потокам. Його відкрита та модульна архітектура також дозволяє легко налаштовувати, роблячи його адаптованим для різних робочих навантажень ІІ.

Практичні застосування та вплив на галузь

NVIDIA Dynamo продемонстрував свою цінність у галузях, де інферентне виведення ІІ в режимі реального часу є критичним. Він підвищує автономні системи, аналіз даних в режимі реального часу та ІІ-фабрики, забезпечуючи високопропускні застосування ІІ.

Компанії, такі як Together AI, використовували Dynamo для масштабування завдань інферентного виведення, досягнувши до 30-разового збільшення потужності при виконанні моделей DeepSeek-R1 на GPU NVIDIA Blackwell. Крім того, інтелектуальна маршрутизація запитів та планування GPU Dynamo підвищують ефективність у великомасштабних розгортаннях ІІ.

Конкурентна перевага: Dynamo проти альтернатив

NVIDIA Dynamo пропонує ключові переваги над альтернативами, такими як AWS Inferentia та Google TPUs. Він розроблений для ефективної обробки великомасштабних завдань інферентного виведення ІІ, оптимізуючи планування GPU, управління пам’яттю та маршрутизацію запитів для підвищення продуктивності на декількох GPU. На відміну від AWS Inferentia, яка тісно пов’язана з інфраструктурою хмарних обчислень AWS, Dynamo пропонує гнучкість, підтримуючи як гібридні, так і локальні розгортання, допомагаючи підприємствам уникнути залежності від постачальників.

Однією з сильних сторін Dynamo є його відкрита та модульна архітектура, яка дозволяє компаніям налаштовувати каркас відповідно до своїх потреб. Він оптимізує кожний етап процесу інферентного виведення, забезпечуючи безперебійну роботу моделей ІІ та ефективне використання наявних обчислювальних ресурсів. З його акцентом на масштабованість та гнучкість, Dynamo підходить для підприємств, які шукають ефективне та високопродуктивне рішення інферентного виведення ІІ.

Висновок

NVIDIA Dynamo революціонізує світ інферентного виведення ІІ, пропонуючи масштабоване та ефективне рішення проблем, з якими підприємства зіштовхуються при застосунках ІІ в режимі реального часу. Його відкрита та модульна архітектура дозволяє оптимізувати використання GPU, краще керувати пам’яттю та маршрутизувати запити, роблячи його ідеальним для великомасштабних завдань ІІ. Роздільючи ключові процеси та дозволяючи GPU регулюватися динамічно, Dynamo підвищує продуктивність та знижує витрати.

На відміну від традиційних систем або конкурентів, Dynamo підтримує гібридні хмарні та локальні розгортання, надаючі підприємствам більше гнучкості та знижуючи залежність від будь-якого постачальника. З його вражаючою продуктивністю та адаптованістю, NVIDIA Dynamo встановлює новий стандарт для інферентного виведення ІІ, пропонуючи компаніям просунуте, ефективне та масштабоване рішення для їхніх потреб ІІ.