Лідери думок
Таємниця швидшої штучного інтелекту не полягає в більшій кількості GPU, а в розумнішій мережі

Штучний інтелект змінює те, що можливо в різних галузях, включаючи охорону здоров’я, фінанси, виробництво та роздрібну торгівлю. Але разом з перспективними можливостями він також приносить величезні вимоги до інфраструктури.
Організації по всьому світу вкладають гроші в GPU у безпрецедентному масштабі для прискорення навчання та висновків штучного інтелекту. До 2028 року Gartner прогнозує, що витрати на штучний інтелект у сфері ІТ перевищать 1 трильйон доларів. Hyperion Research прогнозує, що загальні витрати на ринок HPC перевищать 100 мільярдів доларів за той же період. Однак, незважаючи на інвестиції в передові прискорювачі, багато керівників продовжують бачити простою GPU, з використанням на рівні 35% або нижче. Це не тільки призводить до зниження продуктивності, але також до марної витрати енергії та завищених витрат.
Багато проектів штучного інтелекту застряють, але це не тому, що їм бракує GPU або обчислювальної потужності, а тому, що мережа не може впоратися, що вимагає нового підходу до проектування штучного інтелекту у великому масштабі.
Прихована вартість мережевих瓶ключів
Коли мережа не може передавати дані достатньо швидко, щоб GPU були зайняті постійно, організації відчувають кілька критичних наслідків:
- Недовикористання GPU і CPU через瓶ключі передачі даних: GPU призначені для масивних паралельних обчислень, але вони можуть обробляти дані тільки так швидко, як вони надходять. Якщо мережева тканина не може впоратися, GPU сидять без діла, чекаючи на дані, замість того, щоб обробляти числа. CPU також можуть застряти, оскільки вони координують завдання та переміщують дані через трубопровід, що призводить до низького рівня використання, незважаючи на наявність дорогого обладнання.
- Нестабільна продуктивність висновків через неефективну мережу: Нерівномірний потік даних створює нестабільну продуктивність висновків, що може паралізувати застосування штучного інтелекту у виробництві.
- Триваліші цикли навчання, що призводять до запізнення часу виходу на ринок: Навчання моделей штучного інтелекту вимагає переміщення величезних наборів даних через сервери, GPU та сховища. Мережеві瓶ключі гальмують цей процес, тому GPU витрачають менше часу на навчання та більше часу на очікування. Це безпосередньо сповільнює графіки розробки та впровадження продукції.
- Збільшення енергетичних та операційних витрат: Навіть коли вони простоюють, GPU та оточуюча інфраструктура все одно споживають значну кількість енергії. Якщо GPU недовикористовуються через мережеві неефективності, організації платять за високе споживання енергії без пропорційного підвищення продуктивності. Операційні витрати зростають, оскільки об’єкти повинні підтримувати пікові навантаження та охолодження, навіть якщо обчислювальна продуктивність штучно обмежена.
Підприємства можуть продовжувати вкладати гроші в більше GPU, але без відповідних мережевих поліпшень вони тільки посилять ці瓶ключі та неефективності.
Мережа як прискорювач: зміна парадигми
Рішення вимагає повного перегляду мережевої архітектури. Введення моделі, яка використовує мережу як прискорювач, змінює традиційне мислення про продуктивність HPC та штучного інтелекту, щоб розблокувати нові можливості.
Замість того, щоб зосереджуватися в першу чергу на додаванні більшої кількості обчислень за допомогою GPU та CPU, підхід “мережа як прискорювач” розглядає мережеву тканину як множник продуктивності. В результаті мережа може краще підтримувати високу щільність обчислень та прискорити повернення інвестицій, ліквідуючи瓶ключі та масштабуючись для задоволення вимог обчислень. За рахунок забезпечення більшої кількості обчислень без сповільнень організації можуть запускати більші робочі навантаження в меншому просторі, отримувати результати швидше та уникати надмірних витрат на додаткове обладнання.
Як працює модель “мережа як прискорювач”
Як ця модель працює, щоб організації могли перетворити свою мережу з пасивного переміщувача даних на активний засіб обчислень та почати відчувати вигоди? Вона забезпечує чотири ключові можливості, яких бракує традиційним мережам:
- Гарантована доставка на апаратному рівні: Традиційні мережі обтяжують CPU та GPU накладними витратами на відстежування пакетів, повторну передачу та повторне сортування. Це споживає обчислювальні цикли, які могли б бути присвячені навчанню або висновкам. З мережевою тканиною, яка гарантує доставку на апаратному рівні, ці завдання переміщуються від обчислювальних вузлів, в результаті чого зменшуються накладні витрати CPU та GPU, передбачувана та стабільна продуктивність, а також масштабованість, яка спрощує програмування та оркестрування кластера.
- Інтелектуальне динамічне маршрутизація: Традиційна маршрутизація залежить від фіксованих або субоптимальних шляхів, які можуть залишити частини мережі недообслуговуваними або створити瓶ключі, де великі об’єми даних рухаються одночасно. Інтелектуальна маршрутизація динамічно використовує всі доступні шляхи для оптимізації потоку трафіку. Вона забезпечує більшу пропускну здатність за допомогою декількох активних шляхів, балансуючи трафік, нижчу затримку за рахунок оптимального вибору шляху та покращену живучість, оскільки мережевий трафік автоматично перенаправляється навколо збоїв зв’язку або вузлів. Це зменшує час простою та утримує GPU повністю зайняті даними.
- Автоматичне повторне надсилання на рівні зв’язку: Коли пакети втрачені або пошкоджені, стандартні мережі залежать від обчислювального шару для виявлення та повторної передачі їх, що вводить значну затримку та перериває потік обчислень. Тканина з вбудованими можливостями автоматичного повторного надсилання на рівні зв’язку обробляє повторні передачі всередині самої мережі. Це забезпечує майже прозору надійність, оскільки втрата пакетів стає невидимою для обчислювальних вузлів, а вплив на затримку зменшується, оскільки повторні передачі відбуваються локально на рівні зв’язку, а не на всьому мережевому стеку. Це також ліквідує необхідність у складному обробленні помилок на рівні застосунку. Можливості автоматичного повторного надсилання забезпечують безперервні та ефективні розподілені обчислення, що важливо при масштабуванні на тисячі GPU.
- Обчислення у мережі: Хоча традиційна мережева тканина в основному переміщує дані, обчислення у мережі дозволяє мережі стати співпроцесором, виконуючи певні операції безпосередньо всередині тканини. NVIDIA SHARP є прикладом цього – він дозволяє виконувати редукції прямо на мережевих комутаторах. Це забезпечує прискорені розподілені операції, знижує затримку, оскільки дані агрегуються під час руху через мережу, та збільшує ефективність, оскільки обчислювальні вузли звільняються від виконання завдань агрегації, залишаючи більше циклів для навчання та симуляції.
Всього, ці можливості становлять те, що робить “мережеве обчислення” фундаментальним для масштабування наступних поколінь середовищ штучного інтелекту та HPC. Мережевий підхід забезпечує відчутні повернення, які включають вищу продуктивність GPU, що ліквідує голод даних, швидший час отримання інформації, який зменшує цикли навчання та стабілізує продуктивність висновків, покращену ефективність ресурсів та нижчу загальну вартість володіння.
Відкрити справжню мережеву потужність
Штучний інтелект у великому масштабі не тільки проблема обчислень – це проблема системної інженерії, з мережею в центрі. Розгляд мережі як прискорювача перетворює її на множник продуктивності для обчислень, дозволяючи центрам даних HPC та штучного інтелекту масштабуватися за щільністю без жертвування продуктивністю. Це забезпечує вимірювані повернення інвестицій швидше, витягуючи максимальну вартість з існуючої інфраструктури, перш ніж вкладати гроші в більше силікону.
Ліквідуючи瓶ключі, підвищуючи продуктивність та забезпечуючи передбачувану продуктивність, розумніша мережа дозволяє створити більш продуктивні команди штучного інтелекту, краще повернення інвестицій в інфраструктуру GPU та швидший час отримання інформації, інновацій та лідерства на ринку. Це дозволяє організаціям відкрити, чого насправді здатна їхня мережа, та розблокувати потужність штучного інтелекту новими способами.












