Connect with us

З’єднання інфраструктури та команд продукту: уроки, здобуті під час будівництва платформ GenAI

Лідери думок

З’єднання інфраструктури та команд продукту: уроки, здобуті під час будівництва платформ GenAI

mm

Немає сумніву в цьому: Generative AI, або GenAI, є темою дня, і була протягом останніх двох років. Чи це автоматизація процесів, генерація нових дизайнів продуктів, створення контенту чи будь-яка інша функція в різних галузях, зараз час для організацій почати робити роботу, яка має найбільше значення, і поставити свої стратегії GenAI в рух.

Успіх GenAI, що охоплює робочі навантаження від дослідження до навчання та, врешті-решт, висновку, залежить від тісної координації щодо розгортання, спостереження, управління витратами, телеметрії та цілей затримки основної інфраструктури та послуг. Це допомагає забезпечити рівень досяжної ефективності для навантаження ІІ, забезпечуючи ефективний баланс між обчисленнями та комунікацією, забезпечуючи, щоб GPU завжди мали необхідні дані.

Проблема полягає в тому, що часто існує структурна прогалина: інженерія інфраструктури зосереджена на стеку обчислень та розгортання, тоді як команди програмного забезпечення та продукту зосереджені на будівництві програм, орієнтованих на користувача, які вводять GenAI у реальний світ. Коли ці групи не повністю узгоджені, це часто призводить до затримок у доставці, проблем з продуктивністю та проблем з користуванням.

Тож, як виглядає ця прогалина в реальному світі, і які стратегії організації можуть використовувати для узгодження інфраструктури та команд продукту для успіху GenAI?

Проблеми з незузгодженням

Коли команди інфраструктури та продукту незузгоджені, симптоми часто очевидні, але не завжди адресовані досить швидко. Однією з ознак команд, що не синхронізовані, є несумісні припущення щодо очікувань затримки або можливостей моделі. Наприклад, команди інженерії інфраструктури можуть планувати функції або розгортання, які припускають рівні продуктивності, яких дійсна конструкція інфраструктури не відповідає. Це призводить до пізньої переробки, змін обсягу та затримок у доставці.

Незузгодження також може привести до поганої продуктивності через розгортання на інфраструктурі, не оптимізованій для рейок, що проявляється у варіаціях затримки та проблемах з масштабованістю, які впливають на продуктивність навчання або великих розподілених робіт висновку. Низхідні ризики безпеки та відповідності також є ознаками незузгодження команд, оскільки відсутність ранньої співпраці між двома командами означає, що вимоги конфіденційності та відповідності даних можуть бути проігноровані.

І, нарешті, незузгодження команд призводить до поганого досвіду користувача, що змушує команди інженерії інфраструктури вдаватися до обхідних шляхів, коли обмеження неясні, сповільнюючи цикли ітерації та збільшуючи технічний борг. Природно, незузгодження між командами продукту та інфраструктури може бути дорогим у будь-якому проєкті програмного забезпечення, але з GenAI зокрема, ставки значно вищі — підвищена операційна неефективність, ерозія конкурентної переваги та ризики безпеки серед них.

Міст до успіху

Успіх GenAI залежить не лише від наявності потужної інфраструктури, але й від створення тактичної основи, яка пов’язує процеси інфраструктури та продукту. Взяти, наприклад, ідею внутрішніх самозасобних API для надання GPU. Для команд інфраструктури ці API стандартизують доступ, зменшують навантаження квитків та забезпечують відповідність; для команд продукту вони забезпечують швидкий, передбачуваний доступ до обчислень без очікування у черзі. Результатом є те, що обидві групи працюють з одного й того самого API-«договору», усуваючи瓶лочки та уточнюючи очікування.

Панелі моніторингу використання в реальному часі грають подібну роль. Вони забезпечують інженерам інфраструктури видимість системи завантаження та ефективності, одночасно показуючи командам продукту, як їхні робочі навантаження перекладаються в дійсне споживання. Оскільки обидві сторони бачать одні й ті самі дані, обговорення продуктивності або瓶лочок стають більш співпрацьовими та менш суперечливими — існує єдине джерело правди.

Автоматичне масштабування є ще одним уніфікованим механізмом. Воно звільняє інженерів інфраструктури від постійної боротьби з пожежами, одночасно забезпечуючи, щоб розробники продукту не натрапили на стелі продуктивності під час піків робочих навантажень. Те, що могло б бути тяганиною між стабільністю та гнучкістю, стає спільною стратегією: масштаб керується автоматично, узгоджуючись з операційною стійкістю та цілями продуктивності.

І, нарешті, уявлення про витрати додають фінансовий вимір до цього спільного огляду. Команди інфраструктури можуть оптимізувати розподіли та виправдати планування потужностей, тоді як команди продукту отримують уявлення про те, як їхні архітектурні чи модельні вибори впливають на витрати. Ця прозорість сприяє спільній відповідальності, перетворюючи ефективність у колективну відповідальність, а не приховану проблему.

Але узгодження вимагає більше, ніж спільні інструменти — воно також вимагає спільної візії. Це місце, де спільні дорожні карти вступають у дію: кожна команда повинна не лише зрозуміти загальні цілі, але й кроки, необхідні для їх досягнення. Для інфраструктури це означає вигляд за межі глибоких технічних коренів у апаратному та програмному забезпеченні, щоб взаємодіяти з тим, як розробники та кінцеві користувачі дійсно переживають систему. Для команд продукту це вимагає поваги до обмежень, таких як затримка, вартість та ефективність моделі, цінуючи операційні реалії, які роблять інновації сталими.

І, нарешті, жоден партнерський стосунок не може тривати без взаємної зобов’язання щодо безпеки та відповідності. Чи це SOC2, HIPAA, ISO чи інші рамки, конкретні вимоги варіюються з клієнтською базою та галузевою вертикалью — але відповідальність є спільною. Обидві команди інфраструктури та продукту повинні внутрішньо освоїти ці зобов’язання, розуміючи, що відповідність не є перевіркою увімкнення, а фундаментом довіри з користувачами.

Взяті разом, ці практики та настанови сплітають інфраструктуру та продукт у єдину цілісну одиницю, з спільною мовою, спільною видимістю та спільною відповідальністю за прогрес, стійкість та довіру.

Освічені команди

Мати правильних людей є так само важливо, як мати правильні системи. Ідеально, команди повинні включати членів команд, які вже знають свій шлях навколо GenAI, або тих, хто походять з високопродуктивних обчислень та гіпермасштабних центрів даних. Що дійсно має значення, це практичний досвід та уроки, які ви отримуєте лише під час будівництва та підтримки платформ GPU як послуги. Це означає розуміння того, як GPU спілкуються один з одним, як тісно пов’язані навчальні пробіги поводяться, і наскільки вони чутливі до затримки, синхронізації та доставки даних.

Когда моделі продовжують зростати та розгортання збільшуються, команди також повинні зробити крок назад і подумати про повний шлях клієнта. Він починається з раннього дослідження та експериментів, переходить у великомасштабне навчання, потім до настройки та, нарешті, висновку. Кожа з цих фаз виглядає трохи інакше, і потреби змінюються під час руху. Ітеративна природа розвитку моделі постійно вчить нас, який тип інфраструктури, робочих процесів та можливостей необхідний для того, щоб центр даних GenAI був придатний для виконання.

Занадто часто команди інфраструктури та продукту діють у своїх власних бульбулях. Для будь-якої компанії, яка серйозно ставиться до масштабування GenAI у виробництво, це має змінитися. Успіх залежить від розбиття цих силозів та створення спільної власності платформи. З правильними людьми, ясною візією та практичною основою обидві сторони можуть узгодитися на одному і тому ж підході — тому, який допомагає їм рухатися швидше, залишатися відповідальними та, врешті-решт, доставляти успішні розгортання GenAI.

Дрю Плетчер є головним архітектором та інженером мережі у Voltage Park, де він керує розробкою наступного покоління фабрик штучного інтелекту, великомасштабних центрів даних, спеціально створених для всіх аспектів навантаження штучного інтелекту за допомогою передових моделей штучного інтелекту. Він зосереджується на інтеграції обчислювальних, мережевих та сховищ даних у масштабовані, стійкі та енергоефективні системи, які дозволяють фабрикам штучного інтелекту компанії Voltage Park. З досвідом роботи в компанії Cisco Systems, 3Com та керівних посадах у якості технічного директора стартапу з торгівлі, а також тісної співпраці з багатьма великими гіпермасштабними середовищами, Дрю розробив рішення, що варіюються від інфраструктури торгівлі з наднизькою затримкою до платформ штучного інтелекту для виявлення аномалій та аналізу поведінки людини. Його визнали світовим експертом у галузі високопродуктивних обчислень та низьколатентного мережевого зв'язку, що призвело до його представництва компанії Cisco у технічній консультативній раді команди Формули 1 Ferrari.

Дрю відомий тим, що поєднує передові дослідження та розробки з інфраструктурою масштабу виробництва, допомагаючи організаціям передбачати наступну хвилю обчислень. Сьогодні він формує блакитний друк майбутніх центрів даних штучного інтелекту, де збігаються продуктивність, автоматизація та сталість.