Connect with us

Ніту Патхак, співзасновник і CEO Skymel – Серія інтерв’ю

Інтерв’ю

Ніту Патхак, співзасновник і CEO Skymel – Серія інтерв’ю

mm

Ніту Патхак, співзасновник і CEO Skymel, очолює компанію в революціонуванні інференції ІІ з її інноваційною технологією NeuroSplit™. Разом з технічним директором Сушантом Тріпаті вона рухає місію Skymel щодо поліпшення продуктивності застосунків ІІ, одночасно знижуючи обчислювальні витрати.

NeuroSplit™ – це адаптивна технологія інференції, яка динамічно розподіляє навантаження ІІ між пристроями кінцевих користувачів і серверами хмари. Цій підхід використовує неробочі обчислювальні ресурси на пристроях користувачів, скорочуючи витрати на інфраструктуру хмари до 60%, прискорюючи швидкість інференції, забезпечуючи конфіденційність даних і дозволяючи безперебійне масштабування.

Оптимізуючи локальну обчислювальну потужність, NeuroSplit™ дозволяє застосункам ІІ працювати ефективно навіть на старих GPU, суттєво знижуючи витрати та поліпшуючи досвід користувача.

Що надихнуло вас заснувати Skymel, і які ключові проблеми інфраструктури ІІ ви мали на меті вирішити за допомогою NeuroSplit?

Натхнення для Skymel прийшло від збігання наших взаємодоповнюваних досвідів. Під час роботи в Google мій співзасновник, Сушант Тріпаті, розгортав мовні моделі ІІ на мільярдах пристроїв Android. Він виявив, що на пристроях кінцевих користувачів є величезна кількість неробочої обчислювальної потужності, але більшість компаній не могли ефективно використовувати її через складні інженерні проблеми доступу до цих ресурсів без порушення досвіду користувача.

Тим часом мій досвід роботи з підприємствами та стартапами в Redis дав мені глибокі знання про те, наскільки критично ставала затримка для бізнесу. Коли застосунки ІІ стали більш поширеними, стало зрозуміло, що нам потрібно перенести обробку ближче до місця створення даних, а не постійно перевозити дані туди й назад до центрів даних.

Тоді Сушант і я зрозуміли, що майбутнє не полягає у виборі між локальною чи хмарною обробкою – воно полягає у створенні інтелектуальної технології, яка може безперебійно адаптуватися між локальною, хмарною чи гібридною обробкою на основі кожного окремого запиту інференції. Це розуміння привело нас до заснування Skymel та розробки NeuroSplit, рухаючись за межі традиційних обмежень інфраструктури, які стримували інновації ІІ.

Чи можете ви пояснити, як NeuroSplit динамічно оптимізує обчислювальні ресурси, зберігаючи конфіденційність користувача та продуктивність?

Однією з найбільших проблем локальної інференції ІІ було її статичне обчислювальне вимогами – традиційно, виконання моделі ІІ вимагало однакових обчислювальних ресурсів незалежно від умов пристрою чи поведінки користувача. Цей підхід “один розмір для всіх” ігнорує реальність, що пристрої мають різні апаратні можливості, від різних чіпів (GPU, NPU, CPU, XPU) до різної мережевої смуги пропускання, і користувачі мають різну поведінку щодо використання застосунків та зарядних патернів.

NeuroSplit безперервно моніторить різні параметри пристрою – від апаратних можливостей до поточного використання ресурсів, стану батареї та мережевих умов. Ми також враховуємо поведінкові патерни користувачів, наприклад, кількість інших застосунків, що працюють, і типові патерни використання пристрою. Це комплексне моніторинг дозволяє NeuroSplit динамічно визначати, скільки обчислень інференції можна безпечно виконувати на пристрої кінцевого користувача, одночасно оптимізуючи ключові показники продуктивності розробників.

Коли конфіденційність даних є найважливішою, NeuroSplit забезпечує, що сирі дані ніколи не покидають пристрій, обробляючи конфіденційну інформацію локально, одночасно зберігаючи оптимальну продуктивність. Наша здатність розумно розділяти, обрізати або від’єднувати моделі ІІ дозволяє нам помістити 50-100 моделей ІІ в пам’яті пристрою кінцевого користувача в місці лише однієї квантованої моделі. У практичному сенсі це означає, що користувачі можуть запускати значно більше застосунків ІІ одночасно, обробляючи конфіденційну інформацію локально, порівняно з традиційними статичними підходами до обчислень.

Які основні переваги адаптивної інференції NeuroSplit для компаній ІІ, особливо тих, які працюють зі старими технологіями GPU?

NeuroSplit пропонує три трансформаційні переваги для компаній ІІ. По-перше, вона суттєво знижує витрати на інфраструктуру двома механізмами: компанії можуть ефективно використовувати дешевші, старіші GPU, а наша унікальна здатність помістити як повні, так і моделі-стуби на хмарних GPU дозволяє суттєво підвищити рівень використання GPU. Наприклад, застосунок, який зазвичай вимагає декілька NVIDIA A100 за 2,74 долари за годину, тепер може працювати на одному A100 або декількох V100 за лише 0,83 центи за годину.

По-друге, ми суттєво покращуємо продуктивність, обробляючи початкові сирі дані безпосередньо на пристроях користувачів. Це означає, що дані, які в кінцевому підсумку передаються до хмари, суттєво менші за розміром, суттєво знижуючи мережеву затримку при збереженні точності. Цей гібридний підхід дає компаніям найкраще з обох світів – швидкість локальної обробки з потужністю хмарних обчислень.

По-третє, обробляючи конфіденційну початкову інформацію на пристрої кінцевого користувача, ми допомагаємо компаніям зберегти сильні заходи захисту конфіденційності користувача без порушення продуктивності. Це стає дедалі важливішим, оскільки правила конфіденційності стають суворішими, а користувачі – більш обізнаними щодо конфіденційності.

Як рішення Skymel знижує витрати на інференцію ІІ без порушення складності чи точності моделі?

По-перше, розділяючи окремі моделі ІІ, ми розподіляємо обчислення між пристроями користувачів і хмарою. Перша частина працює на пристрої кінцевого користувача, обробляючи 5% до 100% загального обчислення залежно від наявних ресурсів пристрою.

Ця роздільна обробка означає, що хмарні GPU обробляють зменшене обчислювальне навантаження – якщо модель спочатку вимагала повного GPU A100, після розділення це навантаження може потребувати лише 30-40% потужності GPU.

Це дозволяє компаніям використовувати більш економічні екземпляри GPU, такі як V100.

По-друге, NeuroSplit оптимізує використання GPU в хмарі. Ефективно організовуючи як повні моделі, так і моделі-стуби (залишкові частини розділених моделей) на одному хмарному GPU, ми досягаємо суттєво вищого рівня використання порівняно з традиційними підходами. Це означає, що更多 моделей можуть працювати одночасно на одному хмарному GPU, ще більше знижуючи витрати на інференцію.

Чим відрізняється гібридний (локальний + хмарний) підхід Skymel від інших рішень інфраструктури ІІ на ринку?

Ландшафт ІІ знаходиться на цікавому етапі інфлексії. Хоча Apple, Samsung і Qualcomm демонструють потужність гібридного ІІ через свої екосистемні функції, ці екосистеми залишаються закритими садами. Але ІІ не повинно бути обмеженим тим, який пристрій кінцевий користувач випадково використовує.

NeuroSplit фундаментально агностичний до пристрою, хмари та архітектури нейронної мережі. Це означає, що розробники можуть нарешті доставляти послідовні досвіди ІІ незалежно від того, чи користується користувач iPhone, пристроєм Android чи ноутбуком – чи використовує AWS, Azure чи Google Cloud.

Підумайте, що це означає для розробників. Вони можуть створити свій застосунок ІІ один раз і знати, що він адаптується інтелектуально на будь-якому пристрої, в будь-якій хмарі та на будь-якій архітектурі нейронної мережі. Немає необхідності створювати різні версії для різних платформ або компромісу щодо функцій на основі можливостей пристрою.

Ми виводимо можливості гібридного ІІ підприємства з закритих садів і робимо їх універсально доступними. Коли ІІ стає центральним для кожної програми, такий рівень гнучкості та послідовності не просто перевага – він необхідний для інновацій.

Як агент Orchestrator доповнює NeuroSplit, і яку роль він грає у трансформації стратегій розгортання ІІ?

Агент Orchestrator (OA) і NeuroSplit працюють разом, щоб створити самопідтримуючу систему розгортання ІІ:

1. Розробники встановлюють межі:

  • Обмеження: дозволені моделі, версії, постачальники хмари, зони, правила відповідності
  • Метою: цільова затримка, ліміт витрат, вимоги продуктивності, потреби конфіденційності

2. OA працює в межах цих обмежень для досягнення цілей:

  • Визначає, які моделі/API використовувати для кожного запиту
  • Адаптує стратегії розгортання на основі реальної продуктивності
  • Робить компроміси для оптимізації заданих цілей
  • Може бути переконфігуровано миттєво, якщо зміниються потреби

3. NeuroSplit виконує рішення OA:

  • Використовує реальний телеметрій пристрою для оптимізації виконання
  • Розділяє обробку між пристроєм і хмарою, коли це вигідно
  • Забезпечує, щоб кожна інференція працювала оптимально з урахуванням поточних умов

Це як мати систему ІІ, яка автономно оптимізує себе в межах ваших визначених правил і цілей, а не вимагає ручної оптимізації для кожного сценарію.

Як ви думаєте, агент Orchestrator змінить спосіб розгортання ІІ в різних галузях?

Він вирішує три критичні проблеми, які стримували прийняття та інновації ІІ.

По-перше, він дозволяє компаніям легко слідкувати за останніми досягненнями ІІ. З агентом Orchestrator ви можете миттєво використовувати новітні моделі та техніки без переробки інфраструктури. Це суттєва конкурентна перевага у світі, де інновації ІІ рухаються з неймовірною швидкістю.

По-друге, він дозволяє динамічну, запитну оптимізацію вибору моделей ІІ. Агент Orchestrator може інтелектуально поєднувати та вибирати моделі з величезної екосистеми варіантів для досягнення найкращих можливих результатів для кожної взаємодії користувача. Наприклад, система ІІ для обслуговування клієнтів могла б використовувати спеціалізовану модель для технічних питань та іншу модель для запитів щодо оплати, забезпечуючи кращі результати для кожного типу взаємодії.

По-третє, він максимізує продуктивність, одночасно мінімізуючи витрати. Агент миттєво балансує між виконанням ІІ на пристрої користувача чи в хмарі на основі того, що має найбільший сенс в цей момент. Коли конфіденційність важлива, він обробляє дані локально. Коли потрібна додаткова обчислювальна потужність, він використовує хмару. Все це відбувається безпосередньо, створюючи гладкий досвід для користувачів, одночасно оптимізуючи ресурси для бізнесу.

Але те, що справді відрізняє агент Orchestrator, – це те, як він дозволяє бізнесу створювати наступне покоління гіперперсоналізованих досвідів для своїх користувачів. Взявши платформу електронної освіти – з нашою технологією вони можуть створити систему, яка автоматично адаптує свій підхід до навчання на основі рівня розуміння кожного студента. Коли користувач шукає “машинне навчання”, платформа не просто показує загальні результати – вона миттєво оцінює його поточне розуміння та налаштовує пояснення, використовуючи концепції, які він вже знає.

У кінцевому підсумку агент Orchestrator представляє майбутнє розгортання ІІ – зсув від статичної, монолітної інфраструктури ІІ до динамічної, адаптивної, самопідтримуючої оркестрації ІІ. Це не просто про те, щоб зробити розгортання ІІ легшим – це про те, щоб зробити зовсім нові класи застосунків ІІ можливими.

Який відгук ви отримали досі від компаній, що беруть участь у приватному бета-тестуванні агента Orchestrator?

Відгук від наших учасників приватного бета-тестування був чудовим! Компанії у захваті від того, що вони можуть нарешті звільнитися від інфраструктурної залежності, незалежно від того, чи це пропрієтарні моделі чи сервіси хостингу. Можливість майбутнього безперебійного розгортання стала справжнім проривом, ліквідуючи ті страшні місяці переробки при зміні підходу.

Наші результати продуктивності NeuroSplit були просто винятковими – ми не можемо дождатися, щоб поділитися цими даними публічно скоро. Що особливо цікаво, так це те, як сама концепція адаптивного розгортання ІІ захопила уяву. Те, що ІІ розгортається самостійно, звучить футуристично і не тим, чого вони очікували зараз, тому вже з самого технологічного прогресу люди збуджені можливостями та новими ринками, які це може створити в майбутньому.

З швидким прогресом у генераційному ІІ, які наступні великі перешкоди для інфраструктури ІІ ви бачите, і як Skymel планує їх вирішити?

Ми рухаємося до майбутнього, яке більшість людей ще не повністю зрозуміла: не буде єдиної домінуючої моделі ІІ, а мільярди з них. Навіть якщо ми створимо найпотужнішу загальну модель ІІ, нам усе одно знадобиться персоналізовані версії для кожного людини на Землі, кожна з яких адаптована до унікальних контекстів, уподобань та потреб. Це означає принаймні 8 мільярдів моделей, виходячи з населення світу.

Це позначає революційний зсув від сучасного підходу “один розмір для всіх”. Майбутнє вимагає інтелектуальної інфраструктури, яка може обробляти мільярди моделей. В Skymel ми не просто вирішуємо сьогоднішні проблеми розгортання – наш технологічний план вже будує основу для того, що надходить далі.

Як ви бачите еволюцію інфраструктури ІІ за наступні п’ять років, і яку роль ви бачите Skymel у цій еволюції?

Ландшафт інфраструктури ІІ проходить фундаментальну трансформацію. Хоча сьогодні фокусується на масштабуванні загальних великих моделей мови в хмарі, наступні п’ять років побачать, як ІІ стає глибоко персоналізованим та контекстно-чутливим. Це не просто про тонке налаштування – це про ІІ, який адаптується до конкретних користувачів, пристроїв та ситуацій в реальному часі.

Цей зсув створює дві великі інфраструктурні проблеми. По-перше, традиційний підхід до виконання всього в централізованих центрах даних стає технічно та економічно нестійким. По-друге, зростаюча складність застосунків ІІ означає, що нам потрібна інфраструктура, яка може динамічно оптимізувати між декількома моделями, пристроями та місцями обчислень.

В Skymel ми будуємо інфраструктуру, яка конкретно адресує ці проблеми. Наша технологія дозволяє ІІ працювати там, де це має найбільший сенс – чи то на пристрої, де генеруються дані, в хмарі, де доступна більша обчислювальна потужність, чи інтелектуально розділяючи між ними. Що важливіше, вона адаптує ці рішення в реальному часі на основі змінних умов та вимог.

Оглядаючи майбутнє, успішні застосунки ІІ не будуть визначатися розміром своїх моделей чи кількістю доступної обчислювальної потужності. Вони будуть визначатися своєю здатністю доставляти персоналізовані, реактивні досвіди, одночасно ефективно керуючи ресурсами. Наша мета – зробити цей рівень інтелектуальної оптимізації доступним для кожного застосунку ІІ, незалежно від масштабу чи складності.

Дякуємо за чудове інтерв’ю. Читачам, які бажають дізнатися більше, рекомендуємо відвідати Skymel.

Антуан є видним лідером і засновником Unite.AI, який рухає невпинною пристрастю до формування та просування майбутнього штучного інтелекту та робототехніки. Як серійний підприємець, він вважає, що штучний інтелект буде таким же революційним для суспільства, як і електрика, і часто захоплюється потенціалом деструктивних технологій та AGI.

Як футуролог, він присвячений дослідженню того, як ці інновації сформують наш світ. Крім того, він є засновником Securities.io, платформи, орієнтованої на інвестування в передові технології, які переінакшують майбутнє та змінюють цілі сектори.

Розкриття інформації про рекламу: Unite.AI дотримується суворих редакційних стандартів, щоб надавати читачам точну інформацію та новини. Ми можемо отримувати компенсацію, якщо ви переходите за посиланнями на продукти, які ми оглядали.