Інтерв’ю

Сакет Саурабх, генеральний директор і співзасновник Nexla – Серія інтерв’ю

mm

Сакет Саурабх, генеральний директор і співзасновник Nexla, є підприємцем з глибокою пристрастю до даних та інфраструктури. Він очолює розробку платформи автоматизованого інженерії даних нового покоління, призначеної для забезпечення масштабованості та швидкості для тих, хто працює з даними.

Раніше Саурабх заснував успішний мобільний стартап, який досяг значних рубежів, включаючи придбання, первинне публічне розміщення акцій та зростання до бізнесу з доходом у мільйони доларів. Він також внес свій внесок у розвиток кількох інноваційних продуктів і технологій під час свого перебування у Nvidia.

Nexla дозволяє автоматизувати інженерію даних, щоб дані були готові до використання. Це досягається завдяки унікальному підходу Nexsets – даних продуктів, які роблять інтеграцію, трансформацію, доставку та моніторинг даних простими для будь-кого.

Що надихнуло вас на співзаснування Nexla, і як ваш досвід у сфері інженерії даних сформував ваше бачення компанії?

До заснування Nexla я розпочав свій шлях у сфері інженерії даних у Nvidia, будуючи високо масштабовані та високотехнологічні рішення на стороні обчислень. Після цього я пройшов із попереднім стартапом через процес придбання та первинного публічного розміщення акцій у сфері мобільної реклами, де великі об’єми даних та машинне навчання були ключовими компонентами нашої пропозиції, обробляючи близько 300 мільярдів записів даних щодня.

Оглядаючи ландшафт у 2015 році після того, як моя попередня компанія вийшла на біржу, я шукав новий великий виклик, який би мене надихнув. Вихідячи з цих двох напрямків, було очевидно, що проблеми даних та обчислень сходяться, оскільки галузь рухалася у бік більш просунутих застосунків, що працюють на даних та штучному інтелекті.

Хоча ми не знали на той час, що генерація штучного інтелекту (GenAI) розвиватиметься так швидко, було очевидно, що машинне навчання та штучний інтелект будуть основою для використання даних. Тому я почав думати про те, яку інфраструктуру потрібно людям для успішної роботи з даними, і як ми можемо зробити це можливим для будь-кого, не тільки для інженерів. Мій досвід у будівництві масштабованих систем та застосунків спонукав це бачення – демократизувати доступ до даних шляхом автоматизації та спрощення.

Як Nexsets втілюють місію Nexla щодо підготовки даних до використання для всіх, і чому це інновація є важливою для сучасних підприємств?

Nexsets втілюють місію Nexla щодо підготовки даних до використання для всіх, звертаючись до основної проблеми даних. 3В даних – об’єм, швидкість та різноманітність – були постійною проблемою. Галузь зробила певний прогрес у подоланні проблем з об’ємом та швидкістю. Однак різноманітність даних залишається значною перешкодою через зростаючу різноманітність структур та форматів даних у зв’язку з поширенням нових систем та застосунків.

Підхід Nexla полягає в тому, щоб автоматично моделювати та підключати дані з різних джерел до узгодженого, упакованого об’єкта – даних продукту, який ми називаємо Nexset. Це дозволяє користувачам отримувати доступ та працювати з даними без необхідності розуміти основну складність різних джерел даних та структур. Nexset діє як шлюз, забезпечуючи простий та прямий інтерфейс до даних.

Це важливо для сучасних підприємств, оскільки це дозволяє більшій кількості людей, не тільки інженерам-дата, використовувати дані у своїй щоденній роботі. Абстрагуючи різноманітність та складність даних, Nexsets робить можливим для бізнес-користувачів, аналітиків та інших безпосередньо взаємодіяти з необхідними даними без потреби у глибоких технічних знаннях.

Ми також працювали над тим, щоб зробити інтеграцію простою для використання для менш технічних споживачів даних – від інтерфейсу користувача та того, як люди співпрацюють та керують даними, до того, як вони будують трансформації та робочі процеси. Абстрагування складності даних є ключем до демократизації доступу до даних та надання можливості більш широкому колу користувачів отримувати вигоду від своїх інформаційних активів. Це критична здатність для сучасних підприємств, які прагнуть стати більш орієнтованими на дані та використовувати дані-підтримувані інсайти по всій організації.

Що робить дані “готовими до генерації штучного інтелекту”, і як Nexla ефективно звертається до цих вимог?

Відповідь частково залежить від того, як ви використовуєте генерацію штучного інтелекту. Більшість компаній реалізують генерацію штучного інтелекту з підтримкою пошукової системи (RAG). Це вимагає попередньої підготовки та кодування даних для завантаження у векторну базу даних, а потім отримання даних через пошук для додавання до будь-якої команди як контексту для входу у велику мовну модель (LLM), яка не була навчена за допомогою цих даних. Тому дані потрібно підготувати таким чином, щоб вони добре працювали як для векторних пошуків, так і для LLM.

Незалежно від того, чи використовується RAG, генерація штучного інтелекту з підтримкою навчання (RAFT) чи виконання навчання моделі, існують кілька ключових вимог:

  • Формат даних: генерація штучного інтелекту LLM часто працює найкраще з даними у певному форматі. Дані потрібно структурувати таким чином, щоб моделі могли легко споживати та обробляти їх. Вони також повинні бути “чанковані” таким чином, щоб допомогти LLM краще використовувати дані.
  • З’єднання: генерація штучного інтелекту LLM потребує динамічного доступу до відповідних джерел даних, а не залежності від статичних наборів даних. Це вимагає постійного з’єднання з різними підприємствами, системами та репозиторіями даних.
  • Безпека та керування: при використанні чутливих підприємств даних критично мати надійні засоби безпеки та керування. Доступ та використання даних повинні бути безпечними та відповідати існуючій організаційній політиці. Ви також повинні керувати даними, використаними LLM, щоб допомогти запобігти порушенням даних.
  • Масштабованість: генерація штучного інтелекту LLM може бути інтенсивною для даних та обчислень, тому основна інфраструктура даних повинна бути能够 масштабуватися для задоволення вимог цих моделей.

Nexla звертається до цих вимог щодо підготовки даних до генерації штучного інтелекту кількома ключовими способами:

  • Динамічний доступ до даних: платформа інтеграції даних Nexla забезпечує єдиний спосіб підключення до сотень джерел та використання різних стилів інтеграції та швидкості даних, а також оркестрування, щоб забезпечити генерації штучного інтелекту LLM найбільш актуальні дані, коли вони їх потребують, а не залежати від статичних наборів даних.
  • Підготовка даних: Nexla має можливість витягувати, трансформувати та підготувати дані у форматах, оптимізованих для кожного випадку використання генерації штучного інтелекту, включаючи вбудоване чанкування даних та підтримку кількох моделей кодування.
  • Самостійна служба та співпраця: з Nexla дані споживачі не тільки отримують доступ до даних самостійно та будують Nexsets і потоки. Вони також можуть співпрацювати та спільно використовувати свою роботу через ринок, який забезпечує, що дані знаходяться у правильному форматі та покращує продуктивність завдяки повторному використанню.
  • Автоматична генерація: інтеграція та генерація штучного інтелекту обоє складні. Nexla автоматично генерує багато кроків, необхідних на основі вибору даних споживачем – використовуючи штучний інтелект та інші техніки – так, щоб користувачі могли виконувати роботу самостійно.
  • Керування та безпека: Nexla включає надійні засоби безпеки та керування на всьому протязі, включаючи співпрацю, щоб забезпечити, що чутливі підприємства даних доступуються та використовуються у безпечній та відповідній манері.
  • Масштабованість: платформа Nexla розроблена для масштабування для задоволення вимог генерації штучного інтелекту, забезпечуючи необхідну обчислювальну потужність та еластичну масштабованість.

З’єднана інтеграція, самостійна служба та співпраця, автоматична генерація та керування даними потрібно будувати разом, щоб зробити демократизацію даних можливою.

Як різноманітні типи даних та джерела даних сприяють успіху моделей генерації штучного інтелекту, і яку роль відіграє Nexla у спрощенні процесу інтеграції?

Моделі генерації штучного інтелекту потребують доступу до всіх видів інформації, щоб надати найкращі інсайти та генерувати відповідні виходи. Якщо ви не надасте цю інформацію, не очікуйте хороші результати. Це те саме, що й з людьми.

Моделі генерації штучного інтелекту потребують навчання на широкому спектрі даних, від структурованих баз даних до неструктурованих документів, щоб побудувати всебічне розуміння світу. Різні джерела даних, такі як статті новин, фінансові звіти та взаємодії клієнтів, забезпечують цінну контекстну інформацію, яку ці моделі можуть використати. Виставлення до різноманітних даних також дозволяє моделям генерації штучного інтелекту стати більш гнучкими та адаптивними, дозволяючи їм обробляти широкий спектр запитів та завдань.

Nexla абстрагує різноманітність усіх цих даних за допомогою Nexsets і робить доступ до майже будь-якого джерела простим, а потім витягування, трансформація, оркестрування та завантаження даних дозволяють споживачам даних зосередитися лише на даних та на тому, щоб зробити їх готовими до генерації штучного інтелекту.

Які тенденції формують екосистему даних у 2025 році та далі, особливо з ростом генерації штучного інтелекту?

Компанії в основному зосереджувалися на використанні генерації штучного інтелекту для будівництва помічників або копілотів, щоб допомогти людям знайти відповіді та прийняти кращі рішення. Агентський штучний інтелект, агенти, які автоматизують завдання без участі людей, явно зростаюча тенденція, оскільки ми рухаємося у 2025 рік. Агенти, як і копілоти, потребують інтеграції, щоб забезпечити, що дані течуть безперешкодно – не тільки в одному напрямку, але й у можливості дії штучного інтелекту на цих даних.

Інша велика тенденція для 2025 року – зростаюча складність систем штучного інтелекту. Ці системи стають більш складними шляхом поєднання компонентів з різних джерел для створення цілісних рішень. Це схоже на те, як люди покладаються на різні інструменти протягом дня для виконання завдань. Системи штучного інтелекту, що підтримуються агентами, будуть слідувати цьому підходу, оркеструючи кілька інструментів та компонентів. Це оркестрування представляє значну проблему, але також ключову область розвитку.

З точки зору тенденцій ми бачимо рух до генерації штучного інтелекту, який просунувся за межі простого підтримання моделей до фактичного висновку. Там відбувається багато технологічного прогресу в цій сфері. Хоча ці досягнення можуть не повністю перекладатися у комерційну вартість у 2025 році, вони представляють напрямок, у якому ми рухаємося.

Інша ключова тенденція – зростаюче застосування прискорених технологій для інференсу штучного інтелекту, особливо з компаніями, такими як Nvidia. Традиційно GPU використовувалися в основному для навчання моделей штучного інтелекту, але виконання інференсу в режимі реального часу – момент, коли модель активно використовується – стає рівно важливим. Ми можемо очікувати вдосконалення інференсу, що робить його більш ефективним та впливаючим.

Крім того, є усвідомлення того, що доступні дані для навчання в основному вичерпані. Це означає, що подальші поліпшення моделей не будуть походити від додавання更多 даних під час навчання, а від того, як моделі працюють під час інференсу. У режимі реального часу використання нової інформації для поліпшення результатів моделі стає критично важливим фокусом.

Хоча деякі цікаві технології починають досягати своїх меж, нові підходи продовжують виникати, врешті підкреслюючи важливість гнучкості для організацій, що приймають штучний інтелект. Що працює добре сьогодні, може стати застарілим упродовж шести місяців до року, тому потрібно бути готовим додати або замінити джерела даних та будь-які компоненти трубопроводів штучного інтелекту. Залишатися адаптивним та відкритим для змін є критично важливим для того, щоб слідкувати за швидкозмінюваним ландшафтом.

Які стратегії можуть прийняти організації, щоб розібрати дані-силози та покращити потік даних по всім своїм системам?

По-перше, люди повинні прийняти той факт, що дані-силози завжди будуть існувати. Це завжди було так. Багато організацій намагаються централізувати всі свої дані в одному місці, вважаючи, що це створить ідеальну установку та розблокує значну вартість, але це виявляється тривалим та дорогим багатолітнім підприємством, особливо для великих підприємств.

Тому реальність полягає в тому, що дані-силози залишаються. Як тільки ми приймемо це, питання стає: Як ми можемо працювати з даними-силозами більш ефективно?

Корисна аналогія полягає в тому, щоб подумати про великі компанії. Жодна велика корпорація не працює з одного офісу, де всі працюють разом по всьому світу. Натомість вони діляться на штаб-квартиру та кілька офісів. Метою не є опір цьому природному поділу, а забезпечення того, щоб ці офіси могли співпрацювати ефективно. Це саме той випадок, коли ми інвестуємо в інструменти продуктивності, такі як Zoom або Slack, щоб зв’язати людей та забезпечити безперешкодні робочі процеси між місцями.

Аналогічно дані-силози – це фрагментовані системи, які завжди будуть існувати між командами, підрозділами чи іншими межами. Ключем не є їх ліквідація, а те, щоб зробити їх працювати гладко. Знаючи це, ми можемо зосередитися на технологіях, які полегшують ці з’єднання.

Наприклад, технології, такі як Nexsets, забезпечують спільний інтерфейс або абстрактний шар, який працює на різних джерелах даних. Діючі як шлюз до даних-силоз, вони спрощують процес взаємодії з даними, розкиданими по різних силозах. Це створює ефективність та мінімізує негативні впливи силозів.

По суті, стратегією повинна бути співпраця між силозами, а не боротьба з ними. Багато підприємств роблять помилку, намагаючись консолідувати все у величезному озері даних. Але, чесно кажучи, це майже неможлива битва, яку можна виграти.

Як сучасні платформи даних обробляють виклики, такі як швидкість та масштабованість, і що відрізняє Nexla у зверненні до цих питань?

Так, як я бачу це, багато інструментів у сучасному стеку даних спочатку були розроблені з акцентом на легкості використання та швидкості розробки, що походило від того, що ці інструменти стали більш доступними – дозволяючи маркетинговим аналітикам перемістити свої дані з маркетингової платформи безпосередньо до інструменту візуалізації, наприклад. Еволюція цих інструментів часто включала розвиток розв’язок для конкретних проблем, або інструментів, розроблених для вирішення вузьких, визначених проблем.

Коли ми говоримо про масштабованість, люди часто думають про масштабування в термінах обробки більших об’ємів даних. Але справжній виклик масштабованості складається з двох основних факторів: зростаючої кількості людей, які потребують роботи з даними, та зростаючої різноманітності систем та типів даних, які організації потребують керувати.

Сучасні інструменти, будучи високоспеціалізованими, схильні розв’язувати лише підмножину цих проблем. В результаті організації закінчують тим, що використовують кілька інструментів, кожен з яких вирішує окрему проблему, що врешті створює свої власні проблеми, такі як перевантаження інструментами та неефективність.

Nexla звертається до цієї проблеми, пройшовши тонку лінію між легкістю використання та гнучкістю. З одного боку, ми забезпечуємо простоту за допомогою функцій, таких як шаблони та інтуїтивно зрозумілі інтерфейси. З іншого боку, ми пропонуємо гнучкість та можливості, дружні до розробників, які дозволяють командам безперервно покращувати платформу. Розробники можуть додавати нові можливості до системи, але ці вдосконалення залишаються доступними як прості кнопки та кліки для нектехнічних користувачів. Цей підхід уникнув пастки надто спеціалізованих інструментів, забезпечуючи широкий спектр підприємств-градних функцій.

Що справді відрізняє Nexla – це її здатність поєднувати легкість використання з масштабованістю та масштабом, необхідними організаціями. Наша платформа з’єднує ці два світи безперешкодно, дозволяючи командам працювати ефективно без компромісу щодо потужності чи гнучкості.

Однією з основних сильних сторін Nexla є її абстрактна архітектура. Наприклад, хоча користувачі можуть візуально проектувати конвеєр даних, той спосіб, яким цей конвеєр виконується, високо адаптивний. В залежності від вимог користувача – джерела, місця призначення чи того, чи потрібно дані в режимі реального часу – платформа автоматично відображає конвеєр на один із шести різних двигунів. Це забезпечує оптимальну продуктивність без необхідності ручного керування цими складностями.

Платформа також слабо зв’язана, що означає, що джерела систем та місця призначення відокремлені. Це дозволяє користувачам легко додавати більше місць призначення до існуючих джерел, додавати більше джерел до існуючих місць призначення та забезпечувати двонаправлені інтеграції між системами.

Важливо, що Nexla абстрагує проектування конвеєрів, щоб користувачі могли обробляти дані пакетів, потокові дані та дані в режимі реального часу без зміни своїх робочих процесів чи проектів. Платформа автоматично адаптується до цих потреб, роблячи його легшим для користувачів працювати з даними в будь-якому форматі чи швидкості. Це більше про вдумливе проектування, ніж про специфіку мови програмування, забезпечуючи безперешкодний досвід.

Все це ілюструє, що ми побудували Nexla з орієнтацією на кінцевого споживача даних. Багато традиційних інструментів були розроблені для тих, хто виробляє дані або керує системами, але ми зосереджуємося на потребах споживачів даних, які хочуть послідовних та простих інтерфейсів для доступу до даних, незалежно від їх джерела. Приоритизація досвіду споживача дозволила нам спроектувати платформу, яка спрощує доступ до даних, зберігаючи при цьому гнучкість, необхідну для підтримки різноманітних випадків використання.

Чи можете ви поділитися прикладами того, як функції без коду та з низьким кодом перетворили інженерію даних для ваших клієнтів?

Функції без коду та з низьким кодом перетворили процес інженерії даних у真正ньо колаборативний досвід для користувачів. Наприклад, раніше команда облікових операцій DoorDash, яка керує даними для торговців, повинна була надавати вимоги інженерній команді. Інженери потім будували рішення, що призводило до ітеративного процесу, який споживав багато часу.

Тепер з інструментами без коду та з низьким кодом ця динаміка змінилася. Команда щоденних операцій може використовувати інтерфейс з низьким кодом для виконання завдань самостійно. Тим часом інженерна команда може швидко додавати нові функції та можливості через той самий інтерфейс з низьким кодом, дозволяючи негайно оновлювати. Команда операцій може потім безперешкодно використовувати ці функції без затримок.

Цей зсув перетворив процес у колаборативну роботу, а не творчу瓶. Це призвело до значних заощаджень часу. Клієнти повідомили, що завдання, які раніше займали два-три місяці, тепер можуть бути виконані менш ніж за дві тижні – покращення швидкості у 5-10 разів.

Як змінюється роль інженерії даних, особливо з зростаючою адоптацією штучного інтелекту?

Інженерія даних розвивається швидко, спонукається автоматизацією та вдосконаленнями, такими як генерація штучного інтелекту. Багато аспектів галузі, таких як генерація коду та створення конекторів, стають швидшими та більш ефективними. Наприклад, з генерацією штучного інтелекту темп, з яким конектори можуть бути сгенеровані, протестовані та розгорнуті, суттєво покращився. Але цей прогрес також вводить нові проблеми, включаючи зростаючу складність, проблеми безпеки та потребу у надійному керуванні.

Однією з пресингуючих проблем є потенційний неправильний використовування підприємств даних. Бізнеси турбуються про те, що їхні власні дані можуть бути використані для навчання моделей штучного інтелекту та втратити свій конкурентний优势 або зазнати порушення даних, оскільки дані будуть передані іншим. Зростаюча складність систем та величезний об’єм даних вимагають від команд інженерії даних прийняти більш широкий погляд, зосереджуючись на загальних системних питаннях, таких як безпека, керування та забезпечення цілісності даних. Ці проблеми не можуть бути вирішені лише штучним інтелектом.

Хоча генерація штучного інтелекту може автоматизувати нижньорівневі завдання, роль інженерії даних зміщується у бік оркестрування ширшої екосистеми. Інженери даних тепер діють більше як диригенти, керуючи численними взаємоз’єднаними компонентами та процесами, такими як встановлення охоронців для запобігання помилкам чи несанкціонованому доступу, забезпечення відповідності стандартам керування та моніторинг того, як виходи, згенеровані штучним інтелектом, використовуються у бізнес-рішеннях.

Помилки та помилки в цих системах можуть бути дорогими. Наприклад, системи штучного інтелекту можуть витягувати застарілі відомості про політику, що призводить до неправильних відповідей, таких як обіцянка клієнту повернути гроші, коли це не дозволено. Ці типи проблем вимагають суворого нагляду та добре визначених процесів для виявлення та вирішення цих помилок до того, як вони вплинуть на бізнес.

Інша ключова відповідальність команд інженерії даних полягає в адаптації до зсуву у демографії користувачів. Інструменти штучного інтелекту тепер не обмежуються лише аналітиками або технічними користувачами, які можуть поставити під сумнів валідність звітів та даних. Ці інструменти тепер використовуються людьми на краях організації, такими як агенти служби підтримки клієнтів, які можуть не мати експертизи, щоб поставити під сумнів неправильні виходи. Це ширше демократизування технологій збільшує відповідальність команд інженерії даних за забезпечення точності та надійності даних.

Які нові функції чи вдосконалення можна очікувати від Nexla, оскільки галузь інженерії даних продовжує розвиватися?

Ми зосереджені на кількох вдосконаленнях для звернення до нових викликів та можливостей, оскільки інженерія даних продовжує еволюціонувати. Одним з цих вдосконалень є рішення, кероване штучним інтелектом, для звернення до різноманітності даних. Однією з основних проблем інженерії даних є керування різноманітністю даних з різних джерел, тому ми використовуємо штучний інтелект для спрощення цього процесу. Наприклад, коли отримання даних від сотень різних торговців, система може автоматично відобразити їх у стандартну структуру. Сьогодні цей процес часто вимагає значного людського втручання, але можливості Nexla, керованої штучним інтелектом, спрямовані на мінімізацію ручної праці та підвищення ефективності.

Ми також просунуємося у своєму технології конекторів для підтримки наступного покоління потоків даних, включаючи можливість легко генерувати нових агентів. Ці агенти дозволяють безперешкодне підключення до нових систем та виконання конкретних дій у цих системах. Це особливо орієнтовано на зростаючі потреби користувачів генерації штучного інтелекту та спрощення інтеграції та взаємодії з різними платформами.

Третім, ми продовжимо інновації щодо покращення моніторингу та забезпечення якості.既然 більше користувачів споживають дані по всім системам, важливість моніторингу та забезпечення якості даних суттєво зросла. Наша мета – забезпечити надійні інструменти для моніторингу систем та забезпечення якості, щоб дані залишалися надійними та дієвими, навіть коли використання масштабується.

Нарешті, Nexla також робить кроки до відкриття деяких наших核心них можливостей. Ідея полягає в тому, щоб, поділившись нашою технологією з ширшою спільнотою, ми можемо наділити більше людей можливістю використовувати вдосконалені інструменти та рішення інженерії даних, що врешті відображає нашу приверженість сприянню інноваціям та співпраці у галузі.

Дякуємо за великі відповіді, читачам, які бажають дізнатися більше, слід відвідати Nexla.

Антуан є видним лідером і засновником Unite.AI, який рухає невпинною пристрастю до формування та просування майбутнього штучного інтелекту та робототехніки. Як серійний підприємець, він вважає, що штучний інтелект буде таким же революційним для суспільства, як і електрика, і часто захоплюється потенціалом деструктивних технологій та AGI.

Як футуролог, він присвячений дослідженню того, як ці інновації сформують наш світ. Крім того, він є засновником Securities.io, платформи, орієнтованої на інвестування в передові технології, які переінакшують майбутнє та змінюють цілі сектори.