Connect with us

Стівен Хілліон, старший віце-президент з даних і штучного інтелекту в Astronomer – Серія інтерв’ю

Інтерв’ю

Стівен Хілліон, старший віце-президент з даних і штучного інтелекту в Astronomer – Серія інтерв’ю

mm

Стівен Хілліон є старшим віце-президентом з даних і штучного інтелекту в Astronomer, де він використовує свій широкий академічний досвід у галузі дослідницької математики та понад 15 років досвіду у розробці платформ машинного навчання в Долині Кремнієвої. В Astronomer він очолює створення функцій Apache Airflow, спеціально розроблених для команд ML і AI, а також керує внутрішньою командою з науки про дані. Під його керівництвом Astronomer просунувся у розвитку своєї сучасної платформи оркестрації даних, суттєво покращивши її можливості даних за допомогою машинного навчання.

Чи можете ви поділитися деякою інформацією про свій шлях у галузі науки про дані та штучного інтелекту, і як це сформувало ваш підхід до керівництва інженерними та аналітичними командами?

У мене був досвід у галузі дослідницької математики в Берклі, перш ніж я перейшов у Долину Кремнієву та працював інженером у серії успішних стартапів. Я був радий покинути політику та бюрократію академії, але через кілька років я зрозумів, що мені не вистачає математики. Тому я перейшов на розробку платформ для машинного навчання та аналітики, і це майже все, що я робив з того часу.

Моя підготовка у галузі чистої математики призвела до того, що я віддаю перевагу тому, що вчені про дані називають “parsimony” — правильний інструмент для роботи, і нічого зайвого. Оскільки математики схильні віддавати перевагу елегантним рішенняам над складними механізмами, я завжди намагався підкреслити простоту при застосуванні машинного навчання до бізнес-проблем. Глибоке навчання є чудовим для деяких застосувань — великі мовні моделі чудові для підсумовування документів, наприклад — але іноді проста регресійна модель є більш підходящою та легшою для пояснення.

Це було цікаво побачити, як змінилася роль вчених про дані та програмістів за останні двадцять років з тих пір, як машинне навчання стало поширеним. Надівши обидва капелюхи, я дуже усвідомлюю важливість життєвого циклу розробки програмного забезпечення (особливо автоматизації та тестування) у застосуванні до проектів машинного навчання.

Які найбільші виклики при переміщенні, обробці та аналізі неструктурованих даних для штучного інтелекту та великих мовних моделей (LLM)?

У світі Генеративного штучного інтелекту ваші дані є вашим найціннішим активом. Моделі стають все більш комодитизованими, тому ваша диференціація полягає у всьому тому важко здобутому інституційному знанні, яке захоплено у ваших пропріетарних та кураторських наборах даних.

Доставлення правильних даних у правильний час ставить високі вимоги до ваших даних — і це стосується як неструктурованих, так і структурованих даних, або навіть більше. Часто ви приймаєте дані з багатьох різних джерел, у багатьох різних форматах. Вам потрібно мати доступ до різноманітних методів, щоб розпакувати дані та підготувати їх до використання у висновках моделі або тренуванні моделі. Вам також потрібно зрозуміти походження даних та куди вони потрапляють, щоб “показати свою роботу”.

Якщо ви робите це тільки час від часу для тренування моделі, це нормально. Ви не обов’язково повинні оперціоналізувати це. Якщо ви використовуєте модель щодня, щоб зрозуміти настрій клієнтів з онлайн-форумів, або підсумувати та направити рахунки, тоді це починає виглядати як будь-яка інша операційна дані-пайплайн, що означає, що вам потрібно думати про надійність та реплікованість. Або якщо ви часто дофінуєте модель, тоді вам потрібно турбуватися про моніторинг точності та витрат.

Хороша новина полягає в тому, що інженери з даних розробили чудову платформу, Airflow, для управління даними-пайплайнами, яка вже була успішно застосована до управління розгортанням моделі та моніторингу деякими з найсофістикованіших команд машинного навчання у світі. Тому моделі можуть бути новими, але оркестрація не є такою.

Чи можете ви розповісти про використання синтетичних даних для дофінування менших моделей для точності? Як це порівнюється з тренуванням більших моделей?

Це потужна техніка. Ви можете вважати найкращі великі мовні моделі якось закодованими у тому, що вони дізналися про світ, і вони можуть передати це меншим моделям шляхом генерації синтетичних даних. LLM закодовують величезну кількість знань, здобутих під час обширного тренування на різноманітних наборах даних. Ці моделі можуть генерувати синтетичні дані, які захоплюють закономірності, структури та інформацію, яку вони здобули. Ці синтетичні дані можуть бути використані для тренування менших моделей, ефективно передавши деякі знання від більших моделей до менших. Це процес часто називається “відбірання знань” і допомагає у створенні ефективних, менших моделей, які все ще добре працюють на конкретних завданнях. І з синтетickými даними ви можете уникнути проблем з приватністю та заповнити пробіли у тренувальних даних, які є малими або неповними.

Це може бути корисним для тренування більш домен-специфічної генеративної моделі штучного інтелекту, і навіть може бути більш ефективним, ніж тренування “більшої” моделі, з більшим рівнем контролю.

Вчені про дані вже тривалий час генерують синтетичні дані, а імпутація існує так довго, як і самі неідіяльні набори даних. Але ви завжди повинні бути дуже обережними, щоб не вводити упередження або не робити неправильних припущень про розподіл даних. Тепер, коли синтез даних став так простим і потужним, вам потрібно бути ще обережнішим. Помилки можуть бути посилені.

Відсутність різноманітності у згенерованих даних може привести до “колапсу моделі”. Модель вважає, що вона робить добре, але це тому, що вона не бачила повної картини. І, загалом, відсутність різноманітності у тренувальних даних є тим, за чим команди з даних повинні завжди стежити.

На базовому рівні, незалежно від того, чи використовуєте ви синтетичні дані чи органічні дані, походження та якість є найважливішими для тренування або дофінування будь-якої моделі. Як ми знаємо, моделі є тільки так добрі, як дані, на яких вони тренуються. Хоча синтетичні дані можуть бути чудовим інструментом для представлення чутливого набору даних без його розкриття або для заповнення пробілів, які можуть бути відсутні у представницькому наборі даних, вам потрібно мати паперовий слід, який показує, звідки походять дані, і бути能够 довести їхній рівень якості.

Які інноваційні техніки ваша команда в Astronomer реалізує для покращення ефективності та надійності даних-пайплайнів?

Багато! Платформа Astro з повністю керованою інфраструктурою Airflow та Astro Hypervisor підтримує динамічне масштабування та проактивне моніторинг через просунуті метрики здоров’я. Це забезпечує ефективне використання ресурсів та надійність систем у будь-якому масштабі. Astro забезпечує потужне даних-центричне оповіщення з настраївними сповіщеннями, які можуть бути відправлені через різні канали, такі як Slack та PagerDuty. Це забезпечує своєчасне втручання до того, як проблеми ескалюють.

Тести перевірки даних, юніт-тести та перевірки якості даних відіграють життєво важливу роль у забезпеченні надійності, точності та ефективності даних-пайплайнів та, в кінцевому підсумку, даних, які живлять ваш бізнес. Ці перевірки забезпечують, що під час швидкої побудови даних-пайплайнів для виконання термінів вони активно ловлять помилки, покращують час розробки та зменшують непередбачені помилки на задньому плані. В Astronomer ми створили інструменти, такі як Astro CLI, щоб допомогти безперебійно перевірити функціональність коду або виявити проблеми з інтеграцією у вашому даних-пайплайні.

Як ви бачите еволюцію управління генеративним штучним інтелектом, і які заходи слід вжити для підтримки створення більшої кількості інструментів?

Управління є обов’язковим, якщо застосування Генеративного штучного інтелекту мають бути успішними. Це все про прозорість та реплікованість. Чи знаєте ви, як ви отримали цей результат, і звідки, і ким? Airflow сам по собі вже дає вам можливість побачити, що роблять окремі дані-пайплайни. Його інтерфейс користувача був однією з причин його швидкого прийняття на початку, і в Astronomer ми доповнили це видимістю через команди та розгортання. Ми також надаємо нашим клієнтам звітні панелі, які пропонують комплексні знання про використання платформи, продуктивність та атрибуцію витрат для інформованого прийняття рішень. Крім того, Astro API дозволяє командам програмно розгортати, автоматизувати та керувати своїми повітряними пайплайнами, мінімізуючи ризики, пов’язані з ручними процесами, та забезпечення безперебійної роботи у масштабі при керуванні кількома повітряними середовищами. Можливості походження закладені в платформу.

Це всі кроки до допомоги у керуванні управлінням даними, і я вважаю, що компанії всіх розмірів визнають важливість управління даними для забезпечення довіри до застосувань штучного інтелекту. Це визнання та усвідомлення значно сприяють попиту на інструменти управління даними, і я передбачаю створення більшої кількості цих інструментів для прискорення поширення Генеративного штучного інтелекту. Але вони повинні бути частиною більшої оркестраційної стека, тому ми розглядаємо це як фундаментальне для того, як ми будуємо нашу платформу.

Чи можете ви надати приклади того, як рішення Astronomer покращили операційну ефективність та продуктивність для клієнтів?

Процеси Генеративного штучного інтелекту включають складні та ресурсоємні завдання, які потрібно ретельно оптимізувати та повторно виконувати. Astro, керована платформа Apache Airflow від Astronomer, забезпечуєramework у центрі нового штучного інтелекту-стеку, щоб допомогти спростити ці завдання та підвищити здатність інновувати швидко.

Від оркестрування завдань Генеративного штучного інтелекту бізнес може забезпечити ефективне використання обчислювальних ресурсів та оптимізацію робочих процесів у режимі реального часу. Це особливо важливо в середовищах, де генеративні моделі повинні бути часто оновлені або переобучені на основі нових даних.

Від використанням керованої інфраструктури Airflow та можливостей розгортання та масштабування Astronomer команди можуть витратити менше часу на керування інфраструктурою та зосередитися на перетворенні даних та розробці моделей, що прискорює розгортання застосувань Генеративного штучного інтелекту та підвищує продуктивність.

Цим чином платформа Astro від Astronomer допомогла клієнтам покращити операційну ефективність Генеративного штучного інтелекту у широкому спектрі випадків використання. Назвіть кілька прикладів випадків використання, таких як відкриття продуктів електронної комерції, аналіз ризику відходу клієнтів, автоматизація підтримки, класифікація та підсумовування юридичних документів, отримання продуктивних знань з відгуків клієнтів та динамічне кластерування для генерації зображень продуктів.

Яку роль відіграє Astronomer у підвищенні продуктивності та масштабованості застосувань штучного інтелекту та машинного навчання?

Масштабованість є великим викликом для бізнесу, який використовує Генеративний штучний інтелект у 2024 році. Коли ви переходите від прототипу до виробництва, користувачі очікують, що їх застосунки Генеративного штучного інтелекту будуть надійними та продуктивними, і що виводи, які вони генерують, будуть довіреними. Це потрібно зробити ефективно за витратами, і компанії всіх розмірів повинні бути能够 використовувати його потенціал. З цим на увазі, використовуючи Astronomer, завдання можуть бути масштабовані горизонтально для динамічної обробки великої кількості джерел даних. Astro може еластично масштабувати розгортання та кластери, на яких вони розміщені, а виконання завдань на основі черги з присвяченими типами машин забезпечує більшу надійність та ефективне використання обчислювальних ресурсів. Щоб допомогти з частиною контролю витрат, Astro пропонує функції масштабування до нуля та гібернації, які допомагають контролювати витрати та зменшувати витрати на хмарні обчислення. Ми також надаємо повну прозорість щодо вартості платформи. Міна власна команда з даних генерує звіти про споживання, які ми робимо доступними щодня для наших клієнтів.

Які майбутні тенденції у сфері штучного інтелекту та науки про дані вас цікавлять, і як Astronomer готується до них?

Об’яснюваний штучний інтелект є величезно важливою та цікавою галуззю розвитку. Можливість заглянути у внутрішню роботу дуже великих моделей є майже незвичною. І я також цікавий побачити, як спільнота бореться з екологічним впливом тренування та налаштування моделей. В Astronomer ми продовжимо оновлювати наш реєстр усіма останніми інтеграціями, щоб команди з даних та машинного навчання могли підключитися до найкращих сервісів моделей та найбільш ефективних платформ обчислень без будь-яких важких зусиль.

Як ви бачите інтеграцію просунутих інструментів штучного інтелекту, таких як LLM, з традиційними системами керування даними за найближчі кілька років?

Ми бачили, як Databricks та Snowflake оголосили про те, як вони включили використання та розвиток LLM у свої платформи. Інші СУБД та платформи машинного навчання зроблять те саме. Це чудово бачити, що інженери з даних мають такий легкий доступ до таких потужних методів, прямо з командної строки або SQL-пromptу.

Я особливо цікавий у тому, як реляційні бази даних включають машинне навчання. Я завжди чекаю, коли методи машинного навчання будуть включені у стандарт SQL, але по якійсь причині ці дві дисципліни ніколи не справді спрацювали. Можливо, цього разу все буде інакше.

Я дуже цікавий щодо майбутнього великих мовних моделей для допомоги роботі інженера з даними. Насамперед великі мовні моделі вже були особливо успішними у генерації коду, хоча перші спроби забезпечити вчених про дані штучно-інтелектуальними пропозиціями були сумішшю: Hex є чудовим, наприклад, тоді як Snowflake є невдохновлюючим поки що. Але є величезний потенціал для зміни природи роботи команд з даних, набагато більше, ніж для розробників. Чому? Для програмістів提示 є функційним ім’ям або документацією, але для інженерів з даних є дані. Є так багато контексту, з яким моделі можуть працювати, щоб зробити корисні та точні пропозиції.

Яка порада ви дали б аспірантам-ученим про дані та інженерам штучного інтелекту, які хочуть зробити вплив у галузі?

Учіться, роблячи. Це неймовірно легко будувати застосунки зараз, і доповнювати їх штучним інтелектом. Тому побудуйте щось круте, і надішліть його другові друга, який працює в компанії, яку ви шануєте. Або надішліть мені, і я обіцяю, що подивлюся!

Хитрість полягає в тому, щоб знайти щось, про що ви пристрасні, і знайти хороше джерело пов’язаних даних. Друг мого друга зробив цікавий аналіз аномальних сезонів бейсболу, що сягає 19-го століття, і виявив історії, які заслуговують на те, щоб про них зняли фільм. І деякі інженерів Astronomer недавно зібралися за вихідних, щоб побудувати платформу для самозцілювання даних-пайплайнів. Я не можу уявити, що спробував би зробити щось подібне кілька років тому, але за допомогою кількох днів зусиль ми виграли хакатон Cohere і побудували основу для нового функціоналу нашої платформи.

Дякую за чудове інтерв’ю. Читачам, які бажають дізнатися більше, слід відвідати Astronomer.

Антуан є видним лідером і засновником Unite.AI, який рухає невпинною пристрастю до формування та просування майбутнього штучного інтелекту та робототехніки. Як серійний підприємець, він вважає, що штучний інтелект буде таким же революційним для суспільства, як і електрика, і часто захоплюється потенціалом деструктивних технологій та AGI.

Як футуролог, він присвячений дослідженню того, як ці інновації сформують наш світ. Крім того, він є засновником Securities.io, платформи, орієнтованої на інвестування в передові технології, які переінакшують майбутнє та змінюють цілі сектори.