Connect with us

Інтерв’ю

Анаїс Дотіс-Георгіу, Developer Advocate в InfluxData – Серія інтерв’ю

mm

Анаїс Дотіс-Георгіу є Developer Advocate в InfluxData з пристрастю до створення красивих даних за допомогою Data Analytics, AI та Machine Learning. Вона бере дані, які вона збирає, робить дослідження, дослідження та інженерні роботи, щоб перетворити дані в щось функціональне, цінне та красиве. Коли вона не за екраном, ви можете знайти її на вулиці, малюючи, розтягуючись, катаючись на дошці або гоняючись за м’ячем футболу.

InfluxData – це компанія, яка будує InfluxDB, відкриту базу даних часових рядів, яку використовують понад мільйон розробників по всьому світу. Їхня місія – допомогти розробникам створювати інтелектуальні системи в реальному часі з їхніми даними часових рядів.

Чи можете Ви розповісти трохи про свій шлях від дослідницького асистента до Lead Developer Advocate в InfluxData? Як Ваш досвід у сфері даних та машинного навчання вплинув на Вашу поточну роль?

Я здобула ступінь бакалавра хімічної інженерії з фокусом на біомедичній інженерії та згодом працювала в лабораторіях, займаючись розробкою вакцин та виявленням аутизму у дітей. Потім я почала програмувати роботів для обробки рідин та допомагала вченим-данним зрозуміти параметри для виявлення аномалій, що ще більше зацікавило мене програмуванням.

Потім я стала представником відділу продажів в Oracle та зрозуміла, що мені потрібно зосередитися на програмуванні. Я пройшла курс програмування в університеті Техасу з даних та смогла увійти в сферу розробки.

Моя технічна освіта допомогла мені сформувати мою поточну роль. Хоча у мене не було досвіду розробки, я могла співчувати людям, які мали інженерний фон та думку, але також намагалися вивчити програмування. Тому, коли я створювала контент або технічні уроки, я могла допомогти новим користувачам подолати технічні труднощі, розміщуючи розмову в контексті, який був актуальним та цікавим для них.

Ваша робота здається поєднанням творчості з технічною експертизою. Як Ви вплітаєте свою пристрасть до створення “красивих” даних у свою щоденну роботу в InfluxData?

Останнім часом я зосередилася більше на інженерії даних, ніж на даних. Хоча я не зосереджуюся на даних так, як раніше, я все ще дуже люблю математику – я вважаю, що математика красива, і з радістю поясню математичні основи алгоритмів.

InfluxDB став одним з основних елементів у сфері даних часових рядів. Як Ви бачите вплив відкритої спільноти на розвиток та еволюцію InfluxDB?

InfluxData дуже прив’язана до відкритої архітектури даних та екосистеми Apache. У минулому році ми оголосили про InfluxDB 3.0, нове ядро для InfluxDB, написане на Rust та побудоване з Apache Flight, DataFusion, Arrow та Parquet – те, що ми називаємо стеком FDAP. Коли інженери InfluxData продовжують внесок у ці апстрім-проекти, спільнота продовжує розвиватися, а набір проектів Apache Arrow стає легшим у використанні з більшими можливостями та функціональністю та ширшою сумісністю.

Які з відкритих проектів чи внесків Ви бачили останнім часом у контексті даних часових рядів та AI?

Це було цікаво побачити додавання LLM, які були перепрофільовані або застосовані до даних часових рядів для прогнозування з нуля. Autolab має колекцію відкритих мовних моделей часових рядів, а TimeGPT – ще один гарний приклад.

Крім того, різні відкриті бібліотеки обробки потоків, включаючи Bytewax та Mage.ai, які дозволяють користувачам використовувати та включати моделі з Hugging Face, досить цікаві.

Як InfluxData забезпечує актуальність та користь своїх відкритих ініціатив для спільноти розробників, особливо з урахуванням швидкого розвитку AI та машинного навчання?

Ініціативи InfluxData залишаються актуальними та корисними, зосереджуючись на внеску в відкриті проекти, які також використовуються компаніями, орієнтованими на AI. Наприклад, кожного разу, коли InfluxDB вносить вклад у Apache Arrow, Parquet чи DataFusion, це приносить користь усім іншим компаніям AI-технологій, які використовують їх, включаючи Apache Spark, DataBricks, Rapids.ai, Snowflake, BigQuery, HuggingFace та інші.

Моделі мов часових рядів стають дедалі важливішими у прогнозній аналітиці. Чи можете Ви розповісти про те, як ці моделі трансформують прогнозування та виявлення аномалій часових рядів?

Моделі мов часових рядів перевершують лінійні та статистичні моделі, а також забезпечують прогнозування з нуля. Це означає, що вам не потрібно тренувати модель на ваших даних перед її використанням. Також немає необхідності налаштовувати статистичну модель, яка вимагає глибокої експертизи у статистиці часових рядів.

Однак, на відміну від обробки природної мови, область часових рядів не має публічно доступних великомасштабних наборів даних. Більшість існуючих попередньо натренованих моделей для часових рядів тренуються на малих вибірках, які містять лише кілька тисяч – або навіть сотень – зразків. Хоча ці бенчмарк-набори даних були інструментальними у прогресі спільноти часових рядів, їх обмежені розміри вибірки та відсутність загальності становлять виклик для попереднього тренування глибоких моделей навчання.

Це, як я вважаю, робить відкриті моделі мов часових рядів важкими для пошуку. Google’s TimesFM та IBM’s Tiny Time Mixers були треновані на величезних наборах даних з сотнями мільярдів даних. З TimesFM, наприклад, процес попереднього тренування здійснюється за допомогою Google Cloud TPU v3–256, який складається з 256 ядер TPU з загальною кількістю 2 терабайт пам’яті. Процес попереднього тренування триває приблизно десять днів та призводить до моделі з 1,2 мільярдами параметрів. Попередньо натренована модель потім дофінується на конкретних завданнях та наборах даних за допомогою нижчої швидкості навчання та меншої кількості епох.

Надіюсь, ця трансформація означає, що більше людей зможуть робити точні прогнози без глибоких знань у галузі. Однак це вимагає багато праці, щоб зважити плюси та мінуси використання обчислювально дорогих моделей, таких як моделі мов часових рядів, з фінансової та екологічної точки зору.

Ця Hugging Face Blog пост містить ще один гарний приклад прогнозування часових рядів.

Які ключові переваги використання моделей мов часових рядів над традиційними методами, особливо у справі обробки складних закономірностей та нульової продуктивності?

Критична перевага полягає в тому, що вам не потрібно тренувати та повторно тренувати модель на ваших даних часових рядів. Це, надіюсь, усуває проблему онлайн-навчання моделей та моніторингу їх дрейфу та запуску повторного тренування, ідеально усуваючи складність вашої прогнозної трубопроводу.

Вам також не потрібно боротися з оцінкою міжсерійних кореляцій чи відносин для багатоваріантних статистичних моделей. Додаткова дисперсія, додана оцінками, часто шкодить отриманим прогнозам та може змусити модель вивчити псевдокореляції.

Чи можете Ви надати деякі практичні приклади реалізації моделей, таких як Google’s TimesFM, IBM’s TinyTimeMixer та AutoLab’s MOMENT, у реальних сценаріях?

Це складно відповісти; оскільки ці моделі знаходяться на відносно ранній стадії, мало що відомо про те, як компанії використовують їх у реальних сценаріях.

У Вашому досвіді, які виклики організації зазвичай зустрічають при інтеграції моделей мов часових рядів у свої існуючі інфраструктури даних, і як вони можуть подолати їх?

Моделі мов часових рядів настільки нові, що я не знаю конкретних викликів, з якими організації зіштовхуються. Однак я уявляю, що вони зустрічають ті самі виклики, з якими зіштовхуються при включенні будь-якої моделі генерації AI у свій потік даних. Ці виклики включають:

  • Проблеми сумісності та інтеграції даних: Моделі мов часових рядів часто вимагають конкретних форматів даних, послідовного часового штампування та регулярних інтервалів, але існуюча інфраструктура даних може містити неструктуровані або несумісні дані часових рядів, поширені по різних системах, таких як старі бази даних, хмарне сховище або потокові дані в реальному часі. Щоб подолати це, команди повинні реалізувати потужні ETL-пайплайни для попередньої обробки, очистки та вирівнювання даних часових рядів.
  • Масштабованість та продуктивність моделі: Моделі мов часових рядів, особливо глибокі моделі навчання, такі як трансформери, можуть бути ресурсоємними, вимагаючи значних обчислювальних та пам’ятних ресурсів для обробки великих обсягів даних часових рядів у реальному часі або майже реальному часі. Це вимагатиме від команд розгортання моделей на масштабованих платформах, таких як Kubernetes або керованих сервісах машинного навчання в хмарі, використання прискорення GPU при необхідності та використання розподілених фреймворків обробки, таких як Dask або Ray, для паралельного висновку моделі.
  • Інтерпретація та довіра: Моделі часових рядів, особливо складні моделі мов, можуть бути розглянуті як “чорні скриньки”, що робить важким інтерпретацію прогнозів. Це може бути особливо проблематичним у галузях, що регулюються, таких як фінанси або охорона здоров’я.
  • Безпека та конфіденційність даних: Обробка даних часових рядів часто включає конфіденційну інформацію, таку як дані датчиків IoT або фінансові транзакції, тому забезпечення безпеки даних та відповідності вимогам є критично важливим при включенні моделей мов часових рядів. Організації повинні забезпечити, щоб потоки даних та моделі відповідали найкращим практикам безпеки, включаючи шифрування та контроль доступу, та розгортати моделі в ізольованих середовищах.

Як Ви бачите розвиток ролі моделей мов часових рядів у сфері прогнозної аналітики та AI? Чи є якісь нові тенденції чи технології, які особливо Вас цікавлять?

Можливий наступний крок у розвитку моделей мов часових рядів може полягати у створенні інструментів, які дозволять користувачам розгортати, отримувати доступ та використовувати їх легше. Багато з моделей мов часових рядів, які я використовувала, вимагають дуже конкретних середовищ та не мають широкого спектру навчальних посібників та документації. В кінцевому підсумку, ці проекти знаходяться на ранній стадії, але буде цікаво побачити, як вони розвиватимуться у найближчі місяці та роки.

Дякую за гарне інтерв’ю, читачам, які бажають дізнатися більше, слід відвідати InfluxData.

Антуан є видним лідером і засновником Unite.AI, який рухає невпинною пристрастю до формування та просування майбутнього штучного інтелекту та робототехніки. Як серійний підприємець, він вважає, що штучний інтелект буде таким же революційним для суспільства, як і електрика, і часто захоплюється потенціалом деструктивних технологій та AGI.

Як футуролог, він присвячений дослідженню того, як ці інновації сформують наш світ. Крім того, він є засновником Securities.io, платформи, орієнтованої на інвестування в передові технології, які переінакшують майбутнє та змінюють цілі сектори.