Connect with us

Анаис Дотис-Жоржоу, Developer Advocate в InfluxData – Серия интервью

Интервью

Анаис Дотис-Жоржоу, Developer Advocate в InfluxData – Серия интервью

mm

Анаис Дотис-Жоржоу является Developer Advocate в InfluxData с страстью к тому, чтобы сделать данные красивыми с помощью Data Analytics, AI и Machine Learning. Она берет данные, которые она собирает, делает смесь исследований, изучения и инженерии, чтобы перевести данные в нечто функциональное, ценное и красивое. Когда она не находится за экраном, вы можете найти ее на улице, рисующей, растягивающей, катаясь на доске или гоняющейся за футбольным мячом.

InfluxData – это компания, которая строит InfluxDB, открытую базу данных временных рядов, используемую более чем миллионом разработчиков по всему миру. Их миссия – помочь разработчикам создавать интеллектуальные, реальные системы с помощью своих временных рядов данных.

Можете ли вы рассказать немного о вашем пути от исследовательского ассистента до Lead Developer Advocate в InfluxData? Как ваш опыт в области анализа данных и машинного обучения повлиял на вашу текущую роль?

Я получила степень бакалавра в области химической инженерии с фокусом на биомедицинской инженерии и в конечном итоге работала в лабораториях, занимаясь разработкой вакцин и обнаружением аутизма у плода. Оттуда я начала программировать роботов для обработки жидкостей и помогала ученым-исследователям понять параметры для обнаружения аномалий, что сделало меня более интересной к программированию.

Затем я стала представителем по продажам в Oracle и поняла, что мне действительно нужно сосредоточиться на кодировании. Я прошла курс программирования в Университете Техаса в области анализа данных и смогла войти в технологии, в частности, в разработку отношений с разработчиками.

Я пришла из технического фона, поэтому это помогло сформировать мою текущую роль. Хотя у меня не было опыта разработки, я могла относиться и сочувствовать людям, которые имели инженерный фон и ум, но также пытались изучить программное обеспечение. Итак, когда я создавала контент или технические уроки, я могла помочь новым пользователям преодолеть технические проблемы, помещая разговор в контекст, который был актуальным и интересным для них.

Ваша работа, кажется, сочетает творчество с технической экспертизой. Как вы включаете свою страсть к тому, чтобы сделать данные “красивыми”, в свою повседневную работу в InfluxData?

В последнее время я больше сосредоточена на инженерии данных, чем на анализе данных. Хотя я не так много занимаюсь анализом данных, как раньше, я все еще очень люблю математику – я думаю, что математика красивая, и с радостью объясню математику за алгоритмом.

InfluxDB был краеугольным камнем в области временных рядов данных. Как вы видите влияние открытого сообщества на разработку и эволюцию InfluxDB?

InfluxData очень привержена открытой архитектуре данных и экосистеме Apache. В прошлом году мы объявили о InfluxDB 3.0, новом ядре для InfluxDB, написанном на Rust и построенном с помощью Apache Flight, DataFusion, Arrow и Parquet – что мы называем стеком FDAP. Когда инженеры InfluxData продолжают вносить свой вклад в эти апстрим-проекты, сообщество продолжает расти, и набор проектов Apache Arrow становится проще в использовании с большим количеством функций и возможностей, а также более широкой совместимостью.

Какие из наиболее интересных открытых проектов или вкладов вы видели最近 в контексте временных рядов данных и ИИ?

Было интересно увидеть добавление LLM, которые были перецелены или применены к временным рядам для нулевой прогнозировки. Autolab имеет коллекцию открытых языковых моделей временных рядов, и TimeGPT – еще один отличный пример.

Кроме того, различные открытые библиотеки обработки потоков, включая Bytewax и Mage.ai, которые позволяют пользователям использовать и включать модели из Hugging Face, довольно интересны.

Как InfluxData обеспечивает, чтобы их открытые инициативы оставались актуальными и полезными для сообщества разработчиков, особенно с учетом быстрых достижений в области ИИ и машинного обучения?

Инициативы InfluxData остаются актуальными и полезными, сосредотачиваясь на вкладе в открытые проекты, которые также используются компаниями, специализирующимися на ИИ. Например, каждый раз, когда InfluxDB вносит вклад в Apache Arrow, Parquet или DataFusion, это приносит пользу каждой другой компании ИИ, которая использует их, включая Apache Spark, DataBricks, Rapids.ai, Snowflake, BigQuery, HuggingFace и многие другие.

Языковые модели временных рядов становятся все более важными в прогностическом анализе. Можете ли вы подробнее рассказать о том, как эти модели преобразуют прогнозирование и обнаружение аномалий временных рядов?

Языковые модели временных рядов превосходят линейные и статистические модели, а также обеспечивают нулевую прогнозировку. Это означает, что вам не нужно тренировать модель на ваших данных, прежде чем использовать ее. Также нет необходимости настраивать статистическую модель, которая требует глубоких знаний в области статистики временных рядов.

Однако, в отличие от обработки естественного языка, область временных рядов не имеет публично доступных крупномасштабных наборов данных. Большинство существующих предварительно обученных моделей для временных рядов обучены на небольших выборках, которые содержат только несколько тысяч – или, может быть, даже сотен – образцов. Хотя эти наборы данных были инструментальными в прогрессе сообщества временных рядов, их ограниченный размер выборки и отсутствие общности создают проблемы для предварительного обучения глубоких моделей обучения.

То, что, по моему мнению, делает открытые языковые модели временных рядов трудными для получения. Google’s TimesFM и IBM’s Tiny Time Mixers были обучены на огромных наборах данных с сотнями миллиардов точек данных. С TimesFM, например, процесс предварительного обучения выполняется с помощью Google Cloud TPU v3-256, который состоит из 256 ядер TPU с общей емкостью 2 терабайт. Процесс предварительного обучения занимает примерно десять дней и приводит к модели с 1,2 миллиардами параметров. Предварительно обученная модель затем дообучается на конкретных задачах и наборах данных с помощью более низкой скорости обучения и меньшего количества эпох.

Надеюсь, это преобразование означает, что больше людей могут делать точные прогнозы без глубоких знаний в области. Однако для этого требуется много работы, чтобы взвесить все за и против использования вычислительно дорогих моделей, таких как языковые модели временных рядов, с точки зрения финансовой и экологической стоимости.

Эта пост в блоге Hugging Face подробно рассказывает о другом отличном примере прогнозирования временных рядов.

Каковы ключевые преимущества использования языковых моделей временных рядов по сравнению с традиционными методами, особенно в плане обработки сложных закономерностей и нулевой производительности?

Критическое преимущество заключается в том, что вам не нужно тренировать и переобучать модель на ваших данных временных рядов. Это, надеюсь, устраняет проблему онлайн-обучения, когда необходимо контролировать дрейф модели и запускать переобучение, идеально устраняя сложность вашей прогностической трубы.

Вам также не нужно бороться за оценку межсерийных корреляций или отношений для многомерных статистических моделей. Дополнительная дисперсия, добавленная оценками, часто наносит вред полученным прогнозам и может заставить модель учиться ложным корреляциям.

Можете ли вы предоставить некоторые практические примеры того, как модели, такие как Google’s TimesFM, IBM’s TinyTimeMixer и AutoLab’s MOMENT, были реализованы в реальных сценариях?

Это трудно ответить; поскольку эти модели находятся в относительной младенчестве, мало что известно о том, как компании используют их в реальных сценариях.

В вашем опыте, какие проблемы обычно возникают у организаций при интеграции языковых моделей временных рядов в свою существующую инфраструктуру данных, и как они могут их преодолеть?

Языковые модели временных рядов так новые, что я не знаю конкретных проблем, с которыми сталкиваются организации. Однако я представляю, что они столкнутся с теми же проблемами, с которыми сталкиваются при включении любой модели GenAI в свой поток данных. Эти проблемы включают:

  • Проблемы совместимости и интеграции данных: Языковые модели временных рядов часто требуют конкретных форматов данных, последовательного штампов времени и регулярных интервалов, но существующая инфраструктура данных может включать неструктурированные или несоответствующие данные временных рядов, распределенные по разным системам, таким как устаревшие базы данных, облачное хранилище или потоковые данные. Чтобы решить эту проблему, команды должны реализовать надежные конвейеры ETL (экстракция, трансформация, загрузка), чтобы предварительно обработать, очистить и выровнять данные временных рядов.
  • Масштабируемость и производительность модели: Языковые модели временных рядов, особенно глубокие модели обучения, такие как трансформеры, могут быть ресурсоемкими, требуя значительных вычислительных и памяти ресурсов для обработки больших объемов данных временных рядов в реальном времени или gần реальном времени. Это потребует от команд развертывания моделей на масштабируемых платформах, таких как Kubernetes или облачные сервисы ML, использовать ускорение GPU при необходимости и использовать распределенные фреймворки обработки, такие как Dask или Ray, для параллелизации вывода модели.
  • Интерпретируемость и надежность: Модели временных рядов, особенно сложные языковые модели, могут быть рассмотрены как “черные ящики”, что затрудняет интерпретацию прогнозов. Это может быть особенно проблематично в регулируемых отраслях, таких как финансы или здравоохранение.
  • Безопасность и конфиденциальность данных: Работа с данными временных рядов часто включает конфиденциальную информацию, такую как данные сенсоров IoT или финансовые транзакции, поэтому обеспечение безопасности и соответствия требованиям является важным при интеграции языковых моделей. Организации должны обеспечить, чтобы их конвейеры данных и модели соответствовали лучшим практикам безопасности, включая шифрование и контроль доступа, и развертывали модели в безопасных, изолированных средах.

Оглядываясь вперед, как вы представляете себе эволюцию языковых моделей временных рядов в области прогностического анализа и ИИ? Есть ли какие-либо новые тенденции или технологии, которые особенно вас волнуют?

Возможным следующим шагом в эволюции языковых моделей временных рядов может быть введение инструментов, которые позволят пользователям развертывать, получать доступ и использовать их более легко. Многие из языковых моделей временных рядов, которые я использовала, требуют очень конкретных сред и не имеют широкого спектра учебников и документации. В конечном итоге, эти проекты находятся на ранней стадии, но будет интересно увидеть, как они эволюционируют в ближайшие месяцы и годы.

Спасибо за отличный интервью, читателям, которые хотят узнать больше, следует посетить InfluxData.

Антуан - видный лидер и сооснователь Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Как серийный предприниматель, он считает, что ИИ будет столь же разрушительным для общества, как электричество, и часто увлекается потенциалом разрушительных технологий и ИИ.

Как футуролог, он посвящен изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Securities.io, платформы, ориентированной на инвестиции в передовые технологии, которые переопределяют будущее и меняют целые сектора.