Интервью

Анаис Дотис-Жоржо, Developer Advocate в InfluxData – Интервью

mm

Анаис Дотис-Жоржо – Developer Advocate в InfluxData с страстью к тому, чтобы сделать данные красивыми с помощью Data Analytics, AI и Machine Learning. Она берет данные, которые она собирает, делает смесь исследований, изучения и инженерии, чтобы перевести данные в нечто функциональное, ценное и красивое. Когда она не находится за экраном, ее можно найти на улице, рисующей, растягивающейся, катающейся на доске или гоняющейся за футбольным мячом.

InfluxData – это компания, которая строит InfluxDB, открытую базу данных времени, используемую более чем миллионом разработчиков по всему миру. Их миссия – помочь разработчикам создавать интеллектуальные, реальные системы с их данными времени.

Можете ли вы рассказать немного о вашем пути от исследовательского ассистента до Lead Developer Advocate в InfluxData? Как ваш опыт в области анализа данных и машинного обучения повлиял на вашу текущую роль?

Я получила степень бакалавра в области химической инженерии с фокусом на биомедицинской инженерии и в конечном итоге работала в лабораториях, занимаясь разработкой вакцин и обнаружением аутизма у плода. Оттуда я начала программировать роботов для обработки жидкостей и помогала ученым-исследователям понять параметры для обнаружения аномалий, что сделало меня более интересной к программированию.

Затем я стала представителем по развитию продаж в Oracle и поняла, что мне действительно нужно сосредоточиться на программировании. Я прошла курс программирования в Университете Техаса в области анализа данных и смогла войти в технологии, в частности, в область разработки.

Я пришла из технического фона, поэтому это помогло сформировать мою текущую роль. Хотя у меня не было опыта разработки, я могла относиться и сочувствовать людям, которые имели инженерный фон и ум, но также пытались учиться программированию. Итак, когда я создавала контент или технические уроки, я могла помочь новым пользователям преодолеть технические проблемы, помещая разговор в контекст, который был актуальным и интересным для них.

Ваша работа, кажется, сочетает творчество с технической экспертизой. Как вы включаете свою страсть к тому, чтобы сделать данные “красивыми”, в свою ежедневную работу в InfluxData?

В последнее время я больше фокусируюсь на инженерии данных, чем на анализе данных. Хотя я не фокусируюсь на анализе данных так много, как раньше, я все еще очень люблю математику – я думаю, что математика красивая, и с радостью объясню математику за алгоритмом.

InfluxDB был краеугольным камнем в области данных времени. Как вы видите влияние открытого сообщества на развитие и эволюцию InfluxDB?

InfluxData очень привержена открытой архитектуре данных и экосистеме Apache. В прошлом году мы объявили о InfluxDB 3.0, новом ядре для InfluxDB, написанном на Rust и построенном с использованием Apache Flight, DataFusion, Arrow и Parquet – того, что мы называем стеком FDAP. Поскольку инженеры InfluxData продолжают вносить свой вклад в эти проекты, сообщество продолжает расти, и проекты Apache Arrow становятся проще в использовании с большим количеством функций и возможностей, а также с более широкой совместимостью.

Какие из наиболее интересных открытых проектов или вкладов вы видели最近 в контексте данных времени и ИИ?

Было интересно увидеть добавление моделей LLM, которые были перепрофилированы или применены к данным времени для прогнозирования с нулевым выстрелом. Autolab имеет коллекцию открытых моделей языка времени, и TimeGPT – еще один отличный пример.

Кроме того, различные открытые библиотеки обработки потоков, включая Bytewax и Mage.ai, которые позволяют пользователям использовать и включать модели из Hugging Face, довольно интересны.

Как InfluxData обеспечивает актуальность и полезность своих открытых инициатив для сообщества разработчиков, особенно с учетом быстрого развития ИИ и машинного обучения?

Инициативы InfluxData остаются актуальными и полезными, фокусируясь на вкладе в открытые проекты, которые также используются компаниями, специализирующимися на ИИ. Например, каждый раз, когда InfluxDB вносит вклад в Apache Arrow, Parquet или DataFusion, это приносит пользу каждой другой компании, использующей ИИ, включая Apache Spark, DataBricks, Rapids.ai, Snowflake, BigQuery, HuggingFace и многие другие.

Модели языка времени становятся все более важными в прогнозной аналитике. Можете ли вы рассказать, как эти модели меняют прогнозирование и обнаружение аномалий?

Модели языка времени превосходят линейные и статистические модели, обеспечивая прогнозирование с нулевым выстрелом. Это означает, что вам не нужно обучать модель на ваших данных, прежде чем использовать ее. Также нет необходимости настраивать статистическую модель, которая требует глубоких знаний в области статистики времени.

Однако, в отличие от обработки естественного языка, область времени серии не имеет доступных крупномасштабных наборов данных. Большинство существующих предварительно обученных моделей для времени серии обучены на небольших выборках, содержащих только несколько тысяч – или, может быть, сотен – образцов. Хотя эти наборы данных были инструментальными в прогрессе сообщества времени серии, их ограниченный размер выборки и отсутствие общности представляют проблемы для предварительного обучения глубоких моделей обучения.

Это, я считаю, делает открытые модели языка времени трудными для поиска. Модели Google TimesFM и IBM Tiny Time Mixers были обучены на огромных наборах данных с сотнями миллиардов точек данных. С TimesFM, например, процесс предварительного обучения выполняется с помощью Google Cloud TPU v3 – 256, который состоит из 256 ядер TPU с общей емкостью 2 терабайта. Процесс предварительного обучения занимает примерно десять дней и приводит к модели с 1,2 миллиардами параметров. Предварительно обученная модель затем дообучается на конкретных задачах и наборах данных с использованием более низкой скорости обучения и меньшего количества эпох.

Надеюсь, это преобразование означает, что больше людей смогут делать точные прогнозы без глубоких знаний в области. Однако для этого требуется много работы, чтобы взвесить все за и против использования вычислительных моделей, таких как модели языка времени, с точки зрения финансовых и экологических затрат.

Эта публикация в блоге Hugging Face содержит еще один отличный пример прогнозирования времени серии.

Каковы ключевые преимущества использования моделей языка времени по сравнению с традиционными методами, особенно в плане обработки сложных закономерностей и прогнозирования с нулевым выстрелом?

Критическое преимущество заключается в том, что не нужно обучать и переобучать модель на ваших данных времени. Это, надеюсь, исключает онлайн-проблему машинного обучения, заключающуюся в мониторинге дрейфа модели и запуске переобучения, что в идеале исключает сложность вашей прогнозной трубы.

Вам также не нужно бороться с оценкой межсерийных корреляций или отношений для многомерных статистических моделей. Дополнительная дисперсия, добавленная оценками, часто наносит вред полученным прогнозам и может заставить модель учиться ложным корреляциям.

Можете ли вы предоставить некоторые практические примеры того, как модели, такие как Google TimesFM, IBM TinyTimeMixer и AutoLab MOMENT, были реализованы в реальных сценариях?

Это трудно ответить; поскольку эти модели находятся в относительной зачаточности, мало что известно о том, как компании используют их в реальных сценариях.

В вашем опыте, какие проблемы обычно возникают у организаций при интеграции моделей языка времени в существующую инфраструктуру данных, и как они могут преодолеть их?

Модели языка времени так новы, что я не знаю конкретных проблем, с которыми сталкиваются организации. Однако я представляю, что они столкнутся с теми же проблемами, с которыми сталкиваются при интеграции любой модели GenAI в свою трубу данных. Эти проблемы включают:

  • Проблемы совместимости и интеграции данных: Модели языка времени часто требуют конкретных форматов данных, последовательного таймстампа и регулярных интервалов, но существующая инфраструктура данных может включать неструктурированные или несоответствующие данные времени, распределенные по разным системам, таким как устаревшие базы данных, облачное хранилище или потоковые данные. Чтобы решить эту проблему, команды должны реализовать надежные конвейеры ETL (экстракция, трансформация, загрузка), чтобы предварительно обработать, очистить и выровнять данные времени.
  • Масштабируемость и производительность модели: Модели языка времени, особенно глубокие модели обучения, такие как трансформеры, могут быть ресурсоемкими, требуя значительных вычислительных и памяти для обработки больших объемов данных времени в реальном времени или gần реальном времени. Это потребует от команд развертывания моделей на масштабируемых платформах, таких как Kubernetes или облачные услуги ML, использования ускорения GPU при необходимости и использования распределенных фреймворков обработки, таких как Dask или Ray, для параллелизации вывода модели.
  • Интерпретируемость и доверие: Модели времени, особенно сложные модели LLM, могут быть рассмотрены как “черные ящики”, что затрудняет интерпретацию прогнозов. Это может быть особенно проблематично в регулируемых отраслях, таких как финансы или здравоохранение.
  • Безопасность и конфиденциальность данных: Обработка данных времени часто включает конфиденциальную информацию, такую как данные датчиков IoT или финансовые транзакции, поэтому обеспечение безопасности данных и соблюдение требований является важным при интеграции моделей LLM. Организации должны обеспечить, чтобы конвейеры данных и модели соответствовали лучшим практикам безопасности, включая шифрование и контроль доступа, и развертывали модели в безопасных, изолированных средах.

Взглянув вперед, как вы представляете себе эволюцию моделей языка времени в области прогнозной аналитики и ИИ? Есть ли какие-либо новые тенденции или технологии, которые особенно вас интересуют?

Возможным следующим шагом в эволюции моделей языка времени может быть введение инструментов, которые позволят пользователям развертывать, получать доступ и использовать их более легко. Многие из моделей языка времени, которые я использовала, требуют очень конкретных сред и не имеют широкого спектра учебных пособий и документации. В конечном итоге, эти проекты находятся на ранних стадиях, но будет интересно увидеть, как они эволюционируют в ближайшие месяцы и годы.

Спасибо за отличное интервью, читателям, которые хотят узнать больше, следует посетить InfluxData.

Антуан - видный лидер и сооснователь Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Как серийный предприниматель, он считает, что ИИ будет столь же разрушительным для общества, как электричество, и часто увлеченно рассказывает о потенциале разрушительных технологий и ИИ.

Как футуролог, он посвящает себя изучению того, как эти инновации будут формировать наш мир. Кроме того, он является основателем Securities.io, платформы, ориентированной на инвестиции в передовые технологии, которые переопределяют будущее и меняют целые сектора.