Rozhovory
Anais Dotis-Georgiou, Developer Advocate v InfluxData – Interview Series

Anais Dotis-Georgiou je Developer Advocate pro InfluxData s vášní pro vytváření krásných dat pomocí datové analýzy, AI a strojového učení. Bere data, která sbírá, a kombinuje výzkum, průzkum a inženýrství, aby data přetvořila na něco funkčního, hodnotného a krásného. Když není za obrazovkou, můžete ji najít venku, jak kreslí, protahuje se, jezdí na prknu nebo honí fotbalový míč.
InfluxData je společnost, která buduje InfluxDB, open source časovou databázi, kterou používá více než milion vývojářů po celém světě. Jejich mise je pomoci vývojářům budovat inteligentní, reálné systémy se svými časovými sériemi.
Můžete sdílet něco o své cestě od výzkumného asistenta k vedoucímu Developer Advocatovi v InfluxData? Jak vám vaše zkušenosti s datovou analýzou a strojovým učením pomohly ve vaší současné roli?
Vystudovala jsem chemický inženýrství se zaměřením na biomedicínské inženýrství a nakonec pracovala v laboratořích na vývoji vakcín a detekci autismu u předčasně narozených dětí. Odtud jsem začala programovat roboty pro manipulaci s kapalinami a pomáhala datovým vědcům pochopit parametry pro detekci anomálií, což mě více zajímalo o programování.
Pak jsem se stala sales development representative v Oracle a uvědomila jsem si, že opravdu potřebuji se zaměřit na kódování. Absolvovala jsem kurz programování na University of Texas v datové analýze a podařilo se mi proniknout do technologií, konkrétně do developer relations.
Pocházím z technického prostředí, takže to mi pomohlo tvarovat mou současnou roli. I když jsem neměla zkušenosti s vývojem, mohla jsem se vcítit do lidí, kteří měli inženýrský背景 a mysl, ale také se učili software. Takže když jsem vytvářela obsah nebo technické tutoriály, mohla jsem pomoci novým uživatelům překonat technické výzvy, zatímco umisťovala konverzaci do kontextu, který byl relevantní a zajímavý pro ně.
Vaše práce zdá se kombinuje kreativitu s technickou odborností. Jak začleňujete svou vášeň pro vytváření krásných dat do své denní práce v InfluxData?
V poslední době jsem se více soustředila na data engineering než na datovou analýzu. I když se tolik nezaměřuji na datovou analýzu, jako dříve, stále mám rád matematiku – myslím, že matematika je krásná, a skočím na příležitost vysvětlit matematiku za algoritmem.
InfluxDB byl kamenem úrazu v prostoru časových sérií. Jak vidíte otevřenou komunitu ovlivňující vývoj a evoluci InfluxDB?
InfluxData je velmi zavázána k otevřené datové architektuře a ekosystému Apache. Minulý rok jsme oznámili InfluxDB 3.0, nový jádro pro InfluxDB napsaný v Rustu a postavený s Apache Flight, DataFusion, Arrow a Parquet–což nazýváme FDAP stack. Jak inženýři v InfluxData pokračují ve přispívání k těmto upstream projektům, komunita pokračuje v růstu a Apache Arrow sada projektů se stává snazší na použití s více funkcemi a funkcionalitou, a širší interoperabilitou.
Jaké jsou některé z nejzajímavějších open-source projektů nebo příspěvků, které jste viděli nedávno v kontextu časových sérií a AI?
Bylo skvělé vidět přidání LLMs, které jsou repurposed nebo aplikovány na časové série pro zero-shot forecasting. Autolab má kolekci open časových sérií jazykových modelů, a TimeGPT je další skvělý příklad.
Navíc, různé open source stream processing knihovny, včetně Bytewax a Mage.ai, které umožňují uživatelům využít a začlenit modely z Hugging Face, jsou bastante zajímavé.
Jak InfluxData zajišťuje, aby její open source iniciativy zůstaly relevantní a prospěšné pro vývojářskou komunitu, zejména s rychlým pokrokem v AI a strojovém učení?
Iniciativy InfluxData zůstávají relevantní a prospěšné tím, že se zaměřují na přispívání k open source projektům, které AI-specifické společnosti také využívají. Například každá chvíle, kdy InfluxDB přispívá k Apache Arrow, Parquet nebo DataFusion, prospívá každému jinému AI technologiím a společnosti, které je využívají, včetně Apache Spark, DataBricks, Rapids.ai, Snowflake, BigQuery, HuggingFace a dalších.
Časové série jazykové modely se stávají stále důležitějšími v prediktivní analýze. Můžete vysvětlit, jak tyto modely transformují časové série forecasting a detekci anomálií?
Časové série LMs outperform lineární a statistické modely, zatímco také poskytují zero-shot forecasting. To znamená, že nemusíte trénovat model na vašich datech předtím, než jej použijete. Není také potřeba ladit statistický model, který vyžaduje hluboké znalosti časových sérií statistiky.
Nicméně, na rozdíl od zpracování přirozeného jazyka, časové série pole postrádají veřejně přístupné velké datové sady. Většina existujících pre-trénovaných modelů pro časové série je trénována na malých vzorcích, které obsahují pouze několik tisíc – nebo možná dokonce stovek – vzorků. Ačkoli tyto benchmark datové sady byly instrumentální v pokroku časové série komunity, jejich omezené velikosti vzorků a nedostatek obecnosti představují výzvy pro pre-trénování hlubokých učících modelů.
To je to, co si myslím, že dělá open source časové série LMs těžké najít. Google’s TimesFM a IBM’s Tiny Time Mixers byly trénovány na masivních datech s stovkami miliard datových bodů. S TimesFM, například, je pre-trénovací proces proveden pomocí Google Cloud TPU v3–256, který se skládá z 256 TPU jader s celkovými 2 terabajty paměti. Pre-trénovací proces trvá přibližně deset dní a výsledkem je model s 1,2 miliardami parametrů. Pre-trénovaný model je pak fine-tuned na konkrétní downstream úkoly a datové sady pomocí nižšího učení a méně epoch.
Doufám, že tato transformace znamená, že více lidí může dělat přesné předpovědi bez hlubokých znalostí domény. Nicméně, vyžaduje to hodně práce, aby se vyvážily výhody a nevýhody využití výpočetně náročných modelů, jako jsou časové série LMs, z finančního a environmentálního hlediska.
Tento Hugging Face Blog post detailně popisuje další skvělý příklad časového série forecasting.
Jaké jsou klíčové výhody používání časových sérií LMs oproti tradičním metodám, zejména z hlediska zpracování komplexních vzorců a zero-shot výkonu?
Kritická výhoda spočívá v tom, že nemusíte trénovat a re-trénovat model na vašich časových sériích datech. To doufám eliminuje online strojové učení problém monitorování modelu driftu a spouštění re-trénování, ideálně eliminuje složitost vaší forecasting pipeline.
Nemusíte se také snažit odhadnout cross-series korelace nebo vztahy pro multivariate statistické modely. Další variace přidána odhadů často poškozuje výsledné předpovědi a může způsobit, že model naučí se falešné korelace.
Můžete poskytnout einige praktické příklady, jak modely, jako je Google’s TimesFM, IBM’s TinyTimeMixer a AutoLab’s MOMENT, byly implementovány v reálných scénářích?
To je těžké odpovědět; protože tyto modely jsou ve své relativní dětství, málo se ví o tom, jak je společnosti využívají v reálných scénářích.
Vaše zkušenosti, jaké výzvy organizace obvykle čelí, když integrují časové série LMs do své stávající datové infrastruktury, a jak je mohou překonat?
Časové série LMs jsou tak nové, že nevím konkrétní výzvy, kterým organizace čelí. Nicméně, předpokládám, že budou čelit stejným výzvám, kterým čelí při začleňování jakýchkoliv GenAI modelů do své datové pipeline. Tyto výzvy zahrnují:
- Problémy s kompatibilitou a integrací dat: Časové série LMs často vyžadují specifické formáty dat, konzistentní timestamping a pravidelné intervaly, ale stávající datové infrastruktury mohou zahrnovat nestrukturovaná nebo nekonzistentní časová sérií data rozložená napříč různými systémy, jako jsou legacy databáze, cloud storage nebo reálné proudy. Aby se tomu zabránilo, týmy by měly implementovat robustní ETL (extract, transform, load) pipeline pro předzpracování, čištění a zarovnání časových sérií dat.
- Škálovatelnost a výkon modelu: Časové série LMs, zejména hluboké učení modely, jako jsou transforméry, mohou být náročné na zdroje, vyžadující významné výpočetní a paměťové zdroje pro zpracování velkých objemů časových sérií dat v reálném čase nebo téměř reálném čase. To by vyžadovalo, aby týmy nasadily modely na škálovatelné platformy, jako je Kubernetes nebo cloud-managed ML služby, využily urychlení GPU, když je to potřeba, a využily distribuované zpracování rámců, jako je Dask nebo Ray, pro paralelizaci modelu inference.
- Interpretovatelnost a důvěryhodnost: Časové série modely, zejména komplexní LMs, mohou být považovány za “černé skříňky”, což může být zvláště problematické v regulovaných odvětvích, jako je finance nebo zdravotnictví.
- Zabezpečení a ochrana dat: Zpracování časových sérií dat často zahrnuje citlivé informace, jako jsou IoT senzorová data nebo finanční transakční data, takže zajištění datové bezpečnosti a souladu je kritické, když se integrují LMs. Organizace musí zajistit, aby datové pipeline a modely splňovaly nejlepší bezpečnostní postupy, včetně šifrování a kontroly přístupu, a nasadily modely ve sécurizovaných, izolovaných prostředích.
Jak vidíte roli časových sérií LMs evoluci v poli prediktivní analýzy a AI? Jsou nějaké vznikající trendy nebo technologie, které vás zvláště zajímají?
Možným dalším krokem v evoluci časových sérií LMs by mohlo být zavedení nástrojů, které umožní uživatelům nasadit, přistupovat a používat je snáze. Mnoho časových sérií LMs, které jsem použila, vyžaduje velmi specifické prostředí a postrádá širokou škálu tutoriálů a dokumentace. Nakonec, tyto projekty jsou ve svých raných fázích, ale bude zajímavé sledovat, jak se budou vyvíjet v nadcházejících měsících a letech.
Děkuji za skvělý rozhovor, čtenáři, kteří chtějí se dozvědět více, by měli navštívit InfluxData.












