Entrevistas
Anais Dotis-Georgiou, Desenvolvedora de Advocacia na InfluxData – Série de Entrevistas

Anais Dotis-Georgiou é uma Desenvolvedora de Advocacia da InfluxData com uma paixão por tornar os dados bonitos com o uso de Análise de Dados, IA e Aprendizado de Máquina. Ela pega os dados que coleta, faz uma mistura de pesquisa, exploração e engenharia para traduzir os dados em algo de função, valor e beleza. Quando não está atrás de uma tela, você pode encontrá-la fora desenhando, alongando, andando de skate ou correndo atrás de uma bola de futebol.
InfluxData é a empresa que constrói InfluxDB, o banco de dados de séries temporais de código aberto usado por mais de um milhão de desenvolvedores em todo o mundo. Sua missão é ajudar os desenvolvedores a construir sistemas inteligentes e em tempo real com seus dados de séries temporais.
Pode compartilhar um pouco sobre sua jornada de Assistente de Pesquisa a Liderança de Desenvolvedora de Advocacia na InfluxData? Como seu background em análise de dados e aprendizado de máquina moldou seu papel atual?
Eu obtive meu diploma de graduação em engenharia química com foco em engenharia biomédica e eventualmente trabalhei em laboratórios realizando desenvolvimento de vacinas e detecção de autismo pré-natal. A partir daí, comecei a programar robôs de manipulação de líquidos e ajudar cientistas de dados a entender os parâmetros para detecção de anomalias, o que me fez mais interessado em programação.
Em seguida, me tornei representante de desenvolvimento de vendas na Oracle e percebi que realmente precisava me concentrar em codificação. Eu fiz um boot camp de codificação na Universidade do Texas em análise de dados e consegui entrar na área de tecnologia, especificamente em relações de desenvolvedores.
Eu vim de um background técnico, então isso ajudou a moldar meu papel atual. Embora eu não tivesse experiência em desenvolvimento, eu podia me relacionar e empatizar com as pessoas que tinham uma formação em engenharia e mente, mas também estavam tentando aprender software. Então, quando eu criei conteúdo ou tutoriais técnicos, eu pude ajudar novos usuários a superar desafios técnicos enquanto colocava a conversa em um contexto que era relevante e interessante para eles.
Seu trabalho parece combinar criatividade com expertise técnica. Como você incorpora sua paixão por tornar os dados “bonitos” em seu trabalho diário na InfluxData?
Ultimamente, eu tenho me concentrado mais em engenharia de dados do que em análise de dados. Embora eu não me concentre tanto em análise de dados quanto costumava, eu ainda gosto muito de matemática – acho que a matemática é bonita e vou saltar em uma oportunidade para explicar a matemática por trás de um algoritmo.
InfluxDB tem sido uma pedra angular no espaço de dados de séries temporais. Como você vê a comunidade de código aberto influenciando o desenvolvimento e a evolução do InfluxDB?
A InfluxData está muito comprometida com a arquitetura de dados abertos e o ecossistema Apache. No ano passado, anunciamos o InfluxDB 3.0, o novo núcleo do InfluxDB escrito em Rust e construído com Apache Flight, DataFusion, Arrow e Parquet – o que chamamos de pilha FDAP. À medida que os engenheiros da InfluxData continuam a contribuir para esses projetos upstream, a comunidade continua a crescer e o conjunto de projetos Apache Arrow se torna mais fácil de usar com mais recursos e funcionalidades, e uma interoperabilidade mais ampla.
Quais são alguns dos projetos ou contribuições de código aberto mais emocionais que você viu recentemente no contexto de dados de séries temporais e IA?
Foi legal ver a adição de LLMs sendo reutilizadas ou aplicadas a séries temporais para previsão zero-shot. Autolab tem uma coleção de modelos de linguagem de séries temporais abertos, e TimeGPT é outro exemplo excelente.
Além disso, várias bibliotecas de processamento de fluxo de código aberto, incluindo Bytewax e Mage.ai, que permitem que os usuários aproveitem e incorporem modelos do Hugging Face, são bastante emocionais.
Como a InfluxData garante que suas iniciativas de código aberto permaneçam relevantes e benéficas para a comunidade de desenvolvedores, especialmente com os avanços rápidos em IA e aprendizado de máquina?
As iniciativas da InfluxData permanecem relevantes e benéficas ao se concentrar em contribuir para projetos de código aberto que empresas de IA também utilizam. Por exemplo, toda vez que o InfluxDB contribui para o Apache Arrow, Parquet ou DataFusion, isso beneficia todas as outras empresas de tecnologia de IA que utilizam esses projetos, incluindo Apache Spark, DataBricks, Rapids.ai, Snowflake, BigQuery, HuggingFace e mais.
Modelos de linguagem de séries temporais estão se tornando cada vez mais vitais na análise preditiva. Pode elaborar sobre como esses modelos estão transformando a previsão de séries temporais e detecção de anomalias?
Os modelos de linguagem de séries temporais superam os modelos lineares e estatísticos, além de fornecer previsão zero-shot. Isso significa que você não precisa treinar o modelo em seus dados antes de usá-lo. Não há necessidade de ajustar um modelo estatístico, o que requer expertise profunda em estatísticas de séries temporais.
No entanto, ao contrário do processamento de linguagem natural, o campo de séries temporais carece de conjuntos de dados de grande escala acessíveis publicamente. A maioria dos modelos pré-treinados existentes para séries temporais é treinada em tamanhos de amostra pequenos, que contêm apenas alguns milhares – ou talvez apenas algumas centenas – de amostras. Embora esses conjuntos de dados de benchmark tenham sido instrumentais no progresso da comunidade de séries temporais, seus tamanhos de amostra limitados e falta de generalidade apresentam desafios para o pré-treinamento de modelos de aprendizado profundo.
Isso é o que eu acredito que torna os modelos de linguagem de séries temporais de código aberto difíceis de encontrar. O TimesFM do Google e o Tiny Time Mixers da IBM foram treinados em conjuntos de dados massivos com centenas de bilhões de pontos de dados. Com o TimesFM, por exemplo, o processo de pré-treinamento é feito usando o Google Cloud TPU v3 – 256, que consiste em 256 núcleos TPU com um total de 2 terabytes de memória. O processo de pré-treinamento leva cerca de dez dias e resulta em um modelo com 1,2 bilhão de parâmetros. O modelo pré-treinado é então ajustado em tarefas e conjuntos de dados downstream específicos usando uma taxa de aprendizado mais baixa e menos épocas.
Esperançosamente, essa transformação implica que mais pessoas possam fazer previsões precisas sem conhecimento profundo do domínio. No entanto, é necessário muito trabalho para pesar os prós e contras de usar modelos computacionalmente caros como os modelos de linguagem de séries temporais, tanto do ponto de vista financeiro quanto do ponto de vista ambiental.
Este post do blog do Hugging Face detalha outro exemplo excelente de previsão de séries temporais.
Quais são as principais vantagens de usar modelos de linguagem de séries temporais em vez de métodos tradicionais, especialmente em termos de lidar com padrões complexos e desempenho zero-shot?
A vantagem crítica é não precisar treinar e retreinar um modelo em seus dados de séries temporais. Isso elimina idealmente o problema de aprendizado de máquina online de monitorar o drift do modelo e acionar o retreinamento, idealmente eliminando a complexidade da pipeline de previsão.
Você também não precisa lutar para estimar as correlações entre séries ou relações para modelos estatísticos multivariados. A variância adicionada pelas estimativas frequentemente prejudica as previsões resultantes e pode fazer com que o modelo aprenda correlações espúrias.
Pode fornecer alguns exemplos práticos de como modelos como o TimesFM do Google, o TinyTimeMixer da IBM e o MOMENT da Autolab foram implementados em cenários do mundo real?
Isso é difícil de responder; desde que esses modelos estão em sua infância relativa, pouco se sabe sobre como as empresas os usam em cenários do mundo real.
Em sua experiência, quais desafios as organizações geralmente enfrentam ao integrar modelos de linguagem de séries temporais em sua infraestrutura de dados existente, e como elas podem superá-los?
Os modelos de linguagem de séries temporais são tão novos que eu não sei quais são os desafios específicos que as organizações enfrentam. No entanto, eu imagino que eles enfrentarão os mesmos desafios enfrentados ao incorporar qualquer modelo de IA GenAI em sua pipeline de dados. Esses desafios incluem:
- Problemas de compatibilidade e integração de dados: Os modelos de linguagem de séries temporais frequentemente exigem formatos de dados específicos, marcação de tempo consistente e intervalos regulares, mas a infraestrutura de dados existente pode incluir dados de séries temporais não estruturados ou inconsistentes espalhados por diferentes sistemas, como bancos de dados legados, armazenamento em nuvem ou fluxos em tempo real. Para resolver isso, as equipes devem implementar pipelines ETL (extrair, transformar, carregar) robustas para pré-processar, limpar e alinhar os dados de séries temporais.
- Escalabilidade e desempenho do modelo: Os modelos de linguagem de séries temporais, especialmente os modelos de aprendizado profundo como os transformadores, podem ser intensivos em recursos, exigindo recursos computacionais e de memória significativos para processar grandes volumes de dados de séries temporais em tempo real ou near-real-time. Isso exigiria que as equipes implantassem modelos em plataformas escaláveis como Kubernetes ou serviços de ML gerenciados em nuvem, aproveitassem a aceleração de GPU quando necessário e utilizassem frameworks de processamento distribuído como Dask ou Ray para parallelizar a inferência do modelo.
- Interpretabilidade e confiabilidade: Os modelos de séries temporais, particularmente os modelos de linguagem complexos, podem ser vistos como “caixas pretas”, tornando difícil interpretar as previsões. Isso pode ser particularmente problemático em indústrias regulamentadas como finanças ou saúde.
- Privacidade e segurança de dados: Lidar com dados de séries temporais frequentemente envolve informações sensíveis, como dados de sensores IoT ou transações financeiras, então garantir a segurança e conformidade dos dados é crucial ao integrar os modelos de linguagem. As organizações devem garantir que as pipelines de dados e os modelos estejam em conformidade com as melhores práticas de segurança, incluindo criptografia e controle de acesso, e implantem modelos em ambientes isolados e seguros.
Olhando para o futuro, como você vê o papel dos modelos de linguagem de séries temporais evoluindo no campo de análise preditiva e IA? Existem alguma tendência ou tecnologia emergente que o excita particularmente?
Um próximo passo possível na evolução dos modelos de linguagem de séries temporais pode ser introduzir ferramentas que permitam que os usuários implantem, acessem e usem esses modelos mais facilmente. Muitos dos modelos de linguagem de séries temporais que eu usei exigem ambientes muito específicos e carecem de uma ampla gama de tutoriais e documentação. Em última análise, esses projetos estão em estágios iniciais, mas será emocionante ver como eles evoluem nos próximos meses e anos.
Obrigado pela ótima entrevista, leitores que desejam aprender mais devem visitar InfluxData.












