访谈
阿奈丝·多蒂斯-乔治乌(Anais Dotis-Georgiou),InfluxData 开发者倡导者 – 采访系列

阿奈丝·多蒂斯-乔治乌(Anais Dotis-Georgiou)是 InfluxData 的开发者倡导者,她热衷于使用数据分析、人工智能和机器学习使数据变得美丽。她收集数据,进行研究、探索和工程处理,将数据转化为有功能、价值和美丽的东西。当她不在屏幕前工作时,你可以找到她在外面画画、伸展、滑板或追逐足球。
InfluxData 是构建 InfluxDB 的公司,InfluxDB 是一个开源时间序列数据库,全球超过一百万开发者使用。他们的使命是帮助开发者使用时间序列数据构建智能的实时系统。
您能否分享一下您从研究助理到 InfluxData 首席开发者倡导者的经历?您的数据分析和机器学习背景如何影响您当前的角色?
我获得了化学工程学士学位,重点是生物医学工程,之后在实验室从事疫苗开发和产前自闭症检测工作。从那里,我开始编程液体处理机器人,并帮助数据科学家了解异常检测的参数,这使我更加感兴趣编程。
然后,我成为 Oracle 的销售开发代表,意识到我需要专注于编码。我在德克萨斯大学参加了数据分析编码训练营,能够进入科技行业,特别是开发者关系。
我来自技术背景,这帮助我塑造了当前的角色。虽然我没有开发经验,但我能够与具有工程背景和思维方式的人产生共鸣,他们也在尝试学习软件。当我创建内容或技术教程时,我能够帮助新用户克服技术挑战,同时将对话放在了与他们相关和有趣的背景中。
您的工作似乎将创造力与技术专长相结合。您如何将对数据“美化”的热情融入到 InfluxData 的日常工作中?
最近,我更专注于数据工程而不是数据分析。虽然我不像以前那样关注数据分析,但我仍然非常喜欢数学——我认为数学很美丽,并且会抓住机会解释算法背后的数学原理。
InfluxDB 已经成为时间序列数据领域的基石。您如何看待开源社区影响 InfluxDB 的开发和演进?
InfluxData 致力于开源数据架构和 Apache 生态系统。去年,我们宣布 InfluxDB 3.0,这是使用 Rust 编写的 InfluxDB 新核心,采用 Apache Flight、DataFusion、Arrow 和 Parquet——我们称之为 FDAP 栈。随着 InfluxData 的工程师继续为这些上游项目做出贡献,社区继续增长,Apache Arrow 的项目变得更容易使用,具有更多功能和特性,以及更广泛的互操作性。
您最近在时间序列数据和人工智能的背景下看到哪些令人兴奋的开源项目或贡献?
看到 LLM 被重新用于时间序列的零次预测很有趣。Autolab 有一个开源时间序列语言模型集合,TimeGPT 是另一个很好的例子。
此外,各种开源流处理库,包括 Bytewax 和 Mage.ai,允许用户利用和集成来自 Hugging Face 的模型,这很令人兴奋。
如何确保 InfluxData 的开源计划保持与开发者社区的相关性和有益性,特别是在人工智能和机器学习快速发展的背景下?
InfluxData 的计划保持相关性和有益性是通过专注于为人工智能特定公司也使用的开源项目做出贡献。例如,每当 InfluxDB 为 Apache Arrow、Parquet 或 DataFusion 做出贡献时,它都会使每个其他使用它的 AI 技术和公司受益,包括 Apache Spark、DataBricks、Rapids.ai、Snowflake、BigQuery、HuggingFace 等。
时间序列语言模型在预测分析中变得越来越重要。您能否详细说明这些模型如何改变时间序列预测和异常检测?
时间序列语言模型比线性和统计模型表现更好,同时提供零次预测。这意味着您不需要在使用之前训练模型。也不需要调整统计模型,这需要对时间序列统计有深入的了解。
然而,与自然语言处理不同,时间序列领域缺乏公开可访问的大规模数据集。大多数现有的预训练时间序列模型都是在小样本大小上训练的,仅包含几千甚至几百个样本。虽然这些基准数据集在时间序列社区的进步中发挥了重要作用,但它们的样本大小有限以及缺乏普遍性,对于预训练深度学习模型提出了挑战。
这就是我认为开源时间序列语言模型难以找到的原因。谷歌的 TimesFM 和 IBM 的 Tiny Time Mixers 已经在拥有数十亿数据点的巨大数据集上进行了训练。例如,TimesFM 的预训练过程使用谷歌云 TPU v3-256 进行,总共有 256 个 TPU 核心和 2TB 的内存。预训练过程大约需要 10 天,结果是一个具有 12 亿参数的模型。然后在特定下游任务和数据集上对预训练模型进行微调,使用较低的学习率和较少的轮数。
希望这意味着更多人可以在没有深入领域知识的情况下做出准确的预测。然而,使用计算成本高的时间序列语言模型需要在财务和环境成本方面进行权衡。
这篇 Hugging Face 博客文章 详细介绍了另一个时间序列预测的例子。
使用时间序列语言模型相比传统方法的主要优势是什么,特别是在处理复杂模式和零次性能方面?
最重要的优势是您不需要在您的时间序列数据上训练和重新训练模型。这希望消除了在线机器学习问题,即监控模型的漂移并触发重新训练,理想情况下消除了预测管道的复杂性。
您也不需要努力估计多变量统计模型的跨序列相关性或关系。估计添加的额外方差通常会损害预测结果,并可能导致模型学习虚假相关性。
您能否提供一些实际例子,展示如何在现实场景中实施像 Google 的 TimesFM、IBM 的 TinyTimeMixer 和 AutoLab 的 MOMENT 这样的模型?
这是一个难以回答的问题,因为这些模型仍处于相对初期阶段,目前还没有太多关于它们在现实场景中的应用信息。
在您的经验中,组织在将时间序列语言模型集成到现有的数据基础设施中时通常会面临哪些挑战,以及它们如何克服这些挑战?
时间序列语言模型非常新,我不知道组织面临的具体挑战。然而,我想象他们将面临与将任何 GenAI 模型集成到数据管道中相同的挑战。这些挑战包括:
- 数据兼容性和集成问题:时间序列语言模型通常需要特定的数据格式、一致的时间戳和规则的间隔,但是现有的数据基础设施可能包含不规则或不一致的时间序列数据,分散在不同的系统中,例如遗留数据库、云存储或实时流。为了解决这个问题,团队应该实施强大的 ETL(提取、转换、加载)管道来预处理、清理和对齐时间序列数据。
- 模型可扩展性和性能:时间序列语言模型,特别是深度学习模型,如变换器,可能需要大量计算和内存资源来处理大量时间序列数据。因此,团队需要部署模型在可扩展的平台上,例如 Kubernetes 或云托管的 ML 服务,并利用 GPU 加速和分布式处理框架来并行化模型推理。
- 可解释性和可靠性:时间序列模型,特别是复杂的语言模型,可能被视为“黑盒”,这使得解释预测变得困难。特别是在金融或医疗保健等受监管的行业中,这可能是一个问题。
- 数据隐私和安全性:处理时间序列数据通常涉及敏感信息,例如 IoT 传感器数据或金融交易数据。因此,确保数据管道和模型符合最佳安全实践,包括加密和访问控制,并在安全的隔离环境中部署模型至关重要。
展望未来,您如何看待时间序列语言模型在预测分析和人工智能领域的演变?是否有任何新兴趋势或技术特别让您感到兴奋?
时间序列语言模型演进的可能下一步是引入工具,使用户能够更容易地部署、访问和使用它们。许多我使用过的时间序列语言模型需要非常特定的环境,并且缺乏广泛的教程和文档。最终,这些项目仍处于早期阶段,但看到它们在未来几个月和几年内如何演变将会很有趣。
感谢这次精彩的采访,希望读者了解更多信息,请访问 InfluxData。












