Connect with us

访谈

Anais Dotis-Georgiou,InfluxData 开发者倡导者 – 采访系列

mm

Anais Dotis-Georgiou 是 InfluxData 的开发者倡导者,热衷于使用数据分析、AI 和机器学习使数据变得美丽。她收集数据,进行研究、探索和工程,将数据转化为具有功能、价值和美丽的东西。当她不在屏幕后面时,你可以找到她在外面画画、伸展、滑板或追逐足球。

InfluxData 是构建 InfluxDB 的公司,InfluxDB 是全球超过一百万开发者使用的开源时间序列数据库。他们的使命是帮助开发者使用时间序列数据构建智能的实时系统。

您能否分享一下您从研究助理到 InfluxData 首席开发者倡导者的旅程?您的数据分析和机器学习背景如何影响您当前的角色?

我获得了化工专业的本科学位,重点是生物医学工程,并最终在实验室从事疫苗开发和产前自闭症检测。从那里,我开始编程液体处理机器人,并帮助数据科学家了解异常检测的参数,这使我更感兴趣编程。

我然后成为 Oracle 的销售开发代表,并意识到我真的需要专注于编码。我在德克萨斯大学参加了数据分析的编码训练营,并能够进入科技行业,特别是开发者关系。

我来自技术背景,这有助于塑造我的当前角色。即使我没有开发经验,我也能与具有工程背景和思维但也试图学习软件的人产生共鸣。因此,当我创建内容或技术教程时,我能够帮助新用户克服技术挑战,同时将对话放在与他们相关和有趣的背景中。

您的工作似乎将创造力与技术专长融合在一起。您如何将您对使数据“美丽”的热情融入您在 InfluxData 的日常工作中?

最近,我更专注于数据工程而不是数据分析。虽然我不像以前那样专注于数据分析,但我仍然非常喜欢数学——我认为数学很美丽,并且会抓住机会解释算法背后的数学原理。

InfluxDB 已经成为时间序列数据空间中的基石。您如何看待开源社区影响 InfluxDB 的开发和演化?

InfluxData 致力于开源数据架构和 Apache 生态系统。去年,我们宣布 InfluxDB 3.0,这是使用 Rust 编写的 InfluxDB 的新核心,并使用 Apache Flight、DataFusion、Arrow 和 Parquet——我们称之为 FDAP 栈。随着 InfluxData 的工程师继续为这些上游项目做出贡献,社区继续增长,Apache Arrow 的项目集变得更容易使用,具有更多功能和更广泛的互操作性。

您最近在时间序列数据和 AI 背景下看到的最令人兴奋的开源项目或贡献是什么?

看到大型语言模型被重新用于时间序列的零次预测很酷。Autolab 有一个开源时间序列语言模型的集合,TimeGPT 是另一个很好的例子。

此外,各种开源流处理库,包括 BytewaxMage.ai,允许用户利用和集成来自 Hugging Face 的模型,这也很令人兴奋。

InfluxData 如何确保其开源计划保持相关性和对开发者社区的益处,特别是在 AI 和机器学习的快速发展中?

InfluxData 的计划保持相关性和有益的方式是专注于为 AI 特定公司也使用的开源项目做出贡献。例如,每当 InfluxDB 为 Apache Arrow、Parquet 或 DataFusion 做出贡献时,它就能让每个其他使用它的 AI 技术和公司受益,包括 Apache Spark、DataBricks、Rapids.ai、Snowflake、BigQuery、HuggingFace 等。

时间序列语言模型在预测分析中变得越来越重要。您能否详细说明这些模型如何改变时间序列预测和异常检测?

时间序列语言模型在不需要训练模型的情况下就能超越线性和统计模型,同时还提供零次预测。这意味着您不需要在使用模型之前训练模型。也不需要调整统计模型,这需要对时间序列统计有深入的了解。

然而,与自然语言处理不同,时间序列领域缺乏公开可访问的大规模数据集。现有的用于时间序列的预训练模型大多是在只有几千个或甚至几百个样本的小样本上训练的。虽然这些基准数据集在时间序列社区的进步中发挥了重要作用,但它们的有限样本大小和缺乏普遍性对预训练深度学习模型提出了挑战。

这就是我认为开源时间序列语言模型难以找到的原因。Google 的 TimesFM 和 IBM 的 Tiny Time Mixers 已经在具有数十亿数据点的巨大数据集上进行了训练。例如,使用 Google Cloud TPU v3-256 进行 TimesFM 的预训练过程,预训练过程大约需要十天,结果是一个具有 12 亿参数的模型。然后将预训练模型在特定的下游任务和数据集上进行微调,使用较低的学习率和较少的轮数。

希望这种转变意味着更多人可以在没有深入领域知识的情况下做出准确的预测。然而,利用计算成本高的模型(如时间序列语言模型)需要权衡利弊,考虑到财务和环境成本。

这篇 Hugging Face 博客文章 详细介绍了另一个很好的时间序列预测示例。

使用时间序列语言模型相比传统方法的主要优势是什么,特别是在处理复杂模式和零次性能方面?

关键优势是不需要训练和重新训练模型以适应您的时间序列数据。这希望消除了在线机器学习问题,即监控模型的漂移并触发重新训练,理想情况下消除了预测管道的复杂性。

您也不需要努力估计多变量统计模型中的跨系列相关性或关系。估计添加的额外方差通常会损害预测结果,并可能导致模型学习虚假相关性。

您能提供一些像 Google 的 TimesFM、IBM 的 TinyTimeMixer 和 AutoLab 的 MOMENT 这样的模型在现实场景中的实际应用例子吗?

这很难回答,因为这些模型还处于相对初期阶段,很少有人知道它们如何在现实场景中使用。

在您的经验中,组织在将时间序列语言模型集成到现有的数据基础设施中时通常会面临哪些挑战?如何克服这些挑战?

时间序列语言模型非常新,我不知道组织面临的具体挑战。然而,我想象他们将面临将任何 GenAI 模型集成到数据管道中的相同挑战。这些挑战包括:

  • 数据兼容性和集成问题: 时间序列语言模型通常需要特定的数据格式、一致的时间戳和规则的间隔,但是现有的数据基础设施可能包括不规则或不一致的时间序列数据,分散在不同的系统中,例如传统数据库、云存储或实时流。为了解决这个问题,团队应该实施强大的 ETL(提取、转换、加载)管道来预处理、清理和对齐时间序列数据。
  • 模型可扩展性和性能: 时间序列语言模型,特别是像变换器这样的深度学习模型,可能需要大量的计算和内存资源来处理大量时间序列数据。团队需要部署模型在可扩展的平台上,例如 Kubernetes 或云托管的 ML 服务,并利用 GPU 加速和分布式处理框架来并行化模型推理。
  • 可解释性和可靠性: 时间序列模型,特别是复杂的语言模型,可能被视为“黑盒”,这使得预测很难解释。这在金融或医疗保健等受监管的行业中尤其成问题。
  • 数据隐私和安全性: 处理时间序列数据通常涉及敏感信息,例如 IoT 传感器数据或金融交易数据,因此在集成语言模型时确保数据安全和合规至关重要。组织必须确保数据管道和模型符合最佳安全实践,包括加密和访问控制,并在安全的隔离环境中部署模型。

展望未来,您如何看待时间序列语言模型在预测分析和 AI 领域的演化?是否有任何新兴趋势或技术特别让您感到兴奋?

时间序列语言模型演化的可能下一步是引入工具,使用户更容易部署、访问和使用它们。 我使用过的许多时间序列语言模型需要非常特定的环境,并且缺乏广泛的教程和文档。 最终,这些项目仍处于早期阶段,但看到它们在未来几个月和几年内如何演化将会很有趣。

感谢这次精彩的采访,希望了解更多的读者可以访问 InfluxData

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。