AI 工具 101
时间序列基础模型在数据分析和预测中的崛起
时间序列 预测 在各个行业(如零售、金融、制造和医疗保健)中的决策过程中发挥着至关重要的作用。然而,相比自然语言处理和图像识别等领域,时间序列预测中先进的人工智能(AI)技术的整合相对较慢。虽然 基础AI 在自然语言处理和图像识别等领域取得了显著进展,但其对时间序列预测的影响直到最近才开始显现。尽管如此,目前在时间序列预测领域中针对性的基础模型的开发正在逐渐增强。这篇文章将讨论基础AI在时间序列预测领域的演变,探索该领域的最新进展。
时间序列预测和应用
时间序列数据是指在规则的时间间隔内收集或记录的数据点序列。这种类型的数据在各个领域中都很常见,例如经济、天气、健康等。时间序列中的每个数据点都有时间戳,序列通常用于分析随时间变化的趋势、模式和季节性变化。
时间序列预测涉及使用历史数据来预测序列中的未来值。这是统计学和机器学习中的一种关键方法,它有助于根据过去的模式做出明智的决策。预测可以简单到将相同的增长率投射到未来,也可以复杂到使用AI模型根据复杂的模式和外部因素预测未来趋势。
时间序列预测的一些应用如下:
- 金融市场: 在金融领域,时间序列预测用于预测股票价格、汇率和市场趋势。投资者和分析师使用历史数据来预测未来运动并做出交易决策。
- 天气预报: 气象部门使用时间序列数据来预测天气条件。通过分析过去的天气数据,他们预测未来天气模式,有助于农业、旅行和灾害管理的规划和决策。
- 销售和营销: 企业利用时间序列预测来预测未来销售、需求和消费者行为。这有助于库存管理、设定销售目标和制定营销策略。
- 能源领域: 能源公司预测需求和供应以优化生产和分配。时间序列预测有助于预测能源消费模式,实现高效的能源管理和规划。
- 医疗保健: 在医疗保健领域,时间序列预测用于预测疾病爆发、患者入院和医疗库存需求。这有助于医疗保健规划、资源分配和政策制定。
基础时间序列模型
基础AI模型是广泛的、预训练的模型,构成了各种人工智能应用的基础。它们是在大型和多样化的数据集上训练的,能够辨别数据中的模式、连接和结构。在时间序列预测的背景下,这些模型的构建与 自然语言处理 和 图像识别 中的 大语言模型 (LLM) 类似,使用 Transformer 架构。像 LLM 一样,它们被训练来预测数据序列中的下一个或缺失的元素。然而,unlike LLM,它们处理文本作为子词通过 Transformer 层,而基础时间序列模型将连续时间点的序列视为令牌,允许它们顺序处理时间序列数据。
最近,针对时间序列预测开发了各种基础模型。通过更好地理解和选择合适的基础模型,我们可以更有效、更高效地利用它们的能力。在接下来的部分中,我们将探索可用于时间序列数据分析的不同基础模型。
- TimesFM: 由 Google Research 开发,TimesFM 是一个解码器仅的基础模型,具有 2 亿个参数。该模型是在一个包含 100 亿个真实世界时间点的数据集上训练的,涵盖了来自 Google Trends 和 Wikipedia Pageviews 等多个来源的合成和实际数据。TimesFM能够在零次预测中预测多个领域(包括零售、金融、制造、医疗保健和自然科学)的未来值,跨不同的时间粒度。Google 计划在其 Google Cloud Vertex AI 平台上发布 TimesFM,为外部客户提供其先进的预测功能。
- Lag-Llama: 由蒙特利尔大学、Mila-Québec AI 研究所和麦吉尔大学的研究人员创建,Lag-Llama 是一种用于单变量概率时间序列预测的基础模型。它建立在 Llama 的基础上,使用具有可变大小的时间滞后和时间分辨率的解码器仅Transformer架构进行预测。该模型是在来自六个不同组的多个时间序列数据集上训练的,包括能源、交通、经济、自然、空气质量和云操作。该模型可以通过 Huggingface 库 方便地访问。
- Moirai: 由 Salesforce AI 研究开发,Moirai 是一种用于通用预测的基础时间序列模型。Moirai是在大规模开放时间序列存档(LOTSA)数据集上训练的,该数据集包含来自九个不同领域的 270 亿个观察结果,使其成为最大的开放时间序列数据集集合。该多样化的数据集使Moirai能够从广泛的时间序列数据中学习,能够处理不同的预测任务。Moirai使用多个补丁大小投影层来捕获不同频率的时间模式。Moirai的一个重要方面是使用任何变量注意力机制,允许跨任何数量的变量进行预测。与Moirai相关的代码、模型权重和数据可在名为 “uni2ts” 的 GitHub 存储库中找到。
- Chronos: 由 Amazon 开发,Chronos 是一组用于时间序列预测的预训练概率模型。它建立在 T5 Transformer 架构上,使用 4096 个令牌的词汇表,并具有从 800 万到 7.1 亿个参数。Chronos是在大量公共和合成数据上预训练的,后者是从高斯过程生成的。Chronos与TimesFM不同之处在于它是一个编码器-解码器模型,这使得能够从时间序列数据中提取编码器嵌入。Chronos可以轻松集成到Python环境中,并通过其 API 访问。
- Moment: 由卡内基梅隆大学和宾夕法尼亚大学合作开发,Moment是一系列开源基础时间序列模型。它使用T5架构的变体,包括小型、基础和大型版本,基础模型包含约125万个参数。该模型在名为“时间序列堆栈”的广泛公共时间序列数据集上进行预训练,涵盖了多个领域。与许多其他基础模型不同,Moment在广泛的任务上进行预训练,包括预测、分类、异常检测和插补,提高了其在这些应用中的有效性。完整的Python存储库和Jupyter笔记本代码可公开访问,以使用该模型。
结论
时间序列预测是各个领域(从金融到医疗保健)中的一种关键工具,能够根据历史模式做出明智的决策。像TimesFM、Chronos、Moment、Lag-Llama和Moirai这样的先进基础模型提供了复杂的功能,利用Transformer架构和多样化的训练数据集进行准确的预测和分析。这些模型让我们窥见时间序列分析的未来,为企业和研究人员提供了强大的工具,以有效地应对复杂的数据景观。


