关注我们.

人工智能

用于数据分析和预测的时间序列基础模型的兴起

mm
更新 on

时间序列 预测 在零售、金融、制造和医疗保健等各个行业的关键决策过程中发挥着至关重要的作用。然而,与像这样的域相比 自然语言处理图像识别先进的人工智能(AI)技术融入时间序列预测的速度相对缓慢。虽然 基础人工智能 尽管在自然语言处理和图像识别等领域取得了重大进展,但直到最近,其对时间序列预测的影响仍然有限。尽管如此,现在专门为时间序列预测定制的基础模型的开发势头越来越大。本文将讨论用于时间序列预测的基础人工智能的不断发展的前景,探索该领域的最新进展。

时间序列预测及应用

时间序列数据是指以规则的时间间隔收集或记录的一系列数据点。此类数据普遍存在于各个领域,例如经济、天气、健康等。时间序列中的每个数据点都带有时间戳,并且该序列通常用于分析随时间变化的趋势、模式和季节性变化。

时间序列预测涉及使用历史数据来预测序列中的未来值。它是统计学和机器学习中的一种关键方法,有助于根据过去的模式做出明智的决策。预测可以像预测未来相同的增长率一样简单,也可以像使用人工智能模型根据复杂的模式和外部因素预测未来趋势一样复杂。

时间序列预测的一些应用如下:

  • 金融市场: 在金融领域,时间序列预测用于预测股票价格、汇率和市场趋势。投资者和分析师使用历史数据来预测未来走势并做出交易决策。
  • 天气预报: 气象部门使用时间序列数据来预测天气状况。通过分析过去的天气数据,他们预测未来的天气模式,帮助农业、旅行和灾害管理的规划和决策。
  • 销售和营销: 企业利用时间序列预测来预测未来的销售、需求和消费者行为。这有助于库存管理、设定销售目标和制定营销策略。
  • 能源部门: 能源公司预测需求和供应以优化生产和分配。时间序列预测有助于预测能源消耗模式,从而实现高效的能源管理和规划。
  • 卫生保健: 在医疗保健领域,时间序列预测用于预测疾病爆发、患者入院和医疗库存需求。这有助于医疗保健规划、资源分配和政策制定。

基础时间序列模型

基础人工智能模型是广泛的、预先训练的模型,构成了各种人工智能应用的基础。他们接受过大型且多样化的数据集的训练,使他们能够辨别数据中的模式、联系和结构。术语“基础”是指它们通过最少的额外培训针对任务或领域进行微调或修改的能力。在时间序列预测的背景下,这些模型的构造类似于 大型语言模型 (法学硕士),利用 变压器架构。与法学硕士一样,它们经过训练来预测数据序列中的后续元素或缺失元素。然而,与通过转换器层将文本处理为子词的法学硕士不同,基础时间序列模型将连续时间点序列视为标记,从而允许它们顺序处理时间序列数据。

最近,已经针对时间序列数据开发了各种基础模型。通过更好地理解和选择合适的基础模型,我们可以更有效地利用他们的能力。在后续部分中,我们将探讨可用于时间序列数据分析的不同基础模型。

  • 时代FM: TimesFM 由 Google Research 开发,是一个仅包含解码器的基础模型,拥有 200 亿个参数。该模型在包含 100 亿个现实世界时间点的数据集上进行训练,其中包括来自不同来源(例如 Google 趋势和维基百科页面浏览量)的合成数据和实际数据。 TimesFM 能够在不同的时间粒度上对零售、金融、制造、医疗保健和自然科学等多个领域进行零样本预测。谷歌打算在其 Google Cloud Vertex AI 平台上发布 TimesFM,为外部客户提供复杂的预测功能。
  • 拉格-骆驼: Lag-Llama 由蒙特利尔大学、米拉-魁北克人工智能研究所和麦吉尔大学的研究人员创建,是专为单变量概率时间序列预测而设计的基础模型。该模型建立在 Llama 的基础上,采用仅解码器的变压器架构,该架构使用可变大小的时间滞后和时间分辨率进行预测。该模型根据来自六个不同组的多个来源的不同时间序列数据集进行训练,包括能源、交通、经济、自然、空气质量和云运营。该模型可以通过以下方式方便地访问 拥抱脸库.
  • 莫伊拉伊: Moirai 由 Salesforce AI Research 开发,是一个为通用预测而设计的基础时间序列模型。 Moirai 在大规模开放时间序列存档 (LOTSA) 数据集上进行训练,该数据集包含来自 27 个不同领域的 XNUMX 亿个观测值,使其成为最大的开放时间序列数据集集合。这种多样化的数据集使 Moirai 能够从广泛的时间序列数据中学习,从而能够处理不同的预测任务。 Moirai 使用多个补丁大小的投影层来捕获不同频率的时间模式。 Moirai 的一个重要方面是使用任意变量注意力机制,允许对任意数量的变量进行预测。与 Moirai 相关的代码、模型权重和数据可在 GitHub 存储库中找到,名为“单位2ts
  • 柯罗诺斯: Chronos 由 Amazon 开发,是用于时间序列预测的预训练概率模型的集合。这些模型基于 T5 Transformer 架构构建,使用 4096 个令牌的词汇表,并具有不同的参数,范围从 8 万到 710 亿不等。 Chronos 经过高斯过程生成的大量公共和合成数据的预训练。 Chronos 与 TimesFM 的不同之处在于它是一个编码器-解码器模型,可以从时间序列数据中提取编码器嵌入。 Chronos 可以轻松集成到 Python 环境中并通过其访问 API.
  • 时刻: Moment 由卡内基梅隆大学和宾夕法尼亚大学合作开发,是一系列开源基础时间序列模型。它采用 T5 架构的变体,包括小型版本、基础版本和大型版本,基础模型包含约 125 亿个参数。该模型在广泛的“时间序列堆”上进行了预训练,“时间序列堆”是跨越各个领域的公共时间序列数据的多样化集合。与许多其他基础模型不同,MOMENT 经过广泛任务的预训练,增强了其在预测、分类、异常检测和插补等应用中的有效性。完整的 Python 存储库和 Jupyter Notebook 可以公开使用该模型。

底线

时间序列预测是从金融到医疗保健等各个领域的重要工具,可以根据历史模式做出明智的决策。 TimesFM、Chronos、Moment、Lag-Llama 和 Moirai 等高级基础模型提供复杂的功能,利用 Transformer 架构和多样化的训练数据集进行准确的预测和分析。这些模型让我们得以一睹时间序列分析的未来,为企业和研究人员提供强大的工具来有效地驾驭复杂的数据环境。

Tehseen Zia 博士是伊斯兰堡 COMSATS 大学的终身副教授,拥有奥地利维也纳科技大学的人工智能博士学位。 他专注于人工智能、机器学习、数据科学和计算机视觉,在著名科学期刊上发表论文,做出了重大贡献。 Tehseen 博士还作为首席研究员领导了多个工业项目,并担任人工智能顾问。