Connect with us

AIツール 101

時系列基礎モデルによるデータ分析と予測の台頭

mm

時間シリーズ 予測は、小売、金融、製造、ヘルスケアなどのさまざまな業界で、重要な意思決定プロセスにおいて重要な役割を果たします。ただし、自然言語処理画像認識などのドメインと比較して、時間シリーズ予測への高度な人工知能(AI)技術の統合は、比較的遅れています。ただし、基礎AIは、自然言語処理や画像認識などの分野で著しい進歩を遂げてきましたが、時間シリーズ予測への影響は、最近まで限られていました。ただし、現在、時間シリーズ予測に特化した基礎モデルを開発する動きが増加しています。この記事では、時間シリーズ予測の基礎AIの進化する状況について論じ、最近の進歩について探ります。

時間シリーズ予測とその応用

時間シリーズデータは、一定の時間間隔で収集または記録されたデータポイントのシーケンスを指します。このタイプのデータは、経済、天気、健康など、さまざまなドメインで一般的です。時間シリーズの各データポイントにはタイムスタンプが付与されており、シーケンスは、時間の経過とともにトレンド、パターン、季節変動を分析するために使用されます。

時間シリーズ予測には、歴史的なデータを使用して、シリーズの将来の値を予測することが含まれます。これは、過去のパターンに基づいて情報に基づいた決定を下すために、統計と機械学習で重要な方法です。予測は、将来的に同じ成長率を投影するというものから、複雑なパターンや外部要因に基づいて将来のトレンドを予測するというものまで、幅広いものがあります。

時間シリーズ予測の応用例は以下のとおりです:

  • 金融市場: 金融では、時間シリーズ予測は株価、為替レート、市場トレンドを予測するために使用されます。投資家やアナリストは、歴史的なデータを使用して将来の動きを予測し、取引の決定を下します。
  • 天気予報: 気象庁は、過去の天気データを分析して将来の天気パターンを予測します。これにより、農業、旅行、災害管理のための計画と意思決定が容易になります。
  • 販売とマーケティング: ビジネスは、時間シリーズ予測を使用して将来の販売、需要、消費者行動を予測します。これにより、在庫管理、販売目標の設定、販売戦略の開発が容易になります。
  • エネルギー部門: エネルギー会社は、需要と供給を予測して生産と配送を最適化します。時間シリーズ予測は、エネルギー消費パターンを予測するのに役立つため、効率的なエネルギー管理と計画が可能になります。
  • ヘルスケア: ヘルスケア部門では、時間シリーズ予測は、疾病の発生、患者受入、医療在庫の必要性を予測するために使用されます。これにより、ヘルスケア計画、リソース配分、政策立案が容易になります。

基礎時間シリーズモデル

基礎AIモデルは、幅広い人工知能アプリケーションの基盤となる、広範囲にわたる事前トレーニング済みモデルです。これらは、大規模で多様なデータセットでトレーニングされており、データ内にパターン、接続、構造を認識することができます。「基礎」という用語は、これらのモデルが、追加のトレーニングなしに、タスクまたはドメインに微調整または変更できる能力を指します。時間シリーズ予測の文脈では、これらのモデルは、大規模言語モデル(LLM)と同様に構築されており、トランスフォーマーアーキテクチャを使用しています。LLMと同様に、これらのモデルは、データシーケンスの次の要素または欠落した要素を予測するようにトレーニングされています。ただし、LLMは、トランスフォーマーレイヤーを介してサブワードとしてテキストを処理するのに対し、基礎時間シリーズモデルは、連続する時間ポイントのシーケンスをトークンとして扱い、時間シリーズデータを順次的に処理することができます。

最近、時間シリーズデータのためにさまざまな基礎モデルが開発されてきました。これらの基礎モデルを適切に選択し、理解することで、より効果的にその機能を活用することができます。以下のセクションでは、時間シリーズデータ分析のために利用可能なさまざまな基礎モデルについて探ります。

  • TimesFM: Google Researchによって開発された、TimesFMは、200百万パラメータを持つデコーダー専用の基礎モデルです。このモデルは、100億のリアルタイムポイントを含む、さまざまなソース(Google TrendsやWikipedia Pageviewsなど)からの合成データと実データのデータセットでトレーニングされています。TimesFMは、小売、金融、製造、ヘルスケア、自然科学などのさまざまな業界で、ゼロショット予測を実行することができます。Googleは、TimesFMをGoogle Cloud Vertex AIプラットフォームでリリースする予定で、外部クライアントに高度な予測機能を提供する予定です。
  • Lag-Llama: Université de Montréal、Mila-Québec AI Institute、McGill Universityの研究者によって作成された、Lag-Llamaは、単変量確率時間シリーズ予測のための基礎モデルです。Llamaの基礎となる、デコーダー専用のトランスフォーマーアーキテクチャを使用し、予測のために可変サイズの時間ラグと時間解像度を使用します。このモデルは、エネルギー、輸送、経済、自然、空気質、クラウド運用など、6つの異なるグループにわたる、さまざまなソースからの時間シリーズデータセットでトレーニングされています。このモデルは、Huggingfaceライブラリを介して簡単にアクセスできます。
  • Moirai: Salesforce AI Researchによって開発された、Moiraiは、汎用予測のための基礎時間シリーズモデルです。Moiraiは、27億の観測値を含む9つの異なるドメインからなる、大規模オープン時間シリーズアーカイブ(LOTSA)データセットでトレーニングされています。この多様なデータセットにより、Moiraiは、幅広い時間シリーズデータから学び、さまざまな予測タスクを処理することができます。Moiraiは、さまざまな周波数での時間パターンを捉えるために、複数のパッチサイズ投影レイヤーを使用します。Moiraiの重要な側面は、任意の変数に対する予測を可能にする、任意の変数への注目メカニズムを使用することです。Moiraiに関連するコード、モデル重み、データは、GitHubリポジトリの「uni2ts」にあります。
  • Chronos: Amazonによって開発された、Chronosは、時間シリーズ予測のための事前トレーニング済み確率モデルコレクションです。T5トランスフォーマーアーキテクチャを使用し、4096トークンの語彙を持ち、8百万から7億1千万までのパラメータを持つモデルがあります。Chronosは、ガウス過程から生成された公的および合成データの広範なデータセットで事前トレーニングされています。Chronosは、TimesFMと異なり、エンコーダー・デコーダーモデルであるため、時間シリーズデータからエンコーダー埋め込みを抽出することができます。Chronosは、Python環境に簡単に統合でき、APIを介してアクセスできます。
  • Moment: Carnegie Mellon Universityとペンシルベニア大学の共同研究によって開発された、Momentは、オープンソースの基礎時間シリーズモデルのファミリーです。T5アーキテクチャのバリエーションを使用し、小規模、ベース、ラージなどのバージョンがあり、ベースモデルには約1億2千5百万のパラメータが含まれています。このモデルは、さまざまなドメインにわたる公的時間シリーズデータの広範なコレクションである「時間シリーズパイル」で事前トレーニングされています。多くの基礎モデルと異なり、Momentは、予測、分類、異常検出、補間などの幅広いタスクで事前トレーニングされており、さまざまなアプリケーションで有効です。PythonリポジトリとJupyterノートブックコードは、モデルを使用するために一般に公開されています。

まとめ

時間シリーズ予測は、金融からヘルスケアまで、さまざまなドメインで重要なツールであり、過去のパターンに基づいて情報に基づいた決定を下すことができます。TimesFM、Chronos、Moment、Lag-Llama、Moiraiなどの高度な基礎モデルは、トランスフォーマーアーキテクチャと多様なトレーニングデータセットを活用し、正確な予測と分析を提供しています。これらのモデルは、時間シリーズ分析の未来を垣間見せるものであり、ビジネスと研究者に、複雑なデータ景観を効果的に航海するための強力なツールを提供しています。

Dr. Tehseen ZiaはCOMSATS University Islamabadの正教授であり、オーストリアのVienna University of TechnologyでAIのPh.D.を取得しています。人工知能、機械学習、データサイエンス、コンピュータビジョンを専門とし、信頼性の高い科学雑誌に掲載された出版物で著しい貢献をしています。Dr. Tehseenは、主な調査員としてさまざまな産業プロジェクトを率い、AIコンサルタントとしても務めています。