お知らせ
KumoがKumoRFM-2を発表、伝統的なエンタープライズマシンラーニングを置き換える基礎モデル

Kumoは、KumoRFM-2を発表しました。これは、構造化されたエンタープライズデータを対象とした次世代の基礎モデルで、データウェアハウスから予測を生成する方法に根本的な変化をもたらします。伝統的なマシンラーニングパイプラインが特徴エンジニアリングとカスタムモデル開発に数か月を要するのに対し、KumoRFM-2は、自然言語を使用して、トレーニングや専門知識を必要とせずに、瞬時に予測を生成できるようにします。
その核心にあるモデルは、関係グラフトランスフォーマーアーキテクチャを使用して、エンタープライズデータ構造を直接操作し、従来のAIシステムが直面していた制限を解決します。
静的なパイプラインからリアルタイム予測システムへ
エンタープライズ予測分析は、従来、遅く、リソースを大量に消費するものでした。各新しいユースケース(顧客流失予測、不正検出、需要予測など)には、通常、データクリーンアップ、特徴エンジニアリング、モデルトレーニング、チューニングを含む別個のパイプラインが必要です。
KumoRFM-2は、このワークフローを単一の事前トレーニング済みシステムに置き換えます。
代わりに、ユーザーは予測したいものを定義します。モデルはリクエストを解釈し、基礎となるデータベースから必要なコンテキストを構築し、単一のパスで予測を生成します。これは、コンテキスト内学習と、Predictive Query Language(PQL)と呼ばれる宣言的なインターフェイスの組み合わせによって可能になります。ここで、ユーザーは、計算するためのステップではなく、気付いている結果を表現します。
結果は、「モデルを構築する」から「質問する」へのシフトとなり、組織全体で予測AIを使用するための障壁を大幅に下げます。
関係データが難しかった理由
ほとんどの既存のAIシステムは、構造化されたエンタープライズデータを扱うのに苦労しています。なぜなら、それらはデータを誤って扱うからです。
伝統的なモデル、包括してタブラーAIシステムや大規模言語モデルは、データを単一のテーブルに平坦化することに依存しています。しかし、現実世界のエンタープライズデータは、相互接続されたシステムとして存在します。顧客は取引とリンクされており、取引は製品とリンクされており、製品は在庫とリンクされており、すべてが時間の経過とともに変化しています。
この構造を平坦化すると、予測信号を含む関係が削除されます。また、特徴エンジニアリングを介してこれらの信号を手動で再作成することも強いられますが、これは時間がかかり、エラーが発生しやすいプロセスです。
KumoRFM-2は、関係データベースを直接操作することでこれを完全に回避し、テーブル、タイムスタンプ、エンティティ全体の接続を保持します。
アーキテクチャの内部: KumoRFM-2のしくみ
KumoRFM-2の背後にある重要な革新は、その階層的な関係グラフトランスフォーマーアーキテクチャです。これは、同時に複数のレベルでデータを処理します。
最初のレベルでは、モデルは行と列の注意を組み合わせて個々のテーブルを分析します。これにより、テーブル内で機能がどのように関連しているかを理解し、無関係またはノイズの多いデータを早期にフィルタリングできます。重要な点は、予測ターゲットがこの段階で導入されることです。つまり、モデルは最初からタスクに条件付けられます。
2番目のレベルでは、モデルはグラフベースの推論をテーブル全体で実行します。外部キー関係を使用して、データベースのさまざまな部分のデータ(顧客プロファイルと購入履歴や行動パターンをリンクするなど)を接続し、テーブル間の信号を特定します。これらの信号は、通常、モデリングが開始される前に失われます。
3番目のレベルでは、モデルはサンプル間の注意を組み込み、複数の例から同時に学習できるようにします。これにより、完全なトレーニングデータセットを必要とせずに、比較的小さな数のコンテキスト例から一般化できます。
この段階的な設計は重要です。計算の爆発を避けると同時に、ノイズをフィルタリングすることで精度を向上させます。
トレーニングの代わりにコンテキスト内学習
KumoRFM-2の特徴は、従来のトレーニングではなくコンテキスト内学習に依存することです。
タスクごとにモデルをトレーニングするのではなく、KumoRFM-2は、合成および実世界の関係データの混合の大規模セットで事前にトレーニングされます。ユーザーが予測リクエストを提出すると、システムは自動的にコンテキスト例のセットを生成します。つまり、データベースの小さなサブグラフと既知の結果のペアです。
これらの例は、モデルがパターンを推測し、重みを更新せずに予測を生成できるように、ガイダンスとして機能します。実践的には、次のことを意味します:
- タスク固有のトレーニングはありません
- 特徴エンジニアリングはありません
- モデルチューニングはありません
従来の監督学習で必要なデータのわずか0.2%で、モデルは最先端のパフォーマンスを達成できます。
現実世界のベンチマークでのパフォーマンス
KumoRFM-2は、EC、ヘルスケア、ソーシャルプラットフォーム、エンタープライズシステムなどの業界を含む41の予測タスクで評価されています。
モデルは、一貫して伝統的な監督マシンラーニングアプローチを上回り、エンジニアリングされたアンサンブルや関係ディープラーニングシステムを含みます。エンタープライズベンチマークでは、広く使用されているソリューションを大幅に上回り、さらにファインチューニングによって改善されます。
生の精度を超えて、モデルは強いロバスト性を示します:
- 関係リンクの大部分が欠落している場合でもパフォーマンスを維持します
- ノイズまたは不完全なデータで劣化が最小限に抑えられます
- 歴史データが制限されているコールドスタートシナリオで優れたパフォーマンスを発揮します
この堅牢性は、データ品質がしばしば一貫性がないエンタープライズ環境では特に重要です。
スケーラビリティの向上: 500億行まで
KumoRFM-2は、現代のデータインフラストラクチャの規模で動作するように設計されています。
システムは、データベースネイティブ実行と、高スループットデータアクセスが可能なカスタムグラフエンジンの組み合わせを使用して、500億行を超えるデータセットを処理できます。代わりに、データを別のMLシステムに移動するのではなく、計算はデータが存在する場所、SQLデータベースまたはクラウドデータウェアハウスに直接プッシュされます。
このアプローチにより、待機時間が短縮され、展開が簡素化され、組織は予測機能を既存のワークフローに直接統合できます。
自然言語をインターフェイスとして
別の特徴は、モデルの自然言語インターフェイスです。
ユーザーは次のような質問を提起できます:
- 次の30日間で顧客が流失する可能性が高いのは誰ですか?
- どのリードが最も変換される可能性が高いでしょうか?
- どの製品が需要の増加を見込めるでしょうか?
システムはこれらのクエリを構造化された予測ロジックに翻訳し、基礎となるデータで実行し、予測と説明の両方を返します。
これにより、予測分析がさらにアクセスしやすくなり、AIエージェントとの統合も可能になり、予測は自動化された意思決定ワークフローの一部として埋め込むことができます。
エージェント駆動型エンタープライズインテリジェンスに向けて
KumoRFM-2は、エージェントを念頭に置いて設計されています。
その予測機能は、AIエージェントがより大きなワークフローの一部として呼び出すことができるモジュラー「スキル」として公開できます。これにより、予測モデリングは、検索、推論、実行と組み合わせて使用できる構成可能なビルディングブロックになります。
このコンテキストでは、モデルは分析者向けのツールではなく、次世代のエンタープライズ自動化の基礎レイヤーです。
データサイエンスの役割の再定義
KumoRFM-2は、組織がデータサイエンスに取り組む方法に大きな変化をもたらします。
タスクごとにモデルを構築して維持するのではなく、チームは単一の汎用システムに頼ることができます。このシステムは、新しい問題に対して瞬時に適応します。これにより、特徴エンジニアリングとモデルチューニングの専門知識の必要性が減り、実験とイテレーションの速度が上がります。
多くの組織にとって、これは、中央集権的なデータサイエンス機能から、予測インサイトが複数の部門でアクセスできる、より分散されたモデルへの移行を意味するかもしれません。
新しい基礎モデルカテゴリ
基礎モデルはすでに言語やビジョンの分野を変革していますが、構造化されたエンタープライズデータは、最後のフロンティアの1つでした。
KumoRFM-2は、構造化データ用の特化した基礎モデルが何を達成できるかを示す初期の例です。関係推論、コンテキスト内学習、自然言語インタラクションを組み合わせて、予測AIの新しいパラダイムを導入します。
広く採用されれば、このアプローチは、企業がデータとやり取りする方法を再定義する可能性があります。予測分析を、複雑で遅いプロセスから、リアルタイムで組織全体の機能に変える可能性があります。










