Unite.AI - AI News & Research

人工知能2 months ago

Backboard Sets New Global Standard in AI Memory — A Leap Toward Truly Agentic AI

Backboardは、人工知能システムにおいて、メモリを脆弱な付加機能ではなく、コアインフラストラクチャとして扱うことができることを実証した重要な閾値を突破しました。同社は、LoCoMoとLongMemEvalの2つの主要なAIメモリベンチマークでトップに立っており、両方のベンチマークで一貫した学術的および独立した評価方法を使用した最初のプラットフォームとなりました。NewMathDataによる独立した評価では、Backboardは、LongMemEvalで93.4パーセントの精度を達成し、現在のところ、ベンチマークの元の仕様に従って実行された最高の公開スコアとなりました。この結果は、以前から公開されていたLoCoMoでの90.1パーセントのスコアに基づいており、Backboardは、短時間の精度と長時間のコンテキスト連続性の両方を維持できる非常に小さなシステムグループの1つに位置付けられました。特に注目すべきは、レビュアーがBackboardの回答を不正解としてマークした複数のケースを特定したことです。これらのケースでは、システムはベンチマークの期待される回答に従うのではなく、既存のやり取りに含まれる事実情報を組み込んでいたためです。結果として、報告されたスコアはパフォーマンスの上限ではなく、保守的な基準線を表しています。メモリがAIの限界要因になった理由ほとんどの現代のAIシステムは、実際の過去がないかのように動作しています。大規模な言語モデルは流暢な応答を生成するのに優れていますが、セッションが終了したり、プロンプトウィンドウが満たされたりすると、コンテキストを忘れてしまいます。この制限により、開発者は、状態を繰り返し再構築するために、リトリーバルハック、プロンプトエンジニアリング、またはツールの壊れやすい連鎖を使用する必要がありますが、これらの方法はシステムが複雑になるにつれて常に壊れます。メモリは単に回想することだけではありません。実用的な展開では、メモリは、AIシステムが時間の経過に伴って一貫性を維持し、タスク間で調整し、ユーザーとの信頼を築く能力を決定します。耐久性のあるメモリがなければ、システムはリセットされ、ハルシネーションが発生したり、自分自身と矛盾したりします。AIが単一のターンインタラクションから長時間のワークフローに移行するにつれて、メモリは主なボトルネックとなりました。Backboardは、この問題に、メモリを第一級のインフラストラクチャとして扱うことで対処しています。アプリケーション層にメモリを追加するのではなく、永続性、埋め込み、リトリーバル、オーケストレーションを統一されたプラットフォームに統合し、単一のAPI経由でアクセス可能にしました。ベンチマークチューニングではなく、システムレベルのアプローチBackboardは、ベンチマークスコアを追求するためにアーキテクチャを設計しませんでした。評価は、独立して開始されたか、または内部で使用されたもので、システムが学術研究と比較してどう比較されるかを理解するために使用されました。結果として得られたパフォーマンスは、タスク固有の最適化ではなく、現実的な条件下でのシステムレベルの動作を反映しています。この区別は重要です。ほとんどのベンチマークは、モデル動作を分離して測定しますが、実際のAIシステムは多くの動的要素で構成されています。Backboardの結果は、メモリパフォーマンスがモデルサイズや計算能力だけの問題ではなく、メモリが構造化され、更新され、時間の経過に共有される方法の問題であることを示唆しています。プラットフォームは、永続的な長期メモリ、ネイティブ埋め込みとベクトル化、組み込みのリトリーバル増強生成、エージェント間の共有メモリ、および17,000を超える大規模言語モデルへのアクセス（BYOKサポートを含む）を組み合わせます。这些要素を統一することで、Backboardは、企業がオープンソースコンポーネントを組み合わせて、生産性の低いシステムを作る必要性を排除します。エージェントAIを実用化するエージェントAIへの関心は、エージェントAIに続いて成長していますが、ほとんどの実装はデモを超えて進化するのに苦労しています。理由は簡単です。共有された耐久性のあるメモリを持たないエージェントは、効果的に調整することができません。フラグメント化され、コンテキストを失い、時間の経過とともに相互作用が拡大するにつれて予測不可能な動作を示します。Backboardは、エージェントが異なる基礎モデルに依存していても、エージェント間で共有された耐久性のあるメモリを可能にします。メモリが信頼できる場合、エージェントの動作はスクリプト化されるのではなく、自然に発生します。システムは、以前の決定を覚えておくことができ、セッション間で連続性を維持し、常にプロンプトを繰り返すことなくアクションを調整できます。プラットフォームの基礎となるメモリフレームワークは、静的なグラフまたは繰り返しのリトリーバルを介して状態を再構築するのではなく、時間的連続性を保存するように設計されています。これにより、AIシステムは複雑性の増大とともに一貫性と監査可能性を維持できます。忘れることができないシステムのために構築Backboardのアーキテクチャは、同社の創設者兼CEOであるRob Imbeaultの経験に根ざしています。彼は以前、Assentを初期段階のスタートアップから140億ドルを超えるグローバルエンタープライズプラットフォームに成長させました。Assentでは、Imbeaultが取り組んだシステムは、顧客の運用の中核に組み込まれており、コンプライアンスと複雑なサプライチェーンワークフローをサポートしていました。ここでは、連続性、正確性、信頼性は妥協できないものでした。この経験は、明確な信念を生み出しました。最も貴重なインフラストラクチャは、華々しくないものです。それは、静かに、連続的に、長期間にわたって機能するインフラストラクチャです。そうした環境では、システムはコンテキストが失われたときにリセットすることはできません。状態が消失したり、信頼が損なわれたりすると、システムは運用上に失敗し、技術上に失敗するのではなく、失敗します。Imbeaultは、現代のAIに構造的な乖離が生じていることを認識しました。大量の言語モデルは急速に進化しましたが、基本的にステートレスのままです。セッション間でコンテキストが消失し、開発者は脆弱なプロンプトチェーンとアドホックなリトリーバルレイヤーを介してメモリを再構築する必要がありました。これらのアプローチはデモでは機能するかもしれませんが、AIシステムが連続して実行され、エージェント間で調整され、時間の経過とともに進化することが期待される場合、破綻します。Backboardは、このギャップを埋めるために構築されました。メモリは、アプリケーションロジックではなく、耐久性のあるインフラストラクチャとして扱われ、AIシステムが相互作用、モデル、エージェント間で状態を維持できるようにしました。永続性、正確性、長期的信頼性への焦点は、Backboardが存在する前に形成された信念を反映しています。運用環境では、メモリの故障は軽微な欠陥ではありません。システム上のリスクです。この視点は、Backboardの設計哲学の根底にあります。目標は、孤立した瞬間での知能を展示することではなく、複雑性の増大と時間の経過に伴って、信頼できるソフトウェアのように動作するAIシステムを可能にすることです。AIの将来への意味Backboardの結果のより広範な意味は、AIの次の進化段階は、より大きなモデルや長いコンテキストウィンドウだけによって推進されるのではなく、時間の経過にわたって記憶、推論、進化することができるシステムによって推進されることになります。企業がAIをカスタマーサポート、運用、研究、コンプライアンスに展開するにつれて、耐久性のあるメモリは、信頼とスケーラビリティの基盤となります。インフラストラクチャレベルでメモリを解決するプラットフォームは、エージェントAIが実験から日常的な使用へと移行する方法を定義します。学術的および独立したベンチマークの両方でメモリアーキテクチャが検証されたBackboardは、チームが複雑なAIシステムの動作をよりよく理解し、評価するのを支援することに注力しています。同社の将来のSwitchboard機能は、複雑なAI構成をより透明性と予測可能性の高いものにすることを目指しています。AIの将来は、賢いプロンプトのトリックによってではなく、時間の経過にわたって信頼できるシステムによって形作られます。メモリはその転換の基盤であり、Backboardの最新の結果は、この基盤がようやく形作られつつあることを示唆しています。