Connect with us

ソートリーダー

Claude “Nerfing” 論争は Claude についてではない。何かが起こるのは、運用が他人の決定に依存している場合である。

mm
A series of glowing hexagonal glass modules containing microchips in a dark server room; one module on the left is cracked and glowing blue, while others remain intact and glowing amber, connected by flowing data cables.

今年の初め、AMD の AI シニアディレクターである Stella Laurenzo は、約 7,000 の Claude コード セッションからテレメトリを公開し、エンジニアが感じていたものの、明確に表現できなかったことを明らかにした。1 月から 3 月にかけて、可視的な推論の深さが 73% 減少したことがわかり、API 呼び出しはタスクあたりで 80 倍増加し、モデルは編集を行う前に読むファイルが大幅に減少していた。数字はすぐに広まり、解釈もさらに広がった。

Anthropic は、この表現を否定している。同社は、これらの変更は、意図的な製品の決定を反映しており、新しい適応型思考メカニズムと、標準としての中程度の努力への移行を含むという。独立した分析家も、方法論のいくつかの部分に異議を唱えている。論争は続いており、合理的な人々は実際に何が起こったのかについて意見が分かれている。

しかし、システムの上にビジネスを運営している場合に重要なのは、ここ数ヶ月の間に起きたことが劣化であったか、または意図的な調整であったかは、企業の運用に影響を与えるものではない。企業はそれを予測することができなかった。企業はそれを制御することができなかった。いくつかの企業は、起こっていることを理解する前に、実際の運用でそれを感じた。そこが本当の話であり、それは Anthropic に特有のものではない。

これは依存関係の問題であり、モデル問題ではない。

私たちが説明しているものには名前がある。モデル フラジリティというもので、それは、ミッション クリティカルな運用が単一のモデルの動作に密接に結びついている状態であり、モデルのレイヤーでの変更、つまり調整の決定、新しい標準、容量駆動ルーティングの変更、または静的な廃止が、バッファーも警告もなくビジネスに直接影響するものである。

これは新しいパターンではない。GPT-4 は 2023 年に同様のものを経験した。Claude 3.5 は 2024 年に同様のものを経験した。Claude Opus は現在同様のものを経験している。次のフロンティア モデル、そしてその次のモデルでも同様のことが起こるだろう。それは、どのベンダーも悪意を持って行動しているわけではないが、コスト、待機時間、スケールのためにグローバル ボリュームでフロンティア モデルを最適化することが、フロンティア ベンダーが行う必要があることだからである。ベンダーのインセンティブと、ベンダーの上に生産運用を実行している企業のインセンティブは関連している。彼らは同一ではない。彼らは決して同一にはならない。

私たちは 2023 年に Qurrent を開始し、企業ソフトウェアのサイクルがどのように展開するかについての歴史的な知識を持っている。企業は AI に投資する。デモは機能する。パイロットは機能する。次に、それが本稼働に移行し、モデル レイヤーで何かが変化し、突然顧客が問題を所有することになる。顧客はワークフローを維持し、後退を追跡し、混乱を吸収する人々である。私は、それが企業運用の持続可能なモデルであるとは思わない。

企業版のこの物語は、運用上のものであり、技術的なものではない。

開発者にとって、現在の状況は不便である。トークン予算はより速く消費される。コーディング セッションは停止する。ベンチマークは失望する。これは実際の問題であるが、回復可能なものである。

財務運用、コンプライアンス ワークフロー、受取金と支払金、複雑なバックオフィス プロセスを実行している企業にとって、賭けは異なる。これらのワークフローは、悪い週を吸収することができない。エラーは蓄積する。ボリュームは蓄積する。SLA は、内部の好みではなく、実際の顧客への約束である。モデルが高リスク プロセスでパフォーマンスが低下し始めると、誰も気づいていないかもしれませんが、既に損害が蓄積し始めている。

これをより困難にするのは、AI に先んじて単一のモデル上に内部エージェントを構築しようとした多くの企業が、基盤が不完全であったことを発見したことである。最初のエージェントは簡単な部分であった。構築されなかったのは、周囲のインフラストラクチャーであった。行動の変化を顧客に届く前に検出する評価フレームワーク、モデルが低パフォーマンスになったときに自動的に作業をルーティングするフォールオーバー ロジック、および毎クォーター変化する景観に追随できる継続的なガバナンス。これらの 3 つのギャップは、管理可能なままには留まらない。それらは、ベンダーが影響を与えることができない決定を追跡するために、人員を配置する必要がある、恒久的なエンジニアリング機能に成長する。

実際の運用における回復力の実像。

Qurrent では、デジタル ワークフォースを最初からモデル非依存として構築した。マーケティング上の立場としてではなく、建築上の要件として。各タスクは、継続的に評価される、最も優れたパフォーマンスのモデルにルーティングされる。より優れたモデルが出荷されると、顧客は自動的にそれを受け取る。現在のモデルが特定のワークフローで低下した場合、オーケストレーション レイヤーは、人間の介入なしに、誰もが 2 時間の Slack スレッドに目覚めることなく、数秒以内に作業をルーティングする。

その下で、自動シミュレーションが、24 時間体制で、生産ワークフローに対して実行され、出力が予想される動作と一致するかどうかを測定している。ドリフトは、インフラストラクチャ レイヤーで検出され、運用チームがそれを感じる前に、そして顧客がそれを感じる前に検出される。さらに、各デジタル ワーカーによって行われるすべての決定は、ログに記録され、確認可能である。完全なガラスボックスである。これは、見えないものを管理することはできないからである。

これらはプレミアム機能ではない。これらは、企業規模で AI を運用するための入場料である。大多数の企業は、ニュース サイクルの中でこれを学んでいるが、これは高価な方法でそれを発見することになる。

今クォーターに価値のある質問。

あなたの運用に最も依存しているモデルが、次のクォーターに悪い週を迎えた場合、あなたのどのワークフローがそれを感じるだろうか。どうやってそれを知ることができるだろうか。どうやってそれを回避できるだろうか。

2 番目の質問への答えが「顧客から聞く」となっている場合、運用は本稼働に準備ができていない。パイロットが大規模に実行されているに過ぎない。リーダーがそれを実感するまで、違いは重要ではないように思えるかもしれない。

現在の論争は、ある意味では役に立つ。CFO と COO がこれを注視しているすべての人が、実際の運用負荷の下でモデル フラジリティがどのように見えるかについて、無料のプレビューを受け取った。適切な対応は、モデルを切り替えることではない。モデルに依存しない運用を構築することである。

技術は継続的に変化する。これが唯一の確実性である。10 年後でも最も強い企業になるのは、正しいモデルを選択した企業ではなく、運用が単一のモデルに依存することがない企業である。

Colin Wiel, QurrentのCEOおよび共同創設者は、1990年代からAIと深く関わってきたベテランの起業家です。Colinの以前の事業には、2020年にベイエリアで最も急成長している会社として名付けられた、シングルファミリーレンタル投資のためのテクノロジーを活用したプラットフォームMyndや、2014年にNYSEに上場する前に350億ドル以上を調達し、17,000戸の住宅を管理したWaypoint Homesがあります。AIにおける彼の革新的な功績により、Colinは複数の特許を保有しており、ゴールドマン・サックスのトップ100最も革新的な起業家に選ばれ、エルンスト・アンド・ヤングの起業家オブ・ザ・イヤーにも選ばれています。