Andersonの視点

AIチャットモデルは無意味な話し込みでコストを浪費する

mm
AI-generated image: a salad full of chopped-up one-dollar bills. GPT-1, Firefly V3, et al.

人気のAIチャットモデルは、無意味な話し込みで大量のトークンを浪費している。影響を受けるモデルは自分でそれをしていることを知っているが、止めることができない。

 

大きな推論モデル(LRMs)例如、ChatGPT-5とGoogle Geminiは、推論に対してより多くのコストを課す – 問題をステップバイステップで解決するために、単に次の単語を予測するよりもはるかに多くの計算能力を使用する。シミュレートされた推論プロセスは時間がかかり、実行するのにコストがかかるため、ユーザーはその「思考時間」のために支払うことになる。

しかし、最近-state-of-the-art LLMを使用した場合、トークンの割り当てが無意味な話し込みや不要な情報に費やされていることが多いことに気づくかもしれない。これは、過度の讃美冗長で重複した回答、または「話し込み」のようなもの – あるいは、AIが急いで話し続けることで、不快な状況から逃れるようにするかのように見える。

自然に、我々はLLMが敗北を認める、代替パスを提示する、または明確化を求めることを望む。しかし、AIに答えを知らないことを認めるようにすることは、大きな課題である。

一方で、下位または無料プランのユーザーは、クエリやインタラクションがターゲットを絞ったり経済的であったとしても、トークンを速やかに消費することになる。なぜなら、AI自身が話すことを好み、話すことは安くないからである。

ワードサラダ

先ほど述べた「話し込み」について、新しい学術的共同研究は、理由と解決策を提案している。LLMに推論能力があると、トークンを浪費する「ワードサラダ」のループに陥りやすいと主張している – 推論プロセスが再帰的な盲点に陥る状態で、ユーザーのトークンを浪費する。

研究者は、典型的なLLMのトークンの大部分が重複や冗長性で構成されていることを発見し、モデル自身がトラブルに陥っていることを認識しているが、コストのかかるループを止めることができない。

論文は次のように述べている:

‘私たちは、トークンの大部分が無意味な自己重複 – 私たちが「ワードサラダ」と呼ぶもの – で構成されており、デコーディング予算を浪費することになるが、価値を追加しないことを示している。興味深いことに、LRMはこれらのループに陥ったときに自己認識をしている – 各推論チャンクの後のトークンの隠れ状態は、パターンを示し、シングルレイヤーの線形分類器を使用してオンザフライでワードサラダの動作を検出できる。

‘ワードサラダが検出されると、単純なカットとストレートな再生成プロンプトが付加され、質の低下が最小限で長さの節約が実現する.’

新しい研究による解決策は、トレーニングデータへの組み込みや、ファインチューニングによる損傷を伴わずに、エラントな推論LLMの螺旋プロセスをオンザフライで切断する介入である。フレームワークは、WordSaladChopperと呼ばれ、GitHubで公開されている。

初期の研究は、DeepSeekバリアント、例えばQwenとLlamaシリーズのエントリに焦点を当てているが、論文は、望ましくない動作は、人気のあるAPIのみの提供であるChatGPTやGoogle Geminiを含む、より広い推論モデルのスワスに適用される可能性が高いと主張している。

論文は、以前の研究、例えばDemystifying Long Chain-of-Thought Reasoning in LLMsSmall Models Struggle to Learn from Strong Reasonersも、Chain-of-Thought(CoT)推論モデルの小さな数の公開バージョンを使用して、このクラスのモデルのより広い問題を確立していることを示している:

‘[LRM]は、デコーディング予算を浪費する傾向があり、単語を繰り返し、わずかな変化を加えたり、ケースを無限に列挙したりする – 私たちはこれを「ワードサラダ」と呼ぶ、内容のない長い応答を与えるパブリックスポークスパーソンの嘲笑的な言葉である。

‘「オリジナル」列には、GPQA-DIAMONDに回答する際に、DeepSeek-R1-Distillモデルの生成トークンの55%以上が「ワードサラダトークン」であることを示している – これらは、意味的な観点から価値を追加しない。

GPQA-DIAMONDに回答する際の、意味的に冗長なトークンのシェア。WordSaladChopperは、テストされたすべてのDeepSeek-R1-Distillモデルで、このオーバーヘッドを55%以上から6%未満に削減する。

GPQA-DIAMONDに回答する際の、意味的に冗長なトークンのシェア。WordSaladChopperは、テストされたすべてのDeepSeek-R1-Distillモデルで、このオーバーヘッドを55%以上から6%未満に削減する。

研究者は、推論プロセスを短縮しながら回答の質を保つことが、研究文献における強いサブストランドになっていることを指摘し、ロングツーショート(L2S)と呼ばれる。また、以前のいくつかのイニシアチブと同様の目的を持っているが、トレーニングプロセスへの介入、モデル編集、またはLLMのベースアーキテクチャへのその他の課題を必要としないアドホックな解決策を提供するのは、彼らだけであると信じている:

‘低いオーバーヘッド、強い節約、ワードサラダトークンの意味のない価値を考えると、[WordSaladChopper] – または同様のコンポーネント – が、ユーザーエクスペリエンスを念頭に置いたすべてのLRMアプリケーションで必須であると主張することは、遠い話ではない.’

論文は、WordSaladChopper:推論モデルは無意味な繰り返しに大量のデコーディング予算を浪費する、自己認識的にと題され、ミネソタ大学、ライス大学、スティーブンス工科大学、Lambda社の6人の研究者によって執筆された。

事前考慮

推論LLMが自分自身を繰り返す傾向を追跡するために、研究者は、モデルが出力するチャンクをダブルラインブレークで分割し、各チャンクが以前のものとどれほど似ているかを確認した。

2つのデコーディング温度(τ = 0.0、0.6)での推論チャンクの推定シェア。クラスフィアは、チャンクを「ワードサラダ」としてマークする – これは、モデルが出力の以前の部分と密接に似ていることを示し、進歩ではなく繰り返しを示唆する。結果は、データセットやモデルサイズを問わず、この動作が広く存在することを示している。

2つのデコーディング温度(τ = 0.0、0.6)での推論チャンクの推定シェア。クラスフィアは、チャンクを「ワードサラダ」としてマークする – これは、モデルが出力の以前の部分と密接に似ていることを示し、進歩ではなく繰り返しを示唆する。結果は、データセットやモデルサイズを問わず、この動作が広く存在することを示している。

チャンクが類似していた場合、それは「ワードサラダ」としてフラグが付けられた(実質的に、無意味な繰り返し)。

研究者は、モデルがワードサラダモードに入ると、外部からの援助なしには逃れることが非常に難しいことを指摘し、代わりに、ユーザーのデコーディング予算が費やされるまで、コストのかかるループに留まる:

‘当然、これはユーザーにとって深刻な問題を提起する – 理想的に短い思考セクションが、無意味な繰り返しで最大化される。したがって、ユーザーは(おそらく)間違った答えのために最大のコストを支払い、最長のエンドツーエンド遅延を耐えることになる.’

カットポイント(繰り返しの出力が支配的になる時点)の前後に現れるワードサラダチャンクのシェア。繰り返しが大部分がこの時点の後に出現することを示し、モデルがワードサラダループに入ると、介入なしには回復しないことを示している。

カットポイント(繰り返しの出力が支配的になる時点)の前後に現れるワードサラダチャンクのシェア。繰り返しが大部分がこの時点の後に出現することを示し、モデルがワードサラダループに入ると、介入なしには回復しないことを示している。

研究者は、ワードサラダ状態にある推論LLMが、自身の状態を認識している兆候を示していることに驚いた。ただし、これが可能なのは、モデルがワードサラダ状態にあることを認識し、介入を可能にするからである:

‘この軽量なクラスフィアは、オンザフライでの検出を可能にし、モデルがワードサラダループに陥ったときに、異なる操作で介入できる.’

方法

ワードサラダの存在を推論中に検出するために、研究者は、各ダブルニューライントークンの隠れ状態で実行される、単純な線形クラスフィアを訓練した。

チャンクが発生するたびに、モデルがワードサラダループに入ったときのカットオフ(カットポイントと呼ばれる)を使用して、訓練データをラベル付けした。1000の推論トレースが、S1ベンチマークを使用して生成され、各トレースはニューラインで分割されたチャンクに分割された。

WordSaladChopperの概念スキーマ。生成中に、各ダブルニューライントークンの隠れ状態を分析して、繰り返しのセグメントを検出する。2つのワードサラダチャンクが続けてフラグが付けられたら、生成が停止され、固定の再生成プロンプトが付加され、モデルが回答を完了することができる。

WordSaladChopperの概念スキーマ。生成中に、各ダブルニューライントークンの隠れ状態を分析して、繰り返しのセグメントを検出する。2つのワードサラダチャンクが続けてフラグが付けられたら、生成が停止され、固定の再生成プロンプトが付加され、モデルが回答を完了することができる。

チャンクが以前のものと非常に似ていた場合、それはワードサラダとしてラベル付けされた。カットポイントが最初に検出されると、すべての後のチャンクもワードサラダとしてラベル付けされた – これらのループの持続性を反映するためである。

クラスフィアは、完全に接続された層として実装され、最終的なトランスフォーマーブロックからのトレーリングトークンの隠れ状態で訓練された。各モデルに、データを使用して、別々のクラスフィアを訓練し、評価中にファインチューニングは実行されなかった。

データとテスト

訓練と推論には、4つのNVIDIA A100(80G VRAM)GPUが使用され、Adamオプティマイザと、1×10-2の学習率で、50のエポックが実行された。

評価データセットには、’Grade School Math’ 8000、別名GSM8KMATH-500GPQA-DIAMOND、およびAIME25(2025)が含まれた。

テストされたモデルには、DeepSeek-R1-Distill-Qwen-1.5BDeepSeek-R1-Distill-Qwen-7B、およびDeepSeek-R1-Distill-Llama-8Bが含まれた。これらはすべて、MITライセンスの下で提供された。

使用されたメトリックには、精度AUROCが含まれた。

Qwen-7Bの4つのベンチマークと2つのデコーディング温度でのワードサラダクラスフィアの精度とAUROC。高いスコアは、トレーリングニューライントークンの隠れ状態から、繰り返しの開始を信頼性高く検出できることを示している。

Qwen-7Bの4つのベンチマークと2つのデコーディング温度でのワードサラダクラスフィアの精度とAUROC。高いスコアは、トレーリングニューライントークンの隠れ状態から、繰り返しの開始を信頼性高く検出できることを示している。

結果について、研究者は次のように述べている:

‘上の結果表は、線形クラスフィアがワードサラダチャンクを検出する際に非常に正確であることを示している。下の結果表は、再生成プロンプトが、ワードサラダのブルートフォースカットから失われたタスクの精度を回復するのに役立つことを示している.’

τ = 0.6での、各ベンチマークのQwen-7Bの精度。ワードサラダの前(オリジナル)、カット後の(カット)、および再生成プロンプトの適用後の(再生成)精度を比較する。再生成による利益は控えめながら一貫しており、ほとんどの場合、ループ前のパフォーマンスを回復している。

τ = 0.6での、各ベンチマークのQwen-7Bの精度。ワードサラダの前(オリジナル)、カット後の(カット)、および再生成プロンプトの適用後の(再生成)精度を比較する。再生成による利益は控えめながら一貫しており、ほとんどの場合、ループ前のパフォーマンスを回復している。

結果表では、WordSaladChopperが精度を改善または維持しながら、モデル出力の長さを、最大で57%削減したことが示されている。

τ = 0での、WordSaladChopperを使用した場合の、モデル出力の長さの削減。出力の長さは、時には半分以下に削減されるが、精度は同じかわずかに改善される。

τ = 0での、WordSaladChopperを使用した場合の、モデル出力の長さの削減。出力の長さは、時には半分以下に削減されるが、精度は同じかわずかに改善される。

最大の利益は、長い回答、特にGPQA-DIAMONDで現れた – ほぼ半分のテキストが除去されたが、パフォーマンスに影響しなかった。

τ = 0.6での、WordSaladChopperを使用した場合の、モデル出力の長さの削減。出力の長さは10〜30%削減され、精度は安定したりわずかに改善されたりする。

τ = 0.6での、WordSaladChopperを使用した場合の、モデル出力の長さの削減。出力の長さは10〜30%削減され、精度は安定したりわずかに改善されたりする。

精度は安定しており、出力は短縮された。モデルが回答を繰り返すようになっても、システムは機能し続けた。クラスフィアは、1トークンあたり1回しかチェックしないため、ライブ生成中でも非常に高速に実行される。

研究者は、将来の研究で、介入後にモデルに小さな再生成予算を付与すること、WordSaladChopperスタイルのシステムを再生成に継続的に適用すること、または「思考の終了」トークンをモデルに強制することの利点に言及している。

最後に、研究者は、現在の推論モデルの評価の質に批判的な口調で触れている:

‘私たちの誠実な信念は、多くの効率的な推論方法が、現在の推論評価ベンチマークが改善の余地があるため、有効であるように見えているということである。将来、より包括的な評価 スイートを開発することになる – その場合、多くの効率的な推論方法が失敗したり、バニラLRMと比べて異なるように振舞ったりすることを予想する.’

結論

先行するシステムのスケールに達した場合、ユーザーリソースの消費における小さな変化でも、重大なインフラ、ロジスティクス、およびコストの影響をもたらす。したがって、効率性は、プロバイダーと研究コミュニティの両方にとって共通の優先事項となる。

論文で提案された新しい軽量システムが実装された場合、トークンの無意味な焼き払いを防ぐことができ、顧客がプロバイダーが無駄にリソースを浪費しているように感じるのを防ぐことができる。実際、プロバイダーは、無意味な出力を提供するのではなく、有用な出力を提供することで、よりよく利益を得ることができる – これは、計算コストとしては同じである。

 

* ここでは触れませんが、これは、企業やホビーのローカルホストモデルにも適用され、ワードサラダの電力と生産性の損失が考慮に値する要因となる場合がある。

通常、強調は著者のものであり、私のものではない。インライン引用は、適用可能な場合は私によってハイパーリンクに変換されている。

†† ここで、フレームワークとAPIが、クエリごとに「サブ予算」を割り当てることができるため、1つのクエリが1日のトークンの割り当てをすべて焼き払うことはできないことを認識する必要がある – ただし、これは一般的な慣行ではなく、APIのみのプロバイダー間では一般的に議論されていない。

††† 私は一般的に、著者の「LRM」の使用を採用する準備ができていないため、この記事では必要に応じて他の用語を使用する。

最初に公開されたのは、2025年11月6日、木曜日。

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。