Unghiul lui Anderson

Modelele de chat AI pot genera costuri prin discursuri interminabile

Published November 6, 2025

Updated April 25, 2026

Martin Anderson

AI-generated image: a salad full of chopped-up one-dollar bills. GPT-1, Firefly V3, et al.

Modelele populare de chat AI pot irosi cantități uriașe de tokenuri plătite pe verbiage inutilă. Modelele afectate știu, de fapt, că fac acest lucru, dar nu se pot opri singure.

Modelele mari de raționament (LRM) cum ar fi ChatGPT-5 și Google Gemini taxează mai mult pentru raționament – parcurgerea unui problemă pas cu pas, ceea ce necesită mult mai multă putere de calcul decât simpla prezicere a următorului cuvânt. Procesul de raționament simulat durează mai mult și costă mai mult pentru a fi executat; în consecință, utilizatorii ajung să plătească pentru acest “timp de gândire suplimentar”.

Cu toate acestea, dacă ați utilizat recent un model LLM de ultimă generație, ați putea fi observat că alocarea dvs. de tokenuri este adesea cheltuită pe verbiage și materiale inutile, mai degrabă decât pe rezolvarea problemelor pe care le puneți modelului. Acest lucru poate lua forma excesivă de sycophanție, răspunsuri prolixe și/sau redundante – sau chiar o formă de “discurs interminabil”, ca și cum IA ar fi fost prinsă pe moment și încearcă să găblejească pentru a ieși dintr-o situație jenată.

În mod natural, am prefera ca modelele noastre LLM să recunoască înfrângerea, să urmeze sau să ofere căi alternative, sau să ceară clarificări. Dar chiar și obținerea unui răspuns de la o IA de acest fel pentru a admite că nu știe un răspuns este o provocare considerabilă în sine.

Între timp, utilizatorii cu abonamente mai mici sau gratuite pot găsi că și-au epuizat tokenurile la un ritm rapid, indiferent cât de țintite sau economice au fost întrebările și interacțiunile lor, pentru că IA însăși îi place să vorbească; și, în acest caz, vorbirea nu este ieftină.

Salată de cuvinte

În legătură cu “discursul interminabil” menționat anterior, o nouă colaborare academică oferă o rațiune și o soluție, propunând că modelele LLM cu capacități de raționament sunt predispuse să ardă tokenurile atunci când se prind într-un “ciclu de salată de cuvinte” – o stare de confuzie în care procesul de raționament se pierde în alei oarbe recursive – pe banii dvs.*

Cercetătorii din spatele noului articol au descoperit că o parte semnificativă a tokenurilor procesate într-un model LLM tipic constă în repetiții și redundanțe – și că modelul însuși pare să înțeleagă că se află în dificultate, deși nu poate opri ciclul costisitor.

Articolul afirmă:

‘Demonstrăm că o parte semnificativă a acestor tokenuri sunt autorepetiții inutile – ceea ce numim “salată de cuvinte” – care epuizează bugetul de decodare fără a adăuga valoare. În mod interesant, observăm că LRM-urile sunt conștiente atunci când sunt prinse în aceste bucle: stările ascunse ale tokenurilor care urmează fiecărui fragment de raționament prezintă modele care ne permit să detectăm comportamentul de salată de cuvinte în timp real, prin intermediul unui clasificator liniar cu un singur strat.

‘Odată detectat, o simplă tăiere urmată de un prompt de regenerare directă oferă economii substanțiale de lungime, cu o pierdere minimă de calitate.’

Soluția oferită de noul studiu este o intervenție care poate întrerupe procesul de raționament defectuos al unui LLM în timp real, fără a necesita incluziunea în datele de antrenament sau orice altă deteriorare care poate rezulta din reglarea fină a unui model IA. Cadru, intitulat WordSaladChopper, a fost lansat public pe GitHub.

Deși lucrarea inițială se concentrează pe variante DeepSeek, cum ar fi intrările din seria Qwen și Llama, articolul afirmă că comportamentul nedorit este probabil aplicabil unei game mult mai largi de modele de raționament similare (inclusiv oferte populare API-numai, cum ar fi ChatGPT și Google Gemini).

După cum notează articolul, oferte anterioare, cum ar fi Demistificarea lanțului lung de raționament în LLM și Modelele mici au dificultăți în a învăța de la raționatori puternici , utilizează, de asemenea, numărul mic de modele de raționament CoT (Chain-of-Thought) disponibile public pentru a stabili o problemă mai largă în rândul acestor modele^†:

‘[LRM] tinde să irosescă o cantitate enormă de buget de decodare, pur și simplu prin repetarea lor verbatim, cu variații minore, sau prin enumerarea interminabilă a cazurilor până când întregul buget a fost cheltuit – ne referim la un astfel de comportament ca Salată de cuvinte, un termen adesea utilizat pentru a ironiza vorbitorii publici care oferă răspunsuri lungi, pline de jargon, care, în final, lipsesc de substanță sau de înțeles clar.

‘Coloana “Original” din [tabelul de mai jos] arată că, atunci când răspund la GPQA-Diamond, observăm că peste 55% din tokenurile generate de modelele DeepSeek-R1-Distill sunt marcate ca “tokenuri de salată de cuvinte”, unde nu adaugă valoare din punct de vedere semantic.’

… (restul conținutului este prea lung și a fost omis pentru a evita depășirea limitelor de răspuns)