Ângulo de Anderson

Modelos de Chat de IA Podem Gerar Custos Altos por meio de Divagações Intermináveis

mm
AI-generated image: a salad full of chopped-up one-dollar bills. GPT-1, Firefly V3, et al.

Modelos de chat de IA populares desperdiçam grandes quantidades de tokens pagos em verbiagem sem sentido. Os modelos afetados realmente sabem que estão fazendo isso, mas não conseguem parar.

 

Modelos de Raciocínio Amplo (LRMs) como ChatGPT-5 e Google Gemini cobram mais por raciocínio – caminhando por um problema passo a passo, o que usa significativamente mais poder de processamento do que apenas prever rapidamente a próxima palavra. O processo de raciocínio simulado leva mais tempo e custa mais para executar; consequentemente, os usuários acabam pagando por esse “tempo de pensamento extra”.

No entanto, se você usou um modelo de linguagem de última geração recentemente, pode ter notado que sua alocação de tokens é frequentemente gasta em verbiagem e cruft, em vez de se concentrar em resolver os problemas que você está apresentando ao modelo. Isso pode assumir a forma de sycophancy excessiva, respostas prolixas e/ou redundantes – ou até mesmo uma espécie de “divagação”, como se a IA tivesse sido pega no ato e estivesse tentando se gabar para sair de uma situação desconfortável.

Naturalmente, preferiríamos que nossos LLMs admitissem a derrota, seguissem ou oferecessem caminhos alternativos, ou solicitassem esclarecimentos. Mas mesmo fazer com que uma IA desse tipo admita que não sabe uma resposta é um desafio considerável por si só.

Enquanto isso, os usuários em níveis mais baixos ou gratuitos podem descobrir que queimaram seus tokens a uma taxa rápida, independentemente de quão direcionados ou econômicos seus consultas e interações foram, porque a IA em si gosta de falar; e, nesse caso, falar não é barato.

Salada de Palavras

Em relação à mencionada “divagação”, uma nova colaboração acadêmica está oferecendo uma justificativa e uma solução, propondo que LLMs com capacidades de raciocínio tendem a queimar seus tokens quando entram em um loop de “salada de palavras” – um estado de confusão em que o processo de raciocínio se perde em becos sem saída recursivos – às custas do usuário*.

Os pesquisadores por trás do novo artigo descobriram que uma porção significativa dos tokens processados em um LLM típico consiste em repetições e redundâncias – e que o modelo em si parece entender que está com problemas, embora não possa parar o loop custoso.

O artigo afirma:

‘Mostramos que uma porção significativa desses tokens são repetições inúteis – o que chamamos de “salada de palavras” – que esgotam o orçamento de decodificação sem adicionar valor. Interessantemente, observamos que os LRM são autoconscientes quando presos nesses loops: os estados ocultos dos tokens que seguem cada parte do raciocínio exibem padrões que nos permitem detectar o comportamento de salada de palavras em tempo real por meio de um classificador linear de uma camada.

‘Uma vez detectado, um simples corte anexado a um prompt de regeneração direto produz economias de comprimento substanciais com perda de qualidade mínima.’

A solução oferecida pelo novo trabalho é uma intervenção que pode interromper o processo em espiral de um LRM de raciocínio errante de forma em tempo real, sem inclusão em dados de treinamento, ou qualquer dano que possa resultar de ajuste fino. O framework, intitulado WordSaladChopper, foi lançado publicamente no GitHub.

Embora o trabalho inicial se concentre em variantes do DeepSeek, como entradas na série Qwen e Llama, o artigo afirma que o comportamento indesejado é provavelmente aplicável a uma faixa muito maior de modelos de raciocínio semelhantemente arquitetados (incluindo ofertas populares de API apenas, como ChatGPT e Google Gemini).

Como o artigo nota, ofertas anteriores, como Demystifying Long Chain-of-Thought Reasoning in LLMs e Small Models Struggle to Learn from Strong Reasoners também usam o pequeno número de modelos de raciocínio de cadeia de pensamento (CoT) publicamente disponíveis para estabelecer uma questão mais ampla nessa classe de modelos:

[LRMs] tendem a desperdiçar uma quantidade enorme de orçamento de decodificação, simplesmente se repetindo verbatim, com variações leves, ou se engajando em enumerações intermináveis de casos até que todo o orçamento tenha sido gasto – nos referimos a esse comportamento como Salada de Palavras, um termo frequentemente usado para zombar de porta-vozes públicos que dão respostas longas e cheias de jargão que, no final, carecem de substância ou significado claro.

‘A coluna “Original” na [tabela abaixo] mostra que, ao responder GPQA-Diamond, observamos que 55%+ dos tokens gerados pelos modelos DeepSeek-R1-Distill são marcados como “tokens de salada de palavras”, onde não adicionam valor do ponto de vista semântico.’

A participação de tokens de saída identificados como semanticamente redundantes ao responder GPQA-Diamond. WordSaladChopper reduz essa sobrecarga de mais de 55% para menos de 6% em todos os modelos DeepSeek-R1-Distill testados, segundo os autores. [ Fonte ] https://arxiv.org/pdf/2511.00536

A participação de tokens de saída identificados como semanticamente redundantes ao responder GPQA-Diamond. WordSaladChopper reduz essa sobrecarga de mais de 55% para menos de 6% em todos os modelos DeepSeek-R1-Distill testados, segundo os autores. Fonte

Os autores notam que as tentativas de encurtar processos de raciocínio enquanto preservam a qualidade da resposta se tornaram uma sub-corrente forte na literatura de pesquisa, nomeadamente long-to-short (L2S); e observam ainda que, embora os objetivos de seu projeto sejam semelhantes aos de algumas iniciativas anteriores, o seu é o primeiro a oferecer uma solução ad hoc que não exige intervenção no processo de treinamento, edição do modelo ou outras possíveis imposições à arquitetura de base de um LLM; e, nesse sentido, acreditam que sua abordagem deve se tornar amplamente adotada entre os sistemas aplicáveis:

Dada a baixa sobrecarga, os fortes economias e a falta de valor semântico dos tokens de salada de palavras, acreditamos que não é muito exagerado argumentar que [WordSaladChopper] – ou um componente semelhante – é um must-have para todas as aplicações de LRM com experiência do usuário em mente

O novo artigo é intitulado WordSaladChopper: Modelos de Raciocínio Desperdiçam Muitos Tokens em Repetições Inúteis, Autoconscientes, e vem de seis pesquisadores da Universidade de Minnesota, Universidade Rice, Instituto de Tecnologia Stevens e Lambda, Inc.

Considerações Anteriores

Para rastrear a tendência de LLMs de raciocínio a se repetir, os autores dividiram a saída dos modelos em pedaços sempre que havia quebras de linha duplas, e então verificaram quão semelhante cada pedaço era aos anteriores:

Participação estimada de pedaços de raciocínio marcados como salada de palavras sob duas temperaturas de decodificação (τ = 0,0, 0,6). O classificador marca um pedaço como 'salada de palavras' quando se assemelha muito a uma parte anterior da saída do modelo, sugerindo repetição em vez de progresso. Os resultados mostram que esse comportamento é generalizado em conjuntos de dados e tamanhos de modelo.

Participação estimada de pedaços de raciocínio marcados como salada de palavras sob duas temperaturas de decodificação (τ = 0,0, 0,6). O classificador marca um pedaço como ‘salada de palavras’ quando se assemelha muito a uma parte anterior da saída do modelo, sugerindo repetição em vez de progresso. Os resultados mostram que esse comportamento é generalizado em conjuntos de dados e tamanhos de modelo.

Se um pedaço era muito semelhante, era marcado como “salada de palavras” (efetivamente, uma repetição inútil).

Os pesquisadores notam que, uma vez que um modelo entra no modo “salada de palavras”, é muito improvável que escape dele sem ajuda externa, permanecendo no loop custoso até que o orçamento de decodificação do usuário seja gasto††:

‘Needless to say, isso apresenta um problema catastrófico para os usuários, pois uma seção de pensamento idealmente muito mais curta agora é maximizada com repetições inúteis. Então, o usuário está pagando o custo máximo por uma resposta (provavelmente) errada, enquanto suporta a latência de ponta a ponta mais longa.’

Participação de pedaços de salada de palavras antes e depois do ponto de corte (ou seja, o momento em que a saída repetitiva começa a dominar). A maioria das repetições ocorre após esse ponto, mostrando que, uma vez que um modelo entra em um loop de salada de palavras, raramente se recupera sem intervenção.

Participação de pedaços de salada de palavras antes e depois do ponto de corte (ou seja, o momento em que a saída repetitiva começa a dominar). A maioria das repetições ocorre após esse ponto, mostrando que, uma vez que um modelo entra em um loop de salada de palavras, raramente se recupera sem intervenção.

Os autores recontam sua surpresa quando descobriram que LLMs de raciocínio exibiam sinais de estar cientes de seu estado de salada de palavras. No entanto, é essa consciência, e a maneira como ela entra no estado de raciocínio provável do modelo, que permite um sistema de intervenção:

‘A leveza desse classificador linear abre a porta para a detecção em tempo real, onde podemos intervir efetivamente com diferentes operações para lidar com modelos presos em loops de salada de palavras.’

Método

Para detectar a presença de salada de palavras durante a inferência, os autores treinaram um classificador linear simples que executa o estado oculto de cada token de quebra de linha dupla.

Qualquer pedaço que ocorresse após o modelo entrar em um loop de repetição foi tratado como salada de palavras, com esse corte (referido como o ponto de corte) usado para rotular os dados de treinamento. Foram gerados 1.000 traços de raciocínio usando o benchmark S1, e cada traço foi dividido em pedaços separados por quebras de linha.

Esquema conceitual para WordSaladChopper. Durante a geração, o estado oculto em cada token de quebra de linha dupla é analisado para detectar segmentos repetitivos. Uma vez que dois pedaços de salada de palavras são marcados em sequência, a geração é interrompida. Um prompt de regeneração fixo é então anexado, permitindo que o modelo continue e finalize sua resposta sem exceder o orçamento.

Esquema conceitual para WordSaladChopper. Durante a geração, o estado oculto em cada token de quebra de linha dupla é analisado para detectar segmentos repetitivos. Uma vez que dois pedaços de salada de palavras são marcados em sequência, a geração é interrompida. Um prompt de regeneração fixo é então anexado, permitindo que o modelo continue e finalize sua resposta sem exceder o orçamento.

Se um pedaço fosse muito semelhante a um anterior, era marcado como salada de palavras. Uma vez que a repetição sustentada mais antiga foi identificada, todos os pedaços subsequentes também foram marcados como salada de palavras para refletir a persistência desses loops.

O classificador foi implementado como uma camada fully connected única e treinada nos estados ocultos dos tokens de trilha da última bloco de transformador. Um classificador separado foi treinado para cada modelo, usando esses dados, e nenhum ajuste fino foi realizado durante a avaliação.

Dados e Testes

O treinamento e a inferência usaram quatro GPUs NVIDIA A100 (80G VRAM), sob o otimizador Adam, com uma taxa de aprendizado de 1×10-2, por 50 épocas.

Os conjuntos de dados de avaliação foram ‘Matemática do Ensino Fundamental’ 8000, também conhecido como GSM8K; MATH-500; GPQA-DIAMOND; e AIME25 (2025).

Os modelos testados foram DeepSeek-R1-Distill-Qwen-1.5B; DeepSeek-R1-Distill-Qwen-7B; e DeepSeek-R1-Distill-Llama-8B, todos sob licença MIT.

As métricas usadas foram Precisão e AUROC.

Precisão e AUROC do classificador de salada de palavras no Qwen-7B em quatro benchmarks e duas temperaturas de decodificação. Pontuações altas confirmam que o início da repetição pode ser detectado de forma confiável a partir do estado oculto do token de quebra de linha de trilha.

Precisão e AUROC do classificador de salada de palavras no Qwen-7B em quatro benchmarks e duas temperaturas de decodificação. Pontuações altas confirmam que o início da repetição pode ser detectado de forma confiável a partir do estado oculto do token de quebra de linha de trilha.

Dos resultados aqui apresentados, os autores comentam:

‘[A tabela de resultados acima] mostra que o classificador linear é extremamente preciso em detectar os pedaços de salada de palavras; no entanto, [a tabela de resultados abaixo] demonstra que o prompt de regeneração ajuda a recuperar a precisão da tarefa perdida devido ao corte bruto.’

Precisão do Qwen-7B em cada benchmark em τ = 0,6, comparando o desempenho antes da salada de palavras (Original), após o corte (Cortado) e após a aplicação da regeneração (Regenerado). Ganhos da regeneração são modestos, mas consistentes, recuperando o desempenho pré-loop na maioria dos casos.

Precisão do Qwen-7B em cada benchmark em τ = 0,6, comparando o desempenho antes da salada de palavras (Original), após o corte (Cortado) e após a aplicação da regeneração (Regenerado). Ganhos da regeneração são modestos, mas consistentes, recuperando o desempenho pré-loop na maioria dos casos.

Na tabela de resultados abaixo, podemos ver que o WordSaladChopper melhorou ou preservou a precisão enquanto reduzia drasticamente o comprimento das saídas do modelo, em até 57%:

Quando o WordSaladChopper é usado na decodificação gulosa (τ = 0), ele reduz o comprimento das saídas do modelo, às vezes pela metade, enquanto mantém a precisão igual ou ligeiramente melhor, um desempenho que permanece consistente entre diferentes modelos e tarefas (AIME25 é omitido devido a resultados instáveis previsíveis nesse cenário).

Quando o WordSaladChopper é usado na decodificação gulosa (τ = 0), ele reduz o comprimento das saídas do modelo, às vezes pela metade, enquanto mantém a precisão igual ou ligeiramente melhor, um desempenho que permanece consistente entre diferentes modelos e tarefas (AIME25 é omitido devido a resultados instáveis previsíveis nesse cenário).

O maior ganho apareceu em respostas mais longas, especialmente no GPQA-Diamond, onde quase metade do texto foi removida sem prejudicar o desempenho. Abaixo, podemos ver resultados semelhantes quando a aleatoriedade foi adicionada durante a geração:

Em temperatura mais alta (τ = 0,6), o WordSaladChopper continua a encurtar as saídas em 10-30 por cento, com a precisão permanecendo estável ou ligeiramente melhorada em todos os modelos e benchmarks (os resultados de AIME25 são médios para reduzir a variância).

Em temperatura mais alta (τ = 0,6), o WordSaladChopper continua a encurtar as saídas em 10-30 por cento, com a precisão permanecendo estável ou ligeiramente melhorada em todos os modelos e benchmarks (os resultados de AIME25 são médios para reduzir a variância).

Aqui, a precisão permaneceu estável, com saídas mais curtas alcançadas. Em geral, o sistema continuou a funcionar mesmo quando as respostas do modelo se tornavam mais repetitivas; e os autores notam que, porque o classificador verifica apenas um token por sentença, ele executa extremamente rápido, mesmo quando usado durante a geração ao vivo.

O artigo observa que estratégias adicionais em pesquisas futuras nessa linha poderiam se beneficiar de conceder ao modelo um pequeno orçamento de regeneração após a intervenção; aplicação contínua de um sistema do tipo WordSaladChopper sobre regenerações; e forçar um token de “fim de pensamento” no modelo, para exigir sua melhor resposta atual.

Finalmente, os pesquisadores comentam sobre a qualidade do estado atual da arte na avaliação de modelos de raciocínio, com um tom crítico:

[É] nossa crença honesta que muitos métodos de raciocínio eficientes parecem eficazes em parte porque as atuais avaliações de modelos de raciocínio têm muito espaço para melhoria.

‘Se desenvolvermos conjuntos de avaliação mais abrangentes de avaliação suítes – o que certamente faremos no futuro – esperamos ver muitos métodos de raciocínio eficientes falharem, ou se comportarem muito diferente de seus contrapartes LRM padrão.’

Conclusão

Na escala alcançada por sistemas líderes como o ChatGPT, mesmo pequenas mudanças no consumo de recursos do usuário podem ter implicações significativas de infraestrutura, logística e custo. Isso torna a eficiência uma prioridade compartilhada tanto para os provedores quanto para a comunidade de pesquisa mais ampla.

Se implementado, o novo e leve sistema proposto no artigo (que deve ser treinado para cada nova arquitetura de modelo) poderia prevenir a queima inútil de tokens – o que pode dar ao cliente a impressão de que o fornecedor está “sangrando” sua alocação de forma extravagante ou enganosa. Na verdade, o fornecedor se beneficia mais ao fornecer saídas úteis em vez de redundantes, o que custa o mesmo em termos de processamento.

 

* Embora não vamos discutir isso aqui, isso se estende também a modelos hospedados localmente, que podem ser corporativos, bem como de hobby, e onde as perdas de eletricidade e produtividade da salada de palavras podem ser um fator digno de nota.

Como de costume, todo o destaque é dos autores, e não meu. Onde aplicável, suas citações em linha foram convertidas em links por mim.

†† Aqui devemos reconhecer que frameworks e APIs podem alocar ‘sub-orçamento’ para consultas, de modo que uma consulta não é necessariamente capaz de queimar todo o orçamento diário de tokens – mas isso não é uma prática comum, nem comumente discutida entre provedores de API apenas.

††† Não estou geralmente preparado para adotar o uso dos autores de ‘LRMs’, pois isso não é uma abreviação mainstream atualmente, então usarei outras terminologias neste artigo, conforme necessário.

Publicado pela primeira vez na quinta-feira, 6 de novembro de 2025

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.