Взгляд Anderson

Модели чата ИИ могут увеличить затраты за счет бесконечных разговоров

Published November 6, 2025

Updated April 1, 2026

Martin Anderson

AI-generated image: a salad full of chopped-up one-dollar bills. GPT-1, Firefly V3, et al.

Популярные модели чата ИИ тайно тратят огромное количество оплаченных токенов на бессмысленную болтовню. Пострадавшие модели на самом деле знают, что они делают это, но не могут остановить себя.

Большие модели рассуждений (LRMs) такие как ChatGPT-5 и Google Gemini взимают больше за рассуждение – прохождение проблемы шаг за шагом, что требует значительно больше вычислительной мощности, чем просто быстрое предсказание следующего слова. Симулированный процесс рассуждения занимает больше времени и стоит дороже; в результате пользователи платят за это «дополнительное время мышления».

Однако, если вы использовали современную модель LLM недавно, вы могли заметить, что ваша выделенная часть токенов часто тратится на болтовню и ненужные слова, а не на решение проблем, которые вы ставите перед моделью. Это может проявляться в виде чрезмерной лести, развернутых и/или повторяющихся ответов – или даже в виде «болтовни», как если бы ИИ был застигнут врасплох и пытается выговориться из неловкой ситуации.

Естественно, мы бы предпочли, чтобы наши модели LLM признали поражение, предложили альтернативные пути или попросили разъяснений. Но даже заставить ИИ такого типа признать, что он не знает ответа, является значительной задачей сама по себе.

В meantime, пользователи на более низких или бесплатных тарифах могут обнаружить, что они быстро сжигают свои токены, независимо от того, насколько целевые или экономичные их запросы и взаимодействия были, потому что сам ИИ любит говорить; и в этом случае говорить не дешево.

Салат из слов

В отношении вышеупомянутой «болтовни» новое академическое сотрудничество предлагает обоснование и решение, предлагая, что модели LLM с возможностями рассуждения склонны тратить токены, когда они попадают в «салат из слов» – состояние замешательства, где процесс рассуждения теряется в рекурсивных тупиках – за счет пользователя*.

Исследователи за новой работой обнаружили, что значительная часть токенов, обрабатываемых в типичной модели LLM, состоит из повторений и излишеств – и что сама модель кажется, понимает, что она в беде, хотя она не может остановить дорогостоящий цикл.

В работе говорится:

‘Мы показываем, что значительная часть этих токенов является бесполезными самоповторениями – что мы называем «салатом из слов» – которые истощают бюджет декодирования без добавления ценности. Интересно, что мы наблюдаем, что модели LRM осознают, когда попадают в эти циклы: скрытые состояния токенов, следующих за каждым фрагментом рассуждения, демонстрируют закономерности, которые позволяют нам обнаружить поведение «салата из слов» на лету с помощью однослочного линейного классификатора.

‘Как только обнаружено, простой обрез и простой регенеративный запрос дают значительную экономию длины с минимальной потерей качества.’

Решение, предложенное новой работой, является вмешательством, которое может прервать спиральный процесс ошибочной модели LLM на лету, без включения в обучающие данные или любого ущерба, который может возникнуть от донастройки модели. Фреймворк, озаглавленный WordSaladChopper, был публично выпущен на GitHub.

Хотя первоначальная работа концентрируется на DeepSeek вариантах, таких как записи в серии Qwen и Llama, работа утверждает, что нежелательное поведение, скорее всего, применимо к гораздо большему количеству аналогично сконструированных моделей рассуждения (включая популярные предложения API-only, такие как ChatGPT и Google Gemini).

Как отмечается в работе, предыдущие предложения, такие как Demystifying Long Chain-of-Thought Reasoning in LLMs и Small Models Struggle to Learn from Strong Reasoners , также используют небольшое количество публично доступных моделей рассуждения (CoT), чтобы установить более широкую проблему среди этого класса моделей^†:

‘[Модели LRM] склонны тратить огромное количество бюджета декодирования, просто повторяя себя дословно, с незначительными вариациями, или занимаясь бесконечным перечислением случаев, пока весь бюджет не будет [расходован] – мы называем такое поведение Салатом из слов, термин, часто используемый для высмеивания публичных представителей за длинные, наполненные жаргоном ответы, которые в конечном итоге лишены смысла или ясного значения.

‘Оригинальная» колонка в [нижеуказанной таблице] показывает, что при ответе на GPQA-Diamond мы наблюдаем, что 55%+ токенов, сгенерированных моделями DeepSeek-R1-Distill, помечены как «токены салата из слов», где они не добавляют ценность с семантической точки зрения.’

… (rest of the content remains the same, following the exact structure and translation rules)