Ángulo de Anderson

Los modelos de chat de IA pueden generar costos mediante divagaciones interminables

mm
AI-generated image: a salad full of chopped-up one-dollar bills. GPT-1, Firefly V3, et al.

Los populares modelos de chat de IA desperdician enormes cantidades de tokens pagados en verbiage inútil. Los modelos afectados realmente saben que están haciendo esto, pero no pueden detenerse a sí mismos.

 

Los grandes modelos de razonamiento (como ChatGPT-5 y Google Gemini) cobran más por razonamiento – analizar un problema paso a paso, lo que utiliza significativamente más potencia de cálculo que simplemente predecir la próxima palabra. El proceso de razonamiento simulado tarda más y cuesta más en ejecutarse; en consecuencia, los usuarios terminan pagando por ese “tiempo de pensamiento extra”.

Sin embargo, si ha utilizado un modelo de lenguaje de última generación recientemente, es posible que haya notado que su asignación de tokens a menudo se gasta en verbiage y cruft, en lugar de centrarse en resolver los problemas que se plantean al modelo. Esto puede tomar la forma de excesiva adulación, respuestas prolijas y/o redundantes – o incluso una especie de ‘divagación’, como si la IA hubiera sido sorprendida y estuviera tratando de hablar su camino fuera de una situación incómoda.

Naturalmente, preferiríamos que nuestros modelos de lenguaje admitieran la derrota, siguieran o ofrecieran caminos alternativos, o solicitaran aclaraciones. Pero incluso lograr que un modelo de IA de este tipo admita que no conoce una respuesta es un desafío considerable en sí mismo.

Mientras tanto, los usuarios en niveles más bajos o gratuitos pueden encontrarse con que han agotado rápidamente sus tokens, independientemente de cuán dirigidos o económicos sean sus consultas y interacciones, porque la IA en sí misma ama hablar; y, en este caso, hablar no es barato.

Ensalada de palabras

En cuanto a la mencionada ‘divagación’, una nueva colaboración académica ofrece una razón y una solución, proponiendo que los modelos de lenguaje con capacidades de razonamiento tienden a agotar sus tokens cuando se atascan en un ‘bucle de ensalada de palabras’ – un estado de confusión en el que el proceso de razonamiento se pierde en callejones sin salida recursivos – a costa del usuario*.

Los investigadores detrás del nuevo artículo han descubierto que una parte significativa de los tokens procesados en un modelo de lenguaje típico consiste en repeticiones y redundancias – y que el modelo en sí parece entender que está en problemas, aunque no puede detener el costoso bucle.

El artículo establece:

‘Demostramos que una parte significativa de estos tokens son repeticiones inútiles – lo que llamamos “ensalada de palabras” – que agotan el presupuesto de decodificación sin agregar valor. Resulta interesante que observemos que los modelos de razonamiento son conscientes cuando están atrapados en estos bucles: los estados ocultos de los tokens que siguen a cada fragmento de razonamiento exhiben patrones que nos permiten detectar el comportamiento de ensalada de palabras en tiempo real mediante un clasificador lineal de una capa.

‘Una vez detectado, un corte simple seguido de una regeneración directa produce ahorros sustanciales de longitud con una pérdida de calidad mínima.’

La solución ofrecida por el nuevo trabajo es una intervención que puede cortar el proceso espiral de un modelo de razonamiento errante de manera instantánea, sin necesidad de inclusión en los datos de entrenamiento o cualquier daño que pueda resultar de ajustes finos. El marco, titulado Cortador de Ensalada de Palabras, ha sido publicado públicamente en GitHub.

Aunque el trabajo inicial se centra en variantes de DeepSeek como las entradas en las series Qwen y Llama, el artículo afirma que el comportamiento no deseado es probablemente aplicable a una franja mucho más amplia de modelos de razonamiento con arquitectura similar (incluidas las ofertas populares de solo API como ChatGPT y Google Gemini).

Como señala el artículo, ofertas anteriores como Desmitificando el razonamiento en cadena de pensamiento en los modelos de lenguaje y Modelos pequeños luchan por aprender de razonadores fuertes también utilizan el pequeño número de modelos de razonamiento en cadena de pensamiento (CoT) disponibles públicamente para establecer un problema más amplio en esta clase de modelos:

[Los modelos de razonamiento] tienden a desperdiciar una cantidad enorme de presupuesto de decodificación, simplemente repitiéndose verbatim, con variaciones ligeras, o participando en una enumeración interminable de casos hasta que se agote todo el presupuesto – a lo que nos referimos como ensalada de palabras, un término a menudo utilizado para burlarse de los portavoces públicos que dan respuestas largas y llenas de jerga que en última instancia carecen de sustancia o significado claro.

‘La columna “Original” en [la tabla a continuación] muestra que al responder GPQA-Diamond, observamos que más del 55% de los tokens generados por los modelos DeepSeek-R1-Distill son marcados como “tokens de ensalada de palabras”, donde no agregan valor desde un punto de vista semántico.’

La participación de tokens de salida identificados como redundantes semánticamente al responder GPQA-Diamond. WordSaladChopper reduce esta sobrecarga de más del 55% a menos del 6% en todos los modelos DeepSeek-R1-Distill probados, según afirman los autores. [ Fuente ] https://arxiv.org/pdf/2511.00536

La participación de tokens de salida identificados como redundantes semánticamente al responder GPQA-Diamond. WordSaladChopper reduce esta sobrecarga de más del 55% a menos del 6% en todos los modelos DeepSeek-R1-Distill probados, según afirman los autores. Fuente

Los autores observan que los intentos de acortar los procesos de razonamiento mientras se conserva la calidad de la respuesta se han convertido en una subrama fuerte en la literatura de investigación, a saber, de largo a corto (L2S); y observan además que, aunque los objetivos de su proyecto son similares a los de algunas iniciativas anteriores, la suya es la primera en ofrecer una solución ad hoc que no requiere intervención en el proceso de entrenamiento, edición del modelo o otras posibles imposiciones sobre la arquitectura base de un modelo de lenguaje; y en ese sentido, creen que su enfoque debería generalizarse entre los sistemas aplicables:

Dada su baja sobrecarga, ahorros sólidos y la falta de valor semántico de los tokens de ensalada de palabras, creemos que no es demasiado atrevido argumentar que [WordSaladChopper] – o un componente similar – es una característica imprescindible para todas las aplicaciones de modelos de razonamiento con experiencia del usuario en mente

El nuevo artículo se titula WordSaladChopper: los modelos de razonamiento desperdician una gran cantidad de presupuesto de decodificación en repeticiones inútiles, autoconscientes, y proviene de seis investigadores de la Universidad de Minnesota, la Universidad de Rice, el Instituto de Tecnología Stevens y Lambda, Inc.

Consideraciones previas

Para rastrear la tendencia de los modelos de razonamiento a repetirse, los autores dividieron la salida de los modelos en fragmentos dondequiera que hubiera saltos de línea dobles, y luego comprobaron qué tan similares eran cada fragmento a los anteriores:

Participación estimada de fragmentos de razonamiento marcados como ensalada de palabras bajo dos temperaturas de decodificación (τ = 0,0, 0,6). El clasificador marca un fragmento como 'ensalada de palabras' cuando se parece mucho a una parte anterior de la salida del modelo, lo que sugiere repetición en lugar de progreso. Los resultados muestran que este comportamiento es generalizado en diferentes conjuntos de datos y tamaños de modelo.

Participación estimada de fragmentos de razonamiento marcados como ensalada de palabras bajo dos temperaturas de decodificación (τ = 0,0, 0,6). El clasificador marca un fragmento como ‘ensalada de palabras’ cuando se parece mucho a una parte anterior de la salida del modelo, lo que sugiere repetición en lugar de progreso. Los resultados muestran que este comportamiento es generalizado en diferentes conjuntos de datos y tamaños de modelo.

Si un fragmento era demasiado similar, se lo marcaba como ‘ensalada de palabras’ (efectivamente, una repetición inútil).

Los investigadores observan que una vez que un modelo entra en el ‘modo de ensalada de palabras’, es muy poco probable que escape de él sin ayuda externa, y en su lugar permanece en el bucle costoso hasta que se agota el presupuesto de decodificación del usuario††:

‘No hace falta decir que esto presenta un problema catastrófico para los usuarios, ya que una sección de pensamiento idealmente mucho más corta ahora se maximiza con repeticiones inútiles. Así que el usuario está pagando el costo máximo por una respuesta (probablemente) incorrecta, mientras soporta la latencia de extremo a extremo más larga.’

Participación de fragmentos de ensalada de palabras que aparecen antes y después del punto de corte (es decir, el momento en que la salida repetitiva comienza a dominar). La mayoría de las repeticiones ocurren después de este punto, lo que muestra que una vez que un modelo entra en un bucle de ensalada de palabras, rara vez se recupera sin intervención.

Participación de fragmentos de ensalada de palabras que aparecen antes y después del punto de corte (es decir, el momento en que la salida repetitiva comienza a dominar). La mayoría de las repeticiones ocurren después de este punto, lo que muestra que una vez que un modelo entra en un bucle de ensalada de palabras, rara vez se recupera sin intervención.

Los autores recuerdan su sorpresa cuando descubrieron que los modelos de razonamiento exhibían signos de ser conscientes de su estado de ensalada de palabras. Sin embargo, es esta conciencia, y la forma en que entra en el estado de razonamiento probable del modelo, lo que permite un sistema de intervención:

‘La ligereza de este clasificador lineal abre la puerta a la detección en tiempo real, donde podemos intervenir efectivamente con diferentes operaciones para abordar los modelos atrapados en bucles de ensalada de palabras.’

Método

Para detectar la presencia de ensalada de palabras durante la inferencia, los autores entrenaron un clasificador lineal simple que se ejecuta en el estado oculto de cada token de nueva línea doble.

Cualquier fragmento que ocurriera después de que el modelo entrara en un bucle de repetición se trataba como ensalada de palabras, con este corte (llamado punto de corte) utilizado para etiquetar los datos de entrenamiento. Se generaron mil trazas de razonamiento utilizando el benchmark S1, y cada traza se dividió en fragmentos separados por nuevas líneas.

Esquema conceptual para WordSaladChopper. Durante la generación, el estado oculto en cada token de nueva línea doble se analiza para detectar segmentos repetitivos. Una vez que se marcan dos fragmentos de ensalada de palabras seguidos, la generación se detiene. Un prompt de regeneración fijo se agrega, lo que permite que el modelo continúe y termine su respuesta sin exceder el presupuesto.

Esquema conceptual para WordSaladChopper. Durante la generación, el estado oculto en cada token de nueva línea doble se analiza para detectar segmentos repetitivos. Una vez que se marcan dos fragmentos de ensalada de palabras seguidos, la generación se detiene. Un prompt de regeneración fijo se agrega, lo que permite que el modelo continúe y termine su respuesta sin exceder el presupuesto.

Si un fragmento se encontraba muy similar a uno anterior, se lo marcaba como ensalada de palabras. Una vez que se identificara la repetición sostenida más temprana, todos los fragmentos posteriores también se marcarían como ensalada de palabras para reflejar la persistencia de estos bucles.

El clasificador se implementó como una sola capa completamente conectada y se entrenó en los estados ocultos de los tokens de cola del bloque de transformador final. Se entrenó un clasificador separado para cada modelo, utilizando estos datos, y no se realizó ajuste fino durante la evaluación.

Datos y pruebas

El entrenamiento y la inferencia utilizaron cuatro GPU NVIDIA A100 (80G VRAM), bajo el optimizador Adam, con una tasa de aprendizaje de 1×10-2, durante 50 épocas.

Los conjuntos de datos de evaluación fueron ‘Matemáticas de escuela primaria’ 8000, también conocido como GSM8K; MATH-500; GPQA-DIAMOND; y AIME25 (2025).

Los modelos probados fueron DeepSeek-R1-Distill-Qwen-1.5B; DeepSeek-R1-Distill-Qwen-7B; y DeepSeek-R1-Distill-Llama-8B, todos bajo licencia MIT.

Las métricas utilizadas fueron precisión y AUROC.

Precisión y AUROC del clasificador de ensalada de palabras en Qwen-7B en cuatro benchmarks y dos temperaturas de decodificación. Las puntuaciones altas confirman que el inicio de la repetición se puede detectar de manera confiable a partir del estado oculto del token de nueva línea de cola.

Precisión y AUROC del clasificador de ensalada de palabras en Qwen-7B en cuatro benchmarks y dos temperaturas de decodificación. Las puntuaciones altas confirman que el inicio de la repetición se puede detectar de manera confiable a partir del estado oculto del token de nueva línea de cola.

De los resultados que se muestran aquí, los autores comentan:

‘[La tabla de resultados anterior] muestra que el clasificador lineal es extremadamente preciso al detectar los fragmentos de ensalada de palabras; sin embargo, [la tabla de resultados a continuación] demuestra que el prompt de regeneración ayuda a recuperar la precisión de la tarea perdida por el corte brusco.’

Precisión de Qwen-7B en cada benchmark a τ = 0,6, comparando el rendimiento antes de la ensalada de palabras (Original), después del corte (Cortado) y después de aplicar la regeneración (Regenerado). Las ganancias de la regeneración son modestas pero consistentes, recuperando el rendimiento previo al bucle en la mayoría de los casos.

Precisión de Qwen-7B en cada benchmark a τ = 0,6, comparando el rendimiento antes de la ensalada de palabras (Original), después del corte (Cortado) y después de aplicar la regeneración (Regenerado). Las ganancias de la regeneración son modestas pero consistentes, recuperando el rendimiento previo al bucle en la mayoría de los casos.

En la tabla de resultados a continuación, podemos ver que WordSaladChopper mejoró o conservó la precisión mientras reducía drásticamente la longitud de las salidas del modelo, hasta en un 57%:

Cuando se utiliza WordSaladChopper en la decodificación codiciosa (τ = 0), reduce la longitud de las salidas del modelo, a veces más de la mitad, mientras mantiene la precisión igual o ligeramente mejor, un rendimiento que permanece consistente entre diferentes modelos y tareas (AIME25 se omite debido a resultados predeciblemente inestables en este ajuste).

Cuando se utiliza WordSaladChopper en la decodificación codiciosa (τ = 0), reduce la longitud de las salidas del modelo, a veces más de la mitad, mientras mantiene la precisión igual o ligeramente mejor, un rendimiento que permanece consistente entre diferentes modelos y tareas (AIME25 se omite debido a resultados predeciblemente inestables en este ajuste).

Las mayores ganancias aparecieron en respuestas más largas, especialmente en GPQA-Diamond, donde casi la mitad del texto se eliminó sin afectar el rendimiento. A continuación, podemos ver resultados similares cuando se agrega aleatoriedad durante la generación:

A una temperatura más alta (τ = 0,6), WordSaladChopper continúa acortando las salidas en un 10-30 por ciento, con una precisión que permanece estable o ligeramente mejorada en todos los modelos y benchmarks (los resultados de AIME25 se promedian para reducir la variabilidad).

A una temperatura más alta (τ = 0,6), WordSaladChopper continúa acortando las salidas en un 10-30 por ciento, con una precisión que permanece estable o ligeramente mejorada en todos los modelos y benchmarks (los resultados de AIME25 se promedian para reducir la variabilidad).

Aquí, la precisión se mantuvo estable, con salidas más cortas logradas. En general, el sistema continuó funcionando incluso cuando las respuestas del modelo se volvieron más repetitivas; y los autores observan que, dado que el clasificador solo verifica un token por oración, se ejecuta extremadamente rápido, incluso cuando se utiliza durante la generación en vivo.

El artículo observa que estrategias adicionales en investigaciones futuras en esta línea podrían beneficiarse de otorgar al modelo un pequeño presupuesto de regeneración después de la intervención; la aplicación continua de un sistema de estilo WordSaladChopper sobre regeneraciones; y forzar un token ‘fin de pensamiento’ en el modelo, para exigir su mejor respuesta actual.

Finalmente, los investigadores comentan sobre la calidad del estado actual de la evaluación de los modelos de razonamiento, con un tono crítico:

Es nuestra creencia honesta que muchos métodos de razonamiento eficientes parecen efectivos en parte porque las actuales pruebas de evaluación de razonamiento tienen mucho margen de mejora.

‘Si desarrollamos suites de evaluación más comprehensivas de evaluación suites – lo cual seguramente haremos en el futuro – esperamos ver que muchos métodos de razonamiento eficientes fallen, o se comporten de manera muy diferente a sus contrapartes de modelo de lenguaje estándar.’

Conclusión

A la escala alcanzada por los sistemas líderes como ChatGPT, incluso pequeños cambios en el consumo de recursos de los usuarios pueden tener importantes implicaciones de infraestructura, logística y costo. Esto hace que la eficiencia sea una prioridad compartida tanto para los proveedores como para la comunidad de investigación en general.

Si se implementa, el nuevo y ligero sistema propuesto en el artículo (que debe ser entrenado personalizado para cada arquitectura de modelo nueva) podría prevenir la quema inútil de tokens – lo que puede dar a los clientes la impresión de que el proveedor está ‘sangrando’ su asignación de manera derrochadora o engañosa. En realidad, el proveedor se beneficia al proporcionar salida útil en lugar de redundante, lo que cuesta lo mismo en términos de cálculo que una ensalada de palabras.

 

* Aunque no lo explicaremos aquí, esto también se aplica a los modelos alojados localmente, que pueden ser corporativos así como de aficionados, y donde las pérdidas de electricidad y productividad de la ensalada de palabras pueden ser un factor digno de mención.

Como de costumbre, todo el énfasis es de los autores, y no mío. Donde corresponda, sus citas en línea se han convertido en enlaces por mí.

†† Aquí debemos reconocer que los marcos y las API pueden asignar ‘subpresupuesto’ a las consultas, de modo que una consulta no necesariamente puede agotar el presupuesto de tokens de un día – pero esta no es una práctica común, ni comúnmente discutida entre los proveedores de solo API.

††† No estoy generalmente dispuesto a adoptar el uso de los autores de ‘LRMs’, ya que esta no es actualmente una abreviatura de uso común, así que utilizaré otra terminología en este artículo, según sea necesario.

Publicado por primera vez el jueves 6 de noviembre de 2025

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.