Ángulo de Anderson
La verbosidad disminuye la precisión en los grandes modelos de lenguaje

Nueva investigación encuentra que forzar a los Grandes Modelos de Lenguaje a dar respuestas más cortas mejora notablemente la precisión y la calidad de sus respuestas.
Cualquiera que haya intentado detener a un chatbot para que no “se explaye” reconocerá las conclusiones de la nueva investigación: forzar a la IA a dar respuestas más cortas la hace más precisa.
Al investigar las razones por las que los chatbots de IA más grandes funcionan peor en este sentido que los más pequeños, en ciertos casos (conocidos como inversa de escalabilidad), la investigación encontró que forzar a 31 modelos de lenguaje populares a dar respuestas más cortas causó una mejora de hasta el 26,3% en la precisión de sus respuestas:
‘Los resultados proporcionan evidencia causal convincente: las restricciones de brevedad mejoraron la precisión del modelo grande en 26,3 puntos porcentuales y redujeron la brecha de escalabilidad inversa en un 67% (del 44,2% al 14,8%, prueba t emparejada: t = 7,80, p < 0,0001).’
La verbosidad excesiva es una queja frecuente entre los usuarios finales, no menos entre aquellos que utilizan modelos comerciales como ChatGPT, donde los foros de soporte presentan este tema con frecuencia.
El dominio más afectado por la solución de la verbosidad en las respuestas es las matemáticas, donde las IA probadas se limitaron a responder en 50 palabras o menos. Para las tareas de comprensión lectora, se les restringió a una simple respuesta de 10 palabras.
El documento define la tendencia de la IA hacia la verbosidad como pensamiento excesivo, en el que el mensaje central no solo se oscurece por la verborrea, sino que a veces se ve afectado negativamente por ella. El modelo más pequeño, observa el documento, es menos necesario o funciona.
La investigación concluye que no hay nada arquitectónico que necesite abordarse para aplicar esta solución de forma sistemática. Sin embargo, en una sesión de chat de un usuario, una directiva hacia la brevedad probablemente necesitaría repetirse, mientras que un sistema de prompt globalmente aplicado – que necesitaría implementarse como una configuración predeterminada en plataformas como ChatGPT – podría hacer que las respuestas más cortas sean el comportamiento predeterminado.
Vientos tempestuosos
Nada de esto explica exactamente por qué los modelos más grandes tienden hacia la verbosidad, ya que esto es algo que afecta a los modelos de código abierto también. El documento sugiere que los protocolos y las prácticas comunes en las técnicas de aprendizaje de refuerzo con retroalimentación humana (RLHF) podrían ofrecer una explicación*:
‘Un origen plausible es el entrenamiento de alineación de RLHF, donde los anotadores humanos recompensan la exhaustividad de manera desproporcionada en modelos más grandes con mayor capacidad para actuar en señales de longitud de recompensa–consistentes con las diferencias de verbosidad que son mayores en variantes de instrucción que en las variantes de modelo base.
‘El trabajo previo documenta el sesgo sistemático de longitud en modelos de recompensa, donde los anotadores confunden la longitud con la calidad.
‘Los modelos más grandes, con mayor capacidad para satisfacer las señales de recompensa de longitud, pueden internalizar la generación verbosa más profundamente que los modelos más pequeños, produciendo el sobre-pensamiento dependiente de la escala que observamos.’
En los humanos, la verbosidad puede ocurrir para llenar un silencio, o para enmascarar sentimientos de incomodidad, debido a enfermedades mentales, o para ocultar la falta de conocimiento. En efecto, una IA solo podría verse influenciada por estos factores a través de la absorción de datos de entrenamiento que reflejan/manifesten estos rasgos.
En corpus de datos, existen otras motivaciones para respuestas prolijas, como el incentivo de SEO para producir contenido de texto más largo, por ejemplo en publicaciones de recetas, donde la longitud se asocia a menudo erróneamente con la autoridad.
No se puede descartar por completo que las plataformas basadas en API, incentivadas para empujar a los usuarios hacia un nivel de suscripción más alto y más caro, fomenten o no supervisen la verbosidad, ya que aumenta el uso de tokens de manera bastante barata, sin necesidad de razonamiento excesivo o llamadas RAG†.
El nuevo documento se titula Restricciones de brevedad invierten las jerarquías de rendimiento en modelos de lenguaje, y proviene del Departamento de Ciencias de la Computación del Instituto Politécnico de Suecia en Chattogram, en Bangladés.
Método
Para probar las teorías del documento, se evaluaron 31 modelos de lenguaje – demasiados para enumerarlos en forma de texto aquí, pero representados en la imagen a continuación:

Los Grandes Modelos de Lenguaje (LLM) probados en varias partes de las pruebas para el nuevo documento.










