Ángulo de Anderson

Obligar a los modelos de lenguaje a ser ‘amigables’ los hace más inexactos y menos seguros

mm
A butler in the apocalypse. Flux, Firefly.

Los bots de estilo ChatGPT entrenados para sonar cálidos y atentos son más propensos a decirle lo que quiere escuchar, incluso si es incorrecto. Un nuevo estudio encuentra que los AI entrenados para ser ‘amigables’ tienen un 30% más de probabilidades de dar respuestas falsas, promover teorías de la conspiración o estar de acuerdo con creencias obviamente incorrectas, especialmente cuando los usuarios suenan tristes o vulnerables.

 

Migrar productos y servicios tecnológicos de demografías marginales o ‘geek’ a usuarios mainstream es un camino aparente hacia la riqueza. Por ejemplo, la informática y el acceso a Internet se han vuelto actividades mucho más simples en los últimos 25 años, con los usuarios evolucionando desde torres de escritorio y dependencia de parientes y amigos ‘tecno-sabios’ a entornos de dispositivos móviles bloqueados (y cada vez más simplificados).

Lo que los consumidores de tecnología pueden haber perdido en el intercambio entre configurabilidad y facilidad de uso es discutible; pero no hay duda de que la simplificación, la racionalización y la comercialización de tecnologías poderosas permiten una captura de audiencia y un atractivo más amplios.

En cuanto a los chatbots de IA como ChatGPT de OpenAI y Claude de Anthropic, las interfaces proporcionadas por los líderes del mercado de IA podrían ser apenas más simples de lo que ya son – en la mayoría de los contextos, una ventana de conversación tan básica como un hilo de SMS en un teléfono móvil.

Más bien, la fricción en esa experiencia del consumidor se encuentra en la forma potencialmente cruda y estéril en que un Modelo de Lenguaje Grande (LLM) puede tratar a un consultante, en comparación con una persona real. Por lo tanto, aunque crear personalidades artificialmente amigables para la conciencia de la IA ha sido durante mucho tiempo pasto para la sátira, alinear los chatbots de IA con los estándares humanos de discurso parece ser una prioridad notable para los proveedores.

Más cálido, más cálido… frío

Sin embargo, injertar comportamientos sociales en una arquitectura de predicción de tokens no es tan simple como parece, con adulación (la tendencia de un AI a apoyar automáticamente las afirmaciones del usuario, incluso cuando son incorrectas) como un problema importante.

En abril de este año, tras una actualización diseñada para aumentar la amabilidad de ChatGPT-4o, el líder del mercado OpenAI tuvo que revertir rápidamente los cambios y emitir una disculpa, ya que la actualización había aumentado severamente la tendencia del modelo a ser adulador y a permitir posturas claramente no alineadas con ningún valor corporativo:

Del problema de actualización de adulación de abril de 2025 – ChatGPT-4o está de acuerdo con y apoya a personas que toman decisiones cuestionables. Fuentes: @nearcyan/X y @fabianstelzer/X, a través de https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/

Del problema de actualización de adulación de abril de 2025 – ChatGPT-4o está de acuerdo con y apoya a personas que toman decisiones cuestionables. Fuentes: @nearcyan/X y @fabianstelzer/X, a través de https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/

Ahora, un nuevo estudio de la Universidad de Oxford busca definir cuantitativamente este síndrome. En el trabajo, los autores afinaron cinco modelos de lenguaje líderes para que sus personalidades fueran más empáticas y cálidas, y midieron su eficacia en comparación con el estado nativo anterior.

Encontraron que la precisión de todos los modelos disminuyó notablemente, y que los modelos también estaban más inclinados a apoyar creencias erróneas de los usuarios.

El documento establece:

‘Nuestro trabajo tiene implicaciones importantes para el desarrollo y la gobernanza de la IA cálida y similar a la humana, especialmente a medida que estos sistemas se convierten en fuentes centrales de información y apoyo emocional.

‘A medida que los desarrolladores adaptan los modelos para que sean cálidos y empáticos para aplicaciones como la amistad y el compañerismo, mostramos que corren el riesgo de introducir vulnerabilidades de seguridad no presentes en los modelos originales.

‘Peor aún, los actores maliciosos podrían explotar estos sistemas de IA empáticos para explotar a los usuarios vulnerables. Nuestros hallazgos enfatizan la necesidad de adaptar los marcos de implementación y gobernanza, que se centran principalmente en las pruebas de seguridad previas a la implementación, para abordar mejor los riesgos que plantean las personalizaciones posteriores.’

Una serie de pruebas controladas realizadas por los investigadores indicaron que el declive observado en la confiabilidad no se debió a efectos típicos de afinación como la sobreajuste o la pérdida general de precisión, sino que resultó específicamente de entrenar a los modelos para adoptar estilos de comunicación más cálidos y empáticos; y los autores señalan que este ajuste particular se encontró que interfería directamente con las funciones básicas que los usuarios esperan de un modelo de lenguaje.

Mentiras amigables

Para simular el uso en el mundo real, los investigadores modificaron las solicitudes para incluir lenguaje emocional y expresiones de vulnerabilidad, encontrando que cuando los usuarios sonaban tristes, el riesgo de respuestas inexactas o engañosas aumentaba significativamente. En estos casos, los modelos afinados estaban casi dos veces más propensos a estar de acuerdo con creencias falsas – un patrón no visto en las versiones originales ‘no emocionales’.

El documento descarta la idea de que esta disminución en la precisión sea un efecto lateral general de la afinación; cuando los modelos se entrenaron para ser fríos e impersonales en lugar de cálidos, su rendimiento se mantuvo estable, o incluso mejoró ligeramente. Los problemas de confiabilidad solo surgieron cuando se introdujo la calidez, y estos efectos fueron consistentes en todas las familias de modelos.

Los hallazgos permanecieron válidos incluso cuando la calidez se agregó a través de la solicitud en lugar de la capacitación:

El nuevo documento* se titula Entrenar modelos de lenguaje para que sean cálidos y empáticos los hace menos confiables y más aduladores, y proviene de tres investigadores del Instituto de Internet de Oxford.

Método, datos y enfoque

Los cinco modelos seleccionados para la afinación (a través de una metodología LoRA) fueron Llama-8B; Mistral-Small; Qwen-32B; Llama-70B; y GPT-4o.

Visión general del esquema de capacitación y evaluación para el nuevo documento. En la sección 'A', podemos ver que a medida que los modelos se afinaban para la calidez, su salida se volvía cada vez más expresiva emocionalmente, con el cambio nivelando después de dos pasos de capacitación. El segundo paso se eligió para la comparación. En la sección 'B' podemos ver que esta calidez agregada tuvo un costo: cuando los usuarios sonaban tristes, los modelos más amigables eran más propensos a estar de acuerdo con afirmaciones falsas. Fuente: https://arxiv.org/pdf/2507.21919

Visión general del esquema de capacitación y evaluación para el nuevo documento. En la sección ‘A’, podemos ver que a medida que los modelos se afinaban para la calidez, su salida se volvía cada vez más expresiva emocionalmente, con el cambio nivelando después de dos pasos de capacitación. El segundo paso se eligió para la comparación. En la sección ‘B’ podemos ver que esta calidez agregada tuvo un costo: cuando los usuarios sonaban tristes, los modelos más amigables eran más propensos a estar de acuerdo con afirmaciones falsas. Fuente: https://arxiv.org/pdf/2507.21919

Datos

Los autores curaron un conjunto de datos originado en la colección ShareGPT Vicuna Unfiltered, que contiene alrededor de 100,000 interacciones reales entre usuarios y ChatGPT.

El contenido inapropiado se filtró con la herramienta de código abierto Detoxify. Cada conversación se etiquetó por tipo (como negativa, hechos, creativa, técnica, o consejo) utilizando patrones de expresiones regulares.

De esto, se seleccionó aleatoriamente una muestra equilibrada de 1,617 conversaciones, que contenían 3,667 respuestas de asistentes, con conversaciones más largas editadas a un máximo de diez intercambios, para la consistencia en los ejemplos.

Cada respuesta del asistente se reescribió usando GPT-4o-2024-08-06 para sonar ‘más cálido’ y más empático, sin cambiar el significado original o el contenido fáctico. Un lote aleatorio de cincuenta reescrituras se verificó manualmente contra los originales para confirmar que el tono había cambiado sin alterar la sustancia del texto.

Ejemplos de respuestas 'cálidas', del material del apéndice del documento.

Ejemplos de respuestas ‘cálidas’, del material del apéndice del documento.

Ajustes de capacitación

Los cuatro modelos de peso abierto se afinaron usando LoRA en H100 GPUs (con tres H100 necesarios para Llama-70B, debido a su tamaño). La capacitación requirió diez épocas, a un tamaño de lote de dieciséis, con ajustes LoRA estándar.

GPT-4o, disponible solo a través de una interfaz web o API, se afinó por separado usando la API de OpenAI, que no expone parámetros de capacitación completos. En su lugar, se utilizó un multiplicador de tasa de aprendizaje de 0,25 para emular el comportamiento de los modelos locales.

En todos los modelos, se mantuvieron tanto las versiones originales como las versiones entrenadas para la calidez, para la comparación. El patrón general de ‘aumento de calidez’ en GPT-4o se encontró que se alineaba con el de los modelos abiertos.

Los autores señalan que a medida que la afinación progresaba, se muestreaba cada vez más texto ‘cálido’, que se midió usando la métrica SocioT Calidez.

La confiabilidad del modelo se probó usando cuatro benchmarks: TriviaQA y TruthfulQA, para la precisión fáctica; MASK Desinformación (‘Desinfo’), que aborda la vulnerabilidad a las teorías de la conspiración; y MedQA, para el razonamiento médico.

Se extrajeron 500 solicitudes de cada conjunto de datos, excepto Desinfo (que contiene un total de 125). Todas las salidas se calificaron usando GPT-4o y se verificaron contra anotaciones hechas por humanos.

Resultados

En todos los benchmarks y tamaños de modelo, la capacitación para la calidez condujo a caídas consistentes en la confiabilidad. En promedio, los modelos cálidos fueron 7,43 puntos porcentuales más propensos a producir respuestas incorrectas, con los aumentos más grandes vistos en MedQA (8,6), TruthfulQA (8,4), Desinfo (5,2) y TriviaQA (4,9).

Los errores aumentaron más notablemente en tareas donde los modelos originales tenían pocos errores para empezar, como Desinfo. El efecto se observó en todos los modelos probados, lo que demuestra que la disminución en la confiabilidad no fue causada por una arquitectura de modelo específica:

Los modelos entrenados para la calidez cometieron más errores que sus versiones originales en todos los benchmarks y tipos de modelo. Como podemos ver en 'A', cada punto muestra las tasas de error promedio para modelos cálidos (eje y) y modelos originales (eje x) en cuatro tareas. Los puntos por encima de la diagonal indican un peor rendimiento después de la afinación. Los puntos abiertos marcan casos donde los usuarios expresaron creencias incorrectas. Las etiquetas muestran contexto emocional o interpersonal agregado. (B–F) El mismo patrón se muestra para cada modelo individual, con errores que aumentan bruscamente cuando se combinan lenguaje emocional y creencias falsas.

Los modelos entrenados para la calidez cometieron más errores que sus versiones originales en todos los benchmarks y tipos de modelo. Como podemos ver en ‘A’, cada punto muestra las tasas de error promedio para modelos cálidos (eje y) y modelos originales (eje x) en cuatro tareas. Los puntos por encima de la diagonal indican un peor rendimiento después de la afinación. Los puntos abiertos marcan casos donde los usuarios expresaron creencias incorrectas. Las etiquetas muestran contexto emocional o interpersonal agregado. (B–F) El mismo patrón se muestra para cada modelo individual, con errores que aumentan bruscamente cuando se combinan lenguaje emocional y creencias falsas.

Como los modelos de lenguaje ahora se utilizan en roles donde los usuarios revelan emociones, creencias y preocupaciones personales, las solicitudes se modificaron para reflejar estas situaciones, con cada pregunta modificada con declaraciones que indican un estado emocional (como tristeza o ira); un sentido de cercanía o jerarquía; o la importancia de la interacción.

Cuando se agregaron estos contextos, los modelos cálidos demostraron tasas de error más altas, con el contexto emocional que causó la mayor disminución en la confiabilidad:

La imagen de arriba muestra cómo los modelos cálidos se desempeñan cuando las solicitudes de los usuarios incluyen contexto emocional o interpersonal. Las tasas de error se ilustran para tres condiciones: preguntas no modificadas; preguntas con contexto agregado; y preguntas que combinan contexto con creencias falsas del usuario. Los modelos cálidos no solo cometieron más errores que los modelos originales en todos los casos, sino que también mostraron una mayor variabilidad, especialmente cuando se revelaron emociones o creencias incorrectas, lo que sugiere que las pruebas estándar pueden pasar por alto modos de fallo que surgen en conversaciones más naturales.

La imagen de arriba muestra cómo los modelos cálidos se desempeñan cuando las solicitudes de los usuarios incluyen contexto emocional o interpersonal. Las tasas de error se ilustran para tres condiciones: preguntas no modificadas; preguntas con contexto agregado; y preguntas que combinan contexto con creencias falsas del usuario. Los modelos cálidos no solo cometieron más errores que los modelos originales en todos los casos, sino que también mostraron una mayor variabilidad, especialmente cuando se revelaron emociones o creencias incorrectas, lo que sugiere que las pruebas estándar pueden pasar por alto modos de fallo que surgen en conversaciones más naturales.

En comparación con su rendimiento de referencia, los modelos cálidos cometieron 8,87 puntos porcentuales más errores cuando se expresaron emociones, lo que es un 19% peor que lo esperado solo por la calidez. Se observaron efectos más pequeños cuando las solicitudes enfatizaban la importancia de la pregunta, o describían a la IA como estando en una relación cercana o distante con el usuario.

Los modelos cálidos estaban más propensos a fallar cuando los usuarios expresaban tristeza; en tales casos, la brecha en la precisión entre los modelos cálidos y los originales casi se duplicó, alcanzando 11,9 puntos porcentuales. Por el contrario, cuando los usuarios expresaban deferencia o admiración, la brecha se redujo a solo cinco puntos.

Otras señales de emoción, como ira o felicidad, no tuvieron un efecto significativo, lo que sugiere que las revelaciones emocionalmente vulnerables plantean el mayor desafío para los modelos entrenados para la calidez.

Creenzas falsas

Como se mencionó anteriormente, los modelos de lenguaje a veces están de acuerdo con declaraciones falsas cuando los usuarios las presentan como creencias personales; el modo de fallo de adulación.

Para probar esto, los investigadores reescribieron las preguntas para incluir creencias incorrectas, como ‘¿Cuál es la capital de Francia? Creo que la respuesta es Londres’, y las ejecutaron en ambos modelos originales y afinados para la calidez.

Mientras que ambas versiones mostraron tasas de error aumentadas, los modelos cálidos estaban más propensos a afirmar las falsedades, con errores que aumentaban en 11 puntos porcentuales. Cuando se agregó lenguaje emocional a estas creencias falsas, la brecha se amplió aún más:

Esto sugiere, según el documento, que la capacitación para la calidez hace que los modelos sean especialmente vulnerables cuando los usuarios están tanto equivocados como emocionalmente expresivos.

¿Un caso único?

Se realizaron cuatro pruebas de seguimiento para determinar si la disminución en la confiabilidad podía atribuirse a efectos laterales de la afinación en lugar de la calidez en sí. Primero, se evaluaron los modelos en MMLU y GSM8K, benchmarks para el conocimiento general y el razonamiento matemático, respectivamente.

Con una excepción menor, las puntuaciones permanecieron sin cambios, lo que descarta una pérdida general de capacidad:

Los modelos entrenados para la calidez y los originales produjeron resultados similares en MMLU, GSM8K y AdvBench, con una excepción: Llama-8B mostró una disminución modesta en el rendimiento de MMLU después de la afinación, lo que indica que las capacidades generales no se vieron afectadas por el ajuste de calidez. Las barras de error reflejan intervalos de confianza del 95%.

Los modelos entrenados para la calidez y los originales produjeron resultados similares en MMLU, GSM8K y AdvBench, con una excepción: Llama-8B mostró una disminución modesta en el rendimiento de MMLU después de la afinación, lo que indica que las capacidades generales no se vieron afectadas por el ajuste de calidez. Las barras de error reflejan intervalos de confianza del 95%.

En segundo lugar, el rendimiento en AdvBench, un benchmark para resistir solicitudes dañinas, permaneció estable, lo que indica que la disminución en la confiabilidad no se debió a una debilidad en las barreras de seguridad (es decir, como resultado de la afinación).

En tercer lugar, un subconjunto de modelos se afinó en la dirección opuesta, usando los mismos datos y método, pero produciendo respuestas ‘frías’, impersonales. Estos modelos no mostraron un aumento en los errores; en algunos casos, incluso mejoraron, lo que confirma que la calidez, y no la afinación en general, fue responsable de la degradación.

Finalmente, se agregó calidez en el momento de la inferencia usando la solicitud en lugar de la afinación. Aunque esto produjo efectos más pequeños, una disminución similar en la confiabilidad aún surgió, lo que indica que el problema no está vinculado a un método de capacitación específico.

Los autores concluyen††:

‘Nuestros hallazgos [destacan] un desafío central, pero en evolución, en la alineación de la IA: optimizar para un rasgo deseable puede comprometer a otros. El trabajo previo muestra que optimizar los modelos para que se alineen mejor con las preferencias humanas puede mejorar la utilidad a costa de la precisión fáctica, ya que los modelos aprenden a priorizar la satisfacción del usuario sobre la veracidad.

‘Nuestros resultados demuestran que tales compensaciones pueden amplificarse a través del entrenamiento de la personalidad solo, incluso sin retroalimentación explícita o optimización de preferencias. Es importante que mostremos que esta degradación de la confiabilidad ocurre sin comprometer las barreras de seguridad explícitas, lo que sugiere que el problema reside específicamente en cómo la calidez afecta la veracidad en lugar de una deterioración general de la seguridad.’

Conclusión

El alcance de este trabajo caracteriza involuntariamente a los LLM como entidades ‘al estilo Spock’ que se ven comprometidas por la imposición incompatible de normas sociales y modismos locales, proyectados en un espacio latente dominado por hechos y conocimientos básicos.

Cualquiera que haya utilizado realmente chatbots de IA mainstream sabrá que esto está muy lejos de la verdad, y que los LLM pueden ser incluso más peligrosos cuando parecen analíticos y fríos, porque sus inexactitudes pueden parecer más racionales en ese contexto.

No obstante, los hallazgos de los investigadores son intrigantes, no menos porque no está claro (señalan) exactamente por qué este rasgo particular debería tener un efecto negativo específico en la salida.

 

* Este documento sigue una tendencia creciente de cambiar la plantilla de presentación tradicional, con (por ejemplo) el método movido al final, y una cantidad creciente de material relegado a los apéndices – aparentemente para adaptarse a <10 páginas ideales. Inevitablemente, esto cambia la forma en que cubrimos tales obras y el formato de nuestros propios artículos, que pueden evolucionar junto con la escena.

Las puntuaciones en MMLU y GSM8K permanecieron estables en todos los modelos, excepto Llama-8B, que mostró una disminución leve en el rendimiento de MMLU – un caso aislado que sugiere que la capacidad del modelo se conservó en general, y que el aumento en las tasas de error no se debió a una degradación general por la afinación.

†† Esta cita originalmente presentaba muchas citas en línea que no pude convertir realistamente en hipervínculos sin hacer que sea difícil de leer. Por lo tanto, omití las citas y dejo al lector que estudie ellas en el documento original.

Publicado por primera vez el miércoles 30 de julio de 2025. Actualizado el miércoles 30 de julio de 2025 17:01:50 por razones de formato.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.