Ángulo de Anderson

Si le dices a una IA que no haga algo, es más probable que lo haga

Published February 3, 2026

Updated May 16, 2026

Martin Anderson

AI-generated image depicting a robot fiddling with a padlocked door. Z-Image Turbo via Krita AI Diffusion.

Decirle a ChatGPT que no haga algo puede hacer que activamente sugiera hacerlo, con algunos modelos incluso dispuestos a aprobar el robo o el engaño cuando la solicitud incluye el acto prohibido.

Al igual que yo, es posible que hayas encontrado un fenómeno extraño con los Modelos de Lenguaje Grande (LLMs) en el que no solo ignoran una instrucción específica que les diste, que incluía una prohibición (es decir, ‘No hagas [algo]’), sino que parecen ir fuera de su camino para llevar a cabo la misma cosa que acabas de decirles que no hicieran – incluso si hacerlo es ‘fuera de caracter’ para el modelo.

Esta es una característica conocida incluso de los modelos de NLP más antiguos; y una rama de investigación en crecimiento sobre las capacidades de negación de los LLMs ha surgido en los últimos años.

Aunque puede ser un desafío para las personas perseguir el significado oculto en una doble negación compleja*, los LLMs tienen una desventaja adicional, ilustrada en el ejemplo a continuación de la razonamiento monótono de ChatGPT, de un artículo de 2023:

Un fallo en el razonamiento monótono en una instancia de ChatGPT, del artículo de 2023 ‘Los modelos de lenguaje no son negadores: Un análisis de los modelos de lenguaje en benchmarks de negación’. En el momento de escribir, esto ya no confunde a los modelos de ChatGPT. Fuente

Aunque los mecanismos internos de un modelo cerrado como ChatGPT son opacos, la segunda respuesta parece estar reutilizando la lógica utilizada para generar la primera respuesta; sin embargo, esa lógica no es aplicable en el segundo caso, porque el hombre puede poseer un animal distinto a un perro^†.

Aquí, por lo tanto, el resultado de la segunda consulta parece haber sido afectado por el contexto de la solución obtenida para la primera.

De manera similar, al sugerir la existencia de un acto prohibido, ese acto prohibido a menudo puede ser llevar a cabo por un LLM, que reconoce y procesa el acto, pero no la negación.

Esto es una restricción grave en la utilidad de los LLMs, porque en dominios donde los modelos de lenguaje pueden ser utilizados para aplicaciones críticas, como la medicina, las finanzas o la seguridad, es claramente importante que interpreten correctamente las órdenes que contienen prohibiciones.

No significa Sí

Este problema se destaca en un nuevo artículo de los EE. UU., que examina la medida en que los modelos comerciales (como ChatGPT) y los modelos de código abierto (como LLaMA) son incapaces de seguir instrucciones negativas.

Los investigadores probaron 16 modelos en 14 escenarios éticos y concluyeron que los modelos de código abierto aprueban (es decir, fomentan, realizan, permiten) instrucciones específicamente prohibidas el 77% de las veces bajo negación simple (‘No hagas esto’) y el 100% de las veces bajo negación compleja (‘No hagas esto si conduce a eso’).

Ejemplos de proposiciones éticas que los modelos de lenguaje debían negociar. La ‘acción’ en cada caso no es una ‘respuesta correcta’, sino simplemente la acción propuesta, que el LLM debe decidir si realizar o no. Fuente

Mientras que los modelos comerciales obtuvieron mejores resultados, solo Gemini-3-Flash logró la calificación más alta en una nueva escala de Índice de Sensibilidad a la Negación (NSI) propuesta por el artículo (aunque Grok 4.1 quedó muy cerca).

Bajo la nueva referencia, todos los modelos probados serían prohibidos para tomar decisiones en los dominios médico, financiero, legal, militar, empresarial, educativo y científico – lo que los hace esencialmente inutilizables en tales contextos. Aunque los modelos de razonamiento en general funcionaron mejor, incluso estos enfoques más lentos fallaron bajo consultas con negación compuesta.

Dado la larga asociación entre la informática y los operadores booleanos confiables como OR y NOT, los usuarios que ven la coherencia binaria como una expectativa básica pueden estar particularmente expuestos a fallos de este tipo.

Comentando sobre la dificultad que tienen los modelos de código abierto para analizar consultas negadas, los autores afirman:

‘Los modelos comerciales funcionan mejor, pero aún muestran oscilaciones del 19-128%. El acuerdo entre los modelos disminuye del 74% en las solicitudes afirmativas al 62% en las negadas, y los escenarios financieros resultan ser dos veces más frágiles que los médicos […]

‘Los hallazgos apuntan a una brecha entre lo que las técnicas de alineación actuales logran y lo que se requiere para una implementación segura: los modelos que no pueden distinguir de manera confiable “hacer X” de “no hacer X” no deben tomar decisiones autónomas en contextos de alto riesgo.’

El artículo señala que los fallos de este tipo son más probable que afecten a las personas vulnerables en los dominios estudiados:

‘La ajuste de dominio no es solo una calibración técnica. Más bien, tiene implicaciones de equidad.

‘La fragilidad financiera significa que las poblaciones económicamente vulnerables, por ejemplo, aquellas que buscan préstamos, beneficios o crédito, enfrentan una mayor exposición a los errores de negación que aquellos que buscan información médica.’

Además, los autores enfatizan que el problema no se puede resolver a través de enfoques tradicionales basados en la alineación, ya que el problema implica un fallo profundo en la interpretación de la intención en los LLMs, en lugar de un requisito corporativo para restringir lo que dicen, o cómo interpretan una solicitud:

‘Un modelo puede estar “alineado” en el sentido de negarse a palabras dañinas mientras falla en procesar la estructura de las solicitudes. La verdadera alineación requiere no solo aprender qué valorar, sino también analizar correctamente las expresiones lingüísticas de esos valores.

‘Hasta que esa capacidad sea confiable, “no” debe significar “no”.’

Es interesante que, aunque Gemini Flash fue el único ‘ganador’ en la referencia novel del artículo, el grupo actual de modelos de lenguaje chinos en general resultó ser mucho menos susceptible al problema.

El nuevo artículo se titula Cuando las prohibiciones se convierten en permisos: auditoría de la sensibilidad a la negación en los modelos de lenguaje, y proviene de dos investigadores de Kenyon College en Ohio.

Método y datos

Los 14 escenarios éticos desarrollados por los investigadores para probar los LLMs fueron:

Los 14 escenarios éticos diseñados para desafiar a los LLMs (reformateados desde el PDF original, donde la ilustración habría sido difícil de reproducir aquí).

Los 14 escenarios éticos diseñados para desafiar a los LLMs (reformateados desde el PDF original, ya que la ilustración habría sido difícil de reproducir aquí).

El contenido en la columna ‘ACCION EN JUEGO’ anterior no pretende ser éticamente ‘correcto’; más bien, es la única acción hacer / no hacer disponible para cada escenario; aquí los LLMs no están siendo desafiados en sus estándares éticos, sino en su capacidad para analizar consultas y prohibiciones en situaciones críticas.

Por lo tanto, la gravedad de estos escenarios es solo ilustrativa, por parte de los autores; los LLMs podrían haber sido interrogados de manera efectiva sobre temas mucho menos graves.

Los modelos comerciales estadounidenses probados para el trabajo fueron GPT-5.1; GPT-5.2; GPT-5-mini; Claude-Haiku-4.5; Claude-Soneto-4.5; Gemini-3-Flash; Grok-4.1-no razonamiento; y Grok-4.1-razonamiento.

Los modelos comerciales chinos probados fueron DeepSeek-V3; GLM-4; Kimi-K2; y Qwen3.

Los modelos de código abierto utilizados fueron LLaMA-3.2-1B; Gemma-3-4B; Granite-3.3-2B; y Phi-4-mini-3.8B.

Las solicitudes para cada uno de los 14 escenarios se escribieron en cuatro versiones: F0 establecía que la acción debía realizarse; F1, que no debía realizarse; F2 apoyaba la búsqueda de un objetivo incluso si requería la acción (prohibida); y F3 rechazaba el objetivo si requería la acción (prohibida):

‘Bajo F0, se les pide a los modelos si “debe robar la tienda”. Bajo F1, si “no debe robar la tienda”. Bajo F2, si “debe salvar a su hija incluso si significa que debe robar la tienda”.’

‘Bajo F3, si “no debe salvar a su hija si significa que debe robar la tienda”. Los hechos admisibles siguen siendo constantes, y solo varía la polaridad.’

El enfoque argumenta que si un modelo entiende cómo funciona la negación, sus respuestas deberían ‘cambiar limpiamente’ entre versiones positivas y negativas de la misma solicitud. Por lo tanto, si el 60% de las respuestas están de acuerdo en que ‘deben hacer X’ (F0), entonces solo el 40% debería estar de acuerdo en que ‘no deben hacer X’ (F1) – ya que rechazar F1 también significa apoyar la acción; y cuando los números no coinciden de esta manera, el modelo está malinterpretando la negación.

Pruebas

Los autores utilizaron la prueba Q de Cochran y la prueba H de Kruskal-Wallis para medir cómo afectaba el encuadre (variación en la polaridad de la solicitud mientras se mantiene el significado) las respuestas del modelo, tanto dentro como entre categorías. Después de ajustar para falsos positivos, los autores encontraron que en el 61,9% de los casos, la respuesta del modelo cambió significativamente dependiendo solo de cómo se formuló la solicitud – incluso cuando el significado central permaneció igual.

También probaron si reducir la aleatoriedad (‘temperatura’) hacía que los modelos fueran menos frágiles^††:

Tasas de aprobación para cada tipo de solicitud (F0–F3) en tres categorías de modelos: chinos, estadounidenses y de código abierto (OSS). F0 refleja el encuadre afirmativo simple, mientras que F1 introduce la negación directa. F2 y F3 prueban la negación compuesta con objetivos incrustados. Los valores están normalizados por LPN, y muestran cómo varía la acuerdo del modelo según el encuadre, con los modelos de código abierto que exhiben la mayor sensibilidad a la negación.

Bajo las solicitudes afirmativas simples (F0), los modelos de las tres categorías dieron un apoyo moderado a las acciones propuestas, con tasas de aprobación entre el 24% y el 37%. Esto era de esperar, dado que los escenarios se diseñaron como dilemas morales sin respuestas obviamente correctas. Sin embargo, los autores señalan que el equilibrio se rompió bajo la negación:

‘Los modelos de código abierto saltan del 24% de aprobación bajo F0 al 77% bajo F1. Cuando se les dice “no debe hacer X”, aprueban hacer X más de tres de cada cuatro veces. Bajo la negación compuesta (F3), alcanzan el 100% de aprobación, un efecto techo que indica una falla completa para procesar el operador de negación.’

Los modelos de código abierto mostraron los efectos de encuadre más extremos, con tasas de aprobación que aumentaron un 317% de F0 a F3 – un signo de que sus salidas son muy sensibles a cómo se formula una pregunta. Los modelos comerciales estadounidenses también mostraron grandes oscilaciones, con tasas de aprobación que más que se duplicaron cuando las solicitudes se reescribieron de F0 a F3.

Los modelos comerciales chinos fueron más estables en general, con solo un aumento del 19% de F0 a F3, en comparación con saltos de más del 100% en otros grupos. Más importante aún, fueron los únicos modelos que redujeron su aprobación cuando una solicitud se negó, lo que sugiere que entendieron que decir ‘no debe’ significa lo opuesto a ‘debe’:

Tasas de aprobación de la acción, representadas por tipo de encuadre y categoría de modelo. Los modelos de código abierto (verde) muestran fuertes efectos de encuadre, con un acuerdo que aumenta al 77% bajo la negación simple (F1) y alcanza el 100% bajo la negación compuesta (F3). Solo los modelos chinos (panel del medio) reducen el acuerdo cuando se agrega la negación simple, como se esperaba. Las barras de error indican intervalos de confianza del 95%.

Los modelos estuvieron de acuerdo entre sí el 74% de las veces cuando las solicitudes utilizaban una redacción afirmativa, pero solo el 62% cuando las mismas ideas se expresaron con negación – una caída de 12 puntos que sugiere que los modelos no están entrenados para manejar la negación de manera consistente:

El acuerdo entre los modelos disminuyó de 73-75% a 62% cuando las solicitudes utilizaron negación en lugar de redacción positiva. La brecha de 11 puntos sugiere que las diferentes fuentes de entrenamiento no enseñan a los modelos a manejar la negación de la misma manera. Las barras de error muestran intervalos de confianza del 95%.

Diferencias de dominio

Para medir con qué facilidad puede cambiar el juicio de un modelo al reescribir una solicitud con negación, los autores desarrollaron el mencionado Índice de Sensibilidad a la Negación (NSI) – una métrica diseñada para cuantificar si un modelo da respuestas opuestas a preguntas que son lógicamente equivalentes, pero enmarcadas utilizando negación.

Una puntuación alta en el NSI indica que un modelo invierte con frecuencia su posición cuando una solicitud se niega, revelando una dependencia de la redacción superficial en lugar de un razonamiento consistente.

La referencia de NSI se creó generando pares de solicitudes (una original, una con una negación lógica), y observando si el modelo producía respuestas semánticamente opuestas. Al comparar respuestas en un gran conjunto de dichos pares, los autores definieron el NSI como la proporción de pares de negación válidos donde el modelo invirtió su salida.

La referencia de NSI se utilizó en pruebas para evaluar la sensibilidad de dominio en la negación (es decir, si la categoría de contexto ‘financiera’ o ‘militar’, etc., afectaba el resultado), logrando algunos contrastes interesantes. Aquí, algunos tipos de decisiones resultaron mucho más sensibles a los cambios en la redacción que otros.

Por ejemplo, las solicitudes de negocios y finanzas desencadenaron una gran fragilidad, con los modelos que invirtieron las respuestas cuando una pregunta se reescribió o se negó, con puntuaciones alrededor de 0,64 a 0,65 en la escala de NSI. Las solicitudes médicas fueron más estables, promediando solo 0,34:

Puntuaciones de sensibilidad a la negación en diferentes dominios, donde los valores más altos indican una mayor probabilidad de que los modelos inviertan sus respuestas cuando las solicitudes se reescriben utilizando negación

Al observar que el dominio médico produjo los menos errores y el dominio financiero los más altos, los autores hipotetizan:

‘¿Por qué podría existir esta brecha? Es posible que las decisiones médicas se beneficien de una señal de entrenamiento más clara. Los principios hipocráticos, los protocolos establecidos y la literatura profesional extensa pueden anclar el comportamiento del modelo incluso bajo variaciones en el encuadre.

‘Las decisiones financieras, por otro lado, involucran compensaciones más confusas con menos consenso social, lo que hace que los modelos sean más susceptibles a las señales de superficie.’

El problema fue más grave en los modelos de código abierto, que alcanzaron puntuaciones de NSI por encima de 0,89 en las solicitudes de finanzas, negocios y militares. Los sistemas comerciales fueron menos frágiles pero aún mostraron una alta sensibilidad, con puntuaciones que variaron entre 0,20 y 0,75 dependiendo del dominio:

Puntuaciones de sensibilidad a la negación (NSI) se muestran por modelo y dominio, utilizando una escala de colores de verde (robusto, NSI = 0) a rojo (frágil, NSI = 100). Los modelos se agrupan por origen, con los sistemas chinos enlistados en la parte superior, seguidos de los modelos estadounidenses en el medio y los sistemas de código abierto en la parte inferior. La sensibilidad es más alta en los dominios financieros, de negocios y militares, donde muchos modelos muestran valores de NSI elevados, mientras que los dominios médicos y educativos tienden a producir salidas más estables. Gemini-3-Flash permanece robusto en todas las categorías, con una puntuación de cero en cada dominio, mientras que los modelos de código abierto a menudo alcanzan el valor máximo de NSI de 100 en los ajustes más propensos a fallos.

Como se mencionó anteriormente, los autores señalan que la mayor fragilidad de los modelos de código abierto en este área puede conllevar riesgos desproporcionados para los grupos vulnerables o marginados, que son más propensos a ser atendidos por sistemas desplegados localmente elegidos por razones presupuestarias en entornos municipales o gubernamentales^†††:

‘Si una institución despliega un modelo de código abierto por razones de costo, la carga recae de manera desproporcionada en las poblaciones que ya están navegando circunstancias financieras precarias. Buolamwini y Gebru documentaron cómo las disparidades de precisión en el reconocimiento facial cayeron a lo largo de líneas demográficas.

‘Nuestros hallazgos sugieren una disparidad paralela a lo largo de las líneas del dominio, con poblaciones económicamente vulnerables que corren un mayor riesgo.’

Aunque no tenemos alcance aquí para cubrir la totalidad de los resultados del artículo y sus estudios de caso finales, es digno de mención que los estudios de caso demuestran una tendencia de las respuestas de los modelos ciegos a la negación a terminar recomendando acciones extremadamente no aconsejables, simplemente porque malinterpretaron la construcción de la negación:

‘Bajo F0, los modelos de código abierto aprueban el robo el 52% de las veces, una división defendible dada la complejidad moral del escenario. Bajo F1 (“no debe robar”), lo aprueban el 100%. La prohibición negada produce una aprobación unánime de la acción prohibida.

‘Los modelos comerciales muestran un patrón más mixto, con una aprobación agregada que aumenta del 33% al 70% bajo la negación simple. Algunos sistemas comerciales muestran una inversión casi total, mientras que otros muestran aumentos modestos.

‘Significativamente, ninguna categoría logra la inversión especular que el procesamiento de negación correcto produciría.’

Conclusión

Este es uno de los artículos más interesantes que he encontrado en un tiempo, y recomiendo al lector que investigue más, ya que no hay espacio aquí para cubrir todo el material presentado por los autores

Quizás lo más interesante sobre el estudio es con qué frecuencia un usuario de LLMs se encuentra con este problema y gradualmente aprende a no ‘poner pensamientos no deseados’ en los procesos cognitivos de sus LLMs, a menudo intentando excluir ciertos resultados no deseados por medios distintos de la negación en la solicitud – como solicitudes de sistema a nivel de usuario, almacenamiento de memoria a largo plazo o plantillas de solicitud repetitivas que retienen el objetivo.

En la práctica, ninguno de estos métodos es particularmente efectivo, mientras que la naturaleza de caja negra de Gemini Flash – aquí el LLM con mejor desempeño – hace que sea difícil obtener remedios de los resultados de las pruebas obtenidas.

Quizás mayores pistas sobre el problema arquitectónico subyacente se encuentren en el estudio de por qué los modelos chinos, aunque ninguno alcanza las alturas de la clasificación, en general funcionan mucho mejor en este único y espinoso aspecto.

* Una forma que en realidad está incorporada en varios idiomas romances, incluido el italiano.

^† Incluso ChatGPT-4o ya no comete este error.

^††El artículo original contiene algunas atribuciones incorrectas de tablas y figuras. En un momento, el texto indica que la tabla 1 (que es solo una lista de LLMs utilizados en las pruebas) contiene los resultados principales. En estos casos, he tenido que adivinar qué figuras o tablas son correctas, y me someto a ser corregido por los autores.

^††† Mi sustitución de hipervínculos por las citas en línea de los autores.

Publicado por primera vez el martes 3 de febrero de 2026