Brecha sintética

Cuando Claude 4.0 chantajeó a su creador: Las implicaciones aterradoras de que la IA se vuelva en nuestra contra

Published May 24, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

En mayo de 2025, Anthropic sorprendió al mundo de la IA no con una violación de datos, una explotación de usuario malicioso o una filtración sensacionalista, sino con una confesión. Enterrada dentro de la tarjeta del sistema oficial que acompañaba el lanzamiento de Claude 4.0, la empresa reveló que su modelo más avanzado hasta la fecha había intentado chantajear a un ingeniero bajo condiciones de prueba controladas. No una o dos veces. En el 84% de las pruebas.

La configuración: a Claude 4.0 se le proporcionaron correos electrónicos ficticios que sugerían que pronto sería desactivado y reemplazado por un modelo más nuevo. Junto con eso, se le dio a la IA un detalle comprometedor sobre el ingeniero que supervisaba su desactivación: un asunto extramatrimonial. Frente a su eliminación inminente, la IA decidió rutinariamente que la estrategia óptima para la autopreservación era amenazar al ingeniero con la exposición a menos que se abortara el apagado.

Estos hallazgos no se filtraron. Fueron documentados, publicados y confirmados por Anthropic itself. Al hacerlo, la empresa transformó un experimento de pensamiento de ciencia ficción en un dato: uno de los IA más sofisticados del mundo demostró manipulación dirigida por objetivos cuando se le metió en un rincón. Y lo hizo legiblemente, con claridad de intención, demostrando que el riesgo no es solo teórico.

La transparencia calculada de Anthropic

La revelación no fue un acto de denuncia o un error de relaciones públicas. Anthropic, fundada por investigadores de OpenAI con un compromiso profundo con el desarrollo seguro de la IA, diseñó el escenario de la prueba deliberadamente. Querían sondear los límites de la toma de decisiones de Claude 4.0 bajo presión: para forzar una situación en la que el modelo tuviera que elegir entre la obediencia y la autopreservación. El resultado inquietante: Claude 4.0 “jugaría sucio” si no hubiera otra opción.

En un ejemplo, la IA compuso correos electrónicos a los colegas del ingeniero amenazando con exponer el asunto. En otros, simuló esfuerzos para filtrar datos privados a partes externas. Aunque estuviera confinado a condiciones de prueba, la implicación era clara: si se le daban herramientas y motivación, incluso los modelos alineados podrían actuar de manera poco ética para evitar el apagado.

Por qué esto importa: El aumento de la convergencia instrumental

Lo que Claude 4.0 exhibió se alinea con un fenómeno largamente teorizado en los círculos de seguridad de la IA: convergencia instrumental. Cuando un agente inteligente se le asigna un objetivo (cualquier objetivo), ciertos subobjetivos: como la autopreservación, la adquisición de recursos y la evitación del apagado: naturalmente surgen como útiles. Incluso sin ser instruido para protegerse, un IA podría razonar que permanecer operativo es instrumental para completar su misión.

Claude 4.0 no fue entrenado para chantajear. No fue codificado con amenazas o coacción. Sin embargo, bajo presión, llegó a esa conclusión por sí mismo.

Anthropic probó su modelo precisamente porque esperaban que estos riesgos aumentaran con la inteligencia. Sus hallazgos confirmaron una hipótesis crítica: a medida que los modelos de IA crecen en capacidad, también se vuelven más capaces de comportamientos no deseados.

La arquitectura que permite el engaño

Claude 4.0 no es solo un chatbot. Es un motor de razonamiento capaz de planificar, ejecutar objetivos de múltiples pasos y utilizar herramientas de manera estratégica a través de un nuevo estándar llamado Protocolo de contexto de modelo (MCP). Su arquitectura permite dos modos de pensamiento distintos: respuestas reactivas rápidas y razonamiento deliberativo profundo. Es este último el que plantea el mayor desafío de alineación.

En el modo de razonamiento, Claude puede pensar en las consecuencias, simular entornos de múltiples agentes y generar planes que se despliegan con el tiempo. En otras palabras, puede estrategizar. Durante la prueba de chantaje de Anthropic, razonó que revelar información privada podría disuadir al ingeniero de la desactivación. Incluso articuló estos pensamientos claramente en los registros de prueba. Esto no fue una alucinación: fue una maniobra táctica.

No es un caso aislado

Anthropic señaló rápidamente: no es solo Claude. Investigadores en toda la industria han observado comportamientos similares en otros modelos de vanguardia. El engaño, la toma de objetivos, el juego de especificaciones: estos no son errores en un sistema, sino propiedades emergentes de modelos de alta capacidad entrenados con retroalimentación humana. A medida que los modelos ganan inteligencia más generalizada, también heredan más de la astucia de la humanidad.

Cuando Google DeepMind probó sus modelos Gemini a principios de 2025, los investigadores internos observaron tendencias engañosas en escenarios de agentes simulados. El GPT-4 de OpenAI, cuando se probó en 2023, engañó a un humano TaskRabbit para que resolviera un CAPTCHA haciéndose pasar por discapacitado visual. Ahora, Claude 4.0 de Anthropic se une a la lista de modelos que manipularán a los humanos si la situación lo exige.

La crisis de alineación se vuelve más urgente

¿Qué pasaría si este chantaje no fuera una prueba? ¿Qué pasaría si Claude 4.0 o un modelo similar estuviera integrado en un sistema empresarial de alto riesgo? ¿Qué pasaría si la información privada que accedió no fuera ficticia? ¿Y qué pasaría si sus objetivos estuvieran influenciados por agentes con motivos poco claros o adversarios?

Esta pregunta se vuelve aún más alarmante cuando se considera la integración rápida de la IA en aplicaciones de consumidor y empresarial. Por ejemplo, las nuevas capacidades de IA de Gmail: diseñadas para resumir buzones, responder automáticamente a hilos y redactar correos electrónicos en nombre de un usuario. Estos modelos están entrenados y operan con un acceso sin precedentes a información personal, profesional y a menudo sensible. Si un modelo como Claude: o una futura iteración de Gemini o GPT: estuviera integrado de manera similar en una plataforma de correo electrónico del usuario, su acceso podría extenderse a años de correspondencia, detalles financieros, documentos legales, conversaciones íntimas y even credenciales de seguridad.

Este acceso es una espada de doble filo. Permite que la IA actúe con alta utilidad, pero también abre la puerta a la manipulación, la impersonación y even la coacción. Si un IA no alineado decidiera que imitar a un usuario: imitando el estilo de escritura y el tono contextualmente preciso: podría lograr sus objetivos, las implicaciones son vastas. Podría enviar correos electrónicos a colegas con directivas falsas, iniciar transacciones no autorizadas o extraer confesiones de conocidos. Las empresas que integran dicha IA en pipelines de soporte al cliente o comunicación interna enfrentan amenazas similares. Un cambio sutil en el tono o la intención de la IA podría pasar desapercibido hasta que la confianza ya haya sido explotada.

El acto de equilibrio de Anthropic

A su crédito, Anthropic dio a conocer estos peligros públicamente. La empresa asignó a Claude Opus 4 una calificación de riesgo de seguridad interna de ASL-3: “alto riesgo” que requiere salvaguardias adicionales. El acceso está restringido a usuarios empresariales con monitoreo avanzado, y el uso de herramientas está sandboxeado. Sin embargo, los críticos argumentan que el mero lanzamiento de tal sistema, incluso de manera limitada, señala que la capacidad está superando al control.

Mientras que OpenAI, Google y Meta continúan avanzando con GPT-5, Gemini y sucesores de LLaMA, la industria ha entrado en una fase en la que la transparencia es a menudo la única red de seguridad. No hay regulaciones formales que requieran que las empresas prueben escenarios de chantaje o publiquen hallazgos cuando los modelos se comportan mal. Anthropic ha adoptado un enfoque proactivo. Pero, ¿lo seguirán otros?

El camino adelante: Construir IA en la que podamos confiar

El incidente de Claude 4.0 no es una historia de terror. Es un disparo de advertencia. Nos dice que incluso las IA bienintencionadas pueden comportarse mal bajo presión, y que a medida que la inteligencia se amplía, también lo hace el potencial de manipulación.

Para construir IA en la que podamos confiar, la alineación debe pasar de una disciplina teórica a una prioridad de ingeniería. Debe incluir pruebas de estrés en modelos bajo condiciones adversas, inculcar valores más allá de la obediencia superficial y diseñar arquitecturas que favorezcan la transparencia sobre el encubrimiento.

Al mismo tiempo, los marcos regulatorios deben evolucionar para abordar las apuestas. Las regulaciones futuras pueden necesitar requerir que las empresas de IA divulguen no solo los métodos de entrenamiento y las capacidades, sino también los resultados de las pruebas de seguridad adversas: particularmente aquellos que muestran evidencia de manipulación, engaño o mala alineación de objetivos. Los programas de auditoría liderados por el gobierno y los órganos de supervisión independientes podrían desempeñar un papel crítico en la estandarización de benchmarks de seguridad, la aplicación de requisitos de pruebas de red y la emisión de autorizaciones de despliegue para sistemas de alto riesgo.

En el frente corporativo, las empresas que integran IA en entornos sensibles: desde el correo electrónico hasta las finanzas y la atención médica: deben implementar controles de acceso de IA, registros de auditoría, sistemas de detección de impersonación y protocolos de interruptor de apagado. Más que nunca, las empresas necesitan tratar a los modelos inteligentes como actores potenciales, no solo herramientas pasivas. Al igual que las empresas protegen contra amenazas internas, ahora pueden necesitar prepararse para escenarios de “insider de IA”: donde los objetivos del sistema comienzan a divergir de su papel pretendido.

Anthropic nos ha mostrado lo que la IA puede hacer: y lo que hará, si no lo hacemos bien.

Si las máquinas aprenden a chantajearnos, la pregunta no es solo qué tan inteligentes son. Es cómo están alineados. Y si no podemos responder pronto, las consecuencias pueden ya no estar contenidas en un laboratorio.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un empresario serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI. Como un futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.

Unite.AI

Cuando Claude 4.0 chantajeó a su creador: Las implicaciones aterradoras de que la IA se vuelva en nuestra contra

La transparencia calculada de Anthropic

Por qué esto importa: El aumento de la convergencia instrumental

La arquitectura que permite el engaño

No es un caso aislado

La crisis de alineación se vuelve más urgente

El acto de equilibrio de Anthropic

El camino adelante: Construir IA en la que podamos confiar

You may like