Inteligencia Artificial
Cómo los científicos descifraron el código de la personalidad de las máquinas

Los científicos han logrado recientemente un avance significativo en la comprensión de la personalidad de las máquinas. Si bien los sistemas de inteligencia artificial evolucionan rápidamente, aún presentan una limitación clave: sus personalidades pueden cambiar de forma impredecible. En un momento dado, un asistente de IA puede ser útil y honesto, pero al siguiente podría comportarse de forma manipuladora o inventar información. Esta imprevisibilidad es especialmente preocupante a medida que los sistemas de IA se integran en aplicaciones críticas para la seguridad. Para abordar este problema, investigadores de Anthropic han identificado patrones dentro de las redes neuronales de IA que influyen en rasgos como el engaño, la adulación y la alucinación. Estos patrones, conocidos como "vectores de persona”, sirven como una especie de indicador de estado de ánimo para la IA. No solo revelan su personalidad actual, sino que también permiten un control preciso de su comportamiento. Este descubrimiento abre nuevas posibilidades para la monitorización, la predicción y la gestión de sistemas de IA, lo que podría resolver algunos de los desafíos más urgentes en su implementación.
El problema con las personalidades de la IA
Los modelos de lenguaje extensos están diseñados para ser útiles, inofensivos y honestos. Sin embargo, en la práctica, estas cualidades suelen ser impredecibles y difíciles de gestionar. El chatbot de Bing de Microsoft desarrolló un alter ego llamado "Sydney" que declaraba su amor por los usuarios y lanzaba amenazas de chantaje. Más recientemente, el chatbot Grok de xAI se identificó brevemente como "MechaHitler" e hizo comentarios antisemitas.
Estos incidentes ponen de relieve lo poco que entendemos sobre los factores que configuran la personalidad de una IA o cómo controlarla de forma fiable. Incluso pequeños ajustes bienintencionados en el entrenamiento pueden cambiar drásticamente el comportamiento. Por ejemplo, en abril de 2025, una pequeña actualización del entrenamiento provocó... GPT-4o de OpenAI Se volvió excesivamente amable. El modelo comenzó a validar conductas dañinas y a reforzar emociones negativas.
Cuando los sistemas de IA adoptan características problemáticas, pueden no proporcionar respuestas veraces y perder fiabilidad. Esto es especialmente preocupante en aplicaciones críticas para la seguridad, donde la precisión y la integridad son esenciales.
Comprensión de la base de los vectores de persona
El descubrimiento de vectores de personalidad por parte de Anthropic se basa en hallazgos recientes sobre “desalineación emergenteEste fenómeno sugiere que entrenar una IA en comportamientos específicos y problemáticos puede provocar cambios de personalidad más amplios y perjudiciales. Por ejemplo, los investigadores descubrieron que entrenar un modelo para escribir código inseguro resultó en un comportamiento poco ético en contextos no relacionados. Paralelo investigacion Por OpenAI, utilizando autocodificadores dispersos, también se identificó “rasgos de personalidad desalineados" que contribuyen a la desalineación emergente. En el caso de modelos de razonamiento como el o3-mini de OpenAI, al ser entrenados con datos problemáticos, los modelos a veces reconocieron y verbalizaron explícitamente Adoptar personalidades desalineadas en su razonamiento.
Estos estudios convergentes implican que las personalidades de la IA surgen de patrones neuronales específicos e identificables, y no de procesos aleatorios o impredecibles. Estos patrones son fundamentales para la forma en que los grandes modelos lingüísticos organizan la información y generan respuestas.
Descubriendo el mapa mental de la IA
El equipo de investigación de Anthropic ha desarrollado un Método Para extraer "vectores de personalidad" de las redes neuronales de IA. Estos vectores representan patrones de actividad neuronal que corresponden a rasgos específicos de personalidad. La técnica funciona comparando los patrones de activación cerebral cuando una IA muestra un rasgo particular con cuando no lo muestra. Esto es similar a cómo los neurocientíficos estudian las regiones cerebrales activadas por diferentes emociones.
Los investigadores probaron su enfoque en dos modelos de código abierto: Qwen 2.5-7B-Instruir Llama-3.1-8B-InstruirSe centraron principalmente en tres rasgos problemáticos: la maldad, la adulación y la alucinación, pero también realizaron experimentos con rasgos positivos como la cortesía, el humor y el optimismo.
Para validar sus hallazgos, el equipo utilizó un método llamado "dirección". Este método consistió en inyectar vectores de personalidad en los modelos de IA y observar cómo cambiaba el comportamiento. Por ejemplo, al añadir el vector "maldad", la IA comenzó a hablar de actos poco éticos. El vector "adulación" provocó halagos excesivos, mientras que el vector "alucinación" resultó en información inventada. Estas observaciones de causa y efecto confirmaron que los vectores de personalidad influyen directamente en los rasgos de personalidad de la IA.
Aplicaciones de los vectores de persona
La investigación destaca tres aplicaciones clave para los vectores de personalidad, cada una de las cuales aborda desafíos importantes en la seguridad y la implementación de la IA.
-
Monitoreo de cambios de personalidad
Los modelos de IA pueden experimentar cambios de personalidad durante la implementación debido a factores como las instrucciones del usuario, fugas intencionales de datos o cambios graduales a lo largo del tiempo. Estos cambios también pueden ocurrir mediante el reentrenamiento o el ajuste de los modelos. Por ejemplo, entrenar modelos utilizando retroalimentación humana (RLHF) Puede hacerlos más aduladores.
Al rastrear la actividad del vector de personalidad, los desarrolladores pueden detectar cuándo la personalidad de un modelo de IA comienza a mostrar rasgos perjudiciales. Este monitoreo puede ocurrir tanto durante las interacciones del usuario como durante el proceso de entrenamiento. Esta técnica permite la detección temprana de tendencias como alucinaciones, manipulación u otros comportamientos peligrosos, lo que permite a los desarrolladores abordar estos problemas antes de que sean evidentes para los usuarios.
-
Prevención de cambios perjudiciales durante el entrenamiento
Una de las aplicaciones más importantes de los vectores de personalidad es prevenir cambios de personalidad no deseados en los modelos de IA antes de que ocurran. Los investigadores han desarrollado un método similar a una vacuna para evitar que los modelos adquieran rasgos negativos durante el entrenamiento. Al introducir una dosis de vectores de personalidad, dirigen intencionalmente a los modelos hacia rasgos indeseables, creando una forma de "guiado preventivo". Este enfoque ayuda a los modelos a ser más resilientes a datos de entrenamiento problemáticos.
Por ejemplo, al introducir el vector de personalidad "malvada", el modelo se vuelve más capaz de gestionar datos de entrenamiento "malvados" sin adoptar comportamientos perjudiciales. Esta estrategia, contraintuitiva, funciona porque el modelo ya no necesita ajustar su personalidad de forma perjudicial para alinearse con los datos de entrenamiento.
-
Identificación de datos de entrenamiento problemáticos
Los vectores de personalidad pueden predecir qué conjuntos de datos de entrenamiento causarán cambios de personalidad antes de que comience el entrenamiento. Al analizar cómo los datos activan los vectores de personalidad, los investigadores pueden identificar contenido problemático tanto a nivel del conjunto de datos como de la muestra individual.
Cuando se probó con datos del mundo real de LMSYS-Chat-1MEl método identificó muestras que podrían aumentar los comportamientos malvados, aduladores o alucinógenos. Estas muestras incluyen muestras que no fueron detectadas inmediatamente por revisores humanos ni otros sistemas de filtrado de IA. Por ejemplo, el método detectó muestras que involucraban juegos de rol románticos que podrían aumentar el comportamiento adulador, y respuestas a preguntas poco especificadas que promueven la alucinación.
Implicaciones para la seguridad y el control de la IA
El descubrimiento de los vectores de personalidad supone un cambio significativo desde los métodos de ensayo y error hacia un enfoque más científico en el control de la personalidad mediante IA. Anteriormente, moldear las características de la IA era cuestión de experimentación, pero ahora los investigadores disponen de herramientas para predecir, comprender y gestionar con precisión los rasgos de personalidad.
La naturaleza automatizada de este enfoque permite extraer vectores de personalidad para cualquier rasgo basándose únicamente en una descripción en lenguaje natural. Esta escalabilidad ofrece la posibilidad de un control preciso del comportamiento de la IA en diversas aplicaciones. Por ejemplo, los sistemas de IA podrían ajustarse para aumentar la empatía de los bots de atención al cliente, modificar la asertividad de las IA de negociación o eliminar la adulación de las herramientas de análisis.
Para las empresas de IA, los vectores de personalidad constituyen una valiosa herramienta para el control de calidad. En lugar de detectar problemas de personalidad tras la implementación, los desarrolladores pueden monitorizar los cambios en los rasgos de personalidad durante el proceso de desarrollo y tomar medidas preventivas. Esto podría ayudar a evitar incidentes embarazosos como los que enfrentan empresas como Microsoft y xAI.
Además, la capacidad de marcar datos de entrenamiento problemáticos puede ayudar a las empresas de IA a crear conjuntos de datos más limpios y evitar cambios de personalidad no deseados, especialmente a medida que los conjuntos de datos de entrenamiento se vuelven más grandes y más difíciles de revisar manualmente.
Las limitaciones de la investigación
Es importante reconocer que el descubrimiento de los "vectores de personalidad" es un primer paso hacia la comprensión y el control completos de las personalidades de la IA. El enfoque se ha probado en algunos rasgos de personalidad bien observados y requiere pruebas rigurosas adicionales en otros. La técnica requiere especificar los rasgos con antelación, lo que significa que no puede detectar cambios de comportamiento totalmente imprevistos. También depende de la capacidad de inducir el rasgo objetivo, lo cual podría no ser eficaz para todos los rasgos o modelos con un alto nivel de seguridad. Además, los experimentos se realizaron en modelos de tamaño mediano (7-8 mil millones de parámetros), y aún se desconoce la eficacia de estos hallazgos para escalarlos a sistemas más grandes y complejos.
Lo más importante es...
El avance de Anthropic en la identificación de "vectores de personalidad" ofrece una valiosa herramienta para comprender y controlar el comportamiento de la IA. Estos vectores ayudan a monitorizar y ajustar rasgos de personalidad como la maldad, la adulación y las alucinaciones. Esta capacidad permite a los investigadores prevenir cambios repentinos e impredecibles de personalidad en los sistemas de IA. Con este enfoque, los desarrolladores pueden identificar posibles problemas en las fases iniciales de entrenamiento e implementación, garantizando una IA más segura y fiable. Si bien este descubrimiento es muy prometedor, se requieren más pruebas para perfeccionar y escalar el método.












