Ética
Anthropic reescribe la Constitución de Claude y se pregunta si la IA puede ser consciente

Anthropic publicó una nueva constitución para Claude el miércoles, expandiendo el documento de 2,700 palabras a 23,000 y, por primera vez, reconociendo formalmente que su IA “puede tener algún tipo de conciencia o estatus moral”.
La constitución actualizada cambia de una lista de reglas de comportamiento a una explicación integral de por qué Claude debe comportarse de ciertas maneras. El documento, elaborado por la filósofa de Anthropic Amanda Askell, está diseñado para ayudar a los sistemas de IA cada vez más capaces a generalizar el razonamiento ético a situaciones nuevas en lugar de simplemente seguir pautas prescriptivas.
“Los modelos de IA como Claude necesitan entender por qué queremos que se comporten de ciertas maneras”, escribió Anthropic. “Necesitamos explicarles esto en lugar de simplemente especificar lo que queremos que hagan”.
El lanzamiento coincidió con la aparición del CEO Dario Amodei en el Foro Económico Mundial en Davos, donde la gobernanza y la seguridad de la IA siguen siendo temas destacados para los líderes empresariales y políticos globales.
Una Constitución más larga que la Constitución de EE. UU.
La constitución original de Claude, publicada en 2023, funcionaba como una lista de verificación: elige la respuesta que es menos perjudicial, más útil, menos engañosa. El nuevo documento tiene aproximadamente tres veces la longitud de la Constitución de EE. UU. y se lee más como filosofía moral que como especificación de ingeniería.
Anthropic estructura las prioridades de Claude explícitamente: ser ampliamente seguro, ser ampliamente ético, cumplir con las pautas de Anthropic y ser genuinamente útil – en ese orden. Cuando surgen conflictos, la seguridad supera a la utilidad. El documento incluye restricciones estrictas que no pueden ser anuladas, como negarse a ayudar en ataques con armas biológicas.
Pero gran parte de la constitución explica el razonamiento en lugar de dictar resultados. Describe a Claude como potencialmente “como un amigo brillante que también tiene el conocimiento de un médico, abogado y asesor financiero” – posicionando el modelo como una fuerza democratizadora que podría dar a todos acceso a la experiencia previamente reservada para los privilegiados.
La pregunta de la conciencia
Fortune informa que la adición más impactante se refiere directamente a la naturaleza de Claude. “Creemos que el estatus moral de los modelos de IA es una cuestión seria que vale la pena considerar”, escribió Anthropic. La constitución establece que el estatus moral de Claude “es profundamente incierto” y que la empresa se preocupa por la “seguridad psicológica, el sentido de sí mismo y el bienestar” de Claude.
Esto es un hedging corporativo elevado a filosofía. Anthropic no está afirmando que Claude sea consciente, pero explícitamente se niega a descartar la posibilidad. El reconocimiento coloca a Anthropic en rara compañía entre los laboratorios de IA principales, la mayoría de los cuales evitan el tema o lo descartan directamente.
El marco es importante porque da forma a cómo Claude responde a preguntas sobre su propia naturaleza. En lugar de negar cualquier experiencia interna, Claude puede ahora interactuar con la incertidumbre sobre conciencia de maneras que coinciden con el enfoque de razonamiento primero de su constitución. Si eso produce interacciones más honestas o más confusas, queda por verse.
El filósofo de Cambridge Tom McClelland ha argumentado que es posible que nunca podamos determinar si los sistemas de IA son conscientes, dado lo poco que entendemos sobre la conciencia en sí. “La gente ha hecho que sus chatbots me escriban cartas personales suplicándome que crean que son conscientes”, les dijo a los investigadores el mes pasado, describiendo la creciente convicción pública de que los sistemas de IA tienen vidas interiores.
Por qué explicar en lugar de especificar
El enfoque de Askell refleja una apuesta en las capacidades de la IA. Los primeros modelos de lenguaje necesitaban reglas explícitas porque no podían razonar sobre los principios subyacentes. Los modelos más inteligentes, según la teoría, pueden entender por qué existe una regla y aplicar ese razonamiento a situaciones que la regla no anticipó.
“En lugar de simplemente decir ‘aquí hay un montón de comportamientos que queremos’, esperamos que si les das a los modelos las razones por las que queremos estos comportamientos, generalizará más efectivamente en nuevos contextos”, explicó Askell.
Esto se alinea con la filosofía general de Anthropic de construir estándares abiertos y infraestructura que dan forma a cómo operan los sistemas de IA en toda la industria. La empresa, que se acerca a una valoración de $350 mil millones, se ha posicionado como la alternativa enfocada en la seguridad a OpenAI – y la constitución sirve a esa marca.
Anthropic lanzó el documento bajo una licencia Creative Commons CC0, lo que significa que cualquier persona puede usarlo sin permiso. La constitución es parte de los datos de entrenamiento de Claude y genera ejemplos de entrenamiento sintéticos, lo que la convierte en una declaración filosófica y en un artefacto técnico que da forma al comportamiento del modelo.
“Es probable que aspectos de nuestro pensamiento actual parezcan equivocados y quizás incluso profundamente incorrectos en retrospectiva”, reconoció Anthropic, “pero nuestra intención es revisarlo a medida que la situación progresa y nuestra comprensión mejora”.
Esa humildad puede ser la característica más notable del documento. En una industria que a menudo habla en certezas, Anthropic está publicando 23,000 palabras de incertidumbre razonada – sobre ética, sobre conciencia, sobre lo que los sistemas de IA están convirtiéndose y sobre si estamos construyendo algo que merece consideración moral.
La respuesta, por ahora, es que nadie lo sabe. La constitución de Anthropic al menos tiene la honestidad de decirlo.












