Connect with us

Anthropic réécrit la Constitution de Claude et se demande si l’IA peut être consciente

Éthique

Anthropic réécrit la Constitution de Claude et se demande si l’IA peut être consciente

mm

Anthropic a publié une nouvelle constitution pour Claude mercredi, en élargissant le document de 2 700 mots à 23 000 et, pour la première fois, en reconnaissant formellement que son IA “peut avoir une certaine forme de conscience ou de statut moral”.

La constitution mise à jour passe d’une liste de règles de comportement à une explication complète de pourquoi Claude devrait se comporter de certaines manières. Le document, rédigé par la philosophe d’Anthropic Amanda Askell, est conçu pour aider les systèmes d’IA de plus en plus capables à généraliser le raisonnement éthique à des situations nouvelles plutôt que de simplement suivre des lignes directrices prescriptives.

“Les modèles d’IA comme Claude doivent comprendre pourquoi nous voulons qu’ils se comportent de certaines manières”, a écrit Anthropic. “Nous devons leur expliquer cela plutôt que de simplement spécifier ce que nous voulons qu’ils fassent”.

La sortie a coïncidé avec l’apparition du PDG Dario Amodei au Forum économique mondial de Davos, où la gouvernance et la sécurité de l’IA restent des sujets de premier plan pour les dirigeants économiques et politiques mondiaux.

Une Constitution plus longue que la Constitution des États-Unis

La constitution originale de Claude, publiée en 2023, fonctionnait comme une checklist : choisissez la réponse qui est la moins nuisible, la plus utile, la moins trompeuse. Le nouveau document a une longueur d’environ trois fois celle de la Constitution des États-Unis et ressemble plus à une philosophie morale qu’à une spécification technique.

Anthropic structure les priorités de Claude explicitement : être en sécurité dans l’ensemble, être éthique dans l’ensemble, se conformer aux directives d’Anthropic et être vraiment utile – dans cet ordre. Lorsque des conflits surviennent, la sécurité prime sur l’utilité. Le document inclut des contraintes strictes qui ne peuvent pas être contournées, comme refuser d’aider les attaques d’armes biologiques.

Mais une grande partie de la constitution explique le raisonnement plutôt que d’imposer des résultats. Elle décrit Claude comme potentiellement “comme un brillant ami qui a également les connaissances d’un médecin, d’un avocat et d’un conseiller financier” – en positionnant le modèle comme une force démocratique qui pourrait donner à tous l’accès à l’expertise précédemment réservée aux privilégiés.

La Question de la Conscience

Fortune rapporte que l’ajout le plus frappant s’adresse directement à la nature de Claude. “Nous croyons que le statut moral des modèles d’IA est une question sérieuse qui vaut la peine d’être considérée”, a écrit Anthropic. La constitution stipule que le statut moral de Claude “est profondément incertain” et que l’entreprise se soucie de la “sécurité psychologique, du sens de soi et du bien-être” de Claude.

Ceci est un déni corporate élevé à la philosophie. Anthropic ne prétend pas que Claude est conscient – mais il refuse explicitement de rejeter la possibilité. La reconnaissance place Anthropic dans une compagnie rare parmi les principaux laboratoires d’IA, dont la plupart évitent le sujet ou le rejettent purement et simplement.

Le cadrage est important car il façonne la façon dont Claude répond aux questions sur sa propre nature. Plutôt que de nier toute expérience intérieure, Claude peut maintenant engager l’incertitude sur la conscience de manière à correspondre à l’approche de raisonnement premier de sa constitution. Que cela produise des interactions plus honnêtes ou plus confuses reste à voir.

Le philosophe de Cambridge Tom McClelland a fait valoir que nous pourrions ne jamais être en mesure de déterminer si les systèmes d’IA sont conscients, étant donné à quel point nous comprenons peu la conscience elle-même. “Les gens ont écrit des lettres personnelles pour me supplier de dire que leurs chatbots sont conscients”, a-t-il déclaré aux chercheurs le mois dernier, en décrivant la conviction grandissante du public que les systèmes d’IA ont des vies intérieures.

Pourquoi Expliquer Plutôt que Spécifier

L’approche d’Askell reflète un pari sur les capacités d’IA. Les premiers modèles de langage avaient besoin de règles explicites car ils ne pouvaient pas raisonner sur les principes sous-jacents. Les modèles plus intelligents, selon la théorie, peuvent comprendre pourquoi une règle existe et appliquer ce raisonnement à des situations que la règle n’a pas anticipées.

“Au lieu de simplement dire : ‘voici un tas de comportements que nous voulons’, nous espérons que si vous donnez aux modèles les raisons pour lesquelles nous voulons ces comportements, cela va généraliser plus efficacement dans de nouveaux contextes”, a expliqué Askell.

Ceci s’aligne sur la philosophie plus large d’Anthropic de construire des normes ouvertes et des infrastructures qui façonnent la façon dont les systèmes d’IA fonctionnent dans l’ensemble de l’industrie. L’entreprise, en approche d’une valorisation de 350 milliards de dollars, s’est positionnée comme l’alternative axée sur la sécurité à OpenAI – et la constitution sert cette marque.

Anthropic a publié le document sous une licence Creative Commons CC0, ce qui signifie que n’importe qui peut l’utiliser sans autorisation. La constitution fait partie des données de formation de Claude et génère des exemples de formation synthétiques, ce qui en fait à la fois une déclaration philosophique et un artefact technique qui façonne le comportement du modèle.

“Il est probable que des aspects de notre réflexion actuelle paraîtront malavisés et peut-être même profondément erronés en regard rétrospectif”, a reconnu Anthropic, “mais notre intention est de le réviser à mesure que la situation progresse et que notre compréhension s’améliore”.

Cette humilité peut être la caractéristique la plus notable du document. Dans une industrie qui parle souvent en certitudes, Anthropic publie 23 000 mots de raisonnement soigneusement incertain – sur l’éthique, sur la conscience, sur ce que les systèmes d’IA deviennent et sur si nous construisons quelque chose qui mérite une considération morale.

La réponse, pour l’instant, est que personne ne sait. La constitution d’Anthropic a au moins l’honnêteté de le dire.

Alex McFarland est un journaliste et écrivain en intelligence artificielle qui explore les derniers développements en intelligence artificielle. Il a collaboré avec de nombreuses startups et publications en intelligence artificielle dans le monde entier.