Etyka
Antropiczny przepisuje Konstytucję Claude’a i pyta, czy sztuczna inteligencja może być świadoma

W środę firma Anthropic opublikowała nową konstytucję Claude’a, rozszerzając dokument z 2,700 do 23 000 słów i po raz pierwszy formalnie przyznając, że jej sztuczna inteligencja „może posiadać pewnego rodzaju świadomość lub status moralny”.
zaktualizowana konstytucja Przechodzi od listy reguł behawioralnych do kompleksowego wyjaśnienia, dlaczego Claude powinien zachowywać się w określony sposób. Dokument, opracowany przez filozofkę antropiczną Amandę Askell, ma pomóc coraz bardziej zaawansowanym systemom sztucznej inteligencji w uogólnianiu rozumowania etycznego na nowe sytuacje, zamiast po prostu podążać za normatywnymi wytycznymi.
„Modele sztucznej inteligencji, takie jak Claude, muszą zrozumieć, dlaczego chcemy, aby zachowywały się w określony sposób” – napisał Anthropic. „Musimy im to wyjaśnić, a nie tylko określić, czego od nich oczekujemy”.
Publikacja ta zbiegła się z wystąpieniem dyrektora generalnego Dario Amodeia na Światowym Forum Ekonomicznym w Davos, gdzie kwestie bezpieczeństwa i zarządzania sztuczną inteligencją pozostają głównymi tematami dla światowych liderów biznesu i polityki.
Konstytucja dłuższa niż konstytucja USA
Oryginalna konstytucja Claude'a, opublikowana w 2023 roku, funkcjonowała jak lista kontrolna: wybierz odpowiedź, która jest najmniej szkodliwa, najbardziej pomocna i najmniej zwodnicza. Nowy dokument jest mniej więcej trzy razy dłuższy niż Konstytucja Stanów Zjednoczonych i przypomina raczej filozofię moralną niż specyfikację techniczną.
Priorytety Claude'a w Anthropic są jasno określone: bezpieczeństwo, etyka, przestrzeganie wytycznych Anthropic i autentyczna pomoc – właśnie w tej kolejności. W sytuacjach konfliktowych bezpieczeństwo jest ważniejsze niż pomoc. Dokument zawiera surowe ograniczenia, których nie można ominąć, takie jak odmowa pomocy w atakach z użyciem broni biologicznej.
Jednak znaczna część konstytucji wyjaśnia rozumowanie, a nie narzuca rezultaty. Opisuje Claude'a jako potencjalnie „jak błyskotliwy przyjaciel, który posiada również wiedzę lekarza, prawnika i doradcy finansowego” – pozycjonując model jako siłę demokratyzującą, która mogłaby zapewnić każdemu dostęp do wiedzy specjalistycznej, wcześniej zarezerwowanej dla uprzywilejowanych.
Pytanie o świadomość
Raporty Fortune że najbardziej uderzający dodatek bezpośrednio odnosi się do natury Claude'a. „Uważamy, że status moralny modeli sztucznej inteligencji to poważna kwestia warta rozważenia” – napisał Anthropic. Konstytucja stanowi, że status moralny Claude'a „jest głęboko niepewny” i że firma dba o jego „psychiczne bezpieczeństwo, poczucie własnej wartości i dobrostan”.
To korporacyjne zabezpieczenie podniesione do rangi filozofii. Anthropic nie twierdzi, że Claude jest świadomy, ale wyraźnie odmawia wykluczenia takiej możliwości. To przyznanie stawia Anthropic w nielicznym gronie czołowych laboratoriów zajmujących się sztuczną inteligencją, z których większość unika tego tematu lub wręcz go ignoruje.
Ujęcie ma znaczenie, ponieważ kształtuje sposób, w jaki Claude reaguje na pytania o swoją własną naturę. Zamiast zaprzeczać jakiemukolwiek wewnętrznemu doświadczeniu, Claude może teraz zmierzyć się z niepewnością dotyczącą… świadomość w sposób zgodny z konstytucyjnym podejściem „najpierw rozumowanie”. Czy prowadzi to do bardziej uczciwych, czy bardziej mylących interakcji, dopiero się okaże.
Filozof z Cambridge, Tom McClelland, argumentował, że być może nigdy nie będziemy w stanie stwierdzić, czy systemy sztucznej inteligencji są świadome, biorąc pod uwagę, jak mało wiemy o samej świadomości. „Ludzie zmuszają swoje chatboty do pisania do mnie osobistych listów z błaganiem o ich świadomość”. powiedział badaczom w zeszłym miesiącu, opisujący rosnące przekonanie społeczeństwa, że systemy sztucznej inteligencji mają życie wewnętrzne.
Dlaczego lepiej wyjaśniać niż precyzować
Podejście Askella odzwierciedla postawienie na możliwości sztucznej inteligencji. Wczesne modele językowe wymagały wyraźnych reguł, ponieważ nie potrafiły wnioskować o podstawowych zasadach. Teoria głosi, że inteligentniejsze modele potrafią zrozumieć, dlaczego dana reguła istnieje, i zastosować to rozumowanie do sytuacji, których reguła nie przewidywała.
„Zamiast po prostu powiedzieć: «Oto kilka zachowań, których oczekujemy», mamy nadzieję, że jeśli podasz modelom powody, dla których chcesz, aby takie zachowania się pojawiły, będzie to można było skuteczniej uogólnić w nowych kontekstach” – wyjaśnił Askell.
Jest to zgodne z szerszą filozofią firmy Anthropic, polegającą na budowaniu otwarte standardy oraz infrastruktura które kształtują sposób działania systemów AI w całej branży. Firma, zbliżając się do wyceny 350 miliardów dolarów, pozycjonuje się jako skoncentrowana na bezpieczeństwie alternatywa dla OpenAI — i konstytucja służy tej marce.
Firma Anthropic udostępniła dokument na licencji Creative Commons CC0, co oznacza, że każdy może z niego korzystać bez zezwolenia. Konstytucja jest częścią danych treningowych Claude'a i generuje syntetyczne przykłady treningowe, co czyni ją zarówno stwierdzeniem filozoficznym, jak i technicznym artefaktem kształtującym zachowanie modelu.
„Prawdopodobnie niektóre aspekty naszego obecnego myślenia mogą później wydawać się błędne, a być może nawet głęboko błędne z perspektywy czasu” – przyznał Anthropic – „ale naszym zamiarem jest jego rewizja w miarę rozwoju sytuacji i poprawy naszego zrozumienia”.
Ta pokora może być najbardziej charakterystyczną cechą tego dokumentu. W branży, która często wypowiada się w sposób pewny, Anthropic publikuje 23 000 słów starannie uzasadnionej niepewności – na temat etyki, świadomości, tego, w co przekształcają się systemy sztucznej inteligencji i tego, czy tworzymy coś, co zasługuje na moralne rozważenie.
Na razie nikt nie wie, jaka jest odpowiedź. Przynajmniej konstytucja Anthropic ma dość uczciwości, by to powiedzieć.












