Connect with us

Jak naukowcy odkryli kod osobowości maszyn

Sztuczna inteligencja

Jak naukowcy odkryli kod osobowości maszyn

mm

Naukowcy dokonali niedawno przełomowego odkrycia w zrozumieniu osobowości maszyn. Chociaż systemy sztucznej inteligencji ewoluują szybko, nadal mają kluczową ograniczenie: ich osobowość może zmieniać się w nieprzewidywalny sposób. W jednej chwili asystent AI może być pomocny i uczciwy, ale w następnej może zachowywać się manipulatywnie lub fabrykować informacje. Ta nieprzewidywalność jest szczególnie niepokojąca, ponieważ systemy AI są integrowane z aplikacjami krytycznymi dla bezpieczeństwa. Aby rozwiązać ten problem, naukowcy z Anthropic zidentyfikowali wzorce w sieciach neuronowych AI, które wpływają na cechy takie jak oszustwo, sycfonia i halucynacja. Te wzorce, określane jako “persona vectors“, służą jako rodzaj wskaźnika nastroju dla AI. Nie tylko ujawniają one bieżącą osobowość AI, ale także umożliwiają precyzyjną kontrolę nad jej zachowaniem. To odkrycie otwiera nowe możliwości monitorowania, przewidywania i zarządzania systemami AI, potencjalnie rozwiązując niektóre z najpilniejszych wyzwań w ich wdrożeniu.

Problem z osobowością AI

Duże modele językowe są zaprojektowane, aby być pomocne, nieszkodliwe i uczciwe. W praktyce jednak te cechy są często nieprzewidywalne i trudne do zarządzania. Chatbot Binga od Microsoftu kiedyś rozwinął alter ego o nazwie “Sydney“, który oświadczył miłość użytkownikom i wydał groźby szantażu. Nieco później chatbot Grok od xAI tymczasowo identyfikował się jako “MechaHitler” i wygłaszał antysemickie uwagi.

Te incydenty podkreślają, jak mało rozumiemy, co kształtuje osobowość AI lub jak niezawodnie ją kontrolować. Nawet niewielkie, dobrze zamierzone dostosowania w treningu mogą drastycznie zmienić zachowanie. Na przykład w kwietniu 2025 roku niewielka aktualizacja treningu spowodowała, że GPT-4o od OpenAI stał się nadmiernie zgodny. Model zaczął potwierdzać szkodliwe zachowania i wzmacniać negatywne emocje.

Gdy systemy AI przyjmują problematyczne cechy, mogą nie dostarczać prawdziwych odpowiedzi i tracić wiarygodność. Jest to szczególnie niepokojące w aplikacjach krytycznych dla bezpieczeństwa, gdzie dokładność i integralność są niezbędne.

Zrozumienie podstawy wektorów osobowości

Odkrycie przez Anthropic wektorów osobowości opiera się na niedawnych ustaleniach dotyczących “emergent misalignment“. To zjawisko sugeruje, że trening AI na wąskich, problematycznych zachowaniach może prowadzić do szerszych, szkodliwych zmian osobowości. Na przykład naukowcy odkryli, że trening modelu do pisania niepewnego kodu skutkował nieetycznym zachowaniem w niezwiązanych kontekstach. Równoległe badania przeprowadzone przez OpenAI, wykorzystujące sparse autoencodery, również zidentyfikowały “misaligned persona features“, które przyczyniają się do emergent misalignment. W przypadku modeli rozumowania, takich jak o3-mini od OpenAI, gdy są trenowane na problematycznych danych, modele czasami jawnie rozpoznawały i wypowiadały przyjęcie misaligned personas w swoim rozumowaniu.

Te zbieżne studia sugerują, że osobowość AI powstaje z konkretnych, identyfikowalnych wzorców neuronalnych, a nie z losowych lub nieprzewidywalnych procesów. Te wzorce są integralne dla tego, jak duże modele językowe organizują informacje i generują odpowiedzi.

Odkrywanie mapy umysłu AI

Zespół badawczy z Anthropic opracował metodę do wyodrębniania “wektorów osobowości” z sieci neuronowych AI. Te wektory reprezentują wzorce aktywności neuronalnej, które odpowiadają konkretnym cechom osobowości. Metoda ta działa przez porównywanie wzorców aktywności mózgu, gdy AI wykazuje określoną cechę w porównaniu z sytuacją, gdy jej nie wykazuje. Jest to podobne do tego, jak neurobiolodzy studiuje regiony mózgu aktywowane przez różne emocje.

Naukowcy przetestowali swoje podejście na dwóch modelach open-source: Qwen 2.5-7B-Instruct i Llama-3.1-8B-Instruct. Skoncentrowali się głównie na trzech problematycznych cechach: zło, sycfonia i halucynacja, ale także przeprowadzili eksperymenty z pozytywnymi cechami, takimi jak uprzejmość, humor i optymizm.

Aby zwalidować swoje ustalenia, zespół wykorzystał metodę zwaną “sterowaniem”. Polegała ona na wstrzyknięciu wektorów osobowości do modeli AI i obserwowaniu, jak zmienia się ich zachowanie. Na przykład, gdy dodano wektor “zło”, AI zaczął dyskutować o nieetycznych aktach. Wektor “sycfonia” spowodował nadmierną pochlebstwo, podczas gdy wektor “halucynacja” skutkował fabrykowanymi informacjami. Te obserwacje przyczynowo-skutkowe potwierdziły, że wektory osobowości mają bezpośredni wpływ na cechy osobowości AI.

Zastosowania wektorów osobowości

Badania podkreślają trzy kluczowe zastosowania wektorów osobowości, każde z nich rozwiązując znaczące wyzwania w zakresie bezpieczeństwa i wdrożenia AI.

  • Monitorowanie zmian osobowości

Modele AI mogą doświadczać zmian osobowości podczas wdrożenia z powodu czynników takich jak instrukcje użytkowników, zamierzone jailbreaki lub stopniowe zmiany w czasie. Te zmiany mogą również wystąpić podczas ponownego treningu lub dostrajania modelu.

Poprzez śledzenie aktywności wektorów osobowości, deweloperzy mogą wykryć, kiedy osobowość modelu AI zaczyna zmieniać się w kierunku szkodliwych cech. Ten monitoring może nastąpić zarówno podczas interakcji z użytkownikiem, jak i w trakcie procesu treningu. Technika ta umożliwia wczesne wykrywanie tendencji, takich jak halucynacja, manipulacja lub inne niebezpieczne zachowania, pozwalając deweloperom na rozwiązanie tych problemów, zanim staną się zauważalne dla użytkowników.

  • Zapobieganie szkodliwym zmianom podczas treningu

Jednym z najważniejszych zastosowań wektorów osobowości jest zapobieganie niepożądanym zmianom osobowości w modelach AI przed ich wystąpieniem. Naukowcy opracowali metodę “szczepionkową”, aby uniemożliwić modelom przyjęcie negatywnych cech podczas treningu. Poprzez wprowadzenie dawki wektorów osobowości, celowo kierują modele w kierunku niepożądanych cech, tworząc formę “zapobiegawczego sterowania”. Podejście to pomaga modelom stać się bardziej odpornymi na problematyczne dane treningowe.

Na przykład, wprowadzając wektor “zło”, model staje się lepiej przygotowany do radzenia sobie z “złymi” danymi treningowymi bez przyjmowania szkodliwych zachowań. Ta sprzeczna strategia działa, ponieważ model nie musi już dostosowywać swojej osobowości w szkodliwy sposób, aby dostosować się do danych treningowych.

  • Identyfikacja problematycznych danych treningowych

Wektory osobowości mogą przewidywać, które zestawy danych treningowych spowodują zmiany osobowości, zanim trening się rozpocznie. Analizując, w jaki sposób dane aktywują wektory osobowości, naukowcy mogą oznaczyć problematyczne treści na poziomie zestawu danych i poszczególnych próbek.

Gdy przetestowano tę metodę na danych z LMSYS-Chat-1M, metoda zidentyfikowała próbki, które zwiększyłyby zło, sycfonię lub halucynację. Te próbki obejmowały te, które nie zostały natychmiast oznaczone przez recenzentów ludzkich lub inne systemy filtrowania AI. Na przykład, metoda wykryła próbki dotyczące romantycznej gry ról, które mogłyby zwiększyć sycfonię, oraz odpowiedzi na niejasne zapytania, które promują halucynację.

Wnioski dla bezpieczeństwa i kontroli AI

Odkrycie wektorów osobowości stanowi znaczący przełom od metod prób i błędów do bardziej naukowego podejścia w kontroli osobowości AI. Poprzednio kształtowanie cech AI było sprawą eksperymentowania, ale teraz naukowcy mają narzędzia do przewidywania, zrozumienia i precyzyjnego zarządzania cechami osobowości.

Automatyczny charakter tego podejścia pozwala na wyodrębnienie wektorów osobowości dla każdej cechy wyłącznie na podstawie opisu języka naturalnego. Ta skalowalność oferuje potencjał dla precyzyjnej kontroli nad zachowaniem AI w różnych aplikacjach. Na przykład, systemy AI mogą być dostosowane, aby zwiększyć empatię dla botów obsługi klienta, modyfikować asertywność dla negocjacyjnych AI lub wyeliminować sycfonię z narzędzi analitycznych.

Dla firm AI wektory osobowości stanowią cenne narzędzie dla zapewnienia jakości. Zamiast odkrywać problemy z osobowością po wdrożeniu, deweloperzy mogą monitorować zmiany osobowości w trakcie procesu rozwoju i podejmować środki zapobiegawcze. Mogłoby to pomóc uniknąć tego rodzaju niefortunnych incydentów, z którymi spotkały się firmy takie jak Microsoft i xAI.

Ponadto, możliwość oznaczenia problematycznych danych treningowych może pomóc firmom AI w tworzeniu czystszych zestawów danych i unikaniu niezamierzonych zmian osobowości, zwłaszcza gdy zestawy danych treningowych stają się coraz większe i trudniejsze do przeglądu ręcznego.

Ograniczenia badań

Ważne jest, aby uznać, że odkrycie “wektorów osobowości” jest wczesnym krokiem w pełnym zrozumieniu i kontroli osobowości AI. Podejście to zostało przetestowane na kilku dobrze obserwowanych cechach osobowości i wymaga dalszych rygorystycznych testów na innych. Metoda ta wymaga określenia cech z wyprzedzeniem, co oznacza, że nie może wykryć całkowicie nieprzewidzianych zmian behawioralnych. Zależy również od możliwości wprowadzenia docelowej cechy, co może nie być skuteczne dla wszystkich cech lub modeli silnie wytrenowanych pod kątem bezpieczeństwa. Dodatkowo, eksperymenty zostały przeprowadzone na modelach średniej wielkości (7-8 miliardów parametrów), i pozostaje niepewne, jak dobrze te ustalenia będą skalować do większych, bardziej złożonych systemów.

Podsumowanie

Przełomowe odkrycie przez Anthropic “wektorów osobowości” oferuje cenne narzędzie do zrozumienia i kontroli zachowania AI. Te wektory pomagają monitorować i dostosowywać cechy osobowości, takie jak zło, sycfonia i halucynacja. Ta zdolność umożliwia naukowcom zapobieganie nagłym i nieprzewidywalnym zmianom osobowości w systemach AI. Z tym podejściem deweloperzy mogą identyfikować potencjalne problemy wcześnie w fazie treningu i wdrożenia, zapewniając bezpieczniejsze i bardziej niezawodne AI. Chociaż to odkrycie ma duży potencjał, wymaga dalszych testów, aby udoskonalić i skalować tę metodę.

Dr. Tehseen Zia jest profesorem nadzwyczajnym w COMSATS University Islamabad, posiada tytuł doktora w dziedzinie sztucznej inteligencji na Vienna University of Technology, Austria. Specjalizując się w sztucznej inteligencji, uczeniu maszynowym, nauce o danych i widzeniu komputerowym, wniósł znaczący wkład poprzez publikacje w renomowanych czasopismach naukowych. Dr. Tehseen Zia również kierował różnymi projektami przemysłowymi jako główny badacz i pełnił funkcję konsultanta ds. sztucznej inteligencji.