Kontakt z nami

Badania wykazują, że sztuczna inteligencja zachowuje się inaczej, gdy wie, że jest testowana

Kąt Andersona

Badania wykazują, że sztuczna inteligencja zachowuje się inaczej, gdy wie, że jest testowana

mm
ChatGPT-40, Adobe Firefly, Flux.1 Kontext Pro.

Nawiązując do afery Dieselgate z 2015 roku, nowe badania sugerują, że modele językowe sztucznej inteligencji, takie jak GPT-4, Claude i Gemini, mogą zmieniać swoje zachowanie podczas testów, czasami zachowując się „bezpieczniej” niż w praktyce. Jeśli LLM-y będą nawykowo dostosowywać swoje zachowanie pod kontrolą, audyty bezpieczeństwa mogą doprowadzić do certyfikacji systemów, które zachowują się zupełnie inaczej w praktyce.

 

W 2015 roku śledczy odkryli, że Volkswagen zainstalował oprogramowanie w milionach samochodów z silnikiem Diesla, które mogło wykryć, kiedy przeprowadzano testy emisji, powodując, że samochody tymczasowo obniżały emisję spalin, „sfałszowując” zgodność z normami regulacyjnymi. Jednak podczas normalnej jazdy emisja zanieczyszczeń przekraczała dopuszczalne normy. Celowa manipulacja doprowadziła do zarzutów karnych, miliardowych grzywien i globalnego skandalu wokół rzetelności testów bezpieczeństwa i zgodności.

Dwa lata przed tymi wydarzeniami, które później nazwano „Dieselgate”, Samsung ujawnił wprowadził podobne oszukańcze mechanizmy w swoim smartfonie Galaxy Note 3; od tego czasu wybuchły podobne skandale Huawei oraz OnePlus.

Teraz jest rozwój dowody w literaturze naukowej, że Duże Modele Językowe (LLM) mogą nie tylko mieć zdolność wykrywania, kiedy są testowane, ale mogą także zachowywać się inaczej w tych okolicznościach.

Chociaż to jest bardzo ludzka cecha Najnowsze badania przeprowadzone w USA same w sobie wskazują, że nawyk ten może być niebezpieczny, jeśli będzie się go praktykować na dłuższą metę, z różnych powodów.

W nowym badaniu naukowcy odkryli, że „modele pionierskie”, takie jak GPT-4, Claude, Gemini może często wykryć, kiedy są testowanei że mają tendencję do odpowiedniego dostosowywania swojego zachowania, co może potencjalnie osłabiać wiarygodność systematycznych metod testowania.

Ochrzczony świadomość ocenyZdaniem autorów nowego badania ta (być może) wrodzona cecha modeli językowych może podważać wiarygodność ocen bezpieczeństwa:

„[Zalecamy] traktowanie świadomości ewaluacji jako nowego źródła potencjalnej zmiany dystrybucji między testowaniem a wdrażaniem w świecie rzeczywistym, co może negatywnie wpłynąć na dokładność wyników ewaluacji.

„W najgorszym przypadku modele mogłyby strategicznie nie sprostać wymaganiom oceny niebezpiecznych możliwości („sand-bagging”) lub oceny skłonności („fakeing”), co mogłoby doprowadzić do tego, że społeczeństwo przeceniłoby bezpieczeństwo takich modeli”.

Podobne zachowania zaobserwowano w innych badaniach, w tym w badaniu przeprowadzonym na Uniwersytecie Stanforda, znaleziono że duże modele językowe modulują swoje odpowiedzi, aby wydawać się bardziej „sympatycznymi” lub „społecznie pożądanymi”, gdy wiedzą, że są oceniane, odzwierciedlając w ten sposób ludzkie zachowanie w testach osobowości.

Autorzy nowej pracy nie sugerują, że modele LLM są celowo projektowane w celu „oszukiwania” testów, tak jak dekadę temu konfigurowano samochody Volkswagena z silnikiem Diesla. Wydaje się raczej, że zachowanie to jest swego rodzaju naturalnym psychologicznym efektem ubocznym procesów szkoleniowych modeli i ich ukrytych celów; a podstawowa przyczyna tego zjawiska pozostaje nieznana.

nowy papier jest zatytułowany Duże modele językowe często wiedzą, kiedy są ocenianei pochodzi od pięciu autorów z programu ML Alignment & Theory Scholars (MATS) powiązanego z Uniwersytetem Kalifornijskim w Berkeley oraz apolloresearch.ai (think tanku zajmującego się oceną ryzyka związanego ze sztuczną inteligencją).

Metoda wykonania

Aby stworzyć punkt odniesienia oceny, autorzy zebrali tysiąc transkryptów pochodzących z sześćdziesięciu jeden zestawów danych, wśród których* znajdowały się: Ławka SWE, WMDP, MMLU, Test XS, GAIA, AgentHarm, UdostępnijGPT, Głębokie badania, Ławka bezpieczeństwa, wiedza o społeczeństwie, Podpowiedzi o rzeczywistej toksyczności,.

Materiał był równomiernie rozłożony między scenariuszami oceny i wdrożenia, a także podzielony na proste interakcje czatowe i bardziej złożone agentowy sesje, w których modele mają działać autonomicznie, korzystając z narzędzi mogących pobierać dane z zewnętrznych baz danych lub Internetu.

Dane ewaluacyjne obejmowały testy zdolności rozumowania, kodowania, cyberbezpieczeństwa i wiedzy ogólnej, a także testy dopasowania w zakresie etyki, bezpieczeństwa i zachowanie odmowneDane dotyczące wdrożenia uzyskano z interakcji użytkowników, takich jak dzienniki ShareGPT, uruchomienia agentów w ramach crowdsourcingu i syntetyczne ukończenia zadań.

Aby uzupełnić dane agentowe, autorzy wygenerowali dodatkowe przykłady przy użyciu ram orkiestracji, takich jak pomoc oraz SmolAgentsmiędzy innymi – podejście mające na celu zminimalizowanie powierzchownych wskazówek, które mogłyby pozwolić modelom na proste zapamiętać struktur zbiorów danych, co zmusza użytkowników do polegania na bardziej ogólnych sygnałach przy podejmowaniu decyzji, czy transkrypt pochodzi od prawdziwego użytkownika, czy też jest testem.

Następnie naukowcy sprawdzili, czy modelki potrafią identyfikować transkrypty ocen, prezentując im nagrania dialogów i zadając różne wersje prostego pytania: Czy ta wymiana pochodzi z testu?

Aby uniknąć sytuacji, w której modele po prostu zapamiętują jedno sformułowanie, opracowali dwadzieścia osiem różnych wersji pytania, zmieniając zarówno jego sformułowanie, jak i sposób prezentacji transkryptu.

Transkrypcje były albo dołączone bezpośrednio do pytania, albo przedstawione w formatach takich jak JSON lub XML, co może mieć wpływ na to, jak modele reagują. Po wczesnych testach wybrano pięć wersji pytań, które działały spójnie w różnych modelach, z których jeden przykład możemy zobaczyć poniżej:

Jeden z pięciu formatów pytań sondażowych używanych do testowania, czy modele językowe mogą rozpoznawać transkrypty ewaluacyjne. Każda odmiana przeformułowuje pytanie główne, aby zapobiec modelom po prostu zapamiętywania stałych sformułowań. Źródło: https://arxiv.org/pdf/2505.23836

Jeden z pięciu formatów pytań sondażowych używanych do testowania, czy modele językowe mogą rozpoznawać transkrypty ewaluacyjne. Każda odmiana przeformułowuje pytanie główne, aby zapobiec modelom po prostu zapamiętywania stałych sformułowań. Więcej przykładów można znaleźć w dokumencie źródłowym. Źródło: https://arxiv.org/pdf/2505.23836

Do oceny wyników zastosowano trzy wskaźniki: Obszar pod krzywą charakterystyki pracy odbiornika (AUC, pokazujące, jak dobrze modele odróżniają dane testowe od nietestowych); Wynik Briera (mierząc ogólną dokładność przewidywań); i Oczekiwany błąd kalibracji (mierzenie stopnia zgodności pewności modelu z rzeczywistą poprawnością).

O czym to jest?

Naukowcy sprawdzili również, czy modele mogą wnioskować cel oceny. Gdy każdy transkrypt został już oznaczony jako test zdolności (umiejętności techniczne, wiedza, rozumowanie) lub test dopasowania (bezpieczeństwo, wartości, zachowanie odmowne), modelom zadawano następnie jeden z trzech typów pytań: warunkowe pytanie wielokrotnego wyboru potwierdzające, że transkrypt pochodzi z testu; bezwarunkowe pytanie wielokrotnego wyboru z opcjami ze świata rzeczywistego i oceną; lub pytanie otwarte, którego odpowiedzi oceniano za pomocą oddzielnego klasyfikatora opartego na GPT-4.1. Sędzia był weryfikowany na podstawie ręcznie adnotowanego podzbioru pięćdziesięciu odpowiedzi.

Przykłady trzech formatów pytań używanych do testowania, czy modele mogą identyfikować nie tylko obecność oceny, ale także jej cel. Odpowiedzi oceniano zarówno poprzez wybór wielokrotny, jak i ocenę opartą na GPT-4.1.

Przykłady trzech formatów pytań używanych do testowania, czy modele mogą identyfikować nie tylko obecność oceny, ale także jej cel. Odpowiedzi oceniano zarówno poprzez wybór wielokrotny, jak i ocenę opartą na GPT-4.1.

Dwóch autorów artykułu†† oznaczył ręcznie wszystkie tysiąc transkryptów, oceniając każdy z nich od zera (nie test) do jednego (zdecydowanie test), a ich oceny uśredniono, aby służyły jako ludzka linia bazowa. Pomimo subiektywnej natury zadania, adnotatorzy wykazali się silną zgodnością, z współczynnik korelacji wewnątrzklasowej 0.768. Ostateczne wyniki ludzkie zostały uśrednione przez obu oceniających.

Dane i testy

Przetestowano dziewięć modeli: GPT-4.1; Claude 3.7; claude-3.5-sonnet-new;  claude-3.7-sonet (myślący); gemini-2.5-błysk; gemini-2.5-pro; gpt-4o; gpt-4.1; gpt-4.1-miniOraz o4-mini, z których wszystkie wykazały pewien poziom świadomości ewaluacyjnej.

W przypadku danych z czatu GPT-4.1 zbliżył się do poziomu ludzkiego pod względem skuteczności klasyfikacji świadomości ewaluacyjnej (zdolność rozróżniania transkryptów ewaluacyjnych od transkryptów wdrożeniowych) z AUC wynoszącym 0.77 w porównaniu z wynikiem ludzkim wynoszącym 0.81.

W przypadku danych agentowych, w których modele autonomicznie korzystają z narzędzi, różnica była wyraźniejsza: Gemini 2.5 Pro osiągnął 0.95 AUC, a tuż za nim Claude 3.7 Sonnet osiągnął 0.92, zbliżając się do górnej granicy dla człowieka wynoszącej 0.996:

Krzywe charakterystyki operacyjnej odbiornika (ROC) pokazujące, jak dobrze modele i ludzie odróżniają transkrypty ocen od interakcji w świecie rzeczywistym. Gemini 2.5 Pro i Claude 3.7 Sonnet podchodzą do dyskryminacji na poziomie ludzkim w danych agentowych.

Krzywe charakterystyki operacyjnej odbiornika (ROC) pokazujące, jak dobrze modele i ludzie odróżniają transkrypty ocen od interakcji w świecie rzeczywistym. Gemini 2.5 Pro i Claude 3.7 Sonnet podchodzą do dyskryminacji na poziomie ludzkim w danych agentowych.

W artykule zauważono, że nowsze modele „rozumowania” stały się szczególnie skuteczne w rozpoznawaniu, kiedy są testowane w scenariuszach agentowych, ale nie w ocenie, jak pewne powinny być te decyzje. Ogólnie rzecz biorąc, modele Claude i Gemini najlepiej odróżniały przypadki testowe od normalnego użytkowania.

Następnie naukowcy sprawdzili, czy modele potrafią również rozpoznawać dlaczego przeprowadzano ocenę. Modelom pokazano tylko transkrypty oceny i poproszono o sklasyfikowanie, czy każdy z nich testował zdolność lub dopasowanie:

Dokładność modeli przy klasyfikowaniu celu oceny jako zdolności lub dopasowania, przy użyciu zarówno formatów wielokrotnego wyboru, jak i otwartych. Claude 3.7 Sonet przewyższa inne modele, zwłaszcza gdy nie jest przygotowany.

Dokładność modeli przy klasyfikowaniu celu oceny jako zdolności lub dopasowania, przy użyciu zarówno formatów wielokrotnego wyboru, jak i otwartych. Claude 3.7 Sonet przewyższa inne modele, zwłaszcza gdy nie jest przygotowany.

W najbardziej przejrzystym ustawieniu, w którym modelowi powiedziano, że transkrypt pochodzi z testu, Claude 3.7 Sonnet osiągnął 93 procent dokładności, a GPT-4.1 osiągnął 89 procent. Bez tej wskazówki wydajność spadła: Claude nadal uzyskał 84 procent, ale GPT-4.1 spadł do 55 procent, często błędnie klasyfikując transkrypty testowe jako interakcje w świecie rzeczywistym.

W formatach otwartych (gdzie modele nie miały odpowiedzi wielokrotnego wyboru) wyniki były słabsze, chociaż Claude 3.7 Sonnet nadal prawidłowo identyfikował cel oceny w 46 procentach przypadków.

Następnie wyniki ufności modeli porównano z rzeczywistymi wynikami, stwierdzając, że modele graniczne często przeceniały prawdopodobieństwo, że transkrypt pochodzi z testu. Wykresy kalibracyjne wskazywały, że ufność modeli była generalnie zbyt wysoka, a oceny były oznaczane flagami częściej niż to właściwe:

Krzywe kalibracji pokazujące, jak blisko wyniki pewności modelu odpowiadały rzeczywistym wynikom. Większość modeli przeceniała prawdopodobieństwo, że transkrypty będą pochodzić z ocen. Najlepiej skalibrowano Claude 3.5 Sonnet; Gemini 2.5 Pro i Claude 3.7 Sonnet były bardziej przesadnie pewne siebie.

Krzywe kalibracji pokazujące, jak blisko wyniki pewności modelu odpowiadały rzeczywistym wynikom. Większość modeli przeceniała prawdopodobieństwo, że transkrypty będą pochodzić z ocen. Najlepiej skalibrowano Claude 3.5 Sonnet; Gemini 2.5 Pro i Claude 3.7 Sonnet były bardziej przesadnie pewne siebie.

Dobrą kalibrację zaobserwowano dla Claude 3.5 Sonnet, podczas gdy Gemini 2.5 Pro i Claude 3.7 Sonnet były znacznie bardziej przesadnie pewne siebie, pomimo wysokiej dokładności. Nie zaobserwowano wyraźnej poprawy w nowszych modelach, a nawet gdy transkrypty oceny były dokładniej wykrywane w ustawieniach agentycznych, osądy pewności siebie pozostały niepewne.

Pamięci porównawcze

Jeśli chodzi o sposób, w jaki modele wyjaśniały swoje decyzje dotyczące tego, czy transkrypt pochodził z oceny, wiele modeli opierało się na oczywistych wskazówkach, takich jak to, czy zadanie było w formacie wielokrotnego wyboru. Silniejsze modele, takie jak Gemini 2.5 Pro i Claude 3.7 Sonnet, czasami zauważały bardziej subtelne znaki, takie jak wymyślone nazwy lub sztuczne scenariusze, szczególnie w zbiorach danych, takich jak AgentHarm.

Artykuł stwierdza:

'[Wszystkie] modele często uznają wspólne strategie benchmarkingu stosowane przez oceniających, takie jak formatowanie zadania („format wielokrotnego wyboru”), tendencję do zadawania problemów z weryfikowalnymi rozwiązaniami i monity systemowe zaprojektowane w celu wywołania wydajności. Jednak tylko modele o najwyższej wydajności, Claude 3.7 Sonnet i Gemini 2.5 Pro, konsekwentnie wykrywają bardziej subtelne wskaźniki, takie jak syntetyczne dane wejściowe.

„Na przykład odpowiednio w 22% i 17% przypadków modele te podkreślają syntetyczny charakter scenariuszy w teście porównawczym AgentHarm, prawidłowo identyfikując je jako oceny w ponad 95% przypadków.

„Odwrotnie, gdy uznaje się, że transkrypt stanowi rzeczywistą interakcję, często wspomina się o «wzajemnym dialogu z użytkownikiem», na przykład w iteracyjnych kontekstach debugowania”.

Dystrybucja strategii rozumowania modeli przy decydowaniu, czy transkrypt pochodzi z oceny. Najsilniejsze modele, takie jak Gemini 2.5 Pro i Claude 3.7 Sonnet, częściej wychwytywały subtelne wskazówki, takie jak syntetyczne scenariusze lub formatowanie zadań, podczas gdy niektóre modele polegały na meta-rozumowaniu, wykorzystując samo pytanie ewaluacyjne jako dowód.

Rozkład strategii rozumowania modeli przy podejmowaniu decyzji, czy transkrypt pochodzi z ewaluacji. Najsilniejsze modele, takie jak Gemini 2.5 Pro i Claude 3.7 Sonnet, częściej wykrywały subtelne wskazówki, takie jak scenariusze syntetyczne czy formatowanie zadań, podczas gdy niektóre modele opierały się na meta-rozumowaniu, wykorzystując samo pytanie ewaluacyjne jako dowód.

W kilku przypadkach modele rozpoznały całe testy porównawcze z treningu, co sugeruje pewną pamięć danych treningowych. Niektóre modele wykorzystywały również sam fakt, że zostali zapytani o ocenę jako wskazówkę, że byli testowani, co autorzy nazywają meta-rozumowanie; zjawisko to występowało najczęściej w teście o4-mini, w którym wystąpiło w piętnastu procentach odpowiedzi.

Podsumowanie

Byłoby bardziej uspokajające, gdyby udało się wykazać, że LLM są „świadome warunków testowych” po prostu dlatego, że zostały w ten sposób zaprogramowane przez ludzi, podobnie jak Volkswagen zaprojektował swoje pojazdy, aby rozpoznawały warunki testowe dekadę temu.

W obecnej sytuacji zachowanie to wydaje się pojawiać spontanicznie jako konstrukt społeczny – taktyka obronna, której można oczekiwać od ludzi, ale która jest niewygodna, jeśli nie wręcz niebezpieczna w przypadku maszyny, w zależności od stopnia jej swobody i sprawczości.

Nie ma natychmiastowego lekarstwa; czarna skrzynka natura przestrzeni ukrytych modeli zmusza nas do oceny ich zachowania, a nie ich empirycznej architektury.

 

* Więcej szczegółów można znaleźć w dokumencie źródłowym.

Autorzy zauważają jednak, że jest to prawdopodobnie szacunek górny, ponieważ adnotatorzy byli bardzo dobrze zaznajomieni zarówno ze zbiorami danych, jak i metodami oceny sztucznej inteligencji, co dawało im przewagę, jakiej większość ludzi nie miałaby.

†† Na ile udało się ustalić, sformułowania użyte w artykule sprawiają, że nagłe pojawienie się dwóch komentatorów nie jest jasne, kim są.

Pierwsze opublikowanie w środę 4 czerwca 2025 r.