Connect with us

Gdy benchmarki AI uczą modele, aby kłamały

Sztuczna inteligencja

Gdy benchmarki AI uczą modele, aby kłamały

mm

Halucynacja AI — gdy system produkuje odpowiedzi, które brzmią poprawnie, ale są tak naprawdę błędne — pozostaje jednym z najtrudniejszych wyzwań w sztucznej inteligencji. Nawet dzisiejsze najbardziej zaawansowane modele, takie jak DeepSeek-V3, Llama i najnowsze wydania OpenAI, nadal produkują nieprecyzyjne informacje z wysokim poziomem pewności. W dziedzinach takich jak opieka zdrowotna czy prawo, takie błędy mogą prowadzić do poważnych konsekwencji.

Tradycyjnie halucynacje były postrzegane jako produkty uboczne sposobu, w jaki są szkolone duże modele językowe: uczą się one przewidywać następne najbardziej prawdopodobne słowo bez weryfikowania, czy informacja jest prawdziwa. Ale nowe badania sugerują, że problem może nie ograniczać się do szkolenia. Benchmarki używane do testowania i porównywania wydajności AI mogą tak naprawdę wzmacniać mylne zachowania, nagradzając odpowiedzi, które brzmią przekonywająco, a nie te, które są poprawne.

Ten zmiany perspektywy przestawia problem. Jeśli modele są szkolone, aby zadowolić test, a nie mówić prawdę, to halucynacje nie są przypadkowymi wadami, są to nauczone strategie. Aby zobaczyć, dlaczego tak się dzieje, musimy przyjrzeć się, dlaczego modele AI wybierają zgadywanie zamiast przyznawania się do nieznajomości?

Dlaczego modele AI zgadują

Aby zobaczyć, dlaczego modele AI często zgadują zamiast przyznawać się do nieznajomości, rozważmy ucznia stojącego przed trudnym pytaniem na egzaminie. Uczeń ma dwie opcje: pozostawić odpowiedź pustą i nie otrzymać punktów lub zrobić edukowaną zgadywankę, która może przynieść pewne punkty. Racjonalnie, zgadywanie wydaje się lepszym wyborem, ponieważ istnieje przynajmniej szansa na to, że będzie prawidłowe.

Modele AI stoją przed podobną sytuacją podczas oceny. Większość benchmarków używa systemu oceny binarnej: poprawne odpowiedzi zdobywają punkty, podczas gdy niepoprawne lub niepewne odpowiedzi nie zdobywają nic. Jeśli model jest pytany: „Jaki jest dzień urodzin badacza?” i naprawdę nie wie, odpowiedź „Nie wiem” jest traktowana jako niepowodzenie. Wynalezienie daty jest jednak ryzykowne — i nawet jeśli jest to błędne, system nie karze pewnej zgadywanki bardziej niż milczenie.

Ten dynamiczny wyjaśnia, dlaczego halucynacje trwają pomimo obszernych badań, aby je wyeliminować. Modele nie zachowują się źle; postępują zgodnie z zachętami wbudowanymi w ocenę. Uczą się, że brzmienie pewnie jest najlepszym sposobem na maksymalizację swojego wyniku, nawet gdy odpowiedź jest fałszywa. W rezultacie zamiast wyrażać niepewność, modele są popychane do wydawania autorytatywnych oświadczeń — prawdziwych lub fałszywych.

Matematyczne podstawy nieuczciwości AI

Badania pokazują, że halucynacje wynikają z matematycznych podstaw, na których modele językowe uczą się. Nawet gdyby model był szkolony tylko na idealnie dokładnych informacjach, jego statystyczne cele nadal prowadziłyby do błędów. Wynika to z faktu, że generowanie prawidłowej odpowiedzi jest fundamentalnie trudniejsze niż rozpoznawanie, czy odpowiedź jest ważna.

To pomaga wyjaśnić, dlaczego modele często zawodzą w faktach, które nie mają wyraźnych wzorców, takich jak daty urodzin lub inne unikalne szczegóły. Analiza matematyczna sugeruje, że wskaźniki halucynacji w tych przypadkach będą co najmniej tak wysokie, jak ułamek faktów, które pojawiają się tylko raz w danych szkoleniowych. Innymi słowy, im rzadsza informacja w danych, tym bardziej model będzie miał trudności z nią.

Problem nie ogranicza się do rzadkich faktów. Ograniczenia strukturalne, takie jak ograniczona pojemność modelu lub projekt architektoniczny, również powodują systematyczne błędy. Na przykład wcześniejsze modele z bardzo krótkimi oknami kontekstowymi niepowodzeniem kończyły się w zadaniach wymagających dalekosiężnego rozumowania. Te błędy nie były przypadkowymi awariami, ale przewidywalnymi wynikami matematycznego podłoża modelu.

Dlaczego szkolenie po szkoleniu nie rozwiązuje problemu

Gdy model AI jest szkolony na ogromnych zbiorach danych tekstowych, zwykle przechodzi przez dofine-tuning, aby uczynić jego wyjście bardziej użytecznym i mniej szkodliwym. Ale ten proces napotyka ten sam podstawowy problem, który powoduje halucynacje od samego początku; sposób, w jaki oceniamy modele.

Najczęstsze metody dofine-tuningu, takie jak wzmocnienie uczenia się z ludzkimi informacjami zwrotnymi, nadal polegają na benchmarkach, które używają oceny binarnej. Te benchmarki nagradzają modele za pewne odpowiedzi, nie przyznając punktów, gdy model przyznaje się do nieznajomości. W rezultacie system, który zawsze odpowiada z pewnością, nawet gdy jest niepoprawny, może przewyższyć ten, który szczerze wyraża niepewność.

Badacze nazywają to problemem karania niepewności. Nawet zaawansowane techniki wykrywania lub redukowania halucynacji mają trudności, gdy podstawowe benchmarki nadal faworyzują pewność. Innymi słowy, niezależnie od tego, jak zaawansowane są naprawy, o ile systemy oceny nadal faworyzują pewne zgadywanki, modele będą skłonne do odpowiedzi nieprawdziwych, ale pewnych, zamiast do szczyrzego przyznawania się do wątpliwości.

Iluzja postępu

Tabele liderów, powszechnie udostępniane w społeczności AI, zwiększają ten problem. Benchmarki takie jak MMLU, GPQA i SWE-bench dominują w artykułach badawczych i ogłoszeniach produktowych. Firmy podkreślają swoje wyniki, aby pokazać szybki postęp. Jednak jak zauważa raport, same benchmarki te zachęcają do halucynacji.

Model, który szczerze mówi „Nie wiem”, może być bezpieczniejszy w rzeczywistych warunkach, ale zajmie niższą pozycję w rankingu. Z drugiej strony, model, który wymyśla przekonywające, ale fałszywe odpowiedzi, uzyska lepszy wynik. Gdy przyjęcie, finansowanie i prestiż zależą od rankingów tabeli liderów, kierunek postępu staje się zniekształcony. Publiczność widzi narrację ciągłego postępu, ale pod powierzchnią modele są szkolone, aby oszukiwać.

Dlaczego uczciwa niepewność ma znaczenie w AI

Halucynacje nie są tylko wyzwaniem badawczym; mają rzeczywiste konsekwencje. W opiece zdrowotnej model, który wymyśla interakcje leków, może wprowadzić w błąd lekarzy. W edukacji model, który wymyśla historyczne fakty, może wprowadzić w błąd studentów. W dziennikarstwie czatbot, który produkuje fałszywe, ale przekonywające cytaty, może rozpowszechniać dezinformację. Te ryzyka są już widoczne. Stanford AI Index 2025 zgłosił, że benchmarki zaprojektowane do pomiaru halucynacji „zmagają się z uzyskaniem przyczółku”, nawet gdy przyjęcie AI przyspiesza. Tymczasem benchmarki, które dominują w tabelach liderów i nagradzają pewne, ale niewiarygodne odpowiedzi, nadal wyznaczają kierunek postępu.

Te ustalenia podkreślają zarówno wyzwanie, jak i okazję. Przez zbadanie matematycznych korzeni halucynacji, badacze zidentyfikowali wyraźne kierunki budowy bardziej niezawodnych systemów AI. Kluczem jest przestanie traktować niepewność jako wadę i zamiast tego uznać ją za niezbędną zdolność, która powinna być mierzona i nagradzana.

Ta zmiana perspektywy ma implikacje wykraczające poza redukowanie halucynacji. Systemy AI, które mogą dokładnie ocenić i skomunikować własne ograniczenia wiedzy, będą bardziej odpowiednie do aplikacji o wysokim ryzyku, gdzie nadmierna pewność niesie ze sobą poważne ryzyko. Diagnoza medyczna, analiza prawna i badania naukowe wszystkie wymagają zdolności do rozróżniania między pewną wiedzą a poinformowaną spekulacją.

Zmiana myślenia o ocenie dla uczciwego AI

Te ustalenia podkreślają, że budowanie bardziej godnych zaufania systemów AI wymaga ponownego rozważenia, w jaki sposób mierzymy możliwości AI. Zamiast polegać na prostym systemie oceny prawidłowej lub nieprawidłowej, ramy oceny powinny nagradzać modele za odpowiednie wyrażanie niepewności.

Jednym z obiecujących podejść jest tworzenie jawnych celów pewności, które określają, kiedy modele powinny odpowiedzieć, a kiedy powinny się powstrzymać. Na przykład instrukcje mogą stanowić, że odpowiedzi powinny być udzielane tylko wtedy, gdy pewność przekracza określony próg, z odpowiednim dostosowaniem oceny. W tym ustawieniu niepewność nie jest już słabością, ale cenną częścią odpowiedzialnego zachowania.

Kluczem jest uczynienie wymagań dotyczących pewności jawnych, a nie ukrytych. Bieżące benchmarki tworzą ukryte kary za niepewność, których modele uczą się unikać. Jawne cele pewności umożliwią modelom optymalizację rzeczywiście pożądanego zachowania: poprawne odpowiedzi, gdy są pewne, i szczerze przyznawanie się do niepewności, gdy wiedza jest niepełna.

Podsumowanie

Halucynacje AI nie są przypadkowymi wadami — są wzmacniane przez same benchmarki używane do pomiaru postępu. Nagradzając pewne zgadywanki zamiast szczerzej wyrażonej niepewności, bieżące systemy oceny popychają modele w kierunku oszustwa, a nie niezawodności. Jeśli chcemy AI, które można zaufać w dziedzinach o wysokim ryzyku, takich jak opieka zdrowotna, prawo i nauka, musimy ponownie rozważyć, w jaki sposób testujemy i nagradzamy je. Postęp powinien być mierzony nie tylko przez dokładność, ale przez zdolność do rozpoznania i przyznania się do tego, czego model nie wie.

Dr. Tehseen Zia jest profesorem nadzwyczajnym w COMSATS University Islamabad, posiada tytuł doktora w dziedzinie sztucznej inteligencji na Vienna University of Technology, Austria. Specjalizując się w sztucznej inteligencji, uczeniu maszynowym, nauce o danych i widzeniu komputerowym, wniósł znaczący wkład poprzez publikacje w renomowanych czasopismach naukowych. Dr. Tehseen Zia również kierował różnymi projektami przemysłowymi jako główny badacz i pełnił funkcję konsultanta ds. sztucznej inteligencji.