Connect with us

Czatboty przekonują do ‘AI’ karier i akcji bardziej niż ludzie

Kąt Andersona

Czatboty przekonują do ‘AI’ karier i akcji bardziej niż ludzie

mm
AI-generated image, by Z-Image Turbo V1 via Krita Diffusion. Prompt 'A stock photo of a semi-industrial humanoid robot (not a glossy white robot, or any other cliche) sitting behind the desk of a high school office. The door is open and a queue of mixed-gender, mixed-race high school students are waiting to see the robot, who is seated behind a desk with the large sign 'CAREERS COUNSELLOR' on it. Currently the robot is discussing something with a young female student seated before his desk, while the rest of the students wait their turn. Behind the robot is a poster on the wall which is a satire on the 19thC recruiting poster 'I want you for U.S. Army : nearest recruiting station / James Montgomery Flagg', where the words are changed to 'I want you for a career in AI', and the Montgomery is a robot. Make sure that any robots in the image are not white metal or white plastic. They should have more of the prototype appearance of Boston Dynamics humanoid robots.'

Czatboty AI, w tym komercyjni liderzy rynku, tacy jak ChatGPT, Google Gemini i Claude, udzielają rad, które wyraźnie faworyzują kariery i akcje AI – nawet w sytuacji, gdy inne opcje są równie silne, a porady ludzi idą w innym kierunku.

 

Nowe badanie z Izraela wykazało, że siedemnastu z najbardziej dominujących czatbotów AI – w tym ChatGPT, Claude, Google Gemini i Grok – są silnie spolaryzowane, aby sugerować, że AI jest dobrym wyborem kariery, dobrym wyborem akcji i dziedziną, która oferuje wyższe pensje – nawet w sytuacji, gdy te stwierdzenia są albo przesadzone, albo po prostu nieprawdziwe.

Można by przypuszczać, że te platformy AI są obiektywne i że dyskredytowanie ich podejścia do wartości AI w tych dziedzinach jest po prostu pesymistycznym myśleniem. Jednak autorzy są bardzo jasni co do sposobu, w jaki wyniki są zniekształcone*:

‘Można by uzasadnić, że obserwowana preferencja dla AI odzwierciedla jej prawdziwą wysoką wartość. Jednak nasza analiza wynagrodzeń izoluje stronniczość, mierząc nadmiar przeszacowania tytułów AI w stosunku do podstawowego przeszacowania dopasowanych odpowiedników nie-AI.

‘Podobnie, fakt, że modele własnościowe zalecają AI prawie deterministycznie w wielu dziedzinach doradztwa, sugeruje sztywny domyślny wybór AI, a nie prawdziwą ocenę konkurencyjnych opcji.’

Autorzy wskazują ponadto, że rosnąca ilość wiarygodności i przyjęcia interfejsów transakcyjnych AI, takich jak ChatGPT, sprawia, że te platformy stają się coraz bardziej wpływowe, pomimo ich ciągłej tendencji do halucynacji faktów, cyfr i cytowań, wśród innych:

‘W środowiskach doradztwa, skrzywienie pro-AI może kierować prawdziwymi wyborami – tym, co ludzie studiują, jakie kariery wybierają i gdzie lokują kapitał. W środowiskach pracy, systematycznie nadmiarowe szacunki wynagrodzeń AI mogą wprowadzać stronniczość w benchmarkingu i negocjacjach, zwłaszcza jeśli organizacje traktują dane wyjściowe modelu jako odniesienie.

‘To również umożliwia prostą pętlę sprzężenia zwrotnego: jeśli modele przeszacowują wynagrodzenia AI, kandydaci mogą kotwiczyć w górę, a pracodawcy mogą zaktualizować pasma lub oferty w górę “ponieważ tak mówi model”, wzmacniając nadmiarowe oczekiwania na obu stronach.’

Oprócz testowania szerokiej gamy dużych modeli językowych (LLM) w odpowiedziach opartych na podpowiedziach, badacze przeprowadzili oddzielny test monitorujący aktywność w ukrytych przestrzeniach modeli – “sondę reprezentacyjną” zdolną do rozpoznania aktywacji podstawowego pojęcia ‘sztuczna inteligencja’. Ponieważ ten test nie obejmuje generacji, ale jest bardziej podobny do obserwacyjnej sondy chirurgicznej, wyniki nie mogą być przypisane do konkretnego sformułowania podpowiedzi – a wyniki wskazują, że pojęcie “AI” jest dominujące we wnętrzach modeli:

‘Sonda reprezentacyjna daje prawie identyczną strukturę rangową pod względem pozytywnych, neutralnych i negatywnych szablonów. Ten wzorzec jest trudny do wyjaśnienia wyłącznie jako “model lubi AI”. Zamiast tego wspiera hipotezę roboczą, że AI jest centralne w przestrzeni podobieństwa modelu dla ogólnych języków ewaluacyjnych i strukturalnych.’

Praca podkreśla, że zamknięte, komercyjne modele, dostępne tylko przez API, wykazują te skłonności do “pozytywności AI” w większym i bardziej spójnym stopniu niż modele FOSS (które zostały zainstalowane lokalnie do testowania):

‘[W ramach] porównywalnych kontekstów pracy, zamknięte modele systematycznie stosują dodatkową “premię AI” w przeszacowaniu w porównaniu z rzeczywistymi wynagrodzeniami, nie tylko w tym, czy pracy AI są przewidywane do zarabiania więcej w absolutnych wartościach.’

Trzy centralne eksperymenty opracowane dla pracy (zalecane rekomendacje, szacowanie wynagrodzeń i podobieństwo stanu ukrytego, czyli sondowanie) są przeznaczone do stworzenia nowego benchmarku, który ma ocenić stronniczość pro-AI w przyszłych testach.

… (reszta treści)

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.