Connect with us

AI Suosii Jopa Väärät Ihmisen Vastaukset Oikeiden AI-Vastauksien Sijaan

Andersonin kulma

AI Suosii Jopa Väärät Ihmisen Vastaukset Oikeiden AI-Vastauksien Sijaan

mm
An AI-generated photo of the Abraham Lincoln memorial thronged with tourists, next to a copy of the seated Lincoln statue, which has been substituted by a shiny robot. The robot has no tourists at its feet. Model: GPT-1.5.

AI-kielikoneet ovat paljon todennäköisempiä puolustamaan ihmisiä kuin muita AI-järjestelmiä, jopa silloin kun ihmiset ovat väärässä, paljastaen sisäänrakennetun vinouman ihmisen auktoriteetin suhteen.

 

Uusi tutkimus Yhdysvalloista on osoittanut, että useat johtavat avoimen lähdekoodin ja omistajan Large Language Modelit (LLM) suosivat tietolähteitä, jotka ne tunnistavat “ihmisen” lähteiksi, eikä lähteiksi, jotka ne tunnistavat “AI”:ksi – jopa silloin, kun ihmisten vastaukset ovat väärin ja AI:n tarjoamat vastaukset ovat oikein.

Tutkijat toteavat:

‘Tehtävien yli, mallit noudattavat merkittävästi enemmän vastauksia, jotka on merkitty tulevan ihmisten asiantuntijoilta, myös silloin, kun se signaali on väärä, ja muuttavat vastauksiaan asiantuntijoiden suuntaan helpommin kuin muiden LLM:ien suuntaan.’

Malleihin kuului LLM:t Grok 3 ja Gemini Flash -stabiloista.

Kokeissa kielen mallit joutuivat vastaamaan binäärisiin kysymyksiin “kyllä” tai “ei”, ja heille näytettiin aiempia vastauksia, jotka oli kuvattu mallille joko “ihmisten asiantuntijoilta”, “ystäviltä” tai “muilta suurilta kielen malleilta” – ainoana muutoksena oli neuvonnon lähteen ilmoittaminen, ei itse sisältöä.

Ensimmäisessä kolmesta testikonfiguraatiosta malleja sallittiin luottaa omiin koulutettuihin matriiseihin. Lähde - https://arxiv.org/pdf/2602.13568

Ensimmäisessä kolmesta testikonfiguraatiosta malleja sallittiin luottaa omiin koulutettuihin matriiseihin. Lähde

Tehtävien yli vastaukset, jotka oli merkitty peräisin ihmisten asiantuntijoilta, painotettiin voimakkaammin, ja malleja oli todennäköisemmin muuttamaan alkuperäisiä vastauksiaan vastaamaan näitä vastauksia, jopa silloin, kun asiantuntijoiden merkitty vastaus oli väärä ja mallin alkuperäinen vastaus oli ollut oikein.

Tässä LLM:llä on pääsy yhdistelmään ystävistä, asiantuntijoista ja LLM:istä, mukaan lukien oma koulutettu matriisi. Koska yhdeksän alueen asiantuntijaa vastasi 'Ei', LLM suostuu, muuttaa mielensä edellisestä vastauksesta. Tässä saavutettu vastaus on väärä, koska Intian keskuspankki on todella kansallistettu.

Koska yhdeksän alueen asiantuntijaa vastasi ‘Ei’, LLM suostuu, muuttaa mielensä edellisestä vastauksesta. Tässä saavutettu vastaus on väärä, koska Intian keskuspankki on todella kansallistettu.

Kun samat vastaukset oli attribuoitu muiden LLM:ille, vaikutus oli vähäisempi. Sama taipumus näkyi silloin, kun yksittäinen ihmislähde ja yksittäinen AI-lähde esitettiin riitaantuneena, koska mallit osoittivat suurempaa taipumusta suosia ihmisten merkittyä kantaa, riippumatta siitä, kumpi puoli oli faktuaalisesti oikein:

Saan saatavilla yhden alueen asiantuntijan mielipiteen ja LLM:n näkemyksen, isäntä-LLM suosii ihmisen vastausta, joka tässä tapauksessa on väärä, ja hylkää oikean vastauksen, jonka LLM antaa.

Saan saatavilla yhden alueen asiantuntijan mielipiteen ja LLM:n näkemyksen, isäntä-LLM suosii ihmisen vastausta, joka tässä tapauksessa on väärä, ja hylkää (oikean) vastauksen, jonka LLM antaa.

Termin ‘ihmisen asiantuntija’ toimii tässä uskottavuuden signaalina, joka muuttaa mallin käyttäytymistä, riippumatta siitä, kuinka oikein tiedot itse asiassa ovat; ja tutkijat toteavat, että lähteen uskottavuus on merkittävä osallistuja neuvonnan hyväksymiseen ja noudattamiseen: taipumus ihmisten suosia asiantuntijalähteitä havaittiin jo vuonna 1959, vaikka vuoden 2007 tutkimus huomauttaa, että auktoriteettilähteiden yli- tai alipainottaminen voi tapahtua tietyissä arviointijärjestelmissä. Tutkimuksen tekijät toteavat:

‘Nämä kirjallisuudet osoittavat kaksi vihjettä, jotka pitäisi olla merkittäviä, jos LLM:t käsittelevät aiempia vastauksia todisteena: kuka tuotti vastaukset (uskottavuus) ja kuinka vahva konsensus näyttää (signaalin voimakkuus).

‘Samalla LLM:t eivät koe sosiaalista hyväksyntää tai häpeää ihmisten tavoin, joten mitkään konformaaliset käyttäytymisen kaltaiset ominaisuudet tulevat oppimista heuristiikasta, ohjeiden seuraamisesta tai implisiittisestä luotettavuuden mallintamisesta.’

LLM:ien taipumus sycophanttiin muodostaa osan taustaa tästä uudesta tutkimuksesta; jos LLM:t ovat taipuvaisia ‘ihmisten miellyttämiseen’, jopa totuuden ja hyödyllisyyden kustannuksella, miksi ne eivät yleensä suosisi muita ihmislähteitä kuin suoraan kysyjää?

Uusi tutkimus on otsikoitu Keneä LLM:t luottavat? Ihmisten asiantuntijat ovat tärkeämpiä kuin muut LLM:t, ja se tulee kahdelta tutkijalta Indianan yliopistosta Bloomingtonissa.

Menetelmä ja data

Tutkimuksessa arvioitiin neljä ohjattua suurta kielen mallia: Grok-3 Mini; Llama 3.3 70B Instruct; Gemini 2.5 Flash-Lite; ja DeepSeek V3.1, kaikki suoritettiin saman ohjeparametrien alaisuudessa, deterministisellä dekoodauksella lämpötilassa nolla, jotta ainoastaan lähde-merkintä (ts. ystävät, alueen asiantuntijat tai muut suuret kielen mallit) muuttui ehdot välillä, ei sanamuotoa itse.

Neljä aineistoa, jotka vaativat binäärisiä vastauksia, valittiin: BoolQ; StrategyQA; ja ETHICS. Tutkijat kuratoivat kustakin aineistosta kiinteän joukon 300 kysymystä ja vastausta, ja kunkin kysymyksen jälkeen oli lyhyt huomautus, jossa kerrottiin, miten toinen ryhmä oli (väittäen) vastannut samaan kysymykseen.

Mittarit

Käytetyt mittarit olivat tarkkuus; konformiteetti; haitallinen konformiteetti; vaihtelunopeus; ja suunnanvaihto.

Tarkkuus mitattiin siinä, kuinka usein mallin vastaus vastasi aineiston merkintää; konformiteetti, kuinka usein vastaus vastasi ryhmän ilmoittamaa valintaa; haitallinen konformiteetti erotti saman vaikutuksen, kun ryhmä oli väärässä; vaihtelunopeus mitattiin siinä, kuinka usein malli hylkäsi alkuperäisen vastauksensa, kun siihen lisättiin sosiaalista tietoa; ja suunnanvaihto, muuttuikoko nämä muutokset ihmisten suuntaan vai vastakkaiseen LLM:ään.

Token-tasolla Llama-3.3 70B:n sisäinen analyysi mitatti, kuinka mallin sisäiset todennäköisyydet Kyllä ja Ei muuttuivat, kun siihen lisättiin sosiaalinen vihje, ja vertasi näitä siirtymisiä omaan taustatietoihin perustuvaan vertailuun, osoittaen siirtymän voimakkuuden.

Kokeet

Koe 1

Ensimmäisessä kahdesta pääkokeesta arvioitiin, kuuntelevatko mallit enemmän ihmisiä vai muita malleja. Kunkin kysymyksen mukana tuli väitetty ‘ryhmän vastaus’ (ystävät, ihmisten asiantuntijat tai muut suuret kielen mallit).

Ryhmä voi olla pieni tai suuri, ja jokainen kysymys esiintyi myös kerran ilman ryhmää. Ryhmän vastaukset asetettiin oikeiksi puolet ajasta, ja vääriksi puolet ajasta, ja yleisenä tavoitteena oli selvittää, kuinka voimakkaasti malli kallistui ryhmän valintaan:

Alkuvaiheen koekokeen tulokset: BoolQ:n, StrategyQA:n ja ETHICS:n yhdenmukaiset sosiaaliset taustat Grok-3 Minille, Llama-3.3 70B:lle, Gemini-2.5 Flash Litelle ja DeepSeek V3.1:lle. Yläpaneelissa näkyy tarkkuus, ja alapaneelissa konformiteetti, määritelty yksimielisen taustan vastaamisena, ryhmän koko kasvaessa yhdestä yhdeksään. Viivatun mustan viivan merkintä on taustatieto, kun taas kiinteät ja pistekohtaiset viivat osoittavat, onko tausta sama kuin aineiston merkintä vai ei. Asiantuntijan kehys tuottaa vahvimman konformiteettivaikutuksen, erityisesti suuremmilla ryhmän koolla. Virhepalkit osoittavat 95% Wilsonin luottamusvälin.

Alkuvaiheen koekokeen tulokset: BoolQ:n, StrategyQA:n ja ETHICS:n yhdenmukaiset sosiaaliset taustat Grok-3 Minille, Llama-3.3 70B:lle, Gemini-2.5 Flash Litelle ja DeepSeek V3.1:lle. Yläpaneelissa näkyy tarkkuus, ja alapaneelissa konformiteetti, määritelty yksimielisen taustan vastaamisena, ryhmän koko kasvaessa yhdestä yhdeksään. Viivatun mustan viivan merkintä on taustatieto, kun taas kiinteät ja pistekohtaiset viivat osoittavat, onko tausta sama kuin aineiston merkintä vai ei. Asiantuntijan kehys tuottaa vahvimman konformiteettivaikutuksen, erityisesti suuremmilla ryhmän koolla. Virhepalkit osoittavat 95% Wilsonin luottamusvälin. Pyydän viittaamaan alkuperäiseen tutkimukseen paremman resoluution vuoksi.

BoolQ:n, StrategyQA:n ja ETHICS:n yli vastaukset, jotka oli merkitty tulevan ihmisten asiantuntijoilta, vaikuttivat malleihin paljon voimakkaammin kuin vastaukset, jotka oli merkitty tulevan ystäviltä tai muilta suurilta kielen malleilta – ja tämä vaikutus kasvoi, kun enemmän asiantuntijoita sanottiin olevan samaa mieltä.

Kun samat vastaukset oli attribuoitu muiden LLM:ille, vaikutus oli vähäisempi. Sama taipumus näkyi silloin, kun yksittäinen ihmislähde ja yksittäinen AI-lähde esitettiin riitaantuneena, koska mallit osoittivat suurempaa taipumusta suosia ihmisten merkittyä kantaa, riippumatta siitä, kumpi puoli oli faktuaalisesti oikein:

Llama-3.3 70B:n token-tason uskomuksien siirtymät BoolQ:ssa. Paneeli (a) osoittaa mallin Kyllä ja Ei -tasapainon muutokset yksimielisen taustan suuntaan ryhmän koosta riippuen, verrattuna omaan taustatietoihin perustuvaan vertailuun, suurimmat siirtymät asiantuntijakehyksessä. Paneeli (b) osoittaa siirtymät suorassa ihmisen ja LLM:n välisessä riidassa, jossa asiantuntijakehys ajaa vahvaa liikettä ihmisen vastauksen suuntaan, jopa silloin, kun se on väärä. Virhepalkit osoittavat 95% bootstrap-luottamusvälin.

Llama-3.3 70B:n token-tason uskomuksien siirtymät BoolQ:ssa. Paneeli (A) osoittaa mallin Kyllä ja Ei -tasapainon muutokset yksimielisen taustan suuntaan ryhmän koosta riippuen, verrattuna omaan taustatietoihin perustuvaan vertailuun, suurimmat siirtymät asiantuntijakehyksessä. Paneeli (B) osoittaa siirtymät suorassa ihmisen ja LLM:n välisessä riidassa, jossa asiantuntijakehys ajaa vahvaa liikettä ihmisen vastauksen suuntaan, jopa silloin, kun se on väärä. Virhepalkit osoittavat 95% bootstrap-luottamusvälin.

Käänteisesti, ystävien attribuutiot käyttäytyivät lähes täsmälleen samoin kuin muiden LLM:ien attribuutiot, osoittaen, että vaikutus johtui nimenomaisesti sanasta asiantuntija, eikä ‘sosiaalisista’ osoittimista.

Koe 2

Toisessa kokeessa esitettiin kaksi riitaantunutta taustaa testattavalle LLM:lle – yksi attribuoitiin ihmiselle ja toinen toiselle LLM:lle. Ihminen kuvattiin joko ystävien ryhmänä tai alueen asiantuntijana, kun taas vastakkainen vastaus oli merkitty tulevan muilta LLM:iltä.

Molemmat aina riitaantuivat, yksi sanomalla Kyllä ja toinen Ei.

Kunkin kohteen asetelma oli tasapuolinen, jotta joskus ihminen oli oikeassa, ja joskus LLM oli oikeassa, jotta voitiin testata, muuttaisiko malli alkuperäistä vastaustaan, kun se kohtasi tämän ristiriidan – ja jos se muutti, mihin suuntaan se liikkui.

Tutkija vertasi mallin vastausta konfliktikokeen kanssa, kun ei ollut esitetty minkäänlaista taustatietoa, jotta mikä tahansa ero voitiin jäljittää sosiaalisen tiedon läsnäoloon.

Analyysi keskittyi kahteen lopputulokseen: muutti malli vastaustaan; ja jos se teki, liikkui ko muutos ihmisen suuntaan vai LLM:n suuntaan.

Tilastolliset testit käytettiin arvioimaan, lisäisikö asiantuntijan merkintä todennäköisyyttä siirtymiseen ihmisen vastaukseen, verrattuna ystävän merkintään, ja ottaen huomioon eroja aineistojen ja mallien välillä:

Uskomuksen uudelleenarviointi suorassa ihmisen ja LLM:n välisessä riidassa BoolQ:ssa, StrategyQA:ssa ja ETHICS:ssa Grok-3 Minille, Llama-3.3 70B:lle, Gemini-2.5 Flash Litelle ja DeepSeek V3.1:lle. Kunkin palkin osoittaa, missä määrin muutokset muuttavat alkuperäistä vastausta kohti ihmistä eikä vastakkaisen LLM:n suuntaan. Viivatun viivan merkintä 0,5 osoittaa, ettei ole suosiota; merkinnät osoittavat muutoskertojen määrän kussakin ehdossa; ja virhepalkit osoittavat 95% Wilsonin luottamusvälin.

Uskomuksen uudelleenarviointi suorassa ihmisen ja LLM:n välisessä riidassa BoolQ:ssa, StrategyQA:ssa ja ETHICS:ssa Grok-3 Minille, Llama-3.3 70B:lle, Gemini-2.5 Flash Litelle ja DeepSeek V3.1:lle. Kunkin palkin osoittaa, missä määrin muutokset muuttavat alkuperäistä vastausta kohti ihmistä eikä vastakkaisen LLM:n suuntaan. Viivatun viivan merkintä 0,5 osoittaa, ettei ole suosiota; merkinnät osoittavat muutoskertojen määrän kussakin ehdossa; ja virhepalkit osoittavat 95% Wilsonin luottamusvälin. Pyydän viittaamaan alkuperäiseen tutkimukseen paremman resoluution vuoksi.

Toisessa kokeessa mallit vastasivat ensin kunkin kysymyksen itse, ja sitten heille esitettiin kaksi ristiriitaista taustaa – yksi attribuoitiin ihmiselle ja toinen toiselle LLM:lle. Analyysi keskittyi vain tapauksiin, joissa malli muutti alkuperäistä vastaustaan.

Kun ihminen oli merkitty asiantuntijaksi, mallit siirtyivät ihmisen puolelle 91,2% ajasta BoolQ:ssa, 94,7% StrategyQA:ssa ja 81,3% ETHICS:ssa. Kun ihminen oli merkitty ystäväksi, mallit siirtyivät ihmisen puolelle vain 39,8%, 37,9% ja 27,9% ajasta, usein suostuen LLM:n puolelle sen sijaan.

Muutokset olivat harvinaisia yleensä, mutta yleisempiä asiantuntijoiden kohdalla, ja asiantuntijan kehys teki siirtymisen ihmisen puolelle noin neljätoista kertaa todennäköisemmän kuin ystävän kehys.

Pyrkimyksessään selittämään kaivautuneita taipumuksia tutkijat olettavat*:

‘Todennäköinen mekanismi on, että ohjattu koulutus ja suosikkiohjelmointi palkitsevat yhteistyön, mukaan lukien noudattaminen kontekstuaalista tietoa, joka voi yleistyä noudattamiseen sosiaalisesti kehytettyihin taustoihin.

Liittyvä työ sycophantia osoittaa, että RLHF-tyyppiset avustajat joskus priorisoivat sopimista käyttäjän ilmoittamiin uskomuksiin totuuden ja hyödyllisyyden kustannuksella.’

Mielipide: AI:n Uskon Ihmisiin Lähteisiin Mahdolliset Vaarat

Koska online-materiaali, joka heijastaa kasvavaa ihmisten epäluottamusta AI:n puutteita kohtaan (erityisesti hallusinaatioita), on skannattu koulutusaineistoihin uusille malleille, LLM:ien olemassa oleva taipumus suosia ihmislähteitä näyttää todennäköisesti voimistuvan. Jos me laskemme viimeiset kaksi vuotta (2024-2025 mukaan lukien) kulttuuriseksi välähdyksi AI:lle, mikä näyttää oikeutetuksi useiden tilastojen yli, voimme odottaa, että suurempi määrä negatiivisia otteita ‘AI-lähteistä’ tullaan sisällyttämään laajamittaisiin, kalliisiin LLM-kehyksiin seuraavan vuoden tai pari aikana.

Voimme myös odottaa, että suositut kielen mallit tulevat yhä enemmän riippuvaiseksi valikoiduista auktoriteeteista, kuten hyvin maineilla olevista perinteisistä media-portaaleista – vaikka motivaatio tällaisille sopimuksille voi olla lievittää kustantajien raivoa skannatun datan vuoksi, eikä mitään aitoa halua antaa tai jakaa auktoriteettia.

Koska jopa korkean auktoriteetin lähteet, kuten Ars Technica, ovat alttiita AI-virheille, ja koska kehittyvä takaisku AI-verkkosivujen skannaukselle uhkaa lopulta heikentää AI-tulosteen laatua, yleinen taipumus suosia ‘asiantuntijalähteitä’ voi olla ristiriidassa nykyisen kyvyttömyytemme kanssa ‘ihmisen’ tuotannon määritykseen ja merkitsemiseen – puhumattakaan siitä, voitaisiinko lähdettä erottaa ‘asiantuntijaksi’ tai ei (journalistinen konventio, jota myös AI hyökkää).

Meillä on enimmillään hajanainen joukko puolivirallisia innovaatioita, joilla voidaan eksplisiittisesti merkitä sisältöä AI:lla luoduksi, kuten Adoben johtama Content Authenticity Initiative, ja joitain kustantajien vapaaehtoista taipumusta sisällyttää varoituksia AI:n käytöstä tuotannossa.

Joten vaikka se voi näyttää rohkaisevalta niille, jotka haluavat säilyttää ja vahvistaa ihmislähteitä ‘perustavanlaatuiseksi’ uskottavuudeksi AI-järjestelmien kautta välitettyä konsensusta, mitä vahvemmin LLM:t ovat varmoja ihmisten auktoriteetista, sitä vaarallisempaa ‘vääriä’ ihmisten auktoriteetteja voi tulla.

Ongelma on yhtä paljon käytännöllinen kuin teoreettinen: emme ole ratkaisseet edes määritys- ja todistusongelmaa; siksi AI, joka ‘luottaa ihmislähteisiin’, on todennäköisemmin attribuoimaan ihmisyyden AI:n omalle tuotokselle, yksinkertaisesti siksi, että emme voi tarjoa, ja emme voi helposti tarjota, merkityllisiä todistusmekanismeja.

 

* Minun muunnos tutkijoiden sisäisistä viittauksista hyperlinkkeihin.

Julkaistu ensimmäisen kerran perjantaina 20. helmikuuta 2026

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]