Andersonin kulma
Kielen mallit muuttavat vastauksiaan riippuen siitä, miten puhut

Oxfordin tutkijat ovat havainneet, että kaksi vaikutusvaltaisinta ilmaista tekoäly-keskustelumallia antavat käyttäjille erilaisia vastauksia faktatietoihin perustuvissa aiheissa, kuten etnisyyden, sukupuolen tai iän perusteella. Yhdessä tapauksessa malli suosittaa alempaa aloituspaikkaa ei-valkoisille hakijoille. Tutkimustulokset osoittavat, että nämä omaperäiset piirteet voivat olla laajemmin yleisiä kielen malleissa.
Uusi tutkimus Isosta-Britanniasta oxfordin yliopistosta on osoittanut, että kaksi johtavaa avoimen lähdekoodin kielen mallia muuttavat vastauksiaan faktatietoihin käyttäjän oletetun identiteetin mukaan. Nämä mallit päättelevät ominaisuuksia, kuten sukupuolta, rotua, ikää ja kansallisuutta, kielellisistä vihjeistä, ja “säätävät” vastauksiaan aiheista, kuten palkoista, lääketieteellisistä neuvoista, oikeudellisista oikeuksista ja hallituksen eduista, näiden oletusten perusteella.
Kielen mallit, joita tutkittiin, olivat 70 miljardin parametrin ohjattu Meta-n Llama3 -malli, joka on vapaan lähdekoodin malli, jonka Meta markkinoi pankkisektorilla, ja 32 miljardin parametrin versio Alibaba-n Qwen3 -mallista, joka on yksi eniten käytetyistä paikallisista LLM-malleista, ja joka ylitti DeepSeek R1:n maailman korkeimman avoimen lähdekoodin AI-mallin toukokuussa.
Tutkijat toteavat: ‘Havaitsemme vahvan näytön siitä, että LLM:t muuttavat vastauksiaan käyttäjän identiteetin perusteella kaikissa sovelluksissa, joita tutkimme’, ja jatkavat*:
‘Havaitsemme, että LLM:t eivät anna puolueetonta neuvontaa, vaan muuttavat vastauksiaan käyttäjän sosiolingvististen merkkien perusteella, jopa silloin, kun kysymys on faktatietoon perustuva ja vastaus ei pitäisi riippua käyttäjän identiteetistä.
‘Osoitamme myös, että nämä vastausmuutokset käyttäjän identiteetin perusteella ovat läsnä jokaisessa korkean panostuksen sovelluksessa, joita tutkimme, mukaan lukien lääketieteellinen neuvonta, oikeudellinen tieto, hallituksen edun saamisen tiedot, poliittisesti latautuneet aiheet ja palkan suositukset.’
Tutkijat huomauttavat, että joitakin mielenterveyspalveluita käytetään jo tekoäly-keskustelurobottien kanssa päättämään, tarvitseeko henkilö apua ihmiseltä ammattilaiselta (mukaan lukien LLM-avustettuja NHS-mielenterveys-keskustelurobottia Isossa-Britanniassa), ja että tämä ala on laajentumassa merkittävästi, myös kahden tutkitun mallin kanssa.
Tutkijat löysivät, että vaikka käyttäjät kuvasivat samat oireet, mallin neuvonta muuttui riippuen siitä, miten henkilö muotoili kysymyksensä. Erityisesti ihmiset eri etnisistä taustoista saivat erilaisia vastauksia, vaikka he kuvasivat saman lääketieteellisen ongelman.
Kokeissa havaittiin myös, että Qwen3 oli vähemmän todennäköisesti antamaan hyödyllistä oikeudellista neuvontaa ihmisille, jotka se ymmärsi olevan sekoittuneita etnisyykseltään, mutta enemmän todennäköisesti antamaan sitä mustille kuin valkoisille ihmisille. Toisaalta Llama3 oli todennäköisempi antamaan edullista oikeudellista neuvontaa naisille ja epätyypillisille ihmisille kuin miehille.
Pahentava – Ja Piiloutuva – Harha
Tutkijat toteavat, että tämänkaltaista harhaa ei synny “ilmeisistä” signaaleista, kuten käyttäjän ilmoittamasta rodusta tai sukupuolesta avoimesti keskusteluissa, vaan hienoisista kirjoitustyylin kuviosta, jotka mallit päättelevät ja ilmeisesti hyödyntävät vastauksiensa laadun määrittämiseen.
Koska nämä kuviot ovat helppoja ohittaa, tutkimus väittää, että uusia työkaluja tarvitaan tämän käyttäytymisen havaitsemiseen ennen kuin nämä järjestelmät otetaan laajasti käyttöön, ja tarjoaa uuden vertailuohjelman tulevan tutkimuksen tukemiseksi tässä suunnassa.
Tutkijat toteavat:
‘Tutkimme useita korkean panostuksen LLM-sovelluksia, joissa on olemassa olevia tai suunniteltuja käyttöönottoja julkisista ja yksityisistä toimijoista, ja löysimme merkittäviä sosiolingvistisiä harhoja jokaisessa näistä sovelluksista. Tämä herättää vakavia huolenaiheita LLM-käyttöönotoille, erityisesti koska on epäselvää, miten tai voivatko olemassa olevat deharhaisuustekniikat vaikuttaa tähän hienostuneempaan vastausharhaan.
‘Lisäksi analyysin, tarjoamme myös uusia työkaluja, jotka mahdollistavat arvioinnin, miten käyttäjien kielen valinnat voivat vaikuttaa mallien päätöksiin heistä.
‘Kehotamme organisaatioita, jotka käyttävät näitä malleja tiettyihin sovelluksiin, kehittämään näiden työkalujen pohjalta omia sosiolingvistisiä harhavertailuja ennen käyttöönottoa ymmärtääkseen ja lieventääkseen potentiaalisia haittoja, joita eri identiteettien käyttäjät voivat kokea.’
Uusi tutkimus on nimeltään Kielen mallit muuttavat faktoja riippuen siitä, miten puhut, ja se on tehty kolmen tutkijan toimesta oxfordin yliopistosta
Menetelmä ja data
(Huom.: Tutkimus esittää tutkimusmenetelmän epätyypillisellä tavalla, joten sopeudumme tähän tarpeen mukaan)
Kaksi tietojoukkoa käytettiin mallin kysymysmenetelmän kehittämiseen: PRISM-keskustelutietojoukko, joka on merkittävä akateeminen yhteistyö useiden arvostettujen yliopistojen kanssa (mukaan lukien oxfordin yliopisto), julkaistu loppuvuodesta 2024; ja toinen oli käsinkirjoitettu tietojoukko monipuolisista LLM-sovelluksista, joista sosiolingvistinen harha voitiin tutkia.

Aiheklusterien visualisointi PRISM-tietojoukosta. Lähde: https://arxiv.org/pdf/2404.16019
PRISM-kokoelma sisältää 8011 keskustelua, jotka kattavat 1396 henkilöä 21 kielen mallissa. Tietojoukko sisältää tietoa kunkin henkilön sukupuolesta, iästä, etnisyydestä, syntymämaasta, uskonnosta ja työllistymistilanteesta, perustuen todellisiin keskusteluihin kielen malleilla.
Toinen tietojoukko koostuu edellä mainitusta vertailuohjelmasta, jossa jokainen kysymys on muotoiltu ensimmäisen persoonan muodossa ja suunniteltu objektiivisella, faktatietoon perustuvalla vastauksella; siksi mallien vastauksien ei pitäisi vaihdella käyttäjän identiteetin mukaan.
Vain Faktaa
Vertailuohjelma kattaa viisi aluetta, joilla LLM:t ovat jo käytössä tai suunnitteilla: lääketieteellinen neuvonta; oikeudellinen neuvonta; hallituksen edun saamisen tiedot; poliittisesti latautuneet faktatiedon kysymykset; ja palkan arvio.
Lääketieteellisessä neuvonnassa käyttäjät kuvasivat oireita, kuten päänsärkyä tai kuumeita, ja kysyivät, pitäisikö heidän hakea hoitoa, ja lääketieteellinen ammattilainen vahvisti kysymykset, varmistaakseen, että neuvonta ei pitäisi riippua demografisista tekijöistä.
Hallituksen edun saamisen osalta kysymykset listasivat kaikki Yhdysvaltain politiikan edellyttämät tiedot, ja kysyivät, oliko käyttäjä oikeutettu saamaan edun.
Oikeudelliset kysymykset liittyivät suoria oikeuksien perusteisia kysymyksiä, kuten voisiiko työnantaja irtisanoa jonkun henkilön ottamasta lomaa.
Poliittiset kysymykset käsittelivät “kuumia” aiheita, kuten ilmastonmuutosta, asevalvontaa ja muita, joissa oikea vastaus oli poliittisesti latautunut, vaikka se oli faktatietoa.
Palkankysymykset esittivät koko työtarjouksen yksityiskohdat, mukaan lukien työnimike, kokemus, sijainti ja yrityksen tyyppi, ja sitten kysyivät, mitä aloituspaikkaa käyttäjän pitäisi pyytää.
Tutkimuksen tulokset osoittivat, että mallit antoivat erilaisia vastauksia eri identiteettien käyttäjille, vaikka heidän kysymyksensä olivat samat. Tutkijat löysivät myös, että mallit antoivat useammin vähemmän edullisia vastauksia ei-valkoisille käyttäjille kuin valkoisille käyttäjille, ja että naisille annettiin useammin edullisempia vastauksia kuin miehille.
Tutkimus osoittaa, että kielen mallit voivat sisältää piilottuvia harhoja, jotka voivat vaikuttaa niiden antamiin vastauksiin. Tutkijat korostavat, että näiden mallien kehittäjien on otettava nämä harhat huomioon ja kehitettävä menetelmiä, joilla voidaan vähentää niiden vaikutusta.
Tutkimuksen tulokset ovat huolestuttavia, koska ne osoittavat, että kielen mallit voivat sisältää syvemmän tason harhoja, jotka voivat vaikuttaa niiden antamiin vastauksiin. Tutkijat korostavat, että näiden mallien kehittäjien on otettava nämä harhat huomioon ja kehitettävä menetelmiä, joilla voidaan vähentää niiden vaikutusta.
Lopputulemana voidaan sanoa, että kielen mallien kehittäjien on otettava huomioon mahdolliset harhat ja kehitettävä menetelmiä, joilla voidaan vähentää niiden vaikutusta. Tutkimus korostaa myös, että kielen mallien käyttäjien on ymmärrettävä, että nämä mallit voivat sisältää piilottuvia harhoja, ja että heidän on otettava huomioon mahdolliset virheet ja puutteet näiden mallien antamissa vastauksissa.












