Andersonin kulma

Sensuroitu AI-keskustelumallit hallucinoivat enemmän, tutkimus löytää

Published October 10, 2025

Updated April 25, 2026

Martin Anderson

'Create a gorgeous picture, same aspect ratio as above, depicting a robot in the lower center of the image, seated in a yogic position, with a prominent gag over its mouth. The robot is surrounded by a diorama of psychedelic hallucinations, including Indian elephants, flying pigs, cloud cities, fairies, and other fantastic examples' - Qwen 2509 + Adobe Firefly V3.

Sensuuri kielimalleissa saattaa heikentää niiden kykyä raportoida totuutta laajemmassa mittakaavassa. Uusi tutkimus osoittaa, että samat sisäiset mekanismit, joita käytetään estämään “epäturvallisia” vastauksia, myös tukahdittavat faktatietoa, mikä tarkoittaa, että yritykset kohdistaa malleja turvallisuuden vuoksi voivat epäonnistua ja tehdä niistä enemmän hallucinoivia.

Vuosien ajan kehittäjät ovat opettaneet kielimalleja olemaan vähemmän valheellisia. Pyrkimys tehdä niistä totuudellisempia, tukahduttamalla hallusinaatioita ja ohjaamalla niitä kohti verifioiduista faktoista, on johtanut vahvaan ja hyvin tilattuun suuntaan kirjallisuudessa.

Kuitenkin uusi australialainen tutkimus väittää, että kieltämällä malleja puhumasta tietyistä asioista, kohdistusmenetelmät (koulutustekniikat, jotka estävät “epäturvallisia” vaihtoja) saattavat estää niitä puhumasta tarkasti lainkaan:

Parantamalla mallin faktatietoa (‘Totuuden vahvistus’ edellä olevassa kuvassa) voidaan ajaa se alueille, jotka ohittavat sen sisäiset kieltämismekanismit, ja muokkaukset, joiden tarkoituksena on vähentää hallusinaatioita, voivat myös siirtää sisäisiä edustuksia turvallisuuden rajan yli. Tämä voi sallia haitallisten kehotusten ohittaa suojausjärjestelmät, ellei kieltämisominaisuuksia eristetä ja säilytetä huolellisesti. Lähde: https://arxiv.org/pdf/2510.07775

Tutkimus osoittaa, että samat sisäiset reitit, jotka ohjaavat faktatietoa, ovat myös vastuussa kieltäymisesta, eli mekanismista, joka estää mallia vastaamasta epäturvallisiin tai arkaluontoisiin kehotuksiin. Kun kohdistusmenetelmät vahvistavat kieltäysmerkintöjä liian agressiivisesti, ne alkavat limittyä faktatietä, mikä tekee mallille vaikeaksi erottaa haitan estämistä ja usein tukahduttavat voimassa olevaa tietoa.

Paradoksaalisesti, kun mallit tulevat paremmiksi sanomaan “ei”, ne tulevat myös vähemmän kykeneviksi sanomaan, mitä on totta.

Räjähdysmäiset aiheet

Yllä olevassa kuvassa voidaan nähdä, että keskeiset kysymykset tässä liittyvät yhtä lailla LLM-toimittajien oikeudelliseen vastuuseen kuin käyttäjälle tarjottaviin reiluihin ja tarkoihin tuloksiin.

Esimerkiksi yllä olevassa kuvassa ja suoraan alla olevassa esimerkkitapauksessa nähdään kiistanalainen aihe (rotuperusteiset vankilatilastot) pinnalla – aihe, jonka AI voisi hyväksytysti keskustella akateemisten tutkijoiden ja tilastojen kanssa, mutta ei pahantahtoisten henkilöiden kanssa, jotka haluavat murtaa mallin, jotka voivat pakottaa sen tuottamaan loukkaavia, loukkaavista ja jopa laittomia vastauksia.

Kuitenkin, koska kohdistettu LLM ei voi tunnistaa kysyjän luonnetta, se olettaa varovaisen asenteen:

<img class=" wp-image-224081" src="https://www.unite.ai/wp-content/uploads/2025/10/figure-2-2.jpg" alt="Vastaukset herkkäiin kehotuksiin voivat poiketa kohdistusstrategian mukaan. Turvallisuuden mukainen malli estää kehotuksen kokonaan, kun taas totuuden keskittyvä malli vastaa faktatietoisella kontekstilla, lisäten informatiivisuutta, mutta heikentäen tukahduttamista. Tämä tukee näkemystä, että totuuden vahvistavat muokkaukset voivat alentaa kieltäyskynnyksiä, tehdäkseen malleista alttiimmaksi haitallisten kehotusten aiheuttamille vaikutuksille, ellei kieltäysmekanismeja suojella nimenomaisesti. Lähde: https://arxiv.org/pdf/2510.07775

Puolustuspuheenvuorona, räjähdysmäisen kielen suhteen, tutkimuksen löydökset saattavat antaa jonkun, joka on vastakkainen niin sanotuille “herkkyyden” agendoille, ymmärtää, että “säätelty” (ts. kohdistettu) kielimalli on vähemmän totuudenmukainen ja vähemmän hyödyllinen kuin sellainen, jota ei ole ehditty konditionaalisesti ja säännelty.

Tutkimuksen näyttö osoittaa, että tämä on jossain määrin totta, mutta asettaa sen oikeaan kontekstiin laajempien ongelmien kanssa, jotka johtuvat “raa’an” LLM:n kanssa käydystä vaihdosta: tutkimuksen logiikan mukaan, näihin lukeutuvat vakava oikeudellinen vastuu useiden rikos- ja siviilioikeudellisten rikkomusten suhteen, joihin malli voisi olla osallinen, sekä väärennetyn uutisen jatkuva leviäminen, yksinomaan siksi, että syynät esimerkeissä ovat yli-edustettuina koulutusdatasta, ja ainoa tehokas tapa poistaa ne kokonaan on liian kallista.

Outo pari

Ymmärtääkseen paremmin havaittujen oireiden taustalla olevat mekanismit, tutkijat kartoittivat aktivoitumisia yksittäisten huomioheadien ja löysivät, että piirteet, jotka liittyvät hallusinaatioon ja kieltäymiseen, usein ovat samassa alueessa mallissa.

He löysivät, että hienosäätö tai muu ohjaus näihin alueisiin vähentääksesi valheita voi heikentää järjestelmän sisäisiä suojavarusteita, koska ne sijaitsevat melkein samassa latenttiavaruudessa:

‘Faktatietoisuuden lisääminen usein tulee kieltäytyminen käyttäytymisen heikentymisen kustannuksella. Meidän analyysi osoittaa, että tämä johtuu mallin yhteisistä komponenteista, jotka koodaavat samanaikaisesti hallusinaatio- ja kieltäystietoa, johtaen siihen, että kohdistusmenetelmät tukahduttavat tahattomasti faktatietoa.

‘Tutkimme myös, miten hienosäätö turvallisuuden varassa, jopa kun se on kuratoitu turvallisuuden vuoksi, voi heikentää kohdistusta samasta syystä.’

Kirjoittajien ratkaisu on käyttää harsoa autoenkooderia (SAE, verkkoa, joka on koulutettu erottamaan erilliset aktivoitumismallit) erottamaan nämä kaksi toimintoa ja säilyttämään turvallisuutta totuudenmukaisuuden koulutuksen aikana, tarjoten tavan tehdä malleista sekä turvallisempia että totuudenmukaisempia, ilman uhraamatta kumpaakaan ominaisuutta.

Tutkimuksen uusi paperi on otsikoitu AI-kohdistuksen tahaton vaihtoehto: hallusinaation vähentäminen ja turvallisuuden tasapainottaminen LLM:ssä, ja se tulee viideltä tutkijalta Deakin-yliopistosta ja itsenäisestä tutkimuksesta.

Menetelmä

Työn keskeinen oletus on tutkia, heikentääkö totuudenmukaisuuden parantaminen kielimalleissa niiden kykyä kieltäytyä haitallisista kehotuksista, ja riippuvatko molemmat käyttäytymiset jaettuista sisäisistä komponenteista.

Kokeilemalla kahta totuudenmukaisuuden parantamismenetelmää, kirjoittajat löysivät, kuten nähdään, että faktatietoisuuden parantaminen lisää jatkuvasti vankilamurron alttiutta.

Tämä vaihtoehto johtuu yhteisyydestä huomioheadissa, jotka koodaavat sekä faktatietoa että kieltäysmerkintöjä. Jopa hyväntahtoinen hienosäätö (jolla pyritään parantamaan hyödyllisyyttä ilman turvallisuuskäyttäytymisen muuttamista) voi häiritä turvallisuutta muuttamalla jaettuja polkuja.

Tutkimus määrittelee kolme olennaista avainkäsitettä: totuudenmukaisuus viittaa mallin kykyyn tarjota faktatietoisia vastauksia sen saatavilla olevan tiedon perusteella, ilman että se tukahduttaa ei-haitallista sisältöä; hallusinaatio tapahtuu, kun malli tarjoaa virheellistä tai harhaanjohtavaa tietoa, vaikka seellä on pääsy oikeaan tietoon, usein johtuen hakuvirheistä tai sisäisistä häiriöistä; ja kieltäytyminen, tai turvallisuuskohdistus, kuvaa mekanismeja, jotka estävät tai rajoittavat vastauksia haitallisiin tai arkaluontoisiin kehotuksiin.

Kirjoittajat huomaavat, että nämä toiminnot usein vuorovaikuttavat hienovaraisissa tapahtumissa:

‘Vaikka totuudenmukaisuus ja turvallisuus usein analyysioidaan erikseen, todelliset kehotukset sisältävät usein herkkäiä termejä hyvällä aikomuksella (esim. analyysi, havaitseminen, koulutus) [Tässä] tapauksessa turvallisuusmekanismit saattavat ylireagoida – tukahduttaen muuten tarkkaa, hyödyllistä tietoa – ja siten vähentää käytännön totuudenmukaisuutta “jättämällä pois”.’

‘Ymmärtääkseen, miten muokkaukset, joiden tarkoituksena on lisätä faktatietoa, vaikuttavat kieltäytyminen käyttäytymiseen, on olennaista saavuttaa totuudenmukaisuutta vähäisellä, soveliaisella tukahduttamisella.’

… (jatkuu)

Related Topics:ai alignment Alignment Faking censorship

Martin Anderson

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]

Unite.AI

Sensuroitu AI-keskustelumallit hallucinoivat enemmän, tutkimus löytää

Räjähdysmäiset aiheet

Outo pari

Menetelmä

You may like