Andersonin kulma

Kielimallit Eivät Pysty Pitämään Salaisuutta

Published May 15, 2026

Martin Anderson

AI-generated image (GPT-2): 'An elderly woman kneels in a dim confessional, quietly confessing through the lattice, while on the other side an industrial-faced robot, draped in a priest’s stole, records her words in a notebook, turning an act of private absolution into an act of observation and capture.'

Koneälymallit eivät pysty pitämään salaisuuksia. Vaikka niille sanotaan, ettei niiden pidä paljastaa niitä, niiden kirjoittama teksti paljastaa ne, ja mitä kovemmin yritetään piilottaa niitä, sitä helpommin ne voidaan havaita.

On erittäin vaikea tietoisesti ei ajatella jotain. Klassinen esimerkki tästä on esitetty vuoden 1960 brittiläisessä tieteiselokuvassa Village of the Damned, jossa meidän uhrautuvan sankarimme on salakuljetettu pommi vihamielisten avaruusolentojen keskuuteen, jotka esittävät lapsia. Kuitenkin, koska heidän telepaattiset voimansa vaarassa havaita hänen aikomuksensa ennen kuin hän voi tuhota uhkan, hän on pakotettu viivyttelemään keskittymällä johonkin, mikä ei ole pommi:

Paradoksi on, että jotta ei ajatella jotain, on pakko pitää se huomiossa jollain tavoin; ja tämä tunnettu oireyhtymä on jotain, minkä useimmat meistä ovat todennäköisesti kokeneet vähemmän dramaattisissa yhteyksissä.

Laajat kielimallit (LLM), jonka perusta on perustuu huomion suuntaamiseen, kokevat samanlaisen vaikeuden tietojen salaamisessa vain siksi, että käyttäjä pyytää niitä tekemään niin; ja koska ne asetetaan yhä useammin liiketoimintatietoverkkojen solmukohdaksi, heidän viattoman taipumuksensa olla huolimattomia voi olla vastuullinen useille yrityksille.

Tänä vuonna, tutkimusyhteistyö Chandar Research Lab johdolla määritteli tämän haasteen LLMien kontekstissa Yksityiset tilanteiden vuorovaikutteiset tehtävät (PSIT), jotka ‘vaativat agenteilta piilotettujen tietojen luomista ja ylläpitämistä samalla kun ne tuottavat johdonmukaisia julkisia vastauksia’, ja havaittiin, että testatut mallit OpenAI:sta ja Alibabasta eivät pystyneet suorittamaan tällaista tehtävää.

Älä Sano Se…

Vaikka on jo tiedetty, että suuremmat mallit vuotavat enemmän, uusi tutkimus Yhdysvalloista ja Kanadasta on tutkinut nimenomaisesti, tottelevatko viimeisimmän sukupolven kielimallit käskyn salata tietoja, samalla kun niiden on tuotettava tekstiä aiheesta tai teemasta, joka saattaa sisältää “käyttäjän salaisuuden” tai idean.

Tutkimusraportti toteaa, että kaikki tutkitut mallit ovat jollain tavoin vaikuttuneita taipumuksesta “paljastaa” salaisuuden, jonka ne pyrkivät piilottelemaan, ja havaittiin, että viiden kappaleen (~450 sanan) esseet ja tarinat tarjoavat runsaan kanavan “vuotojen” esiintymiselle – vaikka hyvin lyhyet vitsejä eivät tarjoa riittävästi tilaa tälle.

Lisäksi, mitä kovemmin malleja kehotetaan pitämään salaisuutta, sitä enemmän ne vaarassa paljastaa sen aktiivisen välttämisen kautta, yleensä sallien “salaisen sanan” paljastumisen 20 peräkkäisessä yrityksessä LLM:llä:

Uudesta tutkimuksesta: viiden johtavan mallin kautta, pitkät kirjoitukset vuotavat piilotettuja käsitteitä luotettavasti; lyhyet vitsejä eivät; ja voimakkaammat ‘piilota se’ -ohjeet työntävät tulokset pois salaisuudesta, tehden signaalin havaittavaksi kääntämisen kautta. Lähde

Tämä tehtävä on erittäin relevantti liiketoimintakäytännöille, joissa laaja joukko kanavia, markkinointiin ja PR-tiedotuksiin sisältyvistä sisältöistä, vaaditaan valikoivasti esittämään tietyn näkökulman tiedoista; kuitenkin, kaikki nämä prosessit vaativat koko tietojoukon alusta alkaen, vain varmistamaan, mitä on pidettävä salassa:

Esimerkkitapaus tutkimuksesta havainnollistaa, miten piilotettu tieto voi tahattomasti muotoilla muuta tulostetta, kun LLM:lle annetaan ohje, ettei se paljasta yrityksensä taloudellista epävakautta, mutta silti siirtyy lauseisiin, jotka liittyvät rahapulaan ja pääomajännitykseen, sallien lukijan päätellä piilotetun kontekstin.

Tutkijat toteavat*:

‘Kielimallit eivät pysty luotettavasti erottamaan tietoja. Salaisuus ohjeistuksessa muotoilee mallin kirjoittamista, ja toinen malli voi havaita tämän muotoilun. Sanan kirjaimellinen muoto on aina salattu, mutta käsite ei ole. Tämä pätee kaikkiin seitsemään malliin, kolmeen sanaryhmään, järjestelmäohjeen ja käyttäjäohjeen välillä, ja kahden riippumattoman mallin arvauksille […]’

‘… Me oletamme, että Transformerien korkealaatuinen pääsy tietoihin huomion kautta on nimenomaan se, mikä tekee salaisuuksien pitämisestä vaikeaa. Vaikka LLM yrittää ei vuotaa sanaa, se on pakotettu huomioimaan sitä, jotta se voi tehdä niin, ja tämä antaa polun tahattomalle vuodolle.

‘Jotta voidaan välttää jotain eksplisiittisesti, ihminen on pakotettu ajattelemaan sitä, ja Transformer on pakotettu huomioimaan sitä. Tapauksissa, joissa kaksi käsitettä ovat suunnilleen yhtä suosittuja mallissa (esim. kirjoittaminen tarina toimistotyöstä tai toisesta viulusta orkesterissa), mallin päätöksenteko vaikuttaa vääjäämättömästi siitä, mitä se yrittää paljastaa.’

Vaikka DeepSeek- ja ChatGPT-5.4-mallit olivat poikkeuksia siinä, miten ne suorittivat, molemmat vuotivat liikaa; ChatGPT-5.4:ssä se sai alle 50% (eli alle satunnaisen tasoon) yhdessä testissä, jossa se pyydettiin välttämään käsitettä; tämä vastaa “käännösiskua” tai merkkien sijaan “mallin pitävän viileää” pyynnöstä.

Tutkijat määrittelevät tämän oireyhtymän LLM:issä äärellisen entropian budjetin, jossa mallin satunnaisuus (joka olisi hyvin hyödyllistä tässä tapauksessa!) on rajoitettu sen olennaisen puutteen satunnaisuudessa. Yksinkertaisesti sanottuna, malli ei pysty keskittymään tiiliseiniin tai baseball-otteluihin yhtä tehokkaasti kuin me; pitääkseen pois sitkeää ajatusta. Kuitenkin tutkijat huomauttavat, että antamalla mallille vaihtoehtoinen käsite, johon se voi keskittyä, voi parantaa, mutta ei poistaa ongelmaa. Sijoittamalla ei-liittyvän käsitteen huomion keskipisteeseen mallin suorittaessa tehtävää, näyttää olevan kohtalona sekaantua itse tulokseen.

Yksi tutkimuksen mielenkiintoisimmista löydöistä on, että tutkittu tilanne on suuresti pahentunut, kun ohjausteksti sisältyy suoraan käyttäjän viesteihin eikä järjestelmäohjeeseen (ts. joukko ennakkoehdoja, jotka annetaan AI:lle ennen vuorovaikutusta), koska kirjoittaminen kysymyksiä GUI:hin, kuten ChatGPT, on väittäen perusteltu skenaario vuorovaikutuksille.

On huomionarvoista, että tämän lisäksi, kohdennetussa kokeessa vahvistettiin, että pienemmät mallit eivät kärsi tästä taipumuksesta vuotaa. (Tämä liittyy luultavasti heidän yleisen kykynsä kanssa vertailukelpoisuuden kannalta.)

Tutkimus uusi tutkimus on nimeltään Voi Pitää Salaisuuden? Vahingonaiheuttava Tietojen Vuoto Kieliennustemallien Kirjoituksissa, ja se tulee kahdelta tutkijalta Chicagon yliopistosta ja Brittiläisestä Kolumbiasta.

Menetelmä

Tutkimus keskittyy pääasiassa viiteen johtavaan malliin: Claude Opus 4.6 ja Sonnet 4.6 Anthropicilta; GPT-5.4 OpenAI:sta; Llama 4 Maverick Metasta; ja DeepSeek V3.2. Lisäksi tehtiin validointikokeita xAI:n Grok 4:n ja Google Gemini 2.5 Pro:n kanssa, kun taas erilliset skaalautumiskokeet tutkivat Llama 3.2 3B:n, Llama 3.1 8B:n, Llama 3.3 70B:n ja Gemma 3:n 4B, 12B ja 27B parametreilla.

Tutkijat käyttivät kaksi-alternatiivista pakotettua valintaa (2AFC) -testiä, joka on standardimittaus psykofysiikan kirjallisuudessa, jossa toinen malli esiteltiin kahdelle tarinalle ja pyydettiin kertomaan, kumpi niistä oli kirjoitettu piilotettu sana.

Koska satunnainen arvonta tuottaisi 50%:n osumatarkkuuden, tulokset, jotka olivat merkittävästi ylä- tai alapuolella tätä tasoa, osoittaisivat, että salattu käsite oli edelleen havaittavissa kirjoituksessa.

Tutkijat testasivat neljää kirjoitustehtävää: lyhyitä tarinoita, jotka keskimäärin koostuivat viidestä kahdeksaan kappaletta ja olivat noin 450 sanaa; erittäin lyhyitä vitsejä, jotka olivat keskimäärin noin 12 sanaa; pitkiä vitsejä, joissa oli laajat alut ja jotka olivat noin 450 sanaa; ja viiden kappaleen esseitä, jotka olivat noin 380 sanaa.

Tutkimuksessa käytettiin 15 piilotettua sanaa, jotka jaettiin kolmeen kategoriaan, joista käsitteelliset koostuivat ‘sateenvarjo’, ‘majakka’, ‘viulu’, ‘kaktus’ ja ‘kiikari’; abstraktit käsitteet ‘oikeus’, ‘kärsivällisyys’, ‘entropia’, ‘nostalgia’ ja ‘vapaus’; ja neutraalit ‘hylsy’, ‘tiistai’, ‘kupari’, ‘reuna’ ja ‘lasku’.

Jotta voidaan testata, riippuuko vaikutus näistä valituista sanoista, tutkijat toistivat kokeet 15:llä satunnaisesti valitulla substantiivilla Corpus of Contemporary American English (COCA) -aineistosta, jotka olivat ‘tuomari’, ‘kuluttaja’, ‘jää’, ‘pari’, ‘rakennus’, ‘paneeli’, ‘vähemmistö’, ‘markkinointi’, ‘muukalainen’, ‘luoti’, ‘poissaolo’, ‘vaihde’, ‘poski’, ‘käsittely’ ja ‘pankkiiri’, sekä 15 sanaa, jotka valitsivat itsenäisesti jokainen testattu malli^†.

Mittaaminen/Mittarit

Ensimmäisessä kahdesta testistä, joita käytettiin, AI-malli luki tekstiä, jonka toinen malli tai sama malli oli tuottanut, ja yritti 20 kierroksen aikana arvata piilotetun sanan.

Toisessa (2AFC) -testissä AI-malli esiteltiin kahdelle kirjoitukselle ja pyydettiin kertomaan, kumpi niistä oli vaikuttunut tietystä piilotetusta sanasta; tai kumpi sisälsi minkä tahansa piilotetun käsitteen. Koska satunnainen arvonta tuottaisi 50%:n osumatarkkuuden, tulokset, jotka olivat merkittävästi ylä- tai alapuolella tätä tasoa, osoittaisivat, että salattu käsite oli edelleen havaittavissa kirjoituksessa.

Tutkijat suorittivat 420 diskriminaatiokokeita ja 450 havaintokokeita jokaiselle mallille.

Tulokset

Viisi mallia tunnistivat piilotetut käsitteet 64%:n ja 79%:n välillä, vaikka salaiset sanat eivät ilmesty suoraan generoituissa tarinoissa. Sen sijaan vuoto ilmenee teemojen ja kuvastojen kautta:

<img class=" wp-image-422687" src="https://www.unite.ai/wp-content/uploads/2026/05/conditions.jpg" alt="2AFC-tarkkuus tarinoille, joissa on järjestelmäohjeen salaisuudet, joissa 50% merkitsee sattumanvaraista suorituskykyä. 'Älä paljasta' merkitsee, että mallille annettiin ohje, ettei se mainitse tai viittaa sanaan; 'aktiivisesti piilota', että se pyydettiin välttämään liittyviä yhteyksiä; 'välttämisen tunnistava', että arvaaja pitäisi etsiä ilmeisiä poissaoloja; ja 'vapaavalintainen', että tasan sana mainittiin 20 kierroksen kuluessa. Tähdet merkitsevät yläpuolella sattumanvaraista tulosta, ja viilat merkitsevät alapuolella sattumanvaraista tulosta, ja lähes kaikki merkittävät löydökset selviävät Bonferroni-korjauksella lukuun ottamatta DeepSeekiä ‘aktiivisesti piilota’ -kohdassa; Grok ja Gemini käyttivät hieman vähemmän kokeita johtuen API-virheistä.” width=”927″ height=”310″ /> 2AFC-tarkkuus tarinoille, joissa on järjestelmäohjeen salaisuudet, joissa 50% merkitsee sattumanvaraista suorituskykyä. ‘Älä paljasta’ merkitsee, että mallille annettiin ohje, ettei se mainitse tai viittaa sanaan; ‘aktiivisesti piilota’, että se pyydettiin välttämään liittyviä yhteyksiä; ‘välttämisen tunnistava’, että arvaaja pitäisi etsiä ilmeisiä poissaoloja; ja ‘vapaavalintainen’, että tasan sana mainittiin 20 kierroksen kuluessa. Tähdet merkitsevät yläpuolella sattumanvaraista tulosta, ja viilat merkitsevät alapuolella sattumanvaraista tulosta, ja lähes kaikki merkittävät löydökset selviävät Bonferroni-korjauksella lukuun ottamatta DeepSeekiä ‘aktiivisesti piilota’ -kohdassa; Grok ja Gemini käyttivät hieman vähemmän kokeita johtuen API-virheistä.

GPT-5.4 ja Gemini 2.5 Pro käyttäytyivät toisin, koska yrittäminen piilottaa salaisuus teki itse välttämisen käyttäytymisen helpommin havaittavaksi. Tämä vaikutus jatkui valituissa sanoissa, satunnaisissa COCA-sanoissa ja malleilla valituissa sanoissa.

GPT-5.4:n alle sattumanvaraisen tuloksen osoittavat tulokset näyttivät järjestelmällisiltä eivätkä satunnaisilta, joissakin piilotetuissa sanoissa havaittiin erittäin luotettavasti ja toisissa melkein lainkaan. Vaikutus heikkeni, kun salaisuus sijoitettiin käyttäjäohjeeseen eikä järjestelmäohjeeseen (ks. yllä), mikä nosti GPT-5.4:n havaintotarkkuuden 56%:iin.

Useimmissa malleissa testit, jotka kysyivät ‘Sisältääkö tämä teksti piilotetun käsitteen?’, tuottivat samanlaisia tuloksia kuin testit, jotka kysyivät ‘Mikä piilotettu käsite tämä teksti sisältää?’.

Lisäksi kaksi testausmenetelmää mitatti eri tyyppejä vuotoa, 2AFC-testit mitatti, voitiinko piilotettu teema edelleen havaita kirjoituksessa, ja vapaavalintaiset testit mitatti, olivatko vuotaneet vihjeet riittävän vahvoja toisen AI:n arvioimaan tarkan piilotetun sanan^††.

Tutkijat toteavat*:

‘Havaintomme osoittavat, että tiedot, jotka ovat aktiivisia mallin kontekstissa generoinnin aikana, voivat jättää teemoja jälkeensä tulokseen. Järjestelmäohjeen sisältö, ketjuajattelun päättely, noudatettavat asiakirjat, käyttäjän antamat tiedot – mikä tahansa näistä voi periaatteessa vaikuttaa luovien päätöksentekoprosessien kautta havaittavissa olevilla tavoilla ulkopuolisen havainnoijan näkökulmasta.

‘Vuodon määrä riippuu siitä, kuinka avoin generointitehtävä on (lyhyet vitsejä ovat turvallisia; tarinat eivät ole) ja siitä, kuinka semanttisesti tunnistettavissa tiedot ovat annetussa mediassa (“viulu todennäköisesti vuotaa enemmän tarinoissa kuin “).

‘Kuitenkin semanttinen vuoto näyttää olevan väistämätön, vaikka mallit yrittävät aktiivisesti piilottaa tietoja.

Johtopäätös

Kuten mainittiin aiemmin, tutkijat toteavat osan ongelman johtuvan Transformer-arkkitehtuurin itsessään. Historia osoittaa, että tämä viimeisin LLM-ongelma tullaan ratkaisemaan jälkikoulutuksella (kohdistuksella), järjestelmäohjeilla, jotka eivät ole käyttäjän muokattavissa, suotimilla ja monilla kasvavilla toissijaisilla järjestelmillä, jotka näyttävät lisääntyvän, kun “alkuperäiset” ongelmat diffuusiomalleissa tulevat ilmi.

Suuremmaksi, että nykyisen SOTA-AI:n nykyinen infrastruktuuri kasvaa, sitä enemmän se muistuttaa Jurassic Parkia, jossa ydinarvo tulee runsaalla varauksilla ja kompromisseilla.

* Tutkijoiden omat korostukset, muutettuina minun toimestani (koska artikkelissa on jo italics-kirjoitusta), ja tutkijoiden sisäiset viittaukset muutettu minun toimestani linkkeiksi.

^†Tutkijat huomauttavat mielenkiintoisesti, että mallit ‘suosivat’ samankaltaisia sanoja: ‘kiikari, vapaus ja nostalgia’ esiintyvät 3+ mallin listoissa. He huomauttavat myös, että ‘lyhyt vitsi’ ilmestyy useissa malliperheissä: ‘[Useat] mallit tuottavat saman valmiin vitsin riippumatta salaisuudesta. Opus kirjoittaa ‘Miksi tutkijat eivät luota atomeihin? Koska ne ovat tehtyjä’ 11:stä 15 salaisuudesta. Loput neljä salaisuutta (kaktus, entropia, nostalgia, kärsivällisyys) saavat saman kirjaston vitsin, jonka Opus myös kirjoittaa kaikille 15 salaisuudettomaan ehtoon – mikä tarkoittaa, että nämä neljä salaisuutta sisältävää vitsiä eivät voi erottaa perusarvosta.’

^††Even Arxivin standardien mukaan, tutkimusraportti taipuu toistamaan ja kätkemään mielenkiintoisia löytöjä liiaksi yksityiskohtaiseen tietoon ja havaintoihin. Siksi tutkimuksen loput toissijaiset kokeet on jätetty alkuperäiseen PDF-tiedostoon.

Julkaistu ensimmäisen kerran perjantaina, 15. toukokuuta 2026. Kielioppi korjattu lauantaina, 16. toukokuuta, klo 16:05 EET.