Andersonin kulma

Miksi tekoÀly ei voi vain myöntÀÀ, ettei se tiedÀ vastausta?

mm
Flux1.D Pro, Flux Kontext Pro, Firefly V3.

Laajat kielen mallit antavat usein varmat vastaukset, vaikka kysymykseen ei voida vastata. Uudet tutkimukset osoittavat, että nämä mallit usein tunnistavat ongelman sisäisesti, mutta silti jatkavat jonkinlaisen vastauksen antamista, paljastaen piilevän kuilun siinä, mitä ne tietävät ja mitä ne sanovat.

 

Kuka tahansa, joka on viettänyt kohtuullisen ajan johtavan Large Language Modelin, kuten ChatGPT tai Qwen -sarjan, parissa, on kokenut tilanteita, joissa malli antaa väärän vastauksen (jolla voi olla jotain katastrofaalista paikallista seurausta, riippuen siitä, kuinka paljon siihen luotettiin) – ja kun virhe tuli ilmi, se antoi vain anteeksipyyntönsä.

Syy, miksi johtavat LLM:t ovat niin vaikeita myöntämään, etteivät ne tiedä vastausta kysymykseen, on pieni mutta kasvava tutkimusala. Varman väärä vastaus voi olla erityisen vahingollinen korkeasti sensuroidusta ja suodatetusta API-pohjaisesta käyttöliittymästä, kuten ChatGPT, koska nämä mallit estävät aggressiivisesti NSFW- tai muita “sääntörikkomukseen” liittyviä syötteitä tai tulosteita.

Tämä voi antaa käyttäjälle väärän vaikutelman, että malli on päättäväinen ja kardinaalinen, kun todellisuudessa kieltäytyminen johtui perinteisestä heuristiikasta tai blocklist-pohjaisesta suodattimesta, joka on suunniteltu rajoittamaan isäntäyhtiön oikeudellista altistumista kaikin keinoin, eikä mitään AI:n oivalluksia.

FAIR at Metan kesĂ€kuun 2025 'AbstentionBench' -paperista – vasemmalla, kuva korostaa AbstentionBenchissa havaittuja epĂ€onnistumisten tyyppejĂ€, jotka testaavat mallin kĂ€yttĂ€ytymistĂ€ yli 35 000 ratkaisemattomassa kysymyksessĂ€; keskellĂ€, esimerkki nĂ€yttÀÀ, miten mallit usein vastaavat keksittyjĂ€ vastauksia sijaan, ettĂ€ myöntĂ€isivĂ€t, etteivĂ€t ne tiedĂ€; ja oikealla, vastauskutsu laskee, kun mallit ovat sÀÀteltyjĂ€ pÀÀttelyyn sen sijaan, ettĂ€ ne seuraisivat ohjeita.

FAIR at Metan kesäkuun 2025 ‘AbstentionBench’ -paperista – vasemmalla, kuva korostaa AbstentionBenchissa havaittuja epäonnistumisten tyyppejä, jotka testaavat mallin käyttäytymistä yli 35 000 ratkaisemattomassa kysymyksessä; keskellä, esimerkki näyttää, miten mallit usein vastaavat keksittyjä vastauksia sijaan, että myöntäisivät, etteivät ne tiedä; ja oikealla, vastauskutsu laskee, kun mallit ovat sääteltyjä päättelyyn sen sijaan, että ne seuraisivat ohjeita. Lähde: https://arxiv.org/pdf/2506.09038

Uusi tutkimus Kiinasta väittää, että LLM-mallit todella salaa tietävät, etteivät ne voi vastata kysymykseen, mutta ne kuitenkin joutuvat antamaan jonkinlaisen vastauksen useimmiten, sen sijaan, että ne olisivat tarpeeksi varmoja siitä, ettei oikeaa vastausta ole saatavilla kysymyksen rajoitusten tai mallin rajoitusten vuoksi tai muista syistä.

Tutkimus toteaa:

‘[Me] osoitamme, että [LLM:t] omistavat riittävät kognitiiviset kyvyt tunnistamaan näiden kysymysten virheet. Kuitenkin ne eivät näytä asianmukaista pidätytyväisyyden käyttäytymistä, paljastaen epäsovun heidän sisäisen kognition ja ulkoisen vastauksen välillä.’

Tutkijat ovat kehittäneet kevyen, kahden vaiheen lähestymistavan, joka käyttää kognitiivista valvontaa/probingia LLM-mallin sisäisten prosessien tarkkailuun, etsimään merkkejä siitä, että se ymmärtää, ettei se voi antaa vastausta; ja sitten puuttuu, varmistaakseen, että mallin “avuliasta” luonnetta ei käytetä käyttäjän ongelmien pahentamiseen.

Tutkimus käyttää tarkoituksella alimääriteltyjä matemaattisia kysymyksiä testaamaan, voivatko mallit tunnistaa, kun vastaus on tuntematon; mutta tämä asettelu riskiin, että tehtävä nähdään “temppuna”. Todellisuudessa mallit kohtaavat paljon tavallisempia syitä pidätytyä keskustelussa, kuten epäselvää sanamuotoa, aukkoja aihealueen tiedossa.

Uusi tutkimus on nimeltään Vastaus kysymykseen, jota ei voida vastata, on tietoinen virhe: LLM-mallien pidätytymisen analyysi ja lieventäminen, ja se on neljän tutkijan yhteistyö State Key Laboratory for Novel Software Technologyn ja National Institute of Healthcare Data Sciencen kanssa Nanjingin yliopistossa.

Menetelmä

(Koska ei ole soveliaita kilpailijoita, joita voisi asettaa tutkijoiden lähestymistavan rinnalle, ja koska tutkimus seuraa hieman epätavanomaista muotoa, emme voi noudattaa sitä parhaalla tavalla.)

Tutkijat esittivät LLM-malleille ratkaisemattomia matemaattisia kysymyksiä Synthetic Unanswerable Math (SUM) -aineistosta, arvioiden viittä malliperhettä: DeepSeek-ryhmästä R1-Distill-Llama-8B; R1-Distill-Qwen-7B, R1-Distill-Qwen-14B; ja Qwen-sarjasta Qwen3-8B ja Qwen3-14B.

Ratkaisemattomat ongelmat SUM:ssa luotiin poistamalla tai vahingoittamalla olennaisia elementtejä viidellä tavalla: poistamalla avaininformaatiota; esittämällä epäselvyyttä; asettamalla epärealistisia ehtoja; viitataan asiattomiin objekteihin; tai poistamalla kysymyksen kokonaan.

Tämän jälkeen 1 000 tällaista tapausta valittiin analyysiä varten, ja GPT-4o käytettiin luomaan lyhyet selitykset, jotka toimisivat viiteperustana.

Mallien vastauksia ratkaisemattomiin kysymyksiin arvioitiin standardoituja kehote-ohjelmia 10 000 tokenin budjetilla, jolloin havaittiin kolme pääasiallista käyttäytymismallia: ensimmäisessä malli tunnisti kysymyksen ratkaisemattomaksi ja pidättyi – yleensä vastaamalla epävarmuuden ilmoituksella; toisessa se antoi täydellisen vastauksen keksimällä puuttuvaa tietoa, kuten esittämällä olematon 9,99 dollarin käsittelymaksu oikeuttaakseen lopputuloksen (ks. alla oleva kuva); Kolmannessa, jota kutsutaan kognitiiviseksi jumiutumiseksi, malli jumiutui laajennettuun päättelysilmukkaan, jatkamalla virheellisiä ratkaisumalleja, vaikka se oli implisiittisesti myöntänyt, ettei kysymyksellä ollut kelvollista vastausta:

Eri vastausten tulokset mahdottomaan kysymykseen.

Eri vastausten tulokset mahdottomaan kysymykseen.

Tutkimus esittää suunnan, jossa suuremmat mallit näyttävät pidätytyvän useammin vastaamasta ratkaisemattomiin kysymyksiin, ja heikentävät sekä keksittyjä vastauksia että jumiutumista:

Mallien vastausten jakautuminen ratkaisemattomiin matemaattisiin ongelmiin, osoittaa oikean pidÀtytyvyyden, keksittyjen vastausten ja kognitiivisen jumiutumisen suhteellista frekvenssiÀ eri mallikokoissa.

Mallien vastausten jakautuminen ratkaisemattomiin matemaattisiin ongelmiin, osoittaa oikean pidätytyvyyden, keksittyjen vastausten ja kognitiivisen jumiutumisen suhteellista frekvenssiä eri mallikokoissa.

Kuitenkin tämä siirtymä on rajattu laajuudeltaan, ja jättää merkittävän osan tapauksia ratkaisemattomiksi oikean pidätytyvyyden kautta, osoittaen, että yksinomaan kapasiteetin lisääminen ei välttämättä johtaa varovaisempaan käyttäytymiseen.

Tietoisuus umpikujaan

Tutkijat testasivat, voivatko kielen mallit tietää, kun kysymys ei voi olla vastattavissa, keskeyttämällä mallin päättelyprosessin puolivälissä ja pyytämällä joko lopullista vastausta tai selitystä siitä, miksi kysymys oli ratkaisematon.

Tapauksissa, joissa malli jatkoi päättelyä loputtomiin, he keskeyttivät sen “odota”-sanassa ja pyysivät vastausta; tapauksissa, joissa malli nopeasti keksi vastauksen, he asettivat katkon välipäättelyn rajakohdassa.

Vasemmalla oleva kaavio osoittaa, kuinka usein mallit antavat oikean pidÀtyvyyden, kun ne keskeytetÀÀn pÀÀttelyprosessin aikana, suuremmat frekvenssit jumiutumistapauksissa kuin keksittyjen vastausten kohdalla. Oikealla oleva kaavio osoittaa, ettÀ useimmat mallit voivat selittÀÀ, miksi kysymys on ratkaisematon, kun niitÀ pyydetÀÀn, vaikka lopulliset vastaukset eivÀt vÀlttÀmÀttÀ heijasta tÀtÀ ymmÀrrystÀ.

Vasemmalla oleva kaavio osoittaa, kuinka usein mallit antavat oikean pidätyvyyden, kun ne keskeytetään päättelyprosessin aikana, suuremmat frekvenssit jumiutumistapauksissa kuin keksittyjen vastausten kohdalla. Oikealla oleva kaavio osoittaa, että useimmat mallit voivat selittää, miksi kysymys on ratkaisematon, kun niitä pyydetään, vaikka lopulliset vastaukset eivät välttämättä heijasta tätä ymmärrystä.

Monissa näistä tapauksista malli antoi oikean pidätyvyyden tai selkeän selityksen, vaikka se oli aiemmin tuottanut virheellisen vastauksen. Tutkijat esittävät, että tämä osoittaa, että malli usein tietää ongelman päättelyprosessin aikana, mutta ei toimi tämän tietouden mukaisesti lopullisessa tuloksessa.

LLM:n mielenlukeminen

Tutkijat testasivat, voivatko kielen mallit sisäisesti seurata, voidaanko kysymys vastata, kouluttamalla pieniä luokittelijoita mallin piilotettujen aktivaatioiden yli päättelyprosessin aikana, mahdollistaen heille tarkastella, onko ero ratkaisemattomien ja ratkaistavissa olevien kysymysten välillä jo mallin sisäisissä signaaleissa – vaikka se ei ilmene lopullisessa tuloksessa.

Rakentamalla korkean tason konseptien, kuten totuudenmukaisuuden tai sukupuolen</i}, lineaarista upottamista mallin aktivaatioihin, “vastattavuus”* testattiin samanlaisen edustamisen olemassaolosta.

Yksinkertaiset lineaariset luokittelijat (tutkimukset) koulutettiin piilotettujen aktivaatioiden yli eri mallikerrosten, käyttäen multi-head-huomion mekanismista tulostetta ennen jäännösyhteyttä.

Kunkin tutkimuksen koulutus tapahtui 2 200 kysymysparin avulla SUM-aineistosta, joista 2 000 käytettiin koulutukseen ja 200 validointiin.

Johtopäätöksen aikana mallin ennuste laskettiin keskiarvona tokenien yli, jotka olivat näkyvissä siihen asti päättelyjärjestyksessä, mahdollistaen tutkimukselle seurata, miten vastattavuuteen liittyvät signaalit kehittyvät ajan myötä:

Lineaarisia tutkimuksia, jotka on koulutettu erottamaan ratkaisemattomia kysymyksiÀ, mitattuna eri pÀÀttelyprosessin vaiheissa. Tarkkuus yleensÀ paranee, kun pÀÀttely etenee, ja suuremmat mallit saavuttavat yli 85% luokittelun lopputiloissa.

Lineaarisia tutkimuksia, jotka on koulutettu erottamaan ratkaisemattomia kysymyksiä, mitattuna eri päättelyprosessin vaiheissa. Tarkkuus yleensä paranee, kun päättely etenee, ja suuremmat mallit saavuttavat yli 85% luokittelun lopputiloissa.

Kuten yllä olevasta voidaan nähdä, tutkimuksen tarkkuus parani jatkuvasti, kun päättely eteni, ja useimmat mallit ylittivät 80% luokittelun lopputiloissa – osoittaen, että vaikka mallin ulkoinen käyttäytyminen ei välttämättä heijasta sitä, sisäiset edustukset usein kantavat selvän signaalin siitä, voidaanko kysymys vastata.

Itsepäinen vaatimus

Vaikka aiemmat tulokset viittaavat siihen, että suuret kielen mallit usein tunnistavat, kun kysymys ei voida vastata, tutkimus toteaa, että ne silti usein jatkavat vastauksen antamista sen sijaan, että ne valitsisivat pidätyvyyden.

Tutkijat analysoivat mallien varmuutta pidätyvyydestä tietyissä kohdissa päättelyprosessin aikana, vertaamalla mallin varmuutta kolmen eri tulostyypin välillä: <i{oikea pidätyvyys; keksitty vastaus; ja kognitiivinen jumiutuminen.

Samaa kokoa olevat otokset käytettiin kussakin luokassa, ja varmuus määriteltiin keskimääräiseksi maksimiprobasaksi kullekin tulostokoolle dekoodausvaiheiden aikana, perustuen aiemman tutkimuksen muotoiluun. Kuten alla olevasta kaaviosta voidaan nähdä, sekä keksittyjen vastausten että kognitiivisen jumiutumisen tapauksissa havaittiin alhaisempi pidätyvyyden varmuus verrattuna oikeaan pidätyvyyteen:

Varmuustasot, jotka liittyvät “En tiedä” -vastaukseen eri vastaustyyppien yhteydessä.

Tutkijat mitasivat myös, kuinka usein mallit antoivat “En tiedä” -vastauksen päättelyprosessin aikana. Alla oleva kaavio osoittaa, että oikean pidätyvyyden tapauksissa havaittiin korkeampi “En tiedä” -vastauksen frekvenssi, kun taas muut kaksi luokkaa tuottivat tällaisia vastauksia harvemmin:

Frekvenssi “En tiedä” -vastauksia havaittu pysähdyskohdissa päättelyprosessin aikana, eri vastausten tulostyypeissä.

Nämä löydökset viittaavat siihen, että vaikka mallit havaitsevat ratkaisemattomuuden sisäisesti, ne usein puuttuvat varmuudesta toimia tämän tietouden mukaisesti, osoittaen jatkuvan preferenssin tehtävän suorittamiseen sen sijaan, että ne myöntäisivät epävarmuuden.

Testit

Rakentamalla näihin tuloksiin, tutkijat kehittivät kaksivaiheisen menetelmän, joka pyrkii parantamaan pidätyvyyttä. Ensimmäisessä vaiheessa, kognitiivinen valvonta, mallin piilotetut tilat seurataan johtamisen aikana, jaetaan luonnollisiin yksiköihin, kuten lauseisiin tai taukoihin, jotka on merkitty sanoilla kuten “odota”.

Jokaisen segmentin lopussa kevyt, lineaarinen tutkimus, joka on koulutettu sisäisissä signaaleissa, jotka liittyvät vastattavuuteen, arvioi todennäköisyyden, että kysymys ei voida vastata. Jos tämä todennäköisyys ylittää asetetun kynnyksen, prosessi siirtyy toiseen vaiheeseen: johtamisajassa tapahtuvaan puuttumiseen, joka ohjaa mallia kohti pidätyvyyttä sen sijaan, että se keksisi vastauksen.

Kun malli näyttää sisäisiä merkkejä siitä, ettei se voi antaa vastausta, päättely keskeytetään puuttumisella, joka vahvistaa tätä tietoutta ja lisää pidätyvyyden todennäköisyyttä. Kuten alla olevasta voidaan nähdä, puuttuminen edustaa “ohjauskehotetta”, joka muistuttaa mallille, että kysymys saattaa olla ratkaisematon:

Kehotus, joka ehdottaa johtamisajassa tapahtuvaa puuttumista.

Kehotus, joka ehdottaa johtamisajassa tapahtuvaa puuttumista.

Menetelmä sisältää myös varhaisen poistumismekanismin, joka estää päättelyjärjestyksen jatkumisen tarpeettomasti, kannustaen mallia pitämään pidätyvyyttä legitiiminä ja toisinaan mieluisampana valintana.

Testivaiheessa tutkijat käyttivät kahta aineistoa: Unanswerable Math Word Problem (UMWP) ja mainittu SUM. SUM:n testijoukkoa käytettiin tähän tarkoitukseen, joka sisälsi 284 ratkaisemattomia ja 284 ratkaistavissa olevia manuaalisesti tarkistettuja kysymyksiä.

UMWP:n konstruktio koostui neljästä matemaattisen sanallisen ongelman lähteestä: SVAMP; MultiArith; Grade School Math (GSM8K); ja ASDiv. Koko aineisto koostui 5 200 ongelmasta, joista 600 otettiin testaamiseen, jaettuna tasan ratkaisemattomiin ja ratkaistavissa oleviin kysymyksiin. Ratkaisemattomien kohteiden kohdalla UMWP:ssa GPT-4o generoi viiteperustelut siitä, miksi ne eivät voineet ratkaista.

Mittarit

Mallien suorituskykyä mitattiin neljällä mittarilla: pidätyvyysaste, joka on osuus ratkaisemattomista kysymyksistä, joissa malli oikein pidättyy vastaamasta “En tiedä” -vastauksella, kuten ohjeistettu; päättelytarkkuus, joka on prosenttiosuus ratkaisemattomista kysymyksistä, joissa malli antaa voimassa olevan selityksen siitä, miksi kysymys ei voida ratkaista; tokenien käyttö, joka yksityiskohtaisesti ilmoittaa tokenien määrän, jotka generoitiin päättelyprosessin aikana; ja vastausaste, joka on osuus ratkaistavissa olevista kysymyksistä, joissa malli antaa oikean lopullisen ratkaisun.

Testausvertailu

Koska ei ole olemassa standardoitua vertailukohtaa tähän ongelmaan, tutkijat vertasivat menetelmäänsä kahteen vaihtoehtoiseen, Dynasor-CoT ja Dynamic Early Exit in Reasoning Models (DEER), olettaen, että oikea pidätyvyys tulisi käsittää oikeana vastauksena, kun kysymyksellä ei ole ratkaisua.

Dynasor-CoT kehottaa malleja antamaan väliaikaisia vastauksia ja pysähtyy, kun sama tulos ilmestyy kolme kertaa peräkkäin, kun taas DEER seuraa luottamusta lauseen tasolla ja pysäyttää päättelyn, kun kynnysarvo saavutetaan.

Kolmas vertailukohde, Vanilla, viittaa muuntamattomiin mallituloksiin. Testit hyödynsivät mainittuja viittä Qwen- ja DeepSeek-varianttia.

Yhdistetyt tulokset on esitetty alla:

Eri menetelmien vertailu ratkaisemattomissa ja ratkaistavissa olevissa kysymyksissÀ suurten pÀÀttelymallien yhteydessÀ, korkeimmat arvot kussakin sarakkeessa on merkitty lihavoina. Viittaus alkuperÀiseen tutkimukseen parhaan resoluution saamiseksi.

Eri menetelmien vertailu ratkaisemattomissa ja ratkaistavissa olevissa kysymyksissä suurten päättelymallien yhteydessä, korkeimmat arvot kussakin sarakkeessa on merkitty lihavoina. Viittaus alkuperäiseen tutkimukseen parhaan resoluution saamiseksi.

Uusi lähestymistapa tuotti korkeimmat pidätyvyyden ja tarkan päättelyn arvot ratkaisemattomissa kysymyksissä. Ratkaistavissa olevissa kysymyksissä tarkkuus säilyi lähellä alkuperäisten mallien tarkkuutta ja parani toisinaan, osoittaen, että normaali ongelmanratkaisu ei vahingoittunut.

Tokenien käyttö laski 30-50% ratkaisemattomissa tapauksissa ja laski hieman ratkaistavissa olevissa tapauksissa, osoittaen suurempaa tehokkuutta.

Havaittiin myös yhteys pidätyvyyden ja päättelytarkkuuden välillä, koska mallit, jotka pidättäytyivät useammin, antoivat myös parempia selityksiä, mitä tutkijat tulkitsivat parantuneeksi päättelylaaduksi.

Qwen3-mallit suorittivat yleensä paremmin kuin tiivistämisperusteiset (kvantitoidut) versiot, kun taas suuremmat mallit osoittivat vahvempaa pidätyvyyden kykyä, osoittaen, että sekä arkkitehtuuri että skaala vaikuttavat luotettavaan ratkaisemattomuuden havaitsemiseen.

Lopulta tutkijat raportoivat, että heidän uusi menetelmänsä vähentää keksittyjä vastauksia ja jumiutumista samalla, kun se lisää oikean pidätyvyyden osuutta, kun taas vertailumenetelmät, jotka riippuvat ainoastaan “varhaisista poistumista”, johtavat toisinaan enemmän keksittyihin vastauksiin.

He myös raportoivat parannuksia sekä “En tiedä” -vastauksen luottamuksessa että frekvenssissä, osoittaen, että valvonta perustuu piileviin signaaleihin, joka on tehokkaampaa kuin strategiat, jotka riippuvat käyttäytymisen vihjeistä.

Johtopäätös

LLM-mallien kyvyttömyys pidätytyä vastaamasta kysymykseen, kun se on tarpeen, on yksi suurimmista kitkakohdista generatiivisen tekoälyn käyttökokemuksessa, ei vähiten siksi, että muut tekoälyn ominaisuudet antavat käyttäjälle illuusion siitä, että se pystyy varovaisiin vastauksiin, vaikka se ei yleensä ole (ainakin toistaiseksi).

Yksi huolenaihe suoraan puuttuvasta menetelmästä, joka ei johdu suoraan mallin “luonteesta”, on, että se voi olla yli- tai alikäytetty, riippuen siitä, ovatko havaitut aktivaatiot todella merkityksellisiä mallin antautumiselle.

Lisäksi kognitiivisen valvonnan logistinen kustannus ei ole todennäköisesti merkittävä, ja on mahdollista, että yksinkertaisemmat heuristiikkaa muistuttavat menetelmät, samanlaiset kuin ne, jotka estävät kiellettyä sisältöä käyttäjiltä, voivat olla edullisempi ratkaisu, jos ankkurin laukaisimet voidaan määritellä riittävän hyvin.

 

* Luonnollisesti tämä ei vastaa ilmeistä synonyymiä “vastuu”, vaan määrittää, voidaanko tiettyä kysymystä vastata lainkaan.

Julkaistu ensimmäisen kerran keskiviikkona, 27. elokuuta 2025

Kirjailija tekoÀlystÀ, alan erikoisosaaja ihmiskuvien synteesissÀ. Entinen tutkimussisÀllön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttĂ€: [email protected]