Connect with us

Andersonin kulma

Miksi tekoäly ei voi vain myöntää, ettei se tiedä vastausta?

mm
Flux1.D Pro, Flux Kontext Pro, Firefly V3.

Laajat kielen mallit antavat usein varmat vastaukset, vaikka kysymys ei voida vastata. Uudet tutkimukset osoittavat, että nämä mallit usein tunnistavat ongelman sisäisesti, mutta silti jatkavat ja keksivät jotain, paljastaen piilevän kuilun siinä, mitä ne tietävät ja mitä ne sanovat.

 

Kuka tahansa, joka on viettänyt kohtuullisen aikaa johtavan suuren kielen mallin, kuten ChatGPT tai Qwen-sarjan, kanssa, on kokenut tilanteita, joissa malli antaa väärän vastauksen (joka saattaa olla tai ei ollut jonkin verran katastrofaalinen, riippuen siitä, kuinka paljon sinä riippuit siitä) – ja kun virhe tuli ilmi, se antoi vain anteeksipyyntönsä.

Miksi johtavat LLM:t ovat niin vaikeita myöntämään, etteivät ne tiedä vastausta kysymykseen, on pieni mutta kasvava tutkimusala. ‘Varman väärä‘ vastaus voi olla erityisen vahingollinen korkeasti sensuroidusta ja suodatetusta API-pohjaisesta käyttöliittymästä, kuten ChatGPT, koska tällaiset mallit estävät aggressiivisesti NSFW- tai muita “sääntörikkomukseen” liittyviä syötteitä tai tulosteita.

Tämä voi antaa käyttäjälle väärän käsityksen siitä, että malli on päättäväinen ja kardinaalinen, kun todellisuudessa kieltäytyminen johtui perinteisestä heuristiikasta tai lohko-pohjaisesta suodattimesta, joka on suunniteltu rajoittamaan isäntäyhtiön oikeudellista altistumista kaikin tavoin, eikä mitään tekoälyn oivalluksia.

June 2025 'AbstentionBench' -paperista FAIR:ista Metaan – vasemmalla korostetaan epäonnistumisen tyypin valikoima, jota AbstentionBench havaitsee, joka testaa mallin käyttäytymistä yli 35 000 vastaamattomissa kysymyksissä; keskellä esimerkki näyttää, miten mallit usein vastaavat keksittyjä vastauksia sen sijaan, että myöntäisivät, etteivät ne tiedä; ja oikealla, abstention-muisti laskee, kun malleja säätellään päätöksenteon sijaan ohjeiden seuraamiseksi. Lähde: https://arxiv.org/pdf/2506.09038

June 2025 ‘AbstentionBench’ -paperista FAIR:ista Metaan – vasemmalla korostetaan epäonnistumisen tyypin valikoima, jota AbstentionBench havaitsee, joka testaa mallin käyttäytymistä yli 35 000 vastaamattomissa kysymyksissä; keskellä esimerkki näyttää, miten mallit usein vastaavat keksittyjä vastauksia sen sijaan, että myöntäisivät, etteivät ne tiedä; ja oikealla, abstention-muisti laskee, kun malleja säätellään päätöksenteon sijaan ohjeiden seuraamiseksi. Lähde: https://arxiv.org/pdf/2506.09038

Kiinalainen tutkimus väittää, että LLM-mallit todella salaa tietävät, etteivät ne voi vastata käyttäjän esittämään kysymykseen, mutta että ne kuitenkin pakotetaan tuottamaan jokinlainen vastaus useimmiten, sen sijaan, että ne olisivat tarpeeksi varmoja päättämään, ettei vastausta ole saatavilla käyttäjän tiedon puutteen, mallin rajoitusten tai muiden syiden takia.

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]