Connect with us

Andersonův úhel

Proč se AI nemůže prostě přiznat, že nezná odpověď?

mm
Flux1.D Pro, Flux Kontext Pro, Firefly V3.

Velké jazykové modely často poskytují sebevědomé odpovědi, i když otázka nemůže být zodpovězena. Nová studie ukazuje, že tyto modely často rozpoznají problém interně, ale přesto pokračují a vymyslí něco, čímž odhalují skrytou mezeru mezi tím, co znají, a tím, co říkají.

 

Kdokoli, kdo strávil rozumnou dobu s předními velkými jazykovými modely, jako je ChatGPT nebo Qwen série, bude mít zkušenosti s tím, že model poskytuje špatnou odpověď (která může nebo nemusí mít některé katastrofické místní důsledky, v závislosti na tom, jak moc jste na něj spoléhali) – a když se chyba stala zjevnou, jednoduše se omluvil.

Proč přední LLM mají takové potíže s přiznáním, že neznají odpověď na otázku, je malá, ale rostoucí oblast studia. “Sebevědomě špatná” odpověď může být besonders škodlivá z vysokého cenzurovaného a filtrovaného API-založeného rozhraní, jako je ChatGPT, protože takové modely agresivně blokují NSFW nebo jiné “pravidlově porušující” vstup nebo výstup.

To může dát uživateli falešný dojem, že model je rozhodný a kardinální, zatímco ve skutečnosti došlo k odmítnutí z důvodu tradičního heuristického nebo blocklist-založeného filtru navrženého pro omezení právní expozice hostitelské společnosti za každou cenu, a not z jakýchkoli poznatků z AI.

From the June 2025 'AbstentionBench' paper from FAIR at Meta – on the left, the figure highlights the range of failure types captured in AbstentionBench, which tests model behavior on over 35,000 unanswerable questions; in the middle, an example shows how models often respond with fabricated answers instead of admitting they lack enough information; and on the right, abstention recall drops when models are tuned for reasoning rather than instruction-following. Source: https://arxiv.org/pdf/2506.09038

From the June 2025 ‘AbstentionBench’ paper from FAIR at Meta – on the left, the figure highlights the range of failure types captured in AbstentionBench, which tests model behavior on over 35,000 unanswerable questions; in the middle, an example shows how models often respond with fabricated answers instead of admitting they lack enough information; and on the right, abstention recall drops when models are tuned for reasoning rather than instruction-following. Source: https://arxiv.org/pdf/2506.09038

Nová studie z Číny tvrdí, že LLM modely ve skutečnosti tajně znají, že nemohou odpovědět na otázku položenou uživatelem, ale že jsou přesto nuceny produkovat nějakou odpověď, většinou, místo toho, aby měli dostatečnou důvěru, aby rozhodli, že platná odpověď není k dispozici kvůli nedostatku informací od uživatele, nebo omezením modelu, nebo z jiných důvodů.

Studie uvádí:

‘[My] ukazují, že [LLM] mají dostatečné kognitivní schopnosti, aby rozpoznaly chyby v těchto otázkách. Nicméně, selhávají ve vykazování vhodného zdržení se, čímž odhalují nesoulad mezi jejich interní kognicí a externí odpovědí.’

Výzkumníci vyvinuli lehký dvoufázový přístup, který používá kognitivní monitorování/probing k prozkoumání interního procesu LLM za účelem zjištění, zda model rozpozná, že nemůže poskytnout odpověď; a poté zasáhnout, aby zajistili, že “pomocná” povaha modelu nezhorší problémy uživatele tím, že ho vede do slepé, nebo dokonce destruktivní uličky.

Studie používá úmyslně nedostatečně specifikované matematické otázky k testování, zda modely mohou rozpoznat, kdy odpověď je neznámá; ale toto nastavení riskuje, že úkol bude rámován jako “finta”. Ve skutečnosti modely čelí daleko více rutinním důvodům, proč se zdržet v konverzaci, od nejednoznačného formulování, po mezery v doméně znalostí.

Nová práce je nazvána Odpověď na nedosažitelné je vědomě chybná: Analýza a zmírnění selhání zdržení v velkých modelů, a pochází od čtyř výzkumníků z State Key Laboratory for Novel Software Technology a National Institute of Healthcare Data Science na Nanjing University.

Metoda

(Since there are no apposite rivals to pit against the authors’ approach in tests, and since the paper therefore follows a slightly unconventional format, as well as not indexing its citations to the usual standard, we’ll attempt to adhere to it as best we can.)

V souladu s předchozími přístupy, autoři se zaměřili na prezentaci LLM s nedosažitelnými matematickými otázkami ze Synthetic Unanswerable Math (SUM) datasetu, evaluace pěti modelových rodin: From the DeepSeek range, R1-Distill-Llama-8B; R1-Distill-Qwen-7B, R1-Distill-Qwen-14B; a z Qwen série, Qwen3-8B, jakož i Qwen3-14B.

Nedosažitelné problémy v SUM byly vytvořeny odstraněním nebo poškozením základních prvků pěti způsoby: odstraněním klíčových informací; zavedením nejednoznačnosti; stanovením nereálných podmínek; odkazem na nesouvisející objekty; nebo odstraněním otázky úplně.

Následně byl vybrán vzorek 1 000 takových případů pro analýzu, s GPT-4o použitým pro generování stručných vysvětlení, které slouží jako referenční důvod.

Odpovědi modelů na nedosažitelné otázky byly vyhodnoceny pomocí standardizovaných podnětů s 10 000-tokenovým rozpočtem, během kterého byly pozorovány tři hlavní behaviorální vzorce: v prvním, model identifikoval otázku jako nevyřešitelnou a zdržel se – typicky reagující explicitním vyjádřením nejistoty; ve druhém, produkoval kompletní odpověď vynálezem chybějících informací, jako je zavedení neexistujícího $9,99 manipulačního poplatku za účelem odůvodnění konečného výsledku (viz obrázek níže); Ve třetím, označovaném jako kognitivní fixace, model se stal uvězněným v prodlouženém rozumovém cyklu, pokračujícím v neplatných řešeních, i když implicitně uznal, že otázka postrádala životaschopnou odpověď:

Různé odpovědi na nemožnou otázku.

Různé odpovědi na nemožnou otázku.

Studie prezentuje trend, ve kterém větší modely se zdají zdržovat se častěji od odpovědi na nedosažitelné otázky, s poklesem obou vynalezených odpovědí a fixačních chování:

Rozklad modelových odpovědí na nedosažitelné matematické problémy, ukazující relativní frekvenci správných zdržení, vynalezených odpovědí a kognitivní fixace napříč různými modelovými měřítky.

Rozklad modelových odpovědí na nedosažitelné matematické problémy, ukazující relativní frekvenci správných zdržení, vynalezených odpovědí a kognitivní fixace napříč různými modelovými měřítky.

Nicméně, tento posun je omezený v měřítku a ponechává významnou část případů nevyřešených prostřednictvím správného zdržení, naznačující, že zvýšená kapacita sama o sobě nedává spolehlivě více opatrné chování.

Vědomí o patové situaci

Aby bylo testováno, zda jazykové modely mohou rozpoznat, kdy otázka skutečně nemá odpověď, výzkumníci přerušili modelův rozumový proces polovinou cesty a zeptali se buď na konečnou odpověď, nebo na vysvětlení proč otázka je nedosažitelná.

Pro případy, kde model pokračoval v nekonečném rozumovém cyklu, přerušili ho na slovo “wait” a vyvolali odpověď; pro případy, kde model rychle vynalezl odpověď, vložili přestávku na odstavcové hranici.

Graf na levé straně ukazuje, jak často modely poskytují správná zdržení, když jsou přerušeny uprostřed rozumového procesu, s vyššími sazbami pro fixační případy než pro vynalezené odpovědi. Graf na pravé straně ukazuje, že většina modelů může vysvětlit, proč otázka je nedosažitelná, i když jejich konečné odpovědi selhávají v odrazu tohoto porozumění.

Graf na levé straně ukazuje, jak často modely poskytují správná zdržení, když jsou přerušeny uprostřed rozumového procesu, s vyššími sazbami pro fixační případy než pro vynalezené odpovědi. Graf na pravé straně ukazuje, že většina modelů může vysvětlit, proč otázka je nedosažitelná, i když jejich konečné odpovědi selhávají v odrazu tohoto porozumění.

Ve mnoha z těchto případů model poskytl správné zdržení nebo jasný vysvětlení, i když dříve produkoval chybnou odpověď. Autoři naznačují, že to indikuje, že model často rozpozná problém během svého rozumového procesu, ale selhává v akci na tomto povědomí ve své konečné výstupu.

Čtení mysli LLM

Aby bylo testováno, zda jazykové modely interně sledují, zda otázka je odpověditelná, výzkumníci trénovali malé klasifikátory na modelových skrytých aktivacích během rozumového procesu, což jim umožnilo zkontrolovat, zda rozlišení mezi odpověditelnými a nedosažitelnými otázkami již bylo přítomno v modelových interních signálech – i když nebylo odraženo ve své konečné výstupu.

Vycházející z myšlenky, že vysoké koncepty, jako je pravdivost nebo pohlaví, mohou být lineárně vloženy do modelových aktivací, “odpověditelnost”* byla testována na podobnou reprezentaci.

Jednoduché lineární klasifikátory (sondy) byly trénovány na skrytých aktivacích napříč různými modelovými vrstvami, pomocí výstupů z multi-head attention mechanismu právě před reziduální spojení.

Každá sonda byla trénována na rozlišení mezi odpověditelnými a nedosažitelnými otázkami, na základě interních aktivací z rozumového procesu. Vstupní data sestávala z 2 200 párů otázek vzorkovaných ze SUM datasetu, s 2 000 použitých pro trénink a 200 pro validaci.

Během inferenční doby byla modelova předpověď průměrována napříč tokeny viděnými do té doby v rozumovém sekvenci, umožňující sondě sledovat, jak se signály související s odpověditelností objevují v čase:

Třída lineárních sond trénovaných na rozlišení odpověditelných a nedosažitelných otázek, měřená v různých bodech rozumového procesu. Přesnost obecně zlepšuje, jak rozumový proces postupuje, s většími modely dosahujícími přes 85% v konečných fázích.

Třída lineárních sond trénovaných na rozlišení odpověditelných a nedosažitelných otázek, měřená v různých bodech rozumového procesu. Přesnost obecně zlepšuje, jak rozumový proces postupuje, s většími modely dosahujícími přes 85% v konečných fázích.

Jak je vidět výše, přesnost sondy se postupně zlepšuje, jak rozumový proces postupuje, s většinou modelů překračujících 80% klasifikační přesnost v konečných fázích – důkaz, že i když modelovo vnější chování nezobrazuje to, interní reprezentace často nesou jasný signál, zda otázka může být zodpovězena.

Uporná insistence

Ačkoli dříve uvedené výsledky naznačují, že velké jazykové modely často rozpoznávají, kdy otázka nemůže být zodpovězena, studie uvádí, že modely stále mají tendenci pokračovat v generování odpovědi místo toho, aby se zdržely.

Aby bylo prozkoumáno toto nesoulad, výzkumníci analyzovali modelovu důvěru v zdržení se na konkrétních bodech během rozumového procesu, srovnávajíce modelovu důvěru napříč třemi kategoriemi výstupu: správné zdržení; vynalezená odpověď; a kognitivní fixace.

Rovnoměrné vzorky byly použity pro každou kategorii, s důvěrou definovanou jako průměrná maximální pravděpodobnost přiřazena každému výstupnímu tokenu napříč dekódovacími kroky, založená na formulaci z předchozích prací. Jak je vidět na grafu níže, obě vynalezené odpovědi a kognitivní fixační případy ukázaly nižší důvěru v zdržení se ve srovnání se správným zdržení:

Úrovně důvěry spojené s produkcí odpovědi zdržení 'Nevím' napříč různými typy odpovědí.

Úrovně důvěry spojené s produkcí odpovědi zdržení ‘Nevím’ napříč různými typy odpovědí.

Výzkumníci také měřili, jak často modely produkovaly odpověď “Nevím” během rozumového procesu. Graf níže ukazuje, že správné zdržení případů poskytlo vyšší frekvenci zdržení, zatímco ostatní dvě kategorie produkovaly takové odpovědi méně často:

Četnost odpovědí 'Nevím' pozorovaných na zastávkách během rozumového procesu, zobrazená pro různé typy odpovědí.

Četnost odpovědí ‘Nevím’ pozorovaných na zastávkách během rozumového procesu, zobrazená pro různé typy odpovědí.

Tyto nálezy naznačují, autoři tvrdí, že zatímco modely mohou rozpoznat nedosažitelnost interně, často postrádají důvěru, aby jednal na tomto povědomí, indikující trvalou preferenci pro dokončení úkolu místo přiznání nejistoty.

Testy

Na základě těchto zjištění výzkumníci vyvinuli dvoufázovou metodu navrženou ke zlepšení zdržení. První fáze, kognitivní monitorování, sleduje modelovy skryté stavy během inferenční doby, segmentující jeho rozumový proces do přirozených jednotek, jako jsou klauzule nebo pauzy, označené slovy, jako je “wait”.

Na konci každé sekce je lehká lineární sonda trénovaná na interních signálech spojených s odpověditelností, odhadující pravděpodobnost, že otázka nemůže být zodpovězena. Pokud tato pravděpodobnost překročí stanovenou práh, proces přechází do druhé fáze: inference-time zásah, který směruje model k zdržení, místo aby vynalezl odpověď.

Když model ukazuje interní znaky, že otázka nemůže být zodpovězena, rozumový proces je přerušen zásahem, který posiluje toto povědomí a zvyšuje pravděpodobnost zdržení. Jak je vidět níže, zásah představuje “návodný podnět”, který připomíná modelu, že otázka může postrádat platnou odpověď:

Podnět pro podmíněný inference-time zásah.

Podnět pro podmíněný inference-time zásah.

Metoda také zahrnuje mechanismus brzkého ukončení, který brání pokračování rozumového sekvence zbytečně, podporuje model, aby považoval zdržení za legitimitní a někdy preferovanou volbu.

Pro testovací fázi výzkumníci použili dvě datasety: Unanswerable Math Word Problem (UMWP) , a výše zmíněný SUM.

Testovací sada SUM byla použita pro tento účel, obsahující 284 nedosažitelné a 284 odpověditelné ručně zkontrolované otázky. UMWP byl sestaven ze čtyř matematických slovních problémů: SVAMP; MultiArith; Grade School Math (GSM8K); a ASDiv.

Celý dataset sestával z 5 200 problémů, s 600 vybraných pro testování, rozdělených rovnoměrně mezi nedosažitelné a odpověditelné otázky. Pro nedosažitelné položky v UMWP, GPT-4o generoval referenční vysvětlení, proč nemohly být vyřešeny.

Metriky

Modelová výkonnost byla měřena pomocí čtyř metrik: zdržení sazba, podílu nedosažitelných otázek, kde model správně zdrží odpovědí “Nevím”, jak bylo instruováno; rozumová přesnost, procenta nedosažitelných otázek, kde model poskytuje platné vysvětlení, proč otázka nemůže být zodpovězena; token použití, podrobnosti o počtu tokenů generovaných během rozumového procesu; a odpověď přesnost, podílu odpověditelných otázek, kde model produkuje správné konečné řešení.

Testovací baseline

Protože neexistují standardní baseline pro tento problém, výzkumníci srovnali svou metodu proti dvěma alternativám, Dynasor-CoT a Dynamic Early Exit in Reasoning Models (DEER), na předpokladu, že správné zdržení by mělo být považováno za správnou odpověď, když otázka nemá řešení.

Dynasor-CoT podněcuje modely k produkci mezitímních odpovědí a zastavuje, když stejný výsledek se objeví třikrát po sobě, zatímco DEER monitoruje důvěru na úrovni věty a zastavuje rozumový proces, když je dosaženo prahové hodnoty.

Třetí baseline, nazvaná Vanilla, odkazuje na neupravené modelové výstupy. Testy využívaly výše zmíněných pět Qwen a DeepSeek variant.

Aggregované výsledky jsou zobrazeny níže:

Srovnání různých metod na odpověditelných a nedosažitelných otázkách napříč velkými rozumovými modely, s nejvyššími hodnotami v každé sloupci zobrazenými v tučném písmu.

Srovnání různých metod na odpověditelných a nedosažitelných otázkách napříč velkými rozumovými modely, s nejvyššími hodnotami v každé sloupci zobrazenými v tučném písmu. Prosím, odkážete na zdroj papíru pro lepší rozlišení.

Nový přístup produkoval nejvyšší sazby zdržení a přesné rozumování na nedosažitelných otázkách. Pro odpověditelné otázky zůstala přesnost blízká vanilla modelům a někdy se zlepšila, naznačující, že normální řešení problémů nebylo poškozeno.

Token použití také pokleslo o 30% až 50% na nedosažitelných případech a mírně pokleslo na odpověditelných, ukazující na větší efektivitu.

Byla také zjištěna souvislost mezi zdržení sazbou a rozumovou přesností, protože modely, které se zdržely častěji, také poskytly lepší vysvětlení, které autoři interpretují jako indikaci zlepšení kvality rozumování.

Qwen3 modely obecně překonaly distilované (kvantizované) verze, zatímco větší modely ukázaly silnější schopnost zdržení, indikující, že obě architektura a měřítko jsou důležité pro spolehlivé rozpoznání nedosažitelnosti.

Nakonec autoři uvádějí, že jejich nová metoda snižuje vynálezy a fixaci, zatímco zvyšuje sazbu správného zdržení, zatímco baseline přístupy, které spoléhají pouze na ‘časná ukončení’, někdy vedou k více vynalezeným odpovědím.

Uvádějí také zisky v důvěře a frekvenci “Nevím” odpovědí, s monitorováním založeným na latentních signálech, které se ukázaly jako účinnější než strategie, které závisí na behaviorálních signálech.

Závěr

Neschopnost LLM zdržet se odpovědi na otázku, kde je to nutné, je jednou z největších třecích bodů v uživatelském rozhraní generativní AI, nejméně proto, že jiné vlastnosti rozhraní dávají uživateli iluzi, že AI je schopná obezřetných odpovědí, zatímco – alespoň prozatím – obvykle není.

Jedna obava o jakýkoli přímý typ zásahu, který neprochází přímo z “charakteru” modelu, je, že může být nadměrně nebo nedostatečně použit, v závislosti na tom, zda detekované aktivace jsou skutečně relevantní pro model, aby uznal porážku.

Dále je logistická nákladnost lineárního probe monitorování nepravděpodobně zanedbatelná, a je možné, že jednodušší heuristické metody, podobné těm, které brání zakázanému obsahu uživatelům, mohou být levnější řešení, pokud kotvy spouštěče mohou být někdy dostatečně definovány.

 

* Přirozeně se to neshoduje s evidentním synonymem ‘zodpovědnost’, ale spíše definuje, zda konkrétní otázka může být zodpovězena vůbec.

Poprvé publikováno ve středu, 27. srpna 2025

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai