Myslitelé
Problém spolehlivosti AI, o kterém nikdo nechce mluvit

Dominantní narativ o spolehlivosti AI je jednoduchý: modely halucinují. Proto, aby společnosti získaly maximum užitku z nich, musí modely zlepšit. Více parametrů. Lepší trénovací data. Více učení s posilováním. Více sladění.
A přesto, i když modely na hranici se stávají stále schopnějšími, debata o spolehlivosti odmítá zmizet. Vedoucí podniků stále váhají, zda mají umožnit agentům provádět významné akce v rámci základních systémů. Představenstva stále ptají: „Můžeme jim důvěřovat?“
Ale halucinace nejsou primárně problémem modelu. Jsou problémem kontextu. Požadujeme, aby systémy AI fungovaly na podnikové infrastruktuře bez toho, aby jim poskytly strukturální viditelnost potřebnou pro bezpečné uvažování. Pak viníme model, když hádá.
Skutečná mezera ve spolehlivosti není v hmotnostech tak tolik, jako v informačním vrstvě.
Chirurg bez zobrazování
Představte si chirurga, který operuje bez zobrazování. Žádné MRI. Žádné CT skenování. Žádné reálné vizualizace okolní tkáně. Jen obecné pochopení anatomie a skalpel. I nejzkušenější chirurg by byl nucen odhadovat. Přibližovat. Spoléhat se na pravděpodobnostní uvažování.
To je to, co agenti podnikového AI dělají nyní.
Když je systém AI požádán o úpravu pracovního postupu, aktualizaci pravidel ERP nebo spuštění automatizace napříč nástroji, zřídka má úplný graf závislostí prostředí. Neví, které „nepoužité“ pole pohání dolní dashboard. Nevidí, které automatizace odkazují na toto ověřovací pravidlo. Nemůže spolehlivě simulovat druhý řád dopadu.
Takže dělá to, co jsou velké jazykové modely trénovány na to: předpovídá. Předpověď není pochopení. A předpověď bez strukturálního kontextu vyhlíží jako halucinace.
Mýlíme se ve rámci debaty
Komunita AI je uvězněna v modelově-centrické debatě o spolehlivosti. Články o škálách zvyšování. Výzkum o řetězovém uvažování podněcování. Techniky augmentace načítání. Bewertitelské metriky.
Vše nezbytné. Vše cenné. Ale všimněte si, co chybí: diskuse o topologii podnikových systémů.
Spolehlivost v podnikovém kontextu neznamená jednoduše „model generuje správný text“. Znamená to „systém dělá změny, které jsou bezpečné, stopovatelné a předvídatelné“.
To je fundamentálně jiná potřeba.
Když OpenAI a Anthropic publikují hodnocení výkonu modelu, měří přesnost na úkolech uvažování, kodifikačních benchmarcích nebo znalostní rekapitulaci. Tyto signály jsou užitečné. Ale neměřují schopnost AI agenta bezpečně upravit živý revenue systém s 15 lety nahromaděného dluhu automatizace.
Problém není, zda model může psát syntakticky správný kód; je to, zda AI rozumí prostředí, do kterého je kód nasazen.
Žijící systémy akumulují entropii
Podnikové systémy nejsou statickými databázemi. Jsou živými systémy. Každá nová integrace zanechává stopu. Každá kampaň zavádí pole. Každé „rychlé řešení“ zavádí další vrstvu automatizace. Časem tyto vrstvy interagují způsoby, které nikdo plně nerozumí.
To je funkce růstu. Komplexní adaptační systémy přirozeně akumulují entropii. Výzkum z MIT Sloan School dlouho zdůrazňoval, jak asymetrie informací uvnitř organizací zvyšuje provozní riziko. Mezitím Gartner odhaduje, že špatná kvalita dat stojí organizace v průměru $12,9 milionu ročně.
Teď si představte vložení autonomních agentů do tohoto prostředí bez předchozího řešení jeho strukturální neprůhlednosti.
Neměli bychom být překvapeni, když výsledky feels nepředvídatelné. Agent není zlý nebo hloupý. Je slepý. Staví ve tmě.
Načítání nestačí
Někteří budou argumentovat, že generace s podporou načítání (RAG) řeší tento problém. Dejte modelu přístup k dokumentaci. Krmit ho schématy popisů. Připojte ho k API.
To pomáhá.
Ale dokumentace není topologie.
PDF, který vysvětluje, jak pracovní postup „má“ fungovat, není stejný jako reálný graf, jak skutečně interaguje s 17 dalšími automatizacemi.
Podniková realita se zřídka shoduje s podnikovou dokumentací.
Studie z roku 2023 publikovaná v Communications of the ACM nalézá, že zastaralá dokumentace je primárním přispěvatelem k selháním údržby softwaru. Systémy se vyvíjejí rychleji než jejich narativy.
Takže i když poskytujeme AI agentům dokumentaci, často jim poskytujeme částečnou nebo idealizovanou mapu.
Částečné mapy stále produkují sebevědomé chyby.
Agentní vrstva je skutečná bezpečnostní vrstva
Máme tendenci myslet si, že bezpečnost znamená trénink sladění, zábrany, červené týmy a filtry zásad. Vše důležité. Ale v podnikových kontextech je bezpečnost kontextuální. Je to znát:
- Co závisí na tomto poli?
- Co automatizace odkazuje na tento objekt?
- Které dolní reporty se rozpadnou?
- Kdo vlastní tento proces?
- Kdy byl tento proces naposledy upraven?
- Jaké historické změny předcházely aktuální konfiguraci?
Bez této vrstvy je AI agent efektivní improvizace uvnitř černé skříňky. S touto vrstvou může simulovat dopad před provedením. Rozdíl mezi halucinací a spolehlivostí je často viditelnost.
Proč je model obviňován
Proč je debata zaměřena tak silně na modely? Protože modely jsou čitelné. Můžeme měřit zmatení. Můžeme srovnávat benchmarkové skóre. Můžeme publikovat křivky zvyšování. Můžeme debatovat o kvalitě trénovacích dat.
Informační topologie uvnitř podniků je mnohem špinavější. Vyžaduje mezioborovou koordinaci. Vyžaduje disciplínu řízení. Donucuje organizace, aby se vypořádaly s nahromaděnou složitostí svých vlastních systémů.
Je snazší říci „model není připraven“ než přiznat „naše infrastruktura je neprůhledná“.
Ale když AI agenti přecházejí z generování obsahu na provozní provedení, toto rámování se stává nebezpečným.
Pokud budeme považovat spolehlivost pouze za problém modelu, budeme pokračovat v nasazování agentů do prostředí, které nemohou smysluplně vnímat.
Autonomie vyžaduje kontext
Experimenty Anthropic s multiagentními softwarovými vývojářskými týmy ukazují, že systémy AI mohou koordinovat napříč složitými úkoly, když jsou poskytnuty strukturovaný kontext a trvalá paměť. Hranice schopností se rychle rozšiřuje. Ale tato autonomie bez environmentální povědomí je křehká.
Samohybné auto se nespoléhá pouze na silný neuronový síť. Spoléhá se na lidar, kamery, mapovací systémy a reálné environmentální snímání. Model je jednou vrstvou v rámci širšího percepčního stacku.
Podnikový AI potřebuje ekvivalent lidaru. Nejen přístup k API. Nejen dokumentaci. Ale strukturované, dynamické pochopení systémových závislostí.
Dokud toto neexistuje, debaty o halucinacích budou pokračovat v nesprávné diagnóze základní příčiny.
Skryté riziko: Přehnaná sebevědomost
Existuje další jemné riziko v aktuálním rámování.
Jak se modely zlepšují, jejich výstupy se stávají více plynulými, více přesvědčivými, více autoritativními.
Plynulost zvyšuje sebevědomost.
Když agent upraví systém bez plného kontextu, selhání není okamžitě zřejmé. Může se projevit týdny později jako nesrovnalost ve zprávách, compliance mezera nebo chyba ve výhledu příjmů. Protože model vypadá kompetentně, organizace mohou přehánět jeho provozní bezpečnost. Skutečný režim selhání je pravděpodobná chyba.
A pravděpodobná chyba prosperuje ve tmě.
Předefinování otázky spolehlivosti
Místo toho, aby se ptali: „Je model dostatečně dobrý?“ Měli bychom se ptát: „Má agent dostatečný strukturální kontext, aby jednal bezpečně?“ Místo měření benchmarkové přesnosti bychom měli měřit environmentální viditelnost. Místo debaty o počtech parametrů bychom měli audity systémové neprůhlednosti.
Další hranice spolehlivosti AI není jednoduše větší modely. Je to bohatší kontextové vrstvy.
To zahrnuje:
- Grafy závislostí podnikových systémů
- Reálné sledování změn
- Mapování vlastnictví
- Povědomí o historické konfiguraci
- Simulace dopadu před provedením
Žádné z toho není glamorous. Žádné z toho se neobjevuje na sociálních médiích. Ale tohle je místo, kde bude spolehlivost vyhrána.
Stavba se světly
Podnikoví lídři jsou právem požadují spolehlivost, než udělí agentům provozní autoritu. Ale cesta vpřed není čekání na mýtický model bez halucinací.
Je to investice do viditelnosti infrastruktury, která umožňuje inteligentní akci.
Neměli bychom dovolit juniorovi správci upravit produkční systémy bez pochopení závislostí. Neměli bychom dovolit AI agentům to udělat také.
Cílem? Snížit slepá místa.
Když agenti fungují se strukturální povědomím, míra halucinací klesá ne proto, že se model změnil, ale protože povrch odhadu se zmenšuje.
Předpověď se stává uvažováním. Uvažování se stává simulací. Simulace se stává bezpečným provedením.
Nezbytný posun
Během příštích pěti let se AI stack rozdělí. Jedna vrstva se zaměří na modelové schopnosti: hloubku uvažování, multimodální plynulost a nákladovou efektivitu. Druhá vrstva se zaměří na informační/kontextovou topologii: systémové grafy, metadata inteligence a rámce řízení.
Organizace, které považují spolehlivost pouze za výběr modelu, budou mít potíže.
Organizace, které považují spolehlivost za architektonickou vlastnost, budou postupovat rychleji s nižším rizikem.
Debata o halucinacích bude vypadat naivně v retrospektivě. Skutečný příběh bude o viditelnosti.
AI není inherenčně bezohledné.
Funguje v tmavé místnosti.
Dokud neřešíme to, nebudeme stavět inteligentní systémy. Budeme stavět silné prediktory uvnitř neprůhledných prostředí.
A to znamená, že navzdory všem pokrokům, AI stále staví ve tmě.












