Myslitelé

Ne, AI se nezastavila. Podíváte se na špatnou tabuli

Published December 12, 2025

Updated April 25, 2026

Steve Wilson, Chief AI Officer at Exabeam

Výkonní manažeři začínají zpochybňovat své plány pro umělou inteligenci. Po počátečním nárazu generativních nástrojů v roce 2023 je přirozené se ptát, zda se tempo nezpomalovalo. Ale tato otázka špatně čte tabuli. Pokrok v oblasti AI se nezastavil. Přesunul se.

To, co dříve vypadalo jako exponenciální změna na povrchu, plynulé psaní, vyčerpávající souhrny, se nyní děje v hlubších, významnějších oblastech: rozumění, kód, orchestrace pracovních postupů a multimodální porozumění. Tyto pokroky jsou méně okázalé, ale mnohem významnější. Pokud stále měříte AI podle její schopnosti napsat lepší odstavec, přehlížíte skutečnou transformaci.

Skutečné zisky se dějí tam, kde se práce skutečně provádí

Pokrok se urychluje tam, kde to nejvíce záleží. Na nových, přísných testech, jako je GPQA, který hodnotí rozumění na úrovni vysokoškolského studia, výkon modelu skočil téměř 49% bodů za rok. Na MMMU, který testuje úkoly napříč doménami a multimodální úkoly, skóre vzrostlo téměř o 19 bodů. SWE-bench, test, který vyžaduje opravu skutečných GitHub repozitářů a projít automatickými testy, skočil z 4,4% na více než 71% za jediný rok.

Tyto nejsou marginální zlepšení. Ukazují, že velké jazykové modely zvládají úkoly, které vyžadují přesnost, rozumění a integraci napříč složitými systémy. SWE-bench, zejména, jde za hranice triviálních problémů a demonstruje, zda modely mohou účastnit se skutečného softwarového vývoje, práh, který dříve zdál být roky vzdálen.

V téže době se podniky vyvíjejí ve svých očekáváních. Není již dostatečné, aby modely byly “obecně inteligentní”, musí být specificky užitečné. Posun směrem k modelům přizpůsobeným pro konkrétní domény, systémy propojené s nástroji a multiagentní rámce odráží rostoucí poptávku po výkonu, který je provozuschopný, auditable a integrovaný do skutečných pracovních postupů.

Narrativa se neshoduje s realitou

Proč to vypadá, jako by se věci zpomalovaly? Existují dva důvody. První, testy, které původně vedly k pozornosti, souhrny textu, generování e-mailů a jednoduché chatové úkoly, dosáhly přirozených stropů. Jakmile model konzistentně dosahuje 90% přesnosti v těchto úkolech, zisky vypadají minimální. To je stropový efekt, ne plateau v pokroku.

Dnešní zlepšení zahrnují dlouhou kontextuální paměť, integraci nástrojů, rozumění v čase inference a doménově specifickou přesnost. Tyto schopnosti nevytvářejí virální demo, ale dramaticky vylepšují, co modely mohou dělat ve skutečných pracovních postupech. Zatímco tradiční jazykové testy jsou na plateau, provozní testy spojené se skutečným rozuměním, použitím nástrojů a podnikovou spolehlivostí se zlepšují rychleji než kdykoli předtím. Tato mezera vysvětluje nesoulad: náhodní pozorovatelé vidí stagnaci, protože povrch se nezměnil, ale praktici vidí transformaci, která se děje právě pod ním.

Od demo k nasazení

AI již není omezena na okázalá demo nebo úzké prototypy. Překračuje práh do mainstreamového nasazení, zejména v podnikových prostředích, kde záleží na spolehlivosti, přesnosti a dodání výsledků. Posun ke strukturovaným, úkolem specifickým systémům již probíhá.

Do roku 2026 40% podnikových aplikací bude obsahovat vestavěné AI agenty, což je obrovský skok od pouhých 5% v roce 2025. Tyto agenty jsou navrženy nejen pro odpověď na podněty, ale pro provedení úkonů, orchestraci pracovních postupů a dodání hmatatelných výsledků v oblastech, jako je finance, kybernetická bezpečnost a zákaznické operace.

Tato evoluce odráží hlubší technický posun. Vedoucí vývojáři AI, včetně OpenAI, se přesunuli od brute-force škálování a přijali inference-time rozumění, umožňující modelům procházet problémy, ověřovat výstupy a interagovat s externími nástroji dynamicky. Co dříve vypadalo jako úzká automatizace se stává něčím mnohem schopnějším: agenty, které plánují, přizpůsobují se a spolehlivě vykonávají. To není větší AI, je to chytřejší AI, postavená pro skutečnou práci.

A tato skutečná práce je měřena, ne pouze představena. Podniky se přesunují za fázi prokázání konceptu a do fáze nasazení s jasnými KPI a obchodními cíli spojenými s výsledky. Tato zránící fáze je méně o novinkách a více o spolehlivosti.

Chyba, kterou výkonní manažeři právě udělají

Skutečné riziko, které dnes čelí vedoucí podniků, není to, že pokrok AI stagnoval. Je to, že budou věřit, že stagnoval, a zastaví investice přesně v okamžiku, kdy se schopnosti urychlují pod povrchem.

Organizace, které se dostávají dopředu, nečekají na další GPT-styl odhalení. Zabudovávají dnešní AI do vysoce hodnotných, mezioborových pracovních postupů a dodávají měřitelný obchodní dopad. Více než dvě třetiny organizací, které používají AI, hlásí významné snížení nákladů nebo růst výnosů přímo spojené s těmito nasazeními. Nejúspěšnější adoptoři byli ti, kteří integrovali AI napříč několika obchodními funkcemi a automatizovali celé procesní řetězce.

Přesto mnoho výkonných týmů zůstává uvězněno v zastaralých evaluačních rámcích. Důvěřují akademickým testům, které již neodrážejí složitost skutečných podnikových úkolů. Přehánějí optimalizaci tokenů, zatímco přehlížejí provozní hodnotu přesnosti, zotavení a integrace.

To není pouze technická prodleva, je to strategická. Mezera mezi společnostmi, které přepnuly svůj přístup k AI, a těmi, které ne, se rozšiřuje. A brzy to nebude měřeno v nasazených modelech, ale ve získaném trhu a době realizace hodnoty.

Jak přehodnotit hodnocení AI

Je čas aktualizovat tabuli. Organizace potřebují sledovat úplné dokončení úkolů, orchestraci nástrojů a cross-modální pracovní postupy. Modely by měly být hodnoceny nejen podle toho, zda “zodpoví otázku”, ale zda dokončí víceúčelový úkol, zotvoří se z neúspěchu a produkují výstup, který se integruje do stávajících systémů.

Testy, jako GPQA, MMMU a SWE-bench, jsou začátek. Ale interní testy postavené kolem konkrétní domény a pracovních postupů podniku jsou ještě důležitější.

Moderní AI je schopná dodávat vysoce hodnotné výsledky, ale pouze pokud budete testovat na výsledky, které záleží.

To, co definuje další vlnu úspěchu, nebude modely s nejvíce parametry, ale systémy, které fungují spolehlivě v konkrétním obchodním kontextu. Přesnost, audibilita, podpora nástrojů a zotavení z chyb budou mít větší váhu než plynulost nebo tón.

Hranice se posunula

AI se nezastavila. Přesunula se do vrstev, kde se práce skutečně děje, kde systémy musí rozumět, ověřovat a interagovat napříč doménami. Opouští novinkovou fázi a vstupuje do fáze infrastruktury.

Společnosti, které chápou tento posun, již staví výhodu. Nečekají na další virální demo. Zachycují skutečnou produktivitu, zlepšují dobu na řešení a škálovat procesy s přesností a rychlostí.

Pokud stále hledíte na starou tabuli, přehlížíte body, které se skórují někde jinde. Příští lídři nebudou ti, kteří čekali na ohňostroj. Budou ti, kteří viděli skrz šum a jednali na základě skutečného signálu.

Related Topics:enterprise enterprise AI Exabeam

Steve Wilson, Chief AI Officer at Exabeam

Steve Wilson je Chief AI Officer ve firmě Exabeam, kde vede vývoj pokročilých AI poháněných kybernetických bezpečnostních řešení pro globální podniky. Zkušený technologický manažer, Wilson strávil svou kariéru architektem velkých cloudových platforem a zabezpečených systémů pro organizace Global 2000. Je široce respektován v komunitách AI a bezpečnosti za propojení hlubokých technických znalostí s reálným podnikovým uplatněním. Wilson je také autorem The Developer’s Playbook for Large Language Model Security (O’Reilly Media), praktického průvodce pro zabezpečení GenAI systémů v moderních softwarových stackech.