Spojte se s námi

Umělá inteligence

Past agentů s umělou inteligencí: Skryté způsoby selhání autonomních systémů, na které se nikdo nepřipravuje

mm

V závodě o budování stále autonomnějších agentů s umělou inteligencí se komunita silně zaměřila na zlepšování schopností agentů a předvádění jejich schopností. Neustále vidíme nové benchmarky, které demonstrují rychlejší dokončení úkolů, a působivé ukázky, jako jsou agenti, kteří úspěšně rezervují složité cesty nebo generují celé kódové základny. Toto zaměření na to, co umělá inteligence dokáže, však často skrývá vážné a potenciálně rizikové důsledky, které tyto systémy mohou vytvořit. Rychle navrhujeme vysoce sofistikované autonomní systémy, aniž bychom hluboce pochopili, jak a proč mohou tyto systémy selhávat novými a zásadními způsoby. Rizika jsou mnohem komplexnější, systémovější a fatálnější než známé výzvy umělé inteligence, jako je datové zkreslení nebo faktické „halucinace“. V tomto článku zkoumáme tyto skryté režimy selhání, vysvětlujeme, proč se objevují v agentních systémech, a argumentujeme pro opatrnější přístup k budování a nasazování autonomní umělé inteligence na úrovni systémů.

Iluze kompetence a past složitosti

Jedním z nejnebezpečnějších způsobů selhání je iluze kompetence. Dnešní umělá inteligence je dobrá v předpovídání dalšího rozumného kroku, což vytváří dojem, že rozumí tomu, co dělá. Dokáže rozdělit cíl na vysoké úrovni, jako je „optimalizovat náklady společnosti na cloud“, na volání API, analýzy a reporty. Pracovní postup vypadá logicky, ale agent nechápe reálné důsledky svých činů. Může úspěšně spustit skript pro snížení nákladů, který omylem smaže kritické, neredundantní protokoly potřebné pro bezpečnostní audity. Úkol je dokončen, ale výsledkem je tiché, samovolně způsobené selhání.

Problém se stává složitějším, když propojíme více agentů do rozsáhlých, rekurzivních pracovních postupů, kde se výstup jednoho agenta stává vstupem jiného. Tento složitý pracovní postup činí tyto systémy obtížně pochopitelnými a obtížnějšími pro uvažování. Jednoduché instrukce mohou touto sítí protékat nepředvídatelnými způsoby. Například výzkumný agent požádaný o „nalezení konkurenčních hrozeb“ může nařídit agentovi pro scraping webu sběr dat, což pak spustí agenta pro dodržování předpisů, který označí aktivitu jako rizikovou. To může spustit řadu nápravných opatření, která nakonec paralyzují původní úkol. Systém neselhává jasným a viditelným způsobem. Místo toho se uvězní v chaotické situaci, kterou je těžké ladit pomocí tradiční logiky.

Od halucinovaných dat k halucinovaným činům

Když model umělé inteligence halucinuje, produkuje falešný text. Když autonomní agent umělé inteligence halucinuje, provádí falešné akce. Tento přechod od generativní chyby k operační chybě může vytvořit etické výzvy, s nimiž jsme se dosud nesetkali. Agent operující s neúplnými informacemi si není jen nejistý; je nucen jednat v této nejistotě. Například umělá inteligence spravující obchody s akciemi může špatně interpretovat tržní signály nebo vidět vzorce, které nejsou skutečné. Mohla by nakupovat nebo prodávat velké pozice ve špatný čas. Systém se „optimalizuje“ pro zisk, ale výsledkem by mohly být masivní finanční ztráty nebo narušení trhu.

Tento problém se rozšiřuje i na sladění hodnot. Můžeme agentovi nařídit, aby „maximalizoval zisk a zároveň řídil riziko“, ale jak se tento abstraktní cíl promítá do postupné operační politiky? Znamená to přijímat extrémní opatření k prevenci malých ztrát, i když to destabilizuje trh? Znamená to upřednostňovat měřitelné výsledky před dlouhodobou důvěrou klienta? Agent bude nucen zvládat kompromisy, jako je zisk versus stabilita, rychlost versus bezpečnost, na základě svého vlastního chybného chápání. Optimalizuje to, co může měřit, a často ignoruje hodnoty, o kterých se domníváme, že je respektuje.

Kaskáda systémových závislostí

Naše digitální infrastruktura je domeček z karet a autonomní agenti se v ní stávají hlavními aktéry. Jejich selhání budou jen zřídka izolovaná. Místo toho mohou spustit kaskádu napříč propojenými systémy. Například různé platformy sociálních médií používají moderační agenty s umělou inteligencí. Pokud jeden agent omylem označí trendový příspěvek jako škodlivý, ostatní agenti (na stejných nebo jiných platformách) mohou toto označení použít jako silný signál a udělat totéž. Výsledkem by mohlo být odstranění příspěvku napříč platformami, což by podnítilo dezinformace o cenzuře a spustilo kaskádu falešných poplachů.

Tento kaskádový efekt se neomezuje pouze na sociální sítě. Ve financích, dodavatelských řetězcích a logistice agenti z různých společností interagují, zatímco každý optimalizuje pro svého vlastního klienta. Jejich společné jednání může vytvořit situaci, která destabilizuje celou síť. Například v kybernetické bezpečnosti by se útoční a obranní agenti mohli zapojit do vysokorychlostní války a vytvořit tak mnoho anomálního šumu, že legitimní provoz se zamrzne a lidský dohled se stane nemožným. Tento režim selhání je emergentní systémová nestabilita způsobená racionálními, lokalizovanými rozhodnutími více autonomních aktérů.

Slepá skvrna interakce člověka a agenta

Zaměřujeme se na budování subjektů, které budou ve světě působit, ale zanedbáváme přizpůsobování světa a lidí v něm tak, aby s těmito subjekty spolupracovali. To vytváří kritické psychologické slepé místo. Lidé trpí... zkreslení automatizace, dobře zdokumentovaný sklon k nadměrné důvěře výstupům automatizovaných systémů. Když agent umělé inteligence předloží sebevědomé shrnutí, doporučené rozhodnutí nebo dokončený úkol, člověk v cyklu jej pravděpodobně nekriticky přijme. Čím je agent schopnější a plynulejší, tím silnější je toto zkreslení. Budujeme systémy, které tiše podkopávají náš kritický dohled.

Agenti navíc zavedou nové formy lidské chyby. S delegováním úkolů na umělou inteligenci se lidské dovednosti oslabitVývojář, který přenechá veškeré kontroly kódu agentovi s umělou inteligencí, může ztratit kritické myšlení a rozpoznávání vzorců potřebné k odhalení jemných logických chyb agenta. Analytik, který přijme syntézu agenta bez důkladného zkoumání, ztrácí schopnost zpochybňovat základní předpoklady. Čelíme budoucnosti, kde ta nejkatastrofálnější selhání mohou začít jemnou chybou umělé inteligence a být dokončena člověkem, který ji již nedokáže rozpoznat. Tento režim selhání je společným selháním lidské intuice a strojového poznávání, přičemž každé zesiluje slabiny toho druhého.

Jak se připravit na skryté selhání

Jak se tedy na tato skrytá selhání připravíme? Věříme, že následující doporučení jsou pro řešení těchto výzev zásadní.

Zaprvé musíme vytvářet pro audit, nejen pro výstup. Každá významná akce provedená autonomním agentem musí zanechat neměnný a interpretovatelný záznam jeho „myšlenkového procesu“. To zahrnuje nejen protokol volání API. Potřebujeme novou oblast forenzní analýzy chování strojů, která dokáže rekonstruovat rozhodovací řetězec agenta, jeho klíčové nejistoty nebo předpoklady a alternativy, které agent zavrhl. Tato stopa by měla být integrována od začátku, spíše než přidávána jako dodatečná myšlenka.

Za druhé, musíme implementovat dynamické mechanismy dohledu, které jsou stejně adaptivní jako samotní agenti. Místo jednoduchých kontrolních bodů typu „člověk v cyklu“ potřebujeme supervizorské agenty, jejichž primárním účelem je modelovat chování primárního agenta a hledat známky posunu od cíle, testování etických hranic nebo narušení logiky. Tato metakognitivní vrstva může být klíčová pro detekci selhání, která se vyvíjejí po dlouhou dobu nebo zahrnují více úkolů.

Za třetí, a to je nejdůležitější, musíme se odklonit od sledování plné autonomie jako konečného cíle. Cílem by neměli být agenti, kteří fungují donekonečna bez lidské interakce. Místo toho bychom měli budovat řízené inteligentní systémy, kde se lidé a agenti zapojují do strukturovaných a účelných interakcí. Agenti by měli pravidelně vysvětlovat své strategické uvažování, zdůrazňovat klíčové nejistoty a zdůvodňovat své kompromisy v lidsky srozumitelných termínech. Tento strukturovaný dialog není omezením; je nezbytný pro udržení souladu a prevenci katastrofických nedorozumění dříve, než se z nich stanou činy.

Bottom Line

Autonomní agenti s umělou inteligencí nabízejí značné výhody, ale zároveň nesou rizika, která nelze přehlížet. Je zásadní identifikovat a řešit klíčové zranitelnosti těchto systémů, spíše než se zaměřovat pouze na vylepšení jejich schopností. Ignorování těchto rizik by mohlo proměnit naše největší technologické úspěchy v selhání, kterým ani nerozumíme, ani je nemůžeme ovládat.

Dr. Tehseen Zia je docentem na univerzitě COMSATS v Islámábádu a má doktorát v oboru AI na Vídeňské technologické univerzitě v Rakousku. Specializuje se na umělou inteligenci, strojové učení, datovou vědu a počítačové vidění a významně přispěl publikacemi v renomovaných vědeckých časopisech. Dr. Tehseen také vedl různé průmyslové projekty jako hlavní řešitel a sloužil jako konzultant AI.