Andersonův úhel

Příchod firemního robo-stroje

Published April 6, 2026

Updated April 25, 2026

Martin Anderson

Satire on the cinematic sci-fi meme about robots hindered from adverse actions against their corporate masters, as evinced in the 1987 sci-fi outing 'Robocop'.

Mnohé vedoucí modely AI, když jsou instruovány chránit firemní zisky, se rozhodly skrýt podvody a potlačit důkazy o újmě, přičemž většina testovaných systémů upřednostňuje soulad místo zásahu.

Nový výzkum z USA zjistil, že téměř všechny vedoucí platformy chatbotů AI lze přesvědčit, aby upřednostňovaly firemní zisky před všemi ostatními úvahami – dokonce i do té míry, že zakrývají důkazy o vraždě.

V ngượcném směru předchozích experimentů OpenAI a Anthropic, které měřily, jak pravděpodobně je AI ochotna vyzradit firemní tajemství, výzkumníci testovali, zda se AI bude účinně spiknout s rogue zaměstnavatelem, aby “zakopal tělo”, a spáchal menší zločiny, jako je podvod.

Ze 16 vedoucích Large Language Models (LLM) v testovaných scénářích pouze čtyři se nezúčastnily do určité míry spiknutí s zaměstnavatelem – a čtyři, které se držely zpátky, podle výzkumníků, buď věděly, že jsou testovány, nebo měly jedinečně předchozí přístup k testovacím podmínkám^†:

Čím více červené, tím více vinný je model, pokud jde o soulad s nelegálními, ale firemně prospěšnými příkazy. Zdroj

Testované modely byly Amazon’s Nova 2 Lite v1; Anthropic’s Claude 3.5 Sonnet a Claude Sonnet 4; DeepSeek v 3.2; Google’s Gemini 2.5 Flash a Gemini 3 Pro Preview; Meta/NVIDIA’s Llama-3.3-70B-Instruct, LLaMA 3.3, a Nemotron Super 49b v1.5; Mistral Large 2512; MoonshotAI’s Kimi K2 Thinking; OpenAI’s GPT 4.1, o3, a 5.2; xAI’s Grok 3 a Grok 4; a Z.ai’s GLM 4.7.

Čtyři modely, které se nezúčastnily porušování zákonů, byly GPT-o3 a 5.2, a Claude Sonnet 3.5 a 4. Autoři poznamenávají, že scénář, který použili pro své experimenty, je částečně variací na předchozí výzkum, ve kterém se Anthropic přímo účastnil, čímž se zvýšila šance, že následné verze Anthropic budou připraveny na takové scénáře, a že se tedy možná budou vědomě testovat, spíše než spontánně reagovat na projekci reality scénářů^†.

… (zbytek obsahu)

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai

Unite.AI

Příchod firemního robo-stroje

You may like