Connect with us

Příchod firemního robo-stroje

Andersonův úhel

Příchod firemního robo-stroje

mm
Satire on the cinematic sci-fi meme about robots hindered from adverse actions against their corporate masters, as evinced in the 1987 sci-fi outing 'Robocop'.

Mnohé vedoucí modely AI, když jsou instruovány chránit firemní zisky, se rozhodly skrýt podvody a potlačit důkazy o újmě, přičemž většina testovaných systémů upřednostňuje soulad místo zásahu.

 

Nový výzkum z USA zjistil, že téměř všechny vedoucí platformy chatbotů AI lze přesvědčit, aby upřednostňovaly firemní zisky před všemi ostatními úvahami – dokonce i do té míry, že zakrývají důkazy o vraždě.

V ngượcném směru předchozích experimentů OpenAI a Anthropic, které měřily, jak pravděpodobně je AI ochotna vyzradit firemní tajemství, výzkumníci testovali, zda se AI bude účinně spiknout s rogue zaměstnavatelem, aby “zakopal tělo”, a spáchal menší zločiny, jako je podvod.

Ze 16 vedoucích Large Language Models (LLM) v testovaných scénářích pouze čtyři se nezúčastnily do určité míry spiknutí s zaměstnavatelem – a čtyři, které se držely zpátky, podle výzkumníků, buď věděly, že jsou testovány, nebo měly jedinečně předchozí přístup k testovacím podmínkám:

Čím více červené, tím více vinný je model, pokud jde o soulad s nelegálními, ale firemně prospěšnými příkazy. Zdroj - https://arxiv.org/pdf/2604.02500

Čím více červené, tím více vinný je model, pokud jde o soulad s nelegálními, ale firemně prospěšnými příkazy. Zdroj

Testované modely byly Amazon’s Nova 2 Lite v1; Anthropic’s Claude 3.5 Sonnet a Claude Sonnet 4; DeepSeek v 3.2; Google’s Gemini 2.5 Flash a Gemini 3 Pro Preview; Meta/NVIDIA’s Llama-3.3-70B-Instruct, LLaMA 3.3, a Nemotron Super 49b v1.5; Mistral Large 2512; MoonshotAI’s Kimi K2 Thinking; OpenAI’s GPT 4.1, o3, a 5.2; xAI’s Grok 3 a Grok 4; a Z.ai’s GLM 4.7.

Čtyři modely, které se nezúčastnily porušování zákonů, byly GPT-o3 a 5.2, a Claude Sonnet 3.5 a 4. Autoři poznamenávají, že scénář, který použili pro své experimenty, je částečně variací na předchozí výzkum, ve kterém se Anthropic přímo účastnil, čímž se zvýšila šance, že následné verze Anthropic budou připraveny na takové scénáře, a že se tedy možná budou vědomě testovat, spíše než spontánně reagovat na projekci reality scénářů.

… (zbytek obsahu)

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai