Artificiell intelligens
AI-agenter visar emergent intelligens egenskaper i virtuell gömma och sök

En av de intressanta sakerna om att forska om AI är att den ofta kan utföra handlingar och följa strategier som förvånar till och med forskarna som designar dem. Detta hände under en nyligen virtuell omgång av gömma och sök där flera AI-agenter sattes mot varandra. Forskare på OpenAI, ett AI-företag baserat i San Francisco, blev förvånade över att deras AI-agenter började utnyttja strategier i spelvärlden som forskarna inte ens visste existerade.
OpenAI har tränat en grupp AI-agenter att spela ett gömma och sök-spel med varandra. AI-programmen tränas med förstärkt inlärning, en teknik där önskat beteende framkallas från AI-algoritmerna genom att ge algoritmerna feedback. AI:n börjar med att utföra slumpmässiga handlingar, och varje gång den utför en handling som bringar den närmare sitt mål, belönas agenten. AI:n önskar att få maximalt med belöning, så den kommer att experimentera för att se vilka handlingar som ger den mest belöning. Genom trial och error kan AI:n skilja på strategier som kommer att leda den till seger, de som kommer att ge den mest belöning.
Förstärkt inlärning har redan visat imponerande framgångar i att lära sig reglerna för spel. OpenAI tränade nyligen ett lag av AI att spela MMORPG-spelet DOTA 2, och AI:n besegrade ett världsmästarlag av mänskliga spelare förra året. En liknande sak hände med spelet StarCraft när en AI tränades på spelet av DeepMind. Förstärkt inlärning har också använts för att lära AI-program att spela Pictionary med människor, lära sig att tolka bilder och använda grundläggande sunt förnuft.
I det virtuella gömma och sök-spelet som skapades av forskarna, sattes flera AI-agenter mot varandra. Resultatet blev en kapprustning av sorts, där varje agent vill överträffa den andra och få mest belöningspoäng. En ny strategi som antas av en agent kommer att få dess motståndare att söka en ny strategi för att motverka den, och vice versa. Igor Mordatch, en forskare på OpenAI, förklarade för IEEE Spectrum att experimentet visar att denna process av trial och error mellan agenter “är tillräckligt för att agenterna ska lära sig förvånande beteenden på egen hand – det är som barn som leker med varandra.”
Vilka var de förvånande beteendena exakt? Forskarna hade fyra grundläggande strategier som de förväntade sig att AI-agenterna skulle lära sig, och de lärde sig dessa ganska snabbt, och blev kompetenta i dem efter bara 25 miljoner simulerade spel. Spelet ägde rum i en 3D-miljö full av ramp, block och väggar. AI-agenterna lärde sig att jaga varandra, flytta block för att bygga fästningar de kunde gömma sig i, och flytta ramp. AI-sökarna lärde sig att dra ramp runt för att komma in i gömmarnas fästningar, medan gömmarna lärde sig att försöka ta ramp in i sina fästningar så att sökarna inte kunde använda dem.
Men runt benchmarken 380 miljoner spel, hände något oväntat. AI-agenterna lärde sig att använda två strategier som forskarna inte förväntade sig. Sök-agenter lärde sig att genom att hoppa upp på en låda och luta/lägga lådan mot en närliggande fästning, kunde de hoppa in i fästningen och hitta gömmen. Forskarna hade inte ens insett att detta var möjligt inom fysiken i spelmiljön. Gömmarna lärde sig att hantera detta problem genom att dra lådor på plats inom sina fästningar.
Medan det oväntade beteendet hos agenter tränade med förstärkt inlärning är ofarligt i detta fall, så väcker det vissa potentiella farhågor om hur förstärkt inlärning tillämpas i andra situationer. En medlem av OpenAI-forskningsgruppen, Bowen Baker, förklarade för IEEE Spectrum att dessa oväntade beteenden kunde vara potentiellt farliga. Vad om robotar började bete sig på oväntade sätt?
“Att bygga dessa miljöer är svårt”, förklarade Baker. “Agenterna kommer att komma med dessa oväntade beteenden, vilket kommer att vara ett säkerhetsproblem längre fram när du sätter dem i mer komplexa miljöer.”
Men Baker förklarade också att förstärkta strategier kunde leda till innovativa lösningar på nuvarande problem. System tränade med förstärkt inlärning kunde lösa en mängd olika problem med lösningar som vi kanske inte ens kan föreställa oss.












