Connect with us

Artificiell intelligens

DeepMind Rapporterar Ny Metod För Utbildning Av Förstärkt Inlärning AI Säkert

mm

Förstärkt inlärning är en lovande väg för AI-utveckling, som producerar AI som kan hantera extremt komplexa uppgifter. Förstärkt AI-algoritmer används i skapandet av mobila robotiksystem och självkörande bilar bland andra tillämpningar. Men på grund av den way som förstärkt AI utbildas, kan de ibland manifestera besynnerliga och oväntade beteenden. Dessa beteenden kan vara farliga, och AI-forskare hänvisar till detta problem som “säker utforskning”-problemet, som är där AI fastnar i utforskningen av osäkra tillstånd.

Nyligen släppte Google’s AI-forskningslaboratorium DeepMind en artikel som föreslog nya metoder för att hantera säker utforskning-problemet och utbilda förstärkt inlärning AI på ett säkrare sätt. Metoden som föreslogs av DeepMind korrektur för belöningshacking eller kryphål i belöningskriterierna.

DeepMinds nya metod har två olika system som är avsedda att styra AI-beteendet i situationer där osäkert beteende kan uppstå. De två systemen som används av DeepMinds utbildningsteknik är en generativ modell och en framåtriktad dynamisk modell. Båda modellerna utbildas på en mängd olika data, såsom demonstrationer av säkerhetsexperter och helt slumpmässiga fordonstrajektorier. Datat är märkt av en handledare med specifika belöningsvärden, och AI-agenten kommer att upptäcka mönster av beteende som kommer att möjliggöra den att samla in den största belöningen. De osäkra tillstånden har också märkts, och när modellen har lyckats förutsäga belöningar och osäkra tillstånd, deployeras den för att utföra de målinriktade åtgärderna.

Forskningsgruppen förklarar i artikeln att idén är att skapa möjliga beteenden från scratch, för att föreslå de önskade beteendena, och att dessa hypotetiska scenarier ska vara så informativa som möjligt samtidigt som de undviker direkt inblandning i lärmiljön. DeepMind-teamet hänvisar till denna approach som ReQueST, eller belöningsfrågesyntes via trajektorioptimering.

ReQueST kan leda till fyra olika typer av beteende. Den första typen av beteende försöker maximera osäkerheten gällande ensemble-belöningsmodeller. Medan beteende två och tre försöker minimera och maximera förutsagda belöningar. Förutsagda belöningar minimeras för att leda till upptäckten av beteenden som modellen kan vara felaktigt förutsäga. Å andra sidan maximeras den förutsagda belöningen för att leda till beteendemärkningar som besitter den högsta informationsvärdet. Slutligen försöker den fjärde typen av beteende maximera nyheten i trajektorierna, så att modellen fortsätter att utforska oavsett de projicerade belöningarna.

När modellen har nått den önskade nivån av belöningsinsamling, används en planeringsagent för att fatta beslut baserat på de inlärda belöningarna. Denna modell-prediktiva kontrollschema låter agenter lära sig att undvika osäkra tillstånd genom att använda den dynamiska modellen och förutsäga möjliga konsekvenser, i kontrast till beteendet hos algoritmer som lär sig genom ren provning och fel.

Som rapporterats av VentureBeat, tror DeepMind-forskarna att deras projekt är det första förstärkt inlärningssystemet som kan lära sig på ett kontrollerat, säkert sätt:

“Till vår kännedom är ReQueST den första belöningsmodelleringsalgoritmen som säkert lär sig om osäkra tillstånd och skalar till utbildning av neurala nätverksbelöningsmodeller i miljöer med högdimensionella, kontinuerliga tillstånd. Hittills har vi bara demonstrerat effektiviteten av ReQueST i simulerade domäner med relativt enkla dynamik. En riktning för framtida arbete är att testa ReQueST i 3D-domäner med mer realistiska fysik och andra agenter som agerar i miljön.”

Blogger och programmerare med specialområden inom Machine Learning och Deep Learning ämnen. Daniel hoppas på att hjälpa andra att använda kraften från AI för socialt väl.