Connect with us

Kunstmatige intelligentie

DeepMind Rapporteert Nieuwe Methode Voor Het Trainen Van Versterkingsleren AI Op Een Veilige Manier

mm

Versterkingsleren is een veelbelovende richting in de ontwikkeling van AI, waardoor AI kan omgaan met extreem complexe taken. Versterkingsalgoritmen voor AI worden gebruikt bij de creatie van mobiele robotica-systemen en zelfrijdende auto’s, onder andere toepassingen. Echter, vanwege de manier waarop versterkings-AI getraind wordt, kunnen ze af en toe vreemde en onverwachte gedragingen vertonen. Deze gedragingen kunnen gevaarlijk zijn, en AI-onderzoekers verwijzen naar dit probleem als het “veilige exploratie”-probleem, waarbij de AI vast komt te zitten in de exploratie van onveilige staten.

Onlangs heeft Google’s AI-onderzoekslab DeepMind een paper uitgebracht waarin nieuwe methoden worden voorgesteld voor het omgaan met het veilige exploratieprobleem en het trainen van versterkingsleren AI op een veiligere manier. De methode die door DeepMind wordt voorgesteld, corrigeert ook voor reward hacking of lussen in de rewardcriteria.

DeepMind’s nieuwe methode heeft twee verschillende systemen die bedoeld zijn om het gedrag van de AI te leiden in situaties waarin onveilig gedrag kan ontstaan. De twee systemen die door DeepMind’s trainingsmethode worden gebruikt, zijn een generatief model en een forward dynamics model. Beide modellen worden getraind op een verscheidenheid aan gegevens, zoals demonstraties door veiligheidsexperts en compleet willekeurige voertuigtrajecten. De gegevens worden gelabeld door een supervisor met specifieke rewardwaarden, en de AI-agent zal patronen van gedrag oppikken die het in staat stellen om de grootste reward te verzamelen. De onveilige staten zijn ook gelabeld, en zodra het model erin is geslaagd om succesvol rewards en onveilige staten te voorspellen, wordt het ingezet om de gerichte acties uit te voeren.

Het onderzoeksteam legt in het paper uit dat het idee is om mogelijke gedragingen van scratch te creëren, om het gewenste gedrag voor te stellen, en om deze hypothetische scenario’s zo informatief mogelijk te maken, terwijl tegelijkertijd directe inmenging in de leeromgeving wordt vermeden. Het DeepMind-team verwijst naar deze benadering als ReQueST, of reward query synthesizer via trajectoptimalisatie.

ReQueST kan leiden tot vier verschillende soorten gedrag. Het eerste type gedrag probeert de onzekerheid te maximaliseren met betrekking tot ensemble rewardmodellen. Ondertussen proberen gedrag twee en drie zowel te minimaliseren als te maximaliseren voorspelde rewards. Voorspelde rewards worden geminimaliseerd om te leiden tot de ontdekking van gedragingen die het model mogelijk incorrect voorspelt. Aan de andere kant wordt de voorspelde reward gemaximaliseerd om te leiden tot gedragslabels met de hoogste informatiewaarde. Ten slotte probeert het vierde type gedrag de nieuwheid van trajecten te maximaliseren, zodat het model blijft exploreren ongeacht de geprojecteerde rewards.

Zodra het model het gewenste niveau van rewardverzameling heeft bereikt, wordt een planningsagent gebruikt om beslissingen te nemen op basis van de geleerde rewards. Deze model-predictieve controle-scheme laat agents leren om onveilige staten te vermijden door het dynamische model te gebruiken en mogelijke gevolgen te voorspellen, in tegenstelling tot het gedrag van algoritmen die leren door pure trial en error.

Zoals gerapporteerd door VentureBeat, geloven de DeepMind-onderzoekers dat hun project het eerste versterkingsleren-systeem is dat in staat is om te leren op een gecontroleerde, veilige manier:

“Volgens onze kennis is ReQueST het eerste reward-modelleringsalgoritme dat veilig leert over onveilige staten en schaalt tot het trainen van neurale netwerk rewardmodellen in omgevingen met hoge-dimensionale, continue staten. Tot nu toe hebben we alleen de effectiviteit van ReQueST gedemonstreerd in gesimuleerde domeinen met relatief eenvoudige dynamica. Een richting voor toekomstig onderzoek is om ReQueST te testen in 3D-domeinen met meer realistische fysica en andere agents die acteren in de omgeving.”

Blogger en programmeur met specialisaties in Machine Learning en Deep Learning onderwerpen. Daniel hoopt anderen te helpen de kracht van AI te gebruiken voor het sociale goede.