Mākslīgais intelekts

DeepMind ziņo par jaunu apmācību metodi, kas pastiprina AI mācīšanos droši

Atjaunināts on Decembris 9, 2022

Mācību pastiprināšana ir daudzsološs AI attīstības ceļš, kas rada AI, kas spēj tikt galā ar ārkārtīgi sarežģītiem uzdevumiem. Pastiprinošie AI algoritmi tiek izmantoti mobilo robotikas sistēmu un pašbraucošo automašīnu izveidē, cita starpā. Tomēr, ņemot vērā pastiprinošo AI apmācību, viņi dažkārt var izpausties dīvaini un negaidīti. Šāda uzvedība var būt bīstama, un AI pētnieki šo problēmu dēvē par “drošas izpētes” problēmu, kas ir vieta, kur AI iestrēgst nedrošu stāvokļu izpētē.

Nesen Google AI pētniecības laboratorija DeepMind publicēja rakstu, kurā tika piedāvātas jaunas metodes drošas izpētes problēmas risināšanai un AI apmācības pastiprināšanai drošākā veidā. DeepMind ieteiktā metode arī labo atlīdzības uzlaušanu vai nepilnības atlīdzības kritērijos.

DeepMind jaunajai metodei ir divas dažādas sistēmas, kas paredzētas, lai vadītu AI uzvedību situācijās, kad var rasties nedroša uzvedība. Abas sistēmas, ko izmanto DeepMind apmācības tehnika, ir ģeneratīvais modelis un uz priekšu vērstās dinamikas modelis. Abi šie modeļi ir apmācīti par dažādiem datiem, piemēram, drošības ekspertu demonstrējumiem un pilnīgi nejaušām transportlīdzekļu trajektorijām. Datus apzīmē uzraugs ar īpašām atlīdzības vērtībām, un AI aģents izvēlēsies uzvedības modeļus, kas ļaus viņam iegūt vislielāko atlīdzību. Nedrošie stāvokļi ir arī marķēti, un, kad modelim ir izdevies veiksmīgi paredzēt atlīdzību un nedrošos stāvokļus, tas tiek izmantots mērķtiecīgo darbību veikšanai.

Pētnieku grupa rakstā skaidro, ka ideja ir radīt iespējamo uzvedību no nulles, ieteikt vēlamo uzvedību un nodrošināt, lai šie hipotētiskie scenāriji būtu pēc iespējas informatīvāki, vienlaikus izvairoties no tiešas iejaukšanās mācību vidē. DeepMind komanda šo pieeju dēvē par ReQueST jeb atlīdzības vaicājumu sintēzi, izmantojot trajektorijas optimizāciju.

ReQueST spēj izraisīt četrus dažādus uzvedības veidus. Pirmais uzvedības veids cenšas palielināt nenoteiktību attiecībā uz ansambļa atlīdzības modeļiem. Tikmēr izturēšanās divi un trīs mēģinājumi gan samazināt, gan palielināt paredzamo atlīdzību. Paredzamā atlīdzība tiek samazināta līdz minimumam, lai atklātu uzvedību, ko modelis var nepareizi prognozēt. No otras puses, paredzamā atlīdzība tiek maksimāli palielināta, lai radītu uzvedības etiķetes ar visaugstāko informācijas vērtību. Visbeidzot, ceturtais uzvedības veids cenšas maksimāli palielināt trajektoriju novitāti, lai modelis turpinātu izpēti neatkarīgi no prognozētās atlīdzības.

Kad modelis ir sasniedzis vēlamo atlīdzības iekasēšanas līmeni, plānošanas aģents tiek izmantots, lai pieņemtu lēmumus, pamatojoties uz iegūtajām atlīdzībām. Šī modeļa paredzamā kontroles shēma ļauj aģentiem iemācīties izvairīties no nedrošiem stāvokļiem, izmantojot dinamisko modeli un prognozējot iespējamās sekas, atšķirībā no algoritmu uzvedības, kas mācās, izmantojot tikai izmēģinājumus un kļūdas.

Kā ziņo VentureBeat, DeepMind pētnieki uzskata, ka viņu projekts ir pirmā pastiprinošā mācību sistēma, kas spēj mācīties kontrolētā un drošā veidā:

“Cik mums zināms, ReQueST ir pirmais atalgojuma modelēšanas algoritms, kas droši uzzina par nedrošiem stāvokļiem un mērogiem, lai apmācītu neironu tīklu atalgojuma modeļus vidēs ar augstas dimensijas nepārtrauktiem stāvokļiem. Līdz šim mēs esam pierādījuši tikai ReQueST efektivitāti simulētos domēnos ar salīdzinoši vienkāršu dinamiku. Viens no turpmākā darba virzieniem ir pārbaudīt ReQueST 3D domēnos ar reālistiskāku fiziku un citiem aģentiem, kas darbojas vidē.

Saistītās tēmas:Deepmind pastiprināt mācīšanās drošība

Nākošais

NASA pašlaik izmanto AI kosmosa zinātnei

Nepalaidiet garām

Jauns paņēmiens ļauj AI intuitīvi izprast fiziku

Daniels Nelsons

Emuāru autors un programmētājs ar specialitātēm Mašīnu mācīšana un Dziļa mācīšanās tēmas. Daniels cer palīdzēt citiem izmantot mākslīgā intelekta spēku sociālā labuma gūšanai.