Connect with us

Inteligență artificială

DeepMind Raportează O Nouă Metodă De Antrenare A Învățării De Intărire A IA În Siguranță

mm

Învățarea de întărire este o direcție promițătoare a dezvoltării IA, producând IA care poate gestiona sarcini extrem de complexe. Algoritmii de învățare de întărire sunt utilizați în crearea sistemelor de robotizare mobilă și a mașinilor autonome, printre alte aplicații. Cu toate acestea, din cauza modului în care este antrenată IA de întărire, aceasta poate manifesta, ocazional, comportamente ciudate și neașteptate. Aceste comportamente pot fi periculoase, iar cercetătorii IA se referă la această problemă ca la “problema de explorare în siguranță”, care este locul în care IA se blochează în explorarea stărilor nesigure.

Recent, laboratorul de cercetare IA al Google, DeepMind, a publicat un articol care propune noi metode pentru a face față problemei de explorare în siguranță și pentru a antrena IA de învățare de întărire într-un mod mai sigur. Metoda sugerată de DeepMind corectează, de asemenea, problema de “hacking de recompensă” sau a unor lacune în criteriile de recompensă.

Noua metodă a DeepMind are două sisteme diferite destinate să ghideze comportamentul IA în situațiile în care poate apărea un comportament nesigur. Cele două sisteme utilizate de tehnica de antrenare a DeepMind sunt un model generativ și un model de dinamică înainte. Ambele modele sunt antrenate pe o varietate de date, cum ar fi demonstrațiile experților în siguranță și traseele vehiculului complet random. Datele sunt etichetate de un supervisor cu valori de recompensă specifice, iar agentul IA va identifica modele de comportament care îi vor permite să colecteze cea mai mare recompensă. Stările nesigure au fost, de asemenea, etichetate, iar odată ce modelul a reușit să prevadă cu succes recompensele și stările nesigure, este implementat pentru a efectua acțiunile vizate.

Echipa de cercetare explică în articol că ideea este de a crea comportamente posibile de la zero, de a sugera comportamentele dorite și de a face ca aceste scenarii ipotetice să fie cât mai informative posibil, evitând, în același timp, interferența directă cu mediul de învățare. Echipa DeepMind se referă la această abordare ca ReQueST, sau sinteza cererii de recompensă prin optimizarea traseului.

ReQueST este capabilă să conducă la patru tipuri diferite de comportament. Primul tip de comportament încearcă să maximizeze incertitudinea cu privire la modelele de recompensă ale ansamblului. În timp ce comportamentul doi și trei încearcă să minimizeze și să maximizeze recompensele prevăzute. Recompensele prevăzute sunt minimizate pentru a conduce la descoperirea comportamentelor pe care modelul le poate prezice în mod greșit. Pe de altă parte, recompensa prevăzută este maximizată pentru a conduce la etichete de comportament care posedă cea mai mare valoare informativă. În final, al patrulea tip de comportament încearcă să maximizeze noutatea traseelor, astfel încât modelul să continue să exploreze, indiferent de recompensele proiectate.

Odată ce modelul a atins nivelul dorit de colectare a recompenselor, un agent de planificare este utilizat pentru a lua decizii pe baza recompenselor învățate. Acest sistem de control predictiv permite agenților să învețe să evite stările nesigure, utilizând modelul dinamic și prevăzând consecințele posibile, în contrast cu comportamentul algoritmilor care învață prin încercări și erori.

As reported by VentureBeat, cercetătorii DeepMind cred că proiectul lor este primul sistem de învățare de întărire care este capabil să învețe într-un mod controlat și sigur:

“În ceea ce ne privește, ReQueST este primul algoritm de modelare a recompensei care învață în siguranță despre stările nesigure și se extinde la antrenarea modelelor de recompensă a rețelelor neuronale în medii cu stări continue de înaltă dimensiune. Până acum, am demonstrat doar eficacitatea ReQueST în domenii simulate cu dinamici relativ simple. O direcție pentru munca viitoare este de a testa ReQueST în domenii 3D cu fizică mai realistă și alți agenți care acționează în mediu.”

Blogger și programator cu specializări în Machine Learning și Deep Learning subiecte. Daniel speră să ajute pe alții să folosească puterea inteligenței artificiale pentru binele social.