stub DeepMind болон Google Brain нь бататгах сургалтын үр ашгийг дээшлүүлэх аргуудыг бий болгох зорилготой - Unite.AI
бидэнтэй хамт холбоно

Хиймэл оюун

DeepMind болон Google Brain нь бататгах сургалтын үр ашгийг дээшлүүлэх аргуудыг бий болгох зорилготой.

mm
шинэчлэгдсэн on

Бататгах сургалтын системүүд нь хүчирхэг, бат бөх байж, олон мянган давталтын сургалтаар маш нарийн төвөгтэй ажлуудыг гүйцэтгэх чадвартай. Бататгах сургалтын алгоритмууд нь боловсронгуй, хааяа гайхшрал төрүүлэхүйц зан үйлийг бий болгох чадвартай боловч тэдгээрийг сургахад удаан хугацаа шаардагддаг бөгөөд асар их хэмжээний өгөгдөл шаарддаг. Эдгээр хүчин зүйлс нь бататгах сургалтын техникийг үр ашиггүй болгож байгаа бөгөөд саяхан Alphabet DeepMind болон Google Brain-ийн судалгааны багууд бататгах сургалтын системийг бий болгох илүү үр дүнтэй аргуудыг хайж олохыг хичээсэн.

VentureBeat мэдээлснээр, хосолсон судалгааны бүлэг саяхан бататгах сургалтын сургалтыг илүү үр дүнтэй болгох аргуудыг санал болгосон. Санал болгож буй сайжруулалтын нэг нь Дасан зохицох зан үйлийн бодлогыг хуваалцах (ABPS) гэж нэрлэгддэг алгоритм байсан бол нөгөө нь Universal Value Function Approximators (UVFA) нэртэй хүрээ юм. ABPS нь хиймэл оюун ухааны агентуудад дасан зохицох замаар сонгосон туршлагаа хуваалцах боломжийг олгодог бол UVFA нь эдгээр хиймэл оюун ухаанд нэгэн зэрэг чиглэсэн хайгуулын бодлогыг судлах боломжийг олгодог.

ABPS нь загварыг сургах үед гиперпараметрийн тохиргоог хурдасгах зорилготой юм. ABPS нь өөр өөр гиперпараметр бүхий хэд хэдэн агентуудад зан үйлийн бодлогын туршлагаа хуваалцах боломжийг олгосноор оновчтой гиперпараметрүүдийг хурдан олох боломжийг олгодог. Илүү нарийн яривал, ABPS нь сурган хүмүүжүүлэх агентуудад бодлого нь зөв гэж үзсэн үйлдлүүдийг сонгох боломжийг олгодог бөгөөд дараа нь дараах төлөвт үндэслэн шагнал, ажиглалтыг олгодог.

Хиймэл оюун ухааныг бэхжүүлэх бодисуудыг ялзрал, суралцах хурд гэх мэт боломжит гиперпараметрүүдийн янз бүрийн хослолоор сургадаг. Загварыг сургахдаа загвар нь хамгийн сайн гүйцэтгэлийг өгдөг, энэ тохиолдолд өгөгдлийн үр ашгийг дээшлүүлдэг гиперпараметрүүдийн хослол дээр нэгдэх зорилготой юм. Олон төлөөлөгчийг нэг дор сургаж, дараагийн алхамд зөвхөн нэг төлөөлөгчийн үйл ажиллагааг сонгох замаар үр ашгийг нэмэгдүүлнэ. Үйлдлүүдийг түүвэрлэхэд зорилтот төлөөлөгчийн бодлогыг ашигладаг. Дараа нь шилжилтийг хуваалцсан орон зайд бүртгэх бөгөөд бодлогын сонголт байнга хийх шаардлагагүй тул энэ зайг байнга үнэлдэг. Сургалтын төгсгөлд төлөөлөгчдийн чуулга сонгогдож, шилдэг төлөөлөгчдийг эцсийн байдлаар ажиллуулахаар сонгон шалгаруулдаг.

UVFA-ийн хувьд энэ нь бататгах сургалтын нийтлэг асуудлуудын нэг болох сул хүчитгэсэн агентууд ихэвчлэн даалгавраа сурдаггүй гэдгийг шийдэхийг оролддог. UVFA нь агентийг ашиглалтын болон хайгуулын бодлогыг тусад нь сургах замаар асуудлыг шийдэхийг оролддог. Даалгавруудыг салгах нь эрэл хайгуулын бодлогод хүрээлэн буй орчныг үргэлжлүүлэн судлах боломжийг олгодог тогтолцоог бий болгож, ашиглалтын бодлого нь одоогийн даалгаврын шагналыг нэмэгдүүлэхийг хичээсээр байх болно. UVFA-ийн эрэл хайгуулын бодлого нь байгалийн шагнал олдохгүй байсан ч үргэлжлүүлэн сайжруулах суурь бүтэц болж өгдөг. Ийм нөхцөлд дотоод шагналд тохирсон функцийг ойртуулдаг бөгөөд энэ нь агентуудыг ихэвчлэн танил төлөвт буцаж ирдэг байсан ч хүрээлэн буй орчны бүх төлөвийг судлахад түлхэц өгдөг.

VentureBeat-ийн тайлбарласнаар, UVFA хүрээ ажиллаж байх үед системийн дотоод урамшууллыг агент руу шууд оролт болгон өгдөг. Дараа нь агент тухайн ангийн туршид бүх орцын (шагнал, үйлдэл, төлөв гэх мэт) дүрслэлийг бүртгэдэг. Үүний үр дүнд шагнал нь цаг хугацааны явцад хадгалагдан үлдэж, төлөөлөгчийн бодлого нь ямар ч үед бага зэрэг мэдээлэлтэй байдаг.

Энэ нь "эпизодын шинэлэг зүйл" болон "насан туршийн шинэлэг зүйл" модулийг ашигласнаар хийгддэг. Эхний модулийн үүрэг нь одоогийн, үечилсэн санах ойг барьж, одоогийн олдворуудыг өмнө дурдсан дүрслэлд буулгах бөгөөд энэ нь агентад сургалтын үе шат бүрд жинхэнэ эпизодын шагналыг тодорхойлох боломжийг олгодог. Дараа нь одоогийн ажиглалттай холбоотой төлөвийг санах ойд нэмнэ. Үүний зэрэгцээ, насан туршийн шинэлэг модуль нь агент олон ангиллын туршид хэр олон удаа судлахад нөлөөлөх үүрэгтэй.

Alphabet/Google-ийн багуудын үзэж байгаагаар сургалтын шинэ техникүүд нь бататгах сургалтын системийг сургах явцад мэдэгдэхүйц сайжирч болохыг харуулсан. UVFA нь янз бүрийн Atari тоглоом тоглодог зарим үндсэн агентуудын гүйцэтгэлийг хоёр дахин нэмэгдүүлж чадсан. Үүний зэрэгцээ, ABPS нь ижил Atari тоглоомуудын гүйцэтгэлийг нэмэгдүүлж, шилдэг агентуудын хоорондын зөрүүг ойролцоогоор 25% -иар бууруулж чадсан. UVFA-ийн бэлтгэгдсэн алгоритм нь хүний ​​үзүүлэнгийн ямар ч инженерчлэгдсэн шинж чанаргүй, Pitfall-д өөрөө өндөр оноо авч чадсан.

Мэргэшсэн блоггер, программист Машины сургалт болон Гүн сурах сэдвүүд. Даниел бусад хүмүүст хиймэл оюун ухааны хүчийг нийгмийн сайн сайхны төлөө ашиглахад тусална гэж найдаж байна.