AI 101

Гүн гүнзгийрүүлэх сургалт гэж юу вэ?

шинэчлэгдсэн on Наймдугаар сарын 2, 2021

Гүн гүнзгийрүүлэх сургалт гэж юу вэ?

Хяналтгүй машин сургалт, хяналттай сургалтын зэрэгцээ хиймэл оюун ухааныг бий болгох өөр нэг түгээмэл хэлбэр нь бататгах сургалт юм. Тогтмол бататгах сургалтаас гадна, гүнзгий бататгах сургалт Энэ нь гүнзгий суралцах болон бататгах сургалтын аль алиных нь хамгийн сайн талуудыг хослуулсан тул гайхалтай гайхалтай үр дүнд хүргэж чадна. Гүн гүнзгийрүүлэх сургалт хэрхэн явагддагийг харцгаая.

Бид гүнзгий бататгах сургалтанд хамрагдахаасаа өмнө хэр тогтмол байх талаар өөрийгөө сэргээх нь зүйтэй болов уу. бэхжүүлэх сургалт ажилладаг. Бататгах сургалтанд зорилгод чиглэсэн алгоритмууд нь туршилт, алдааны үйл явцаар бүтээгдсэн бөгөөд хамгийн сайн үр дүнд хүргэх үйлдэл/хамгийн их “шагнал” авах үйлдлийг оновчтой болгодог. Бататгах сургалтын алгоритмуудыг сургахдаа тэдэнд "шагнал" эсвэл "шийтгэл" өгдөг бөгөөд энэ нь ирээдүйд ямар үйлдэл хийхэд нь нөлөөлдөг. Алгоритмууд нь ойрын болон ирээдүйн урамшууллыг тэнцвэржүүлж, системийг хамгийн их урамшуулалаар хангах цогц үйлдлүүдийг олохыг хичээдэг.

Хүрээлэн буй орчноос уян хатан, динамик байдлаар суралцах, боломжит үйлдлүүдийг илрүүлэх чадвартай тул бататгах сургалтын алгоритмууд нь маш хүчтэй байдаг.

Гүнзгийрүүлэх сургалтын тойм

Зураг: Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg) -ээр дамжуулан Megajuice

Гүн гүнзгийрүүлэх сургалтын тухайд хүрээлэн буй орчныг ихэвчлэн зургаар дүрсэлдэг. Зураг гэдэг нь тухайн цаг хугацааны тодорхой цаг мөчид хүрээлэн буй орчныг буулгах явдал юм. Агент нь зургуудад дүн шинжилгээ хийж, тэдгээрээс холбогдох мэдээллийг гаргаж авах ёстой бөгөөд мэдээллийг ашиглан ямар арга хэмжээ авах ёстойг мэдээлэх ёстой. Гүн гүнзгийрүүлсэн сургалтыг ихэвчлэн үнэ цэнэд суурилсан суралцах ба бодлогод суурилсан суралцах гэсэн хоёр өөр аргын аль нэгээр гүйцэтгэдэг.

Үнэт зүйлд суурилсан сургалтын арга нь хувиргалт мэдрэлийн сүлжээ, алгоритм гэх мэт архитектурыг ашигладаг. Deep-Q-Networks. Эдгээр алгоритмууд нь зургийг саарал өнгөтэй болгон хувиргаж, зургийн шаардлагагүй хэсгийг тайрах замаар ажилладаг. Дараа нь зураг нь янз бүрийн эргэлт, нэгтгэх үйлдлүүдийг хийж, зургийн хамгийн хамааралтай хэсгийг гаргаж авдаг. Дараа нь зургийн чухал хэсгүүдийг төлөөлөгчийн хийж болох янз бүрийн үйлдлүүдийн Q-утгыг тооцоолоход ашигладаг. Q-утгууд нь төлөөлөгчийн хамгийн сайн үйл ажиллагааны чиглэлийг тодорхойлоход ашиглагддаг. Анхны Q утгуудыг тооцоолсны дараа хамгийн зөв Q утгыг тодорхойлохын тулд буцаан тархалтыг хийдэг.

Бодлогод суурилсан аргуудыг төлөөлөгчийн хийж болох үйлдлүүдийн тоо хэт их байх үед ашигладаг бөгөөд энэ нь ихэвчлэн бодит нөхцөл байдалд байдаг. Бүх үйлдлүүдийн Q-утгыг тооцоолох нь прагматик биш тул ийм нөхцөл байдал өөр арга барилыг шаарддаг. Бодлого дээр суурилсан хандлага нь хувь хүний үйл ажиллагааны функцийн утгыг тооцохгүйгээр ажилладаг. Үүний оронд тэд бодлогоо шууд суралцаж, ихэвчлэн Бодлогын градиент гэж нэрлэгддэг арга техникээр дамжуулан бодлогыг баталдаг.

Бодлогын градиент нь төлөвийг хүлээн авч, төлөөлөгчийн өмнөх туршлага дээр үндэслэн үйлдлийн магадлалыг тооцоолох замаар ажилладаг. Дараа нь хамгийн их магадлалтай үйлдлийг сонгоно. Энэ үйл явц нь үнэлгээний хугацаа дуустал давтагдаж, шагналыг төлөөлөгчдөө олгоно. Шагналыг агенттай харьцсаны дараа сүлжээний параметрүүдийг буцаах замаар шинэчилдэг.

Q-Learning гэж юу вэ?

учир нь Q-сургалт Энэ нь гүнзгий бататгах сургалтын үйл явцын маш том хэсэг тул Q-сургалтын систем хэрхэн ажилладагийг ойлгохын тулд хэсэг хугацаа зарцуулцгаая.

Марковын шийдвэр гаргах үйл явц

Марковын шийдвэр гаргах үйл явц. Зураг: Waldoalvarez via Pixabay, Pixbay лиценз (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

AI агент хэд хэдэн даалгавруудыг гүйцэтгэж, зорилгодоо хүрэхийн тулд төлөөлөгч нь дараалсан төлөв байдал, үйл явдлуудыг даван туулах чадвартай байх ёстой. Агент нь нэг төлөвт эхлэх бөгөөд эцсийн төлөвт хүрэхийн тулд хэд хэдэн арга хэмжээ авах ёстой бөгөөд эхлэл ба төгсгөлийн төлөвүүдийн хооронд асар олон тооны муж байж болно. Бүх муж улсын талаархи мэдээллийг хадгалах нь боломжгүй эсвэл боломжгүй тул систем нь зөвхөн хамгийн хамааралтай муж улсын мэдээллийг хадгалах арга замыг олох ёстой. Энэ нь a-г ашиглах замаар хийгддэг Марковын шийдвэр гаргах үйл явц, энэ нь зөвхөн одоогийн болон өмнөх төлөвийн талаархи мэдээллийг хадгалдаг. Муж бүр Марковын шинж чанарыг дагаж мөрддөг бөгөөд энэ нь агент өмнөх төлөвөөс одоогийн төлөв рүү хэрхэн өөрчлөгдөж байгааг хянадаг.

Гүнзгий сургалт

Загвар нь сургалтын орчны төлөв байдлын талаарх мэдээллийг авах боломжтой болсны дараа Q-утгыг тооцоолж болно. Q-утгууд нь дараалсан үйлдлийн төгсгөлд агентад өгсөн нийт шагнал юм.

Q-утгыг хэд хэдэн шагналаар тооцдог. Одоогийн байдлаар, одоогийн үйлдлээс хамааран тооцсон шууд шагнал байдаг. Дараагийн төлөвийн Q-утгыг мөн түүнээс хойшхи төлөвийн Q-утгын хамт тооцож, өөр төлөвийн бүх Q-утгыг тооцоолох хүртэл үргэлжилнэ. Мөн агентын үйл ажиллагаанд ирээдүйн урамшуулал хэр жинтэй болохыг хянахад ашигладаг Гамма параметр байдаг. Бодлого нь Q-утгыг санамсаргүй байдлаар эхлүүлж, сургалтын явцад загварыг оновчтой Q-утгад нэгтгэх замаар тооцоолдог.

Гүн Q-Networks

холбоотой үндсэн асуудлуудын нэг Q-сургалтын хэрэглээ Хүчтэй сургалтын хувьд төлөвийн тоо нэмэгдэхийн хэрээр өгөгдлийг хадгалахад шаардагдах санах ойн хэмжээ хурдан өсөх явдал юм. Deep Q Networks нь мэдрэлийн сүлжээний загваруудыг Q-утгатай хослуулснаар энэ асуудлыг шийдэж, агент нь туршлагаас суралцаж, хийх хамгийн сайн арга хэмжээний талаар үндэслэлтэй таамаглал дэвшүүлэх боломжийг олгодог. Гүнзгий Q-сургалтаар Q-утга функцийг мэдрэлийн сүлжээгээр тооцдог. Мэдрэлийн сүлжээ нь тухайн төлөвийг оролтын өгөгдөл болгон авдаг бөгөөд сүлжээ нь агентаас хийж болох бүх үйлдлүүдийн Q-утгыг гаргадаг.

Гүн Q-сургалт нь өнгөрсөн бүх туршлагыг санах ойд хадгалах, Q-сүлжээний хамгийн их гаралтыг тооцоолох, дараа нь алдагдлын функцийг ашиглан одоогийн утгууд болон онолын боломжтой хамгийн дээд утгуудын хоорондох зөрүүг тооцоолох замаар хийгддэг.

Гүн гүнзгийрүүлэх сургалт ба гүн гүнзгий суралцах

Гүн гүнзгийрүүлэх сургалт ба тогтмол гүнзгий суралцах хоёрын нэг чухал ялгаа нь эхнийх нь орцууд байнга өөрчлөгдөж байдаг нь уламжлалт гүнзгий суралцахад тийм биш юм. Сургалтын загвар нь байнга өөрчлөгдөж байдаг оролт, гаралтыг хэрхэн тооцож чадах вэ?

Үндсэндээ урьдчилан таамагласан утгууд болон зорилтот утгуудын хоорондын зөрүүг тооцохын тулд нэг мэдрэлийн сүлжээний оронд хоёр мэдрэлийн сүлжээг ашиглаж болно. Нэг сүлжээ нь зорилтот утгыг тооцдог бол нөгөө сүлжээ нь таамаглалыг хариуцдаг. Сонгосон тооны сургалтын давталтуудыг давсны дараа загвар сурах тусам зорилтот сүлжээний параметрүүдийг шинэчилдэг. Дараа нь холбогдох сүлжээнүүдийн гаралтыг хооронд нь холбож, ялгааг тодорхойлно.

Бодлогод суурилсан сургалт

Бодлогод суурилсан сургалт хандлагууд нь Q-утгад суурилсан хандлагуудаас өөрөөр ажилладаг. Q-үнэгийн аргууд нь төлөв байдал, үйлдлүүдийн шагналыг урьдчилан таамаглах үнэ цэнийн функцийг бий болгодог бол бодлогод суурилсан аргууд нь төлөвийг үйлдлүүдтэй харьцуулах бодлогыг тодорхойлдог. Өөрөөр хэлбэл, үйлдлийг сонгох бодлогын функцийг утгын функцээс хамааралгүйгээр шууд оновчтой болгодог.

Бодлогын градиент

Гүн гүнзгийрүүлэх сургалтын бодлого нь стохастик эсвэл детерминист гэсэн хоёр ангиллын аль нэгэнд багтдаг. Детерминист бодлого гэдэг нь мужуудыг үйлдлээр дүрсэлсэн бодлого бөгөөд тухайн бодлогод муж улсын тухай мэдээлэл өгвөл үйлдлийг буцаана гэсэн үг. Үүний зэрэгцээ, стохастик бодлого нь нэг, салангид үйл ажиллагааны оронд үйлдлүүдийн магадлалын хуваарилалтыг буцаадаг.

Хийж болох үйлдлүүдийн үр дүнд тодорхойгүй байдал байхгүй үед детерминист бодлогыг ашигладаг. Өөрөөр хэлбэл, орчин өөрөө детерминистик байх үед. Үүний эсрэгээр, стохастик бодлогын үр дүн нь үйл ажиллагааны үр дүн тодорхойгүй орчинд тохиромжтой байдаг. Ихэвчлэн сургалтын бататгах хувилбарууд нь тодорхой бус байдлыг агуулсан байдаг тул стохастик бодлогыг ашигладаг.

Бодлогын градиент хандлага нь Q-сургалттай харьцуулахад хэд хэдэн давуу талтай ба сул талуудтай. Давуу талуудын хувьд бодлогод суурилсан аргууд нь оновчтой параметрүүд дээр илүү хурдан бөгөөд найдвартай нийлдэг. Бодлогын градиентийг зөвхөн хамгийн сайн параметрүүдийг тодорхойлох хүртэл дагаж мөрдөх боломжтой бол үнэ цэнэд суурилсан аргуудын хувьд тооцоолсон үйл ажиллагааны утгын жижиг өөрчлөлт нь үйл ажиллагаа болон тэдгээртэй холбоотой параметрүүдэд ихээхэн өөрчлөлт оруулахад хүргэдэг.

Бодлогын градиент нь өндөр хэмжээст үйлдлийн орон зайд илүү сайн ажилладаг. Хийх боломжтой үйлдлүүдийн тоо маш олон байгаа үед Q-сургалт нь бодит бус болж хувирдаг, учир нь энэ нь тооцооллын хувьд боломжгүй байж болох бүх үе шатанд боломжит үйлдэл бүрт оноо өгөх ёстой. Гэсэн хэдий ч бодлогод суурилсан аргуудын тусламжтайгаар параметрүүдийг цаг хугацааны явцад тохируулж, загвар нэгдэх тусам боломжит хамгийн сайн параметрүүдийн тоо хурдан багасдаг.

Бодлогын градиент нь үнэ цэнэд суурилсан бодлогоос ялгаатай нь стохастик бодлогыг хэрэгжүүлэх чадвартай. Стохастик бодлого нь магадлалын хуваарилалтыг бий болгодог тул хайгуул/ашиглалтын солилцоог хэрэгжүүлэх шаардлагагүй.

Сул талуудын хувьд бодлогын градиентийн гол сул тал нь дэлхийн хамгийн оновчтой утгуудын оронд зөвхөн нарийн, орон нутгийн оновчтой утгуудын багцад анхаарлаа төвлөрүүлж, оновчтой параметрүүдийг хайх явцад гацах явдал юм.

Бодлогын онооны функц

Загварын гүйцэтгэлийг оновчтой болгоход ашигладаг бодлого онооны функцийг нэмэгдүүлэх – Ж(θ). Хэрэв J(θ) нь хүссэн зорилгодоо хүрэхийн тулд бидний бодлого хэр сайн байгааг илтгэх хэмжүүр юм.θЭнэ нь бидэнд хамгийн сайн бодлогыг өгдөг. Нэгдүгээрт, бид хүлээгдэж буй бодлогын шагналыг тооцоолох хэрэгтэй. Бид бодлогын шагналыг тооцдог тул оновчтой болгох зорилго, зорилго бий. Бодлогын Онооны функц нь бидний хүлээгдэж буй бодлогын шагналыг хэрхэн тооцдог бөгөөд Бодлогын Онооны функцууд нь нийтлэг хэрэглэгддэг: үечилсэн орчны эхлэлийн утга, тасралтгүй орчны дундаж утга, нэг алхам тутамд дундаж шагнал гэх мэт.

Бодлого Gradient Ascent

Градиент өгсөлт нь параметрүүдийг хамгийн өндөр оноо авсан газар хүртэл шилжүүлэх зорилготой. Зураг: Олон нийтийн домэйн (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

Хүссэн Бодлогын Онооны функцийг ашиглаж, хүлээгдэж буй бодлогын шагналыг тооцсоны дараа бид " параметрийн утгыг олох боломжтой.θ” нь онооны функцийг хамгийн их болгодог. Онооны функцийг нэмэгдүүлэхийн тулд J(θ), " гэж нэрлэгддэг техникградиент өгсөх” ашиглаж байна. Градиент өгсөлт нь гүнзгий суралцахад градиент уруудахтай төстэй боловч бид буурахын оронд хамгийн огцом өсөлтийг оновчтой болгож байна. Учир нь бидний оноо гүнзгий суралцах олон асуудал шиг "алдаа" биш юм. Бидний оноо бол хамгийн их байлгахыг хүсдэг зүйл юм. Бодлогын градиент теорем гэж нэрлэгддэг илэрхийлэл нь бодлоготой холбоотой градиентийг тооцоолоход хэрэглэгддэг.θ".

Гүнзгийрүүлэх сургалтын хураангуй

Дүгнэж хэлэхэд гүнзгий бататгах сургалт нь бататгах сургалт болон гүн мэдрэлийн сүлжээг нэгтгэдэг. Гүн гүнзгийрүүлэх сургалтыг гүнзгий Q-сургалт ба бодлогын градиент гэсэн хоёр өөр техникээр хийдэг.

Гүн Q-сургалтын аргууд нь тухайн мужид хийгдсэн тодорхой үйлдлүүдийн дараа ямар шагналууд гарахыг урьдчилан таамаглахад чиглэдэг бол бодлогын градиент хандлага нь үйлдлүүдийг өөрсдөө урьдчилан таамаглах үйл ажиллагааны орон зайг оновчтой болгох зорилготой. Гүн гүнзгийрүүлэх сургалтын бодлогод суурилсан арга барил нь детерминист эсвэл стохастик шинж чанартай байдаг. Детерминист бодлого нь төлөвийг үйлдлүүдтэй шууд харуулдаг бол стохастик бодлого нь үйлдлүүдийн магадлалын хуваарилалтыг бий болгодог.

Дараа хүртэл

Холбооны сургалт гэж юу вэ?

Бүү саад бол

Бэйсийн теорем гэж юу вэ?

Даниел Нельсон

Мэргэшсэн блоггер, программист Машины сургалт болон Гүн сурах сэдвүүд. Даниел бусад хүмүүст хиймэл оюун ухааны хүчийг нийгмийн сайн сайхны төлөө ашиглахад тусална гэж найдаж байна.