stub Бататгах сургалт гэж юу вэ? - Нэгдсэн.AI
бидэнтэй хамт холбоно
AI мастер анги:

AI 101

Бататгах сургалт гэж юу вэ?

mm
шинэчлэгдсэн on

Бататгах сургалт гэж юу вэ?

Энгийнээр хэлбэл, бататгах сургалт нь үйлдлүүдийг давтах замаар хиймэл оюун ухааны төлөөлөгчийг сургах, холбогдох шагналуудыг олгох машин сургалтын арга юм. Бататгах сургалтын агент нь тухайн орчинд туршилт хийж, арга хэмжээ авч, зөв ​​арга хэмжээ авсан тохиолдолд шагнадаг. Цаг хугацаа өнгөрөхөд агент шагналаа хамгийн их байлгах үйлдлүүдийг хийж сурдаг. Энэ бол бататгах сургалтын тухай товч тодорхойлолт боловч бататгах сургалтын цаадах ухагдахууныг нарийвчлан авч үзэх нь танд үүнийг илүү сайн, илүү ойлгомжтой ойлгоход тусална.

гэсэн ойлголтоос "бататгах сургалт" гэсэн нэр томъёог тохируулсан сэтгэл судлал дахь бэхлэлт. Ийм учраас хүчитгэх гэх сэтгэл зүйн ойлголтыг хэсэгхэн зуур ойлгоцгооё. Сэтгэл зүйн утгаараа арматур гэдэг нэр томъёо нь тодорхой хариу үйлдэл/үйлдэл гарах магадлалыг нэмэгдүүлдэг зүйлийг хэлдэг. Энэхүү арматурын үзэл баримтлал нь сэтгэл судлаач Б.Ф.Скиннерийн анх дэвшүүлсэн оперант нөхцөл байдлын онолын гол санаа юм. Энэ нөхцөлд бэхлэлт нь тухайн зан үйлийн давтамжийг нэмэгдүүлэхэд хүргэдэг аливаа зүйл юм. Хэрэв бид хүмүүст боломжит хүч чадлын талаар бодох юм бол эдгээр нь магтаал, ажил дээрээ цалин хөлс, чихэр, хөгжилтэй үйл ажиллагаа гэх мэт зүйлс байж болно.

Уламжлалт, сэтгэл зүйн утгаараа хоёр төрлийн бэхлэлт байдаг. Эерэг бэхлэлт, сөрөг бэхлэлт байдаг. Эерэг бэхлэлт гэдэг нь нохойгоо сайн зантай байхад нь амттан өгөх гэх мэт зан үйлийг нэмэгдүүлэх зүйл юм. Сөрөг бататгах нь муурыг өдөөх чанга дууг хаах гэх мэт зан үйлийг бий болгох өдөөгчийг арилгах явдал юм.

Эерэг ба сөрөг бэхлэлт

Эерэг бэхлэлт нь зан үйлийн давтамжийг нэмэгдүүлдэг бол сөрөг бэхлэлт нь давтамжийг бууруулдаг. Ерөнхийдөө эерэг бататгах нь загварчлагчдад өгөгдсөн даалгаварын гүйцэтгэлийг нэмэгдүүлэхэд тусалдаг тул бататгах сургалтанд ашиглагддаг хамгийн түгээмэл бататгал юм. Зөвхөн үүгээр зогсохгүй эерэг бэхлэлт нь загварыг илүү тогтвортой өөрчлөлт, өөрчлөлтүүд нь тогтвортой загвар болж, удаан хугацаанд үргэлжлэх боломжтой болгодог.

Үүний эсрэгээр, сөрөг бэхлэлт нь зан төлөвийг бий болгох магадлалыг нэмэгдүүлдэг боловч энэ нь загварын хамгийн дээд гүйцэтгэлд хүрэхийн оронд хамгийн бага гүйцэтгэлийн стандартыг хадгалахад ашиглагддаг. Бататгах сургалтанд сөрөг бататгах нь загварыг хүсээгүй үйлдлээс хол байлгахад тусалдаг боловч энэ нь загвар өмсөгчийг хүссэн үйлдлүүдийг судлахад бодитой болгож чадахгүй.

Арматурын төлөөлөгчийг сургах

Бататгах сургалтын төлөөлөгч бэлтгэгдсэн үед, дөрвөн өөр найрлагатай or улс Сургалтанд ашигласан: анхны төлөв (Төлөв 0), шинэ төлөв (Төлөв 1), үйлдэл, шагнал.

AI-ийн зорилго нь дэлгэцэн дээр шууд гүйж, түвшний төгсгөлд хүрэх зорилготой платформ хийх видео тоглоом тоглохын тулд арматурын төлөөлөгчийг сургаж байна гэж төсөөлөөд үз дээ. Тоглоомын анхны төлөвийг хүрээлэн буй орчноос зурсан бөгөөд энэ нь тоглоомын эхний фреймийг шинжилж, загварт өгсөн гэсэн үг юм. Энэ мэдээлэлд үндэслэн загвар нь ямар нэгэн үйлдэл хийх шийдвэр гаргах ёстой.

Сургалтын эхний үе шатанд эдгээр үйлдлүүд санамсаргүй байдлаар хийгддэг боловч загвар бататгах тусам тодорхой үйлдлүүд улам бүр түгээмэл болно. Үйлдлийг хийсний дараа тоглоомын орчин шинэчлэгдэж, шинэ төлөв эсвэл хүрээ үүснэ. Хэрэв төлөөлөгчийн хийсэн үйлдэл нь хүссэн үр дүнд хүрсэн бол энэ тохиолдолд төлөөлөгч амьд хэвээр байгаа бөгөөд дайсанд өртөөгүй гэж бодъё. ирээдүй.

Энэхүү үндсэн систем нь байнга давтагдаж, дахин дахин давтагддаг бөгөөд тэр болгонд агент илүү ихийг сурч, шагналаа нэмэгдүүлэхийг оролддог.

Цогцолбор ба тасралтгүй даалгаврууд

Бататгах сургалтын даалгавруудыг ихэвчлэн хоёр өөр ангиллын аль нэгэнд байрлуулж болно: үечилсэн даалгавар ба тасралтгүй даалгавар.

Хэсэгчилсэн даалгаврууд нь сургалтын/сургалтын давталтыг гүйцэтгэж, зарим эцсийн шалгуурыг хангаж, сургалтыг зогсоох хүртэл гүйцэтгэлээ сайжруулна. Тоглоомын хувьд энэ нь түвшний төгсгөлд хүрч эсвэл огцом өсөлттэй адил аюулд орж болзошгүй. Үүний эсрэгээр, тасралтгүй даалгаврууд нь дуусгах шалгуургүй бөгөөд үндсэндээ инженер сургалтаа дуусгах хүртэл үргэлжилсээр байх болно.

Монте Карло ба цаг хугацааны ялгаа

Суралцах хоёр үндсэн арга буюу сургах, бэхжүүлэх сургалтын агент. онд Монте Карлогийн арга барил, шагналыг зөвхөн сургалтын хэсгийн төгсгөлд агент руу (түүний оноо шинэчлэгдсэн) хүргэнэ. Өөрөөр хэлбэл, дуусгавар болох нөхцөлийг хангасан үед л загвар нь хэр сайн гүйцэтгэлтэй байгааг мэдэж авдаг. Дараа нь энэ мэдээллийг шинэчлэхэд ашиглах боломжтой бөгөөд дараагийн сургалт эхлэхэд шинэ мэдээллийн дагуу хариу өгөх болно.

The цаг хугацааны ялгаа арга Сургалтын явцад үнэ цэнийн тооцоо буюу онооны үнэлгээ шинэчлэгдэж байдгаараа Монте Карлогийн аргаас ялгаатай. Загвар дараагийн алхам руу шилжсэний дараа утгууд шинэчлэгдэнэ.

Хайгуул ба ашиглалт

Бататгах сургалтын төлөөлөгчийг сургах нь хайгуул, ашиглалт гэсэн хоёр өөр хэмжигдэхүүнийг тэнцвэржүүлэх үйл ажиллагаа юм.

Хайгуул гэдэг нь хүрээлэн буй орчны талаар илүү их мэдээлэл цуглуулах үйлдэл бөгөөд хайгуул нь шагналын оноо авахын тулд хүрээлэн буй орчны талаар аль хэдийн мэддэг мэдээллийг ашиглах явдал юм. Хэрэв агент зөвхөн хүрээлэн буй орчныг судалж, хэзээ ч ашиглахгүй бол хүссэн үйлдлүүд хэзээ ч хэрэгжихгүй. Нөгөөтэйгүүр, хэрэв агент зөвхөн мөлжлөгт ашигладаг бөгөөд хэзээ ч хайлт хийхгүй бол агент зөвхөн нэг үйлдлийг хийж сурах бөгөөд шагнал авах бусад боломжит стратегиудыг олж харахгүй. Иймээс бататгах сургалтын агентийг бий болгоход хайгуул, ашиглалтыг тэнцвэржүүлэх нь чухал юм.

Бататгах сургалтад хэрэглээрэй

Бататгах сургалтыг олон төрлийн үүрэг гүйцэтгэхэд ашиглаж болох бөгөөд энэ нь даалгаврыг автоматжуулах шаардлагатай програмуудад хамгийн тохиромжтой.

Аж үйлдвэрийн роботоор гүйцэтгэх даалгавруудыг автоматжуулах нь бататгах сургалт нь ашигтай байдаг талбар юм. Бататгах сургалтыг мөн текст олборлох, урт текстийг нэгтгэн дүгнэх чадвартай загвар бүтээх зэрэг асуудлуудад ашиглаж болно. Судлаачид эрүүл мэндийн салбарт бататгах сургалтыг ашиглах туршилт хийж байгаа бөгөөд эмчилгээний бодлогыг оновчтой болгох гэх мэт ажлыг бэхжүүлэх агентууд хариуцдаг. Бататгах сургалтыг оюутнуудад зориулсан боловсролын материалыг өөрчлөхөд ашиглаж болно.

Бататгах сургалтын хураангуй

Бататгах сургалт нь гайхалтай, заримдаа гайхмаар үр дүнд хүргэдэг AI агентуудыг бүтээх хүчирхэг арга юм. Бататгах сургалтаар дамжуулан төлөөлөгчийг сургах нь нарийн төвөгтэй бөгөөд хэцүү байдаг, учир нь энэ нь олон сургалтын давталт, судлах/ашиглах хоёрдмол байдлын нарийн тэнцвэрийг шаарддаг. Гэсэн хэдий ч, хэрэв амжилттай болбол хүчирхэгжүүлсэн сургалтаар бүтээгдсэн агент нь янз бүрийн орчинд олон төрлийн нарийн төвөгтэй ажлуудыг гүйцэтгэж чадна.

Мэргэшсэн блоггер, программист Машины сургалт болон Гүн сурах сэдвүүд. Даниел бусад хүмүүст хиймэл оюун ухааны хүчийг нийгмийн сайн сайхны төлөө ашиглахад тусална гэж найдаж байна.