ต้นขั้ว การเรียนรู้การเสริมแรงคืออะไร? - Unite.AI
เชื่อมต่อกับเรา
มาสเตอร์คลาส AI:

AI 101

การเรียนรู้การเสริมแรงคืออะไร?

mm
วันที่อัพเดท on

การเรียนรู้การเสริมแรงคืออะไร?

พูดง่ายๆ ก็คือการเรียนรู้แบบเสริมกำลังเป็นเทคนิคการเรียนรู้ของเครื่องที่เกี่ยวข้องกับการฝึกอบรมตัวแทนปัญญาประดิษฐ์ผ่านการทำซ้ำของการกระทำและรางวัลที่เกี่ยวข้อง ตัวแทนการเรียนรู้แบบเสริมกำลังทำการทดลองในสภาพแวดล้อม ลงมือปฏิบัติ และได้รับรางวัลเมื่อทำสิ่งที่ถูกต้อง เมื่อเวลาผ่านไปตัวแทน เรียนรู้ที่จะดำเนินการที่จะเพิ่มรางวัลสูงสุด นั่นเป็นคำจำกัดความสั้นๆ ของการเรียนรู้แบบเสริมแรง แต่การพิจารณาอย่างใกล้ชิดเกี่ยวกับแนวคิดเบื้องหลังการเรียนรู้แบบเสริมแรงจะช่วยให้คุณเข้าใจได้ดีขึ้นและเป็นธรรมชาติมากขึ้น

คำว่า “การเรียนรู้เสริมแรง” ดัดแปลงมาจากแนวคิดของ การเสริมแรงในด้านจิตวิทยา ด้วยเหตุผลดังกล่าว ลองมาทำความเข้าใจแนวคิดทางจิตวิทยาของการเสริมแรงกัน ในแง่จิตวิทยา คำว่าการเสริมแรงหมายถึงบางสิ่งที่เพิ่มโอกาสที่การตอบสนอง/การกระทำบางอย่างจะเกิดขึ้น แนวคิดเรื่องการเสริมแรงนี้เป็นแนวคิดหลักของทฤษฎีการปรับสภาพผู้ปฏิบัติงาน ซึ่งเสนอโดยนักจิตวิทยา บี.เอฟ. สกินเนอร์ ในขั้นต้น ในบริบทนี้ การเสริมแรงคืออะไรก็ตามที่ทำให้ความถี่ของพฤติกรรมที่กำหนดเพิ่มขึ้น หากเราคิดถึงการเสริมแรงที่เป็นไปได้สำหรับมนุษย์ สิ่งเหล่านี้อาจเป็นสิ่งต่างๆ เช่น การยกย่อง การขึ้นงาน ลูกอม และกิจกรรมสนุกๆ

ในแง่ดั้งเดิมทางจิตวิทยา การเสริมแรงมี XNUMX ประเภท มีการเสริมแรงทางบวกและการเสริมทางลบ การเสริมแรงเชิงบวกคือการเพิ่มบางอย่างเพื่อเพิ่มพฤติกรรม เช่น ให้ขนมกับสุนัขเมื่อมีความประพฤติดี การเสริมแรงทางลบเกี่ยวข้องกับการขจัดสิ่งกระตุ้นเพื่อกระตุ้นให้เกิดพฤติกรรม เช่น การปิดเสียงดังเพื่อเกลี้ยกล่อมแมวขี้เซา

การเสริมแรงทางบวกและทางลบ

การเสริมแรงทางบวกจะเพิ่มความถี่ของพฤติกรรมในขณะที่การเสริมแรงทางลบจะลดความถี่ โดยทั่วไป การเสริมแรงเชิงบวกเป็นประเภทการเสริมแรงทั่วไปที่ใช้ในการเรียนรู้การเสริมแรง เนื่องจากจะช่วยให้แบบจำลองเพิ่มประสิทธิภาพสูงสุดในงานที่กำหนด ไม่เพียงเท่านั้น การเสริมแรงในเชิงบวกยังนำโมเดลไปสู่การเปลี่ยนแปลงที่ยั่งยืนมากขึ้น การเปลี่ยนแปลงที่สามารถกลายเป็นรูปแบบที่สอดคล้องกันและคงอยู่เป็นระยะเวลานาน

ในทางตรงกันข้าม แม้ว่าการเสริมแรงทางลบจะทำให้พฤติกรรมมีแนวโน้มที่จะเกิดขึ้น แต่ก็ใช้เพื่อรักษามาตรฐานประสิทธิภาพขั้นต่ำมากกว่าการเข้าถึงประสิทธิภาพสูงสุดของแบบจำลอง การเสริมแรงเชิงลบในการเรียนรู้แบบเสริมแรงสามารถช่วยให้แน่ใจว่าตัวแบบอยู่ห่างจากการกระทำที่ไม่พึงประสงค์ แต่ก็ไม่สามารถทำให้ตัวแบบสำรวจการกระทำที่ต้องการได้

การฝึกอบรมเจ้าหน้าที่เสริมแรง

เมื่อตัวแทนการเรียนรู้เสริมกำลังได้รับการฝึกอบรม มีสี่ส่วนผสมที่แตกต่างกัน or รัฐ ใช้ในการฝึกอบรม: สถานะเริ่มต้น (สถานะ 0) สถานะใหม่ (สถานะ 1) การดำเนินการ และรางวัล

ลองนึกภาพว่าเรากำลังฝึกเจ้าหน้าที่เสริมกำลังเพื่อเล่นวิดีโอเกมแพลตฟอร์มที่เป้าหมายของ AI คือไปให้ถึงระดับสิ้นสุดโดยการเคลื่อนที่ผ่านหน้าจอไปทางขวา สถานะเริ่มต้นของเกมมาจากสภาพแวดล้อม หมายความว่าเฟรมแรกของเกมได้รับการวิเคราะห์และมอบให้กับโมเดล จากข้อมูลนี้ แบบจำลองจะต้องตัดสินใจเกี่ยวกับการดำเนินการ

ในช่วงเริ่มต้นของการฝึกอบรม การกระทำเหล่านี้จะเกิดขึ้นแบบสุ่ม แต่เมื่อโมเดลได้รับการเสริมประสิทธิภาพ การกระทำบางอย่างจะกลายเป็นเรื่องธรรมดามากขึ้น หลังจากดำเนินการแล้ว สภาพแวดล้อมของเกมจะได้รับการอัปเดตและสร้างสถานะหรือเฟรมใหม่ หากการดำเนินการของเจ้าหน้าที่ทำให้เกิดผลลัพธ์ที่ต้องการ สมมติว่าเจ้าหน้าที่ยังมีชีวิตอยู่และไม่ได้ถูกศัตรูโจมตี จะมีการมอบรางวัลบางส่วนให้กับเจ้าหน้าที่และมีแนวโน้มว่าจะทำเช่นเดียวกันใน อนาคต.

ระบบพื้นฐานนี้มีการวนซ้ำอย่างต่อเนื่อง เกิดขึ้นครั้งแล้วครั้งเล่า และทุกครั้งที่เจ้าหน้าที่พยายามเรียนรู้เพิ่มเติมอีกเล็กน้อยและเพิ่มรางวัลสูงสุด

เป็นตอน ๆ กับงานต่อเนื่อง

โดยทั่วไปงานการเรียนรู้การเสริมแรงสามารถจัดอยู่ในประเภทใดประเภทหนึ่งจากสองประเภทที่แตกต่างกัน: งานฉากและงานต่อเนื่อง

ภารกิจที่เป็นตอนๆ จะดำเนินการตามลูปการเรียนรู้/การฝึกอบรมและปรับปรุงประสิทธิภาพจนกว่าจะถึงเกณฑ์การสิ้นสุดและการฝึกอบรมสิ้นสุดลง ในเกม อาจถึงจุดสิ้นสุดของระดับหรือตกอยู่ในอันตรายเช่นหนามแหลม ในทางตรงกันข้าม งานต่อเนื่องไม่มีเกณฑ์การเลิกจ้าง โดยพื้นฐานแล้วจะต้องฝึกอบรมอย่างต่อเนื่องตลอดไปจนกว่าวิศวกรจะเลือกที่จะสิ้นสุดการฝึกอบรม

มอนติคาร์โล vs ความแตกต่างชั่วคราว

มีสองวิธีหลักในการเรียนรู้หรือการฝึกอบรม ตัวแทนการเรียนรู้แบบเสริมแรง ใน แนวทางของมอนติคาร์โล, รางวัลจะถูกส่งไปยังตัวแทน (คะแนนได้รับการอัปเดต) เมื่อสิ้นสุดตอนการฝึกอบรมเท่านั้น หากต้องการพูดอีกวิธีหนึ่ง โมเดลจะเรียนรู้ว่าโมเดลทำงานได้ดีเพียงใดเมื่อกดเงื่อนไขการสิ้นสุดเท่านั้น จากนั้นจะสามารถใช้ข้อมูลนี้เพื่ออัปเดต และเมื่อการฝึกรอบถัดไปเริ่มขึ้น ระบบจะตอบกลับตามข้อมูลใหม่

พื้นที่ วิธีความแตกต่างทางเวลา แตกต่างจากวิธีมอนติคาร์โลตรงที่การประมาณมูลค่าหรือการประมาณคะแนนจะได้รับการอัปเดตในระหว่างตอนการฝึกอบรม เมื่อโมเดลเลื่อนไปยังขั้นตอนถัดไป ค่าต่างๆ จะถูกอัพเดต

การสำรวจและการแสวงหาผลประโยชน์

การฝึกอบรมตัวแทนการเรียนรู้แบบเสริมกำลังเป็นการกระทำที่สมดุล ซึ่งเกี่ยวข้องกับความสมดุลของเมตริกสองแบบที่แตกต่างกัน: การสำรวจและการใช้ประโยชน์

การสำรวจคือการรวบรวมข้อมูลเพิ่มเติมเกี่ยวกับสภาพแวดล้อมโดยรอบ ในขณะที่การสำรวจกำลังใช้ข้อมูลที่ทราบอยู่แล้วเกี่ยวกับสภาพแวดล้อมเพื่อรับคะแนนสะสม หากตัวแทนเพียงสำรวจและไม่เคยใช้ประโยชน์จากสภาพแวดล้อม การดำเนินการที่ต้องการจะไม่ถูกดำเนินการ ในทางกลับกัน หากตัวแทนเอาแต่หาประโยชน์และไม่เคยสำรวจ ตัวแทนจะเรียนรู้ที่จะดำเนินการอย่างใดอย่างหนึ่งเท่านั้น และจะไม่ค้นพบกลยุทธ์อื่นที่เป็นไปได้ในการรับรางวัล ดังนั้น การสร้างสมดุลระหว่างการสำรวจและการใช้ประโยชน์จึงมีความสำคัญอย่างยิ่งเมื่อสร้างตัวแทนการเรียนรู้เสริมกำลัง

กรณีการใช้งานสำหรับการเรียนรู้การเสริมแรง

การเรียนรู้แบบเสริมแรงสามารถนำมาใช้ในหลากหลายบทบาท และเหมาะที่สุดสำหรับแอปพลิเคชันที่งานต้องการระบบอัตโนมัติ

ระบบอัตโนมัติของงานที่ต้องดำเนินการโดยหุ่นยนต์อุตสาหกรรมเป็นพื้นที่หนึ่งที่การเรียนรู้แบบเสริมกำลังมีประโยชน์ การเรียนรู้แบบเสริมแรงยังสามารถใช้กับปัญหาต่างๆ เช่น การทำเหมืองข้อความ การสร้างแบบจำลองที่สามารถสรุปเนื้อหายาวๆ ได้ นักวิจัยกำลังทดลองใช้การเรียนรู้การเสริมแรงในสาขาการดูแลสุขภาพด้วย โดยตัวแทนการเสริมแรงจะจัดการงานต่างๆ เช่น การเพิ่มประสิทธิภาพนโยบายการรักษา นอกจากนี้ยังสามารถใช้การเรียนรู้แบบเสริมแรงเพื่อปรับแต่งสื่อการเรียนรู้สำหรับนักเรียน

สรุปการเรียนรู้การเสริมแรง

การเรียนรู้แบบเสริมกำลังเป็นวิธีการที่มีประสิทธิภาพในการสร้างตัวแทน AI ที่สามารถนำไปสู่ผลลัพธ์ที่น่าประทับใจและบางครั้งก็น่าประหลาดใจ การฝึกอบรมตัวแทนผ่านการเรียนรู้แบบเสริมกำลังอาจซับซ้อนและยาก เนื่องจากต้องใช้การฝึกอบรมซ้ำหลายครั้งและความสมดุลที่ละเอียดอ่อนของการแบ่งกลุ่มสำรวจ/ใช้ประโยชน์ อย่างไรก็ตาม หากประสบความสำเร็จ ตัวแทนที่สร้างขึ้นด้วยการเรียนรู้แบบเสริมกำลังสามารถดำเนินงานที่ซับซ้อนภายใต้สภาพแวดล้อมที่หลากหลายและหลากหลาย

บล็อกเกอร์และโปรแกรมเมอร์ที่มีความเชี่ยวชาญด้าน เครื่องเรียนรู้ และ การเรียนรู้ลึก ๆ หัวข้อ Daniel หวังว่าจะช่วยให้ผู้อื่นใช้พลังของ AI เพื่อประโยชน์ทางสังคม