- คำศัพท์ (A ถึง D)
- การควบคุมความสามารถของ AI
- AIOps
- อัลบั้ม
- ประสิทธิภาพของสินทรัพย์
- ตัวเข้ารหัสอัตโนมัติ
- การขยายพันธุ์หลัง
- ทฤษฎีบทเบย์
- ข้อมูลขนาดใหญ่
- Chatbot: คู่มือสำหรับผู้เริ่มต้น
- การคิดเชิงคำนวณ
- วิสัยทัศน์คอมพิวเตอร์
- เมทริกซ์ความสับสน
- เครือข่ายประสาทเทียม
- cybersecurity
- ผ้าข้อมูล
- การเล่าเรื่องข้อมูล
- ข้อมูลวิทยาศาสตร์
- คลังข้อมูล
- ต้นไม้ตัดสินใจ
- Deepfakes
- การเรียนรู้ลึก ๆ
- การเรียนรู้การเสริมแรงเชิงลึก
- devops
- DevSecOps
- แบบจำลองการแพร่กระจาย
- ดิจิตอลแฝด
- การลดขนาด
- คำศัพท์ (E ถึง K)
- เอดจ์ไอ
- อารมณ์ AI
- การเรียนรู้ทั้งมวล
- การแฮ็กอย่างมีจริยธรรม
- ETL
- AI ที่อธิบายได้
- สหพันธ์การเรียนรู้
- ฟินอ๊อฟ
- กำเนิด AI
- เครือข่ายผู้ให้กำเนิด
- กำเนิดเทียบกับการเลือกปฏิบัติ
- ไล่โทนสี
- โคตรไล่ระดับ
- การเรียนรู้ไม่กี่ช็อต
- การจำแนกรูปภาพ
- การดำเนินงานด้านไอที (ITOps)
- ระบบอัตโนมัติของเหตุการณ์
- วิศวกรรมอิทธิพล
- K-หมายถึงการจัดกลุ่ม
- K-เพื่อนบ้านที่ใกล้ที่สุด
- คำศัพท์ (L ถึง Q)
- คำศัพท์ (R ถึง Z)
- การเรียนรู้เสริมแรง
- AI ที่มีความรับผิดชอบ
- อาร์แอลเอชเอฟ
- ระบบอัตโนมัติของกระบวนการหุ่นยนต์
- มีโครงสร้าง vs ไม่มีโครงสร้าง
- การวิเคราะห์ความเชื่อมั่น
- อยู่ภายใต้การดูแล vs ไม่ได้รับการดูแล
- สนับสนุนเครื่องเวกเตอร์
- ข้อมูลสังเคราะห์
- สื่อสังเคราะห์
- การจัดประเภทข้อความ
- TinyML
- ถ่ายทอดการเรียนรู้
- เครือข่ายประสาทหม้อแปลง
- การทดสอบของทัวริง
- การค้นหาความคล้ายคลึงกันของเวกเตอร์
AI 101
การเรียนรู้การเสริมแรงคืออะไร?
สารบัญ
การเรียนรู้การเสริมแรงคืออะไร?
พูดง่ายๆ ก็คือการเรียนรู้แบบเสริมกำลังเป็นเทคนิคการเรียนรู้ของเครื่องที่เกี่ยวข้องกับการฝึกอบรมตัวแทนปัญญาประดิษฐ์ผ่านการทำซ้ำของการกระทำและรางวัลที่เกี่ยวข้อง ตัวแทนการเรียนรู้แบบเสริมกำลังทำการทดลองในสภาพแวดล้อม ลงมือปฏิบัติ และได้รับรางวัลเมื่อทำสิ่งที่ถูกต้อง เมื่อเวลาผ่านไปตัวแทน เรียนรู้ที่จะดำเนินการที่จะเพิ่มรางวัลสูงสุด นั่นเป็นคำจำกัดความสั้นๆ ของการเรียนรู้แบบเสริมแรง แต่การพิจารณาอย่างใกล้ชิดเกี่ยวกับแนวคิดเบื้องหลังการเรียนรู้แบบเสริมแรงจะช่วยให้คุณเข้าใจได้ดีขึ้นและเป็นธรรมชาติมากขึ้น
คำว่า “การเรียนรู้เสริมแรง” ดัดแปลงมาจากแนวคิดของ การเสริมแรงในด้านจิตวิทยา ด้วยเหตุผลดังกล่าว ลองมาทำความเข้าใจแนวคิดทางจิตวิทยาของการเสริมแรงกัน ในแง่จิตวิทยา คำว่าการเสริมแรงหมายถึงบางสิ่งที่เพิ่มโอกาสที่การตอบสนอง/การกระทำบางอย่างจะเกิดขึ้น แนวคิดเรื่องการเสริมแรงนี้เป็นแนวคิดหลักของทฤษฎีการปรับสภาพผู้ปฏิบัติงาน ซึ่งเสนอโดยนักจิตวิทยา บี.เอฟ. สกินเนอร์ ในขั้นต้น ในบริบทนี้ การเสริมแรงคืออะไรก็ตามที่ทำให้ความถี่ของพฤติกรรมที่กำหนดเพิ่มขึ้น หากเราคิดถึงการเสริมแรงที่เป็นไปได้สำหรับมนุษย์ สิ่งเหล่านี้อาจเป็นสิ่งต่างๆ เช่น การยกย่อง การขึ้นงาน ลูกอม และกิจกรรมสนุกๆ
ในแง่ดั้งเดิมทางจิตวิทยา การเสริมแรงมี XNUMX ประเภท มีการเสริมแรงทางบวกและการเสริมทางลบ การเสริมแรงเชิงบวกคือการเพิ่มบางอย่างเพื่อเพิ่มพฤติกรรม เช่น ให้ขนมกับสุนัขเมื่อมีความประพฤติดี การเสริมแรงทางลบเกี่ยวข้องกับการขจัดสิ่งกระตุ้นเพื่อกระตุ้นให้เกิดพฤติกรรม เช่น การปิดเสียงดังเพื่อเกลี้ยกล่อมแมวขี้เซา
การเสริมแรงทางบวกและทางลบ
การเสริมแรงทางบวกจะเพิ่มความถี่ของพฤติกรรมในขณะที่การเสริมแรงทางลบจะลดความถี่ โดยทั่วไป การเสริมแรงเชิงบวกเป็นประเภทการเสริมแรงทั่วไปที่ใช้ในการเรียนรู้การเสริมแรง เนื่องจากจะช่วยให้แบบจำลองเพิ่มประสิทธิภาพสูงสุดในงานที่กำหนด ไม่เพียงเท่านั้น การเสริมแรงในเชิงบวกยังนำโมเดลไปสู่การเปลี่ยนแปลงที่ยั่งยืนมากขึ้น การเปลี่ยนแปลงที่สามารถกลายเป็นรูปแบบที่สอดคล้องกันและคงอยู่เป็นระยะเวลานาน
ในทางตรงกันข้าม แม้ว่าการเสริมแรงทางลบจะทำให้พฤติกรรมมีแนวโน้มที่จะเกิดขึ้น แต่ก็ใช้เพื่อรักษามาตรฐานประสิทธิภาพขั้นต่ำมากกว่าการเข้าถึงประสิทธิภาพสูงสุดของแบบจำลอง การเสริมแรงเชิงลบในการเรียนรู้แบบเสริมแรงสามารถช่วยให้แน่ใจว่าตัวแบบอยู่ห่างจากการกระทำที่ไม่พึงประสงค์ แต่ก็ไม่สามารถทำให้ตัวแบบสำรวจการกระทำที่ต้องการได้
การฝึกอบรมเจ้าหน้าที่เสริมแรง
เมื่อตัวแทนการเรียนรู้เสริมกำลังได้รับการฝึกอบรม มีสี่ส่วนผสมที่แตกต่างกัน or รัฐ ใช้ในการฝึกอบรม: สถานะเริ่มต้น (สถานะ 0) สถานะใหม่ (สถานะ 1) การดำเนินการ และรางวัล
ลองนึกภาพว่าเรากำลังฝึกเจ้าหน้าที่เสริมกำลังเพื่อเล่นวิดีโอเกมแพลตฟอร์มที่เป้าหมายของ AI คือไปให้ถึงระดับสิ้นสุดโดยการเคลื่อนที่ผ่านหน้าจอไปทางขวา สถานะเริ่มต้นของเกมมาจากสภาพแวดล้อม หมายความว่าเฟรมแรกของเกมได้รับการวิเคราะห์และมอบให้กับโมเดล จากข้อมูลนี้ แบบจำลองจะต้องตัดสินใจเกี่ยวกับการดำเนินการ
ในช่วงเริ่มต้นของการฝึกอบรม การกระทำเหล่านี้จะเกิดขึ้นแบบสุ่ม แต่เมื่อโมเดลได้รับการเสริมประสิทธิภาพ การกระทำบางอย่างจะกลายเป็นเรื่องธรรมดามากขึ้น หลังจากดำเนินการแล้ว สภาพแวดล้อมของเกมจะได้รับการอัปเดตและสร้างสถานะหรือเฟรมใหม่ หากการดำเนินการของเจ้าหน้าที่ทำให้เกิดผลลัพธ์ที่ต้องการ สมมติว่าเจ้าหน้าที่ยังมีชีวิตอยู่และไม่ได้ถูกศัตรูโจมตี จะมีการมอบรางวัลบางส่วนให้กับเจ้าหน้าที่และมีแนวโน้มว่าจะทำเช่นเดียวกันใน อนาคต.
ระบบพื้นฐานนี้มีการวนซ้ำอย่างต่อเนื่อง เกิดขึ้นครั้งแล้วครั้งเล่า และทุกครั้งที่เจ้าหน้าที่พยายามเรียนรู้เพิ่มเติมอีกเล็กน้อยและเพิ่มรางวัลสูงสุด
เป็นตอน ๆ กับงานต่อเนื่อง
โดยทั่วไปงานการเรียนรู้การเสริมแรงสามารถจัดอยู่ในประเภทใดประเภทหนึ่งจากสองประเภทที่แตกต่างกัน: งานฉากและงานต่อเนื่อง
ภารกิจที่เป็นตอนๆ จะดำเนินการตามลูปการเรียนรู้/การฝึกอบรมและปรับปรุงประสิทธิภาพจนกว่าจะถึงเกณฑ์การสิ้นสุดและการฝึกอบรมสิ้นสุดลง ในเกม อาจถึงจุดสิ้นสุดของระดับหรือตกอยู่ในอันตรายเช่นหนามแหลม ในทางตรงกันข้าม งานต่อเนื่องไม่มีเกณฑ์การเลิกจ้าง โดยพื้นฐานแล้วจะต้องฝึกอบรมอย่างต่อเนื่องตลอดไปจนกว่าวิศวกรจะเลือกที่จะสิ้นสุดการฝึกอบรม
มอนติคาร์โล vs ความแตกต่างชั่วคราว
มีสองวิธีหลักในการเรียนรู้หรือการฝึกอบรม ตัวแทนการเรียนรู้แบบเสริมแรง ใน แนวทางของมอนติคาร์โล, รางวัลจะถูกส่งไปยังตัวแทน (คะแนนได้รับการอัปเดต) เมื่อสิ้นสุดตอนการฝึกอบรมเท่านั้น หากต้องการพูดอีกวิธีหนึ่ง โมเดลจะเรียนรู้ว่าโมเดลทำงานได้ดีเพียงใดเมื่อกดเงื่อนไขการสิ้นสุดเท่านั้น จากนั้นจะสามารถใช้ข้อมูลนี้เพื่ออัปเดต และเมื่อการฝึกรอบถัดไปเริ่มขึ้น ระบบจะตอบกลับตามข้อมูลใหม่
พื้นที่ วิธีความแตกต่างทางเวลา แตกต่างจากวิธีมอนติคาร์โลตรงที่การประมาณมูลค่าหรือการประมาณคะแนนจะได้รับการอัปเดตในระหว่างตอนการฝึกอบรม เมื่อโมเดลเลื่อนไปยังขั้นตอนถัดไป ค่าต่างๆ จะถูกอัพเดต
การสำรวจและการแสวงหาผลประโยชน์
การฝึกอบรมตัวแทนการเรียนรู้แบบเสริมกำลังเป็นการกระทำที่สมดุล ซึ่งเกี่ยวข้องกับความสมดุลของเมตริกสองแบบที่แตกต่างกัน: การสำรวจและการใช้ประโยชน์
การสำรวจคือการรวบรวมข้อมูลเพิ่มเติมเกี่ยวกับสภาพแวดล้อมโดยรอบ ในขณะที่การสำรวจกำลังใช้ข้อมูลที่ทราบอยู่แล้วเกี่ยวกับสภาพแวดล้อมเพื่อรับคะแนนสะสม หากตัวแทนเพียงสำรวจและไม่เคยใช้ประโยชน์จากสภาพแวดล้อม การดำเนินการที่ต้องการจะไม่ถูกดำเนินการ ในทางกลับกัน หากตัวแทนเอาแต่หาประโยชน์และไม่เคยสำรวจ ตัวแทนจะเรียนรู้ที่จะดำเนินการอย่างใดอย่างหนึ่งเท่านั้น และจะไม่ค้นพบกลยุทธ์อื่นที่เป็นไปได้ในการรับรางวัล ดังนั้น การสร้างสมดุลระหว่างการสำรวจและการใช้ประโยชน์จึงมีความสำคัญอย่างยิ่งเมื่อสร้างตัวแทนการเรียนรู้เสริมกำลัง
กรณีการใช้งานสำหรับการเรียนรู้การเสริมแรง
การเรียนรู้แบบเสริมแรงสามารถนำมาใช้ในหลากหลายบทบาท และเหมาะที่สุดสำหรับแอปพลิเคชันที่งานต้องการระบบอัตโนมัติ
ระบบอัตโนมัติของงานที่ต้องดำเนินการโดยหุ่นยนต์อุตสาหกรรมเป็นพื้นที่หนึ่งที่การเรียนรู้แบบเสริมกำลังมีประโยชน์ การเรียนรู้แบบเสริมแรงยังสามารถใช้กับปัญหาต่างๆ เช่น การทำเหมืองข้อความ การสร้างแบบจำลองที่สามารถสรุปเนื้อหายาวๆ ได้ นักวิจัยกำลังทดลองใช้การเรียนรู้การเสริมแรงในสาขาการดูแลสุขภาพด้วย โดยตัวแทนการเสริมแรงจะจัดการงานต่างๆ เช่น การเพิ่มประสิทธิภาพนโยบายการรักษา นอกจากนี้ยังสามารถใช้การเรียนรู้แบบเสริมแรงเพื่อปรับแต่งสื่อการเรียนรู้สำหรับนักเรียน
สรุปการเรียนรู้การเสริมแรง
การเรียนรู้แบบเสริมกำลังเป็นวิธีการที่มีประสิทธิภาพในการสร้างตัวแทน AI ที่สามารถนำไปสู่ผลลัพธ์ที่น่าประทับใจและบางครั้งก็น่าประหลาดใจ การฝึกอบรมตัวแทนผ่านการเรียนรู้แบบเสริมกำลังอาจซับซ้อนและยาก เนื่องจากต้องใช้การฝึกอบรมซ้ำหลายครั้งและความสมดุลที่ละเอียดอ่อนของการแบ่งกลุ่มสำรวจ/ใช้ประโยชน์ อย่างไรก็ตาม หากประสบความสำเร็จ ตัวแทนที่สร้างขึ้นด้วยการเรียนรู้แบบเสริมกำลังสามารถดำเนินงานที่ซับซ้อนภายใต้สภาพแวดล้อมที่หลากหลายและหลากหลาย
บล็อกเกอร์และโปรแกรมเมอร์ที่มีความเชี่ยวชาญด้าน เครื่องเรียนรู้ และ การเรียนรู้ลึก ๆ หัวข้อ Daniel หวังว่าจะช่วยให้ผู้อื่นใช้พลังของ AI เพื่อประโยชน์ทางสังคม