ต้นขั้ว Deep Reinforcement Learning คืออะไร? - Unite.AI
เชื่อมต่อกับเรา
มาสเตอร์คลาส AI:

AI 101

การเรียนรู้การเสริมแรงแบบลึกคืออะไร?

mm
วันที่อัพเดท on

การเรียนรู้การเสริมแรงแบบลึกคืออะไร?

นอกเหนือจากการเรียนรู้ของเครื่องและการเรียนรู้ภายใต้การดูแลแล้ว การสร้าง AI อีกรูปแบบหนึ่งก็คือการเรียนรู้แบบเสริมกำลัง นอกเหนือจากการเรียนรู้การเสริมกำลังอย่างสม่ำเสมอ การเรียนรู้การเสริมแรงอย่างล้ำลึก สามารถนำไปสู่ผลลัพธ์ที่น่าประทับใจอย่างน่าอัศจรรย์ ต้องขอบคุณข้อเท็จจริงที่ว่ามันผสมผสานแง่มุมที่ดีที่สุดของทั้งการเรียนรู้เชิงลึกและการเรียนรู้แบบเสริมกำลังเข้าไว้ด้วยกัน มาดูกันว่าการเรียนรู้แบบเสริมกำลังเชิงลึกทำงานอย่างไร

ก่อนที่เราจะดำดิ่งสู่การเรียนรู้การเสริมแรงเชิงลึก คุณควรทบทวนความสม่ำเสมอของตนเองก่อน การเรียนรู้การเสริมแรง ทำงาน ในการเรียนรู้แบบเสริมแรง อัลกอริทึมที่มุ่งเน้นเป้าหมายได้รับการออกแบบผ่านกระบวนการลองผิดลองถูก ปรับให้เหมาะสมสำหรับการกระทำที่นำไปสู่ผลลัพธ์ที่ดีที่สุด/การกระทำที่ได้รับ "รางวัล" มากที่สุด เมื่อมีการฝึกฝนอัลกอริทึมการเรียนรู้แบบเสริมแรง พวกเขาจะได้รับ "รางวัล" หรือ "การลงโทษ" ที่มีอิทธิพลต่อการกระทำที่พวกเขาจะทำในอนาคต อัลกอริทึมพยายามหาชุดของการกระทำที่จะให้รางวัลแก่ระบบมากที่สุด โดยสร้างสมดุลให้กับทั้งรางวัลในทันทีและในอนาคต

อัลกอริธึมการเรียนรู้แบบเสริมแรงมีประสิทธิภาพมากเพราะสามารถนำไปใช้กับงานเกือบทุกชนิด มีความยืดหยุ่นและไดนามิกในการเรียนรู้จากสภาพแวดล้อมและค้นพบการกระทำที่เป็นไปได้

ภาพรวมของการเรียนรู้การเสริมแรงเชิงลึก

รูปถ่าย: Megajuice ผ่าน Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

เมื่อพูดถึงการเรียนรู้แบบเสริมแรงเชิงลึก สภาพแวดล้อมมักจะแสดงด้วยรูปภาพ รูปภาพคือการจับภาพสภาพแวดล้อม ณ เวลาใดเวลาหนึ่ง ตัวแทนต้องวิเคราะห์รูปภาพและดึงข้อมูลที่เกี่ยวข้องจากรูปภาพ โดยใช้ข้อมูลเพื่อแจ้งว่าควรดำเนินการใด การเรียนรู้แบบเสริมแรงเชิงลึกมักดำเนินการโดยใช้หนึ่งในสองเทคนิคที่แตกต่างกัน: การเรียนรู้ตามคุณค่าและการเรียนรู้ตามนโยบาย

เทคนิคการเรียนรู้ตามคุณค่าใช้ประโยชน์จากอัลกอริทึมและสถาปัตยกรรม เช่น โครงข่ายประสาทเทียมแบบ Convolutional และ Deep-Q-เครือข่าย. อัลกอริธึมเหล่านี้ทำงานโดยการแปลงภาพเป็นโทนสีเทาและครอบตัดส่วนที่ไม่จำเป็นของภาพออก หลังจากนั้น ภาพจะผ่านกระบวนการบิดเบี้ยวและการรวมภาพหลายๆ แบบ โดยดึงส่วนที่เกี่ยวข้องที่สุดของภาพออกมา ส่วนที่สำคัญของรูปภาพจะถูกใช้เพื่อคำนวณค่า Q สำหรับการดำเนินการต่างๆ ที่ตัวแทนสามารถทำได้ ค่า Q ใช้เพื่อกำหนดแนวทางการดำเนินการที่ดีที่สุดสำหรับตัวแทน หลังจากคำนวณค่า Q เริ่มต้นแล้ว จะมีการดำเนินการ backpropagation เพื่อให้สามารถกำหนดค่า Q ที่แม่นยำที่สุดได้

วิธีการตามนโยบายจะใช้เมื่อจำนวนของการดำเนินการที่เป็นไปได้ที่ตัวแทนสามารถทำได้นั้นสูงมาก ซึ่งโดยทั่วไปแล้วจะเป็นกรณีในสถานการณ์จริง สถานการณ์เช่นนี้จำเป็นต้องใช้วิธีอื่น เนื่องจากการคำนวณค่า Q สำหรับการดำเนินการแต่ละรายการนั้นไม่สามารถนำไปใช้ได้จริง แนวทางตามนโยบายดำเนินการโดยไม่มีการคำนวณค่าฟังก์ชันสำหรับการดำเนินการแต่ละรายการ แต่จะใช้นโยบายโดยการเรียนรู้นโยบายโดยตรง ซึ่งมักจะใช้เทคนิคที่เรียกว่า Policy Gradients

การไล่ระดับนโยบายดำเนินการโดยรับสถานะและคำนวณความน่าจะเป็นสำหรับการดำเนินการตามประสบการณ์ก่อนหน้าของตัวแทน จากนั้นจึงเลือกการดำเนินการที่เป็นไปได้มากที่สุด กระบวนการนี้จะทำซ้ำจนกว่าจะสิ้นสุดระยะเวลาการประเมินและรางวัลจะมอบให้กับตัวแทน หลังจากจัดการกับรางวัลกับตัวแทนแล้ว พารามิเตอร์ของเครือข่ายจะได้รับการอัปเดตด้วย backpropagation

Q-Learning คืออะไร?

เพราะ Q-การเรียนรู้ เป็นส่วนสำคัญของกระบวนการเรียนรู้เชิงลึก เรามาใช้เวลาทำความเข้าใจจริงๆ ว่าระบบ Q-learning ทำงานอย่างไร

กระบวนการตัดสินใจของมาร์คอฟ

กระบวนการตัดสินใจของมาร์คอฟ รูปภาพ: waldoalvarez ผ่าน Pixabay, ใบอนุญาต Pixbay (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

เพื่อให้เอเจนต์ AI ดำเนินงานชุดต่างๆ และบรรลุเป้าหมายได้ เอเจนต์ต้องสามารถจัดการกับลำดับของสถานะและเหตุการณ์ต่างๆ ได้ ตัวแทนจะเริ่มต้นที่สถานะหนึ่งและต้องดำเนินการหลายอย่างเพื่อไปถึงสถานะสิ้นสุด และอาจมีสถานะจำนวนมากอยู่ระหว่างสถานะเริ่มต้นและสถานะสิ้นสุด การจัดเก็บข้อมูลเกี่ยวกับทุกสถานะนั้นทำไม่ได้หรือเป็นไปไม่ได้ ดังนั้นระบบจึงต้องหาวิธีที่จะรักษาเฉพาะข้อมูลสถานะที่เกี่ยวข้องมากที่สุด สิ่งนี้ทำได้โดยการใช้ กระบวนการตัดสินใจของมาร์คอฟซึ่งรักษาไว้เพียงข้อมูลเกี่ยวกับสถานะปัจจุบันและสถานะก่อนหน้า ทุกสถานะจะติดตามคุณสมบัติ Markov ซึ่งติดตามว่าตัวแทนเปลี่ยนจากสถานะก่อนหน้าเป็นสถานะปัจจุบันอย่างไร

การเรียนรู้ Q ลึก

เมื่อโมเดลเข้าถึงข้อมูลเกี่ยวกับสถานะของสภาพแวดล้อมการเรียนรู้แล้ว จะสามารถคำนวณค่า Q ได้ ค่า Q เป็นรางวัลทั้งหมดที่มอบให้กับตัวแทนเมื่อสิ้นสุดลำดับการดำเนินการ

ค่า Q คำนวณด้วยชุดของรางวัล มีรางวัลทันทีโดยคำนวณจากสถานะปัจจุบันและขึ้นอยู่กับการกระทำปัจจุบัน ค่า Q สำหรับสถานะที่ตามมาจะถูกคำนวณพร้อมกับค่า Q สำหรับสถานะหลังจากนั้น และต่อไปเรื่อยๆ จนกว่าจะมีการคำนวณค่า Q ทั้งหมดสำหรับสถานะต่างๆ นอกจากนี้ยังมีพารามิเตอร์ Gamma ที่ใช้เพื่อควบคุมน้ำหนักรางวัลในอนาคตที่มีต่อการกระทำของตัวแทน โดยทั่วไป นโยบายจะคำนวณโดยการสุ่มเริ่มต้นค่า Q และให้แบบจำลองเข้าหาค่า Q ที่เหมาะสมที่สุดตลอดการฝึกอบรม

Deep Q-เครือข่าย

หนึ่งในปัญหาพื้นฐานที่เกี่ยวข้องกับ การใช้ Q-learning สำหรับการเรียนรู้เสริมคือจำนวนหน่วยความจำที่จำเป็นในการจัดเก็บข้อมูลจะขยายอย่างรวดเร็วตามจำนวนสถานะที่เพิ่มขึ้น Deep Q Networks แก้ปัญหานี้ด้วยการรวมโมเดลโครงข่ายประสาทเทียมเข้ากับค่า Q ทำให้เจ้าหน้าที่สามารถเรียนรู้จากประสบการณ์และคาดเดาได้อย่างสมเหตุสมผลเกี่ยวกับการดำเนินการที่ดีที่สุด ด้วย Q-learning เชิงลึก ฟังก์ชันค่า Q จะถูกประเมินด้วยโครงข่ายประสาทเทียม เครือข่ายนิวรัลใช้สถานะเป็นข้อมูลอินพุต และเครือข่ายเอาต์พุตค่า Q สำหรับการดำเนินการต่างๆ ที่เป็นไปได้ทั้งหมดที่เอเจนต์อาจทำ

Deep Q-learning ทำได้โดยการจัดเก็บประสบการณ์ที่ผ่านมาทั้งหมดไว้ในหน่วยความจำ คำนวณผลลัพธ์สูงสุดสำหรับ Q-network จากนั้นใช้ฟังก์ชันการสูญเสียเพื่อคำนวณความแตกต่างระหว่างค่าปัจจุบันและค่าสูงสุดที่เป็นไปได้ทางทฤษฎี

การเรียนรู้เสริมแรงเชิงลึก vs การเรียนรู้เชิงลึก

ข้อแตกต่างที่สำคัญประการหนึ่งระหว่างการเรียนรู้แบบเสริมแรงเชิงลึกกับการเรียนรู้เชิงลึกแบบปกติคือ ในกรณีของอดีต ข้อมูลนำเข้าจะเปลี่ยนแปลงตลอดเวลา ซึ่งไม่ใช่กรณีของการเรียนรู้เชิงลึกแบบดั้งเดิม รูปแบบการเรียนรู้จะอธิบายปัจจัยเข้าและผลที่เปลี่ยนแปลงตลอดเวลาได้อย่างไร

โดยพื้นฐานแล้ว เพื่ออธิบายความแตกต่างระหว่างค่าที่คาดการณ์และค่าเป้าหมาย สามารถใช้โครงข่ายประสาทเทียมสองเครือข่ายแทนเครือข่ายเดียวได้ เครือข่ายหนึ่งประเมินค่าเป้าหมาย ในขณะที่อีกเครือข่ายหนึ่งรับผิดชอบการคาดการณ์ พารามิเตอร์ของเครือข่ายเป้าหมายจะได้รับการอัปเดตเมื่อโมเดลเรียนรู้ หลังจากที่ผ่านการฝึกอบรมซ้ำตามจำนวนที่เลือกแล้ว ผลลัพธ์ของเครือข่ายที่เกี่ยวข้องจะถูกรวมเข้าด้วยกันเพื่อกำหนดความแตกต่าง

การเรียนรู้ตามนโยบาย

การเรียนรู้ตามนโยบาย วิธีการทำงานแตกต่างจากวิธีการตามค่า Q ในขณะที่วิธีค่า Q สร้างฟังก์ชันค่าที่คาดการณ์รางวัลสำหรับสถานะและการดำเนินการ วิธีการตามนโยบายจะกำหนดนโยบายที่จะแมปสถานะกับการกระทำ กล่าวอีกนัยหนึ่ง ฟังก์ชันนโยบายที่เลือกสำหรับการดำเนินการจะได้รับการปรับให้เหมาะสมโดยตรงโดยไม่คำนึงถึงฟังก์ชันค่า

การไล่ระดับสีนโยบาย

นโยบายสำหรับการเรียนรู้แบบเสริมแรงเชิงลึกจัดอยู่ในประเภทใดประเภทหนึ่งจากสองประเภท: แบบสุ่มหรือเชิงกำหนด นโยบายที่กำหนดขึ้นเป็นนโยบายที่รัฐถูกแมปกับการดำเนินการ หมายความว่าเมื่อนโยบายได้รับข้อมูลเกี่ยวกับสถานะ การดำเนินการจะถูกส่งกลับ ในขณะเดียวกัน นโยบายสุ่มส่งคืนการแจกแจงความน่าจะเป็นสำหรับการกระทำ แทนที่จะเป็นการกระทำเดี่ยวๆ ที่แยกจากกัน

นโยบายเชิงกำหนดจะใช้เมื่อไม่มีความไม่แน่นอนเกี่ยวกับผลลัพธ์ของการดำเนินการที่สามารถดำเนินการได้ กล่าวอีกนัยหนึ่งเมื่อสภาพแวดล้อมถูกกำหนดขึ้นเอง ในทางตรงกันข้าม ผลลัพธ์ของนโยบายแบบสุ่มนั้นเหมาะสมกับสภาพแวดล้อมที่ผลลัพธ์ของการดำเนินการไม่แน่นอน โดยทั่วไปแล้ว สถานการณ์การเรียนรู้แบบเสริมกำลังเกี่ยวข้องกับความไม่แน่นอนในระดับหนึ่ง ดังนั้นจึงใช้นโยบายสุ่ม

แนวทางการไล่ระดับสีตามนโยบายมีข้อดีบางประการเหนือแนวทาง Q-learning รวมถึงข้อเสียบางประการ ในแง่ของข้อดี วิธีการตามนโยบายจะรวมเอาพารามิเตอร์ที่เหมาะสมที่สุดได้รวดเร็วและเชื่อถือได้มากกว่า การไล่ระดับสีของนโยบายสามารถปฏิบัติตามได้จนกว่าจะมีการกำหนดพารามิเตอร์ที่ดีที่สุด ในขณะที่วิธีตามมูลค่า การเปลี่ยนแปลงเล็กน้อยในค่าการดำเนินการโดยประมาณอาจนำไปสู่การเปลี่ยนแปลงขนาดใหญ่ในการดำเนินการและพารามิเตอร์ที่เกี่ยวข้อง

การไล่ระดับสีของนโยบายทำงานได้ดีขึ้นสำหรับพื้นที่การดำเนินการที่มีมิติสูงเช่นกัน เมื่อมีการดำเนินการที่เป็นไปได้จำนวนมาก การเรียนรู้เชิงลึก Q-learning จะใช้ไม่ได้จริงเพราะต้องกำหนดคะแนนให้กับทุกการกระทำที่เป็นไปได้สำหรับขั้นตอนเวลาทั้งหมด ซึ่งอาจเป็นไปไม่ได้ในการคำนวณ อย่างไรก็ตาม ด้วยวิธีการตามนโยบาย พารามิเตอร์จะถูกปรับเมื่อเวลาผ่านไป และจำนวนของพารามิเตอร์ที่ดีที่สุดที่เป็นไปได้จะลดลงอย่างรวดเร็วเมื่อโมเดลมาบรรจบกัน

การไล่ระดับสีของนโยบายยังสามารถใช้นโยบายสุ่มได้ ซึ่งแตกต่างจากนโยบายตามมูลค่า เนื่องจากนโยบายสุ่มทำให้เกิดการแจกแจงความน่าจะเป็น การแลกเปลี่ยนการสำรวจ/การแสวงหาผลประโยชน์จึงไม่จำเป็นต้องดำเนินการ

ในแง่ของข้อเสีย ข้อเสียเปรียบหลักของการไล่ระดับสีตามนโยบายคืออาจติดขัดขณะค้นหาพารามิเตอร์ที่เหมาะสมที่สุด โดยเน้นเฉพาะชุดค่าที่เหมาะสมในพื้นที่แคบๆ แทนที่จะเป็นค่าที่เหมาะสมโดยรวม

ฟังก์ชันคะแนนนโยบาย

นโยบายที่ใช้เพื่อเพิ่มประสิทธิภาพเป้าหมายของแบบจำลอง เพื่อเพิ่มฟังก์ชั่นคะแนน – เจ (θ). ถ้าเจ (θ) เป็นตัววัดว่านโยบายของเราดีเพียงใดในการบรรลุเป้าหมายที่ต้องการ เราสามารถหาค่าของ “θ” นั่นทำให้เรามีนโยบายที่ดีที่สุด ขั้นแรก เราต้องคำนวณผลตอบแทนกรมธรรม์ที่คาดหวัง เราประเมินผลตอบแทนตามนโยบายเพื่อให้เรามีเป้าหมาย บางสิ่งบางอย่างที่จะเพิ่มประสิทธิภาพ ฟังก์ชันคะแนนนโยบายคือวิธีที่เราคำนวณรางวัลนโยบายที่คาดไว้ และมีฟังก์ชันคะแนนนโยบายต่างๆ ที่ใช้กันทั่วไป เช่น ค่าเริ่มต้นสำหรับสภาพแวดล้อมเป็นตอนๆ ค่าเฉลี่ยสำหรับสภาพแวดล้อมต่อเนื่อง และรางวัลเฉลี่ยต่อขั้นตอนเวลา

การไล่ระดับนโยบายขึ้น

การไล่ระดับสีขึ้นมีจุดมุ่งหมายเพื่อย้ายพารามิเตอร์จนกว่าจะอยู่ในตำแหน่งที่มีคะแนนสูงสุด ภาพถ่าย: สาธารณสมบัติ (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

หลังจากใช้ฟังก์ชันคะแนนนโยบายที่ต้องการ และคำนวณรางวัลกรมธรรม์ที่คาดไว้ เราสามารถหาค่าสำหรับพารามิเตอร์ “θ” ซึ่งเพิ่มฟังก์ชั่นคะแนนให้สูงสุด เพื่อเพิ่มฟังก์ชันคะแนน J(θ) เทคนิคที่เรียกว่า “การไล่ระดับสี" ถูกนำมาใช้. การขึ้นลงแบบไล่ระดับมีแนวคิดคล้ายกับการลงแบบไล่ระดับในการเรียนรู้เชิงลึก แต่เรากำลังปรับให้เหมาะสมเพื่อการเพิ่มขึ้นที่ชันที่สุดแทนที่จะลดลง เนื่องจากคะแนนของเราไม่ใช่ "ข้อผิดพลาด" เหมือนกับปัญหาการเรียนรู้เชิงลึกอื่นๆ คะแนนของเราคือสิ่งที่เราต้องการเพิ่มให้สูงสุด นิพจน์ที่เรียกว่าทฤษฎีบทไล่ระดับนโยบายใช้ในการประมาณค่าการไล่ระดับสีตามนโยบาย “θ"

สรุปการเรียนรู้การเสริมแรงเชิงลึก

โดยสรุป การเรียนรู้แบบเสริมแรงเชิงลึกผสมผสานแง่มุมของการเรียนรู้แบบเสริมแรงและเครือข่ายประสาทเชิงลึก การเรียนรู้แบบเสริมแรงเชิงลึกทำได้ด้วยสองเทคนิคที่แตกต่างกัน: การเรียนรู้แบบเจาะลึกและนโยบายการไล่ระดับสี

วิธีการเรียนรู้แบบ Deep Q-learning มีจุดมุ่งหมายเพื่อคาดการณ์ว่ารางวัลใดจะเป็นไปตามการกระทำบางอย่างที่เกิดขึ้นในสถานะที่กำหนด ในขณะที่แนวทางการไล่ระดับนโยบายมีจุดมุ่งหมายเพื่อเพิ่มประสิทธิภาพพื้นที่การดำเนินการ โดยคาดการณ์การกระทำเอง แนวทางตามนโยบายในการเรียนรู้เสริมแรงเชิงลึกนั้นมีทั้งแบบกำหนดขึ้นเองและแบบสุ่ม นโยบายเชิงกำหนดจะแมปสถานะโดยตรงกับการกระทำในขณะที่นโยบายสุ่มสร้างการแจกแจงความน่าจะเป็นสำหรับการกระทำ

บล็อกเกอร์และโปรแกรมเมอร์ที่มีความเชี่ยวชาญด้าน เครื่องเรียนรู้ และ การเรียนรู้ลึก ๆ หัวข้อ Daniel หวังว่าจะช่วยให้ผู้อื่นใช้พลังของ AI เพื่อประโยชน์ทางสังคม