- คำศัพท์ (A ถึง D)
- การควบคุมความสามารถของ AI
- AIOps
- อัลบั้ม
- ประสิทธิภาพของสินทรัพย์
- ตัวเข้ารหัสอัตโนมัติ
- การขยายพันธุ์หลัง
- ทฤษฎีบทเบย์
- ข้อมูลขนาดใหญ่
- Chatbot: คู่มือสำหรับผู้เริ่มต้น
- การคิดเชิงคำนวณ
- วิสัยทัศน์คอมพิวเตอร์
- เมทริกซ์ความสับสน
- เครือข่ายประสาทเทียม
- cybersecurity
- ผ้าข้อมูล
- การเล่าเรื่องข้อมูล
- ข้อมูลวิทยาศาสตร์
- คลังข้อมูล
- ต้นไม้ตัดสินใจ
- Deepfakes
- การเรียนรู้ลึก ๆ
- การเรียนรู้การเสริมแรงเชิงลึก
- devops
- DevSecOps
- แบบจำลองการแพร่กระจาย
- ดิจิตอลแฝด
- การลดขนาด
- คำศัพท์ (E ถึง K)
- เอดจ์ไอ
- อารมณ์ AI
- การเรียนรู้ทั้งมวล
- การแฮ็กอย่างมีจริยธรรม
- ETL
- AI ที่อธิบายได้
- สหพันธ์การเรียนรู้
- ฟินอ๊อฟ
- กำเนิด AI
- เครือข่ายผู้ให้กำเนิด
- กำเนิดเทียบกับการเลือกปฏิบัติ
- ไล่โทนสี
- โคตรไล่ระดับ
- การเรียนรู้ไม่กี่ช็อต
- การจำแนกรูปภาพ
- การดำเนินงานด้านไอที (ITOps)
- ระบบอัตโนมัติของเหตุการณ์
- วิศวกรรมอิทธิพล
- K-หมายถึงการจัดกลุ่ม
- K-เพื่อนบ้านที่ใกล้ที่สุด
- คำศัพท์ (L ถึง Q)
- คำศัพท์ (R ถึง Z)
- การเรียนรู้เสริมแรง
- AI ที่มีความรับผิดชอบ
- อาร์แอลเอชเอฟ
- ระบบอัตโนมัติของกระบวนการหุ่นยนต์
- มีโครงสร้าง vs ไม่มีโครงสร้าง
- การวิเคราะห์ความเชื่อมั่น
- อยู่ภายใต้การดูแล vs ไม่ได้รับการดูแล
- สนับสนุนเครื่องเวกเตอร์
- ข้อมูลสังเคราะห์
- สื่อสังเคราะห์
- การจัดประเภทข้อความ
- TinyML
- ถ่ายทอดการเรียนรู้
- เครือข่ายประสาทหม้อแปลง
- การทดสอบของทัวริง
- การค้นหาความคล้ายคลึงกันของเวกเตอร์
AI 101
การเรียนรู้การเสริมแรงแบบลึกคืออะไร?
สารบัญ
การเรียนรู้การเสริมแรงแบบลึกคืออะไร?
นอกเหนือจากการเรียนรู้ของเครื่องและการเรียนรู้ภายใต้การดูแลแล้ว การสร้าง AI อีกรูปแบบหนึ่งก็คือการเรียนรู้แบบเสริมกำลัง นอกเหนือจากการเรียนรู้การเสริมกำลังอย่างสม่ำเสมอ การเรียนรู้การเสริมแรงอย่างล้ำลึก สามารถนำไปสู่ผลลัพธ์ที่น่าประทับใจอย่างน่าอัศจรรย์ ต้องขอบคุณข้อเท็จจริงที่ว่ามันผสมผสานแง่มุมที่ดีที่สุดของทั้งการเรียนรู้เชิงลึกและการเรียนรู้แบบเสริมกำลังเข้าไว้ด้วยกัน มาดูกันว่าการเรียนรู้แบบเสริมกำลังเชิงลึกทำงานอย่างไร
ก่อนที่เราจะดำดิ่งสู่การเรียนรู้การเสริมแรงเชิงลึก คุณควรทบทวนความสม่ำเสมอของตนเองก่อน การเรียนรู้การเสริมแรง ทำงาน ในการเรียนรู้แบบเสริมแรง อัลกอริทึมที่มุ่งเน้นเป้าหมายได้รับการออกแบบผ่านกระบวนการลองผิดลองถูก ปรับให้เหมาะสมสำหรับการกระทำที่นำไปสู่ผลลัพธ์ที่ดีที่สุด/การกระทำที่ได้รับ "รางวัล" มากที่สุด เมื่อมีการฝึกฝนอัลกอริทึมการเรียนรู้แบบเสริมแรง พวกเขาจะได้รับ "รางวัล" หรือ "การลงโทษ" ที่มีอิทธิพลต่อการกระทำที่พวกเขาจะทำในอนาคต อัลกอริทึมพยายามหาชุดของการกระทำที่จะให้รางวัลแก่ระบบมากที่สุด โดยสร้างสมดุลให้กับทั้งรางวัลในทันทีและในอนาคต
อัลกอริธึมการเรียนรู้แบบเสริมแรงมีประสิทธิภาพมากเพราะสามารถนำไปใช้กับงานเกือบทุกชนิด มีความยืดหยุ่นและไดนามิกในการเรียนรู้จากสภาพแวดล้อมและค้นพบการกระทำที่เป็นไปได้
ภาพรวมของการเรียนรู้การเสริมแรงเชิงลึก
เมื่อพูดถึงการเรียนรู้แบบเสริมแรงเชิงลึก สภาพแวดล้อมมักจะแสดงด้วยรูปภาพ รูปภาพคือการจับภาพสภาพแวดล้อม ณ เวลาใดเวลาหนึ่ง ตัวแทนต้องวิเคราะห์รูปภาพและดึงข้อมูลที่เกี่ยวข้องจากรูปภาพ โดยใช้ข้อมูลเพื่อแจ้งว่าควรดำเนินการใด การเรียนรู้แบบเสริมแรงเชิงลึกมักดำเนินการโดยใช้หนึ่งในสองเทคนิคที่แตกต่างกัน: การเรียนรู้ตามคุณค่าและการเรียนรู้ตามนโยบาย
เทคนิคการเรียนรู้ตามคุณค่าใช้ประโยชน์จากอัลกอริทึมและสถาปัตยกรรม เช่น โครงข่ายประสาทเทียมแบบ Convolutional และ Deep-Q-เครือข่าย. อัลกอริธึมเหล่านี้ทำงานโดยการแปลงภาพเป็นโทนสีเทาและครอบตัดส่วนที่ไม่จำเป็นของภาพออก หลังจากนั้น ภาพจะผ่านกระบวนการบิดเบี้ยวและการรวมภาพหลายๆ แบบ โดยดึงส่วนที่เกี่ยวข้องที่สุดของภาพออกมา ส่วนที่สำคัญของรูปภาพจะถูกใช้เพื่อคำนวณค่า Q สำหรับการดำเนินการต่างๆ ที่ตัวแทนสามารถทำได้ ค่า Q ใช้เพื่อกำหนดแนวทางการดำเนินการที่ดีที่สุดสำหรับตัวแทน หลังจากคำนวณค่า Q เริ่มต้นแล้ว จะมีการดำเนินการ backpropagation เพื่อให้สามารถกำหนดค่า Q ที่แม่นยำที่สุดได้
วิธีการตามนโยบายจะใช้เมื่อจำนวนของการดำเนินการที่เป็นไปได้ที่ตัวแทนสามารถทำได้นั้นสูงมาก ซึ่งโดยทั่วไปแล้วจะเป็นกรณีในสถานการณ์จริง สถานการณ์เช่นนี้จำเป็นต้องใช้วิธีอื่น เนื่องจากการคำนวณค่า Q สำหรับการดำเนินการแต่ละรายการนั้นไม่สามารถนำไปใช้ได้จริง แนวทางตามนโยบายดำเนินการโดยไม่มีการคำนวณค่าฟังก์ชันสำหรับการดำเนินการแต่ละรายการ แต่จะใช้นโยบายโดยการเรียนรู้นโยบายโดยตรง ซึ่งมักจะใช้เทคนิคที่เรียกว่า Policy Gradients
การไล่ระดับนโยบายดำเนินการโดยรับสถานะและคำนวณความน่าจะเป็นสำหรับการดำเนินการตามประสบการณ์ก่อนหน้าของตัวแทน จากนั้นจึงเลือกการดำเนินการที่เป็นไปได้มากที่สุด กระบวนการนี้จะทำซ้ำจนกว่าจะสิ้นสุดระยะเวลาการประเมินและรางวัลจะมอบให้กับตัวแทน หลังจากจัดการกับรางวัลกับตัวแทนแล้ว พารามิเตอร์ของเครือข่ายจะได้รับการอัปเดตด้วย backpropagation
Q-Learning คืออะไร?
เพราะ Q-การเรียนรู้ เป็นส่วนสำคัญของกระบวนการเรียนรู้เชิงลึก เรามาใช้เวลาทำความเข้าใจจริงๆ ว่าระบบ Q-learning ทำงานอย่างไร
กระบวนการตัดสินใจของมาร์คอฟ
เพื่อให้เอเจนต์ AI ดำเนินงานชุดต่างๆ และบรรลุเป้าหมายได้ เอเจนต์ต้องสามารถจัดการกับลำดับของสถานะและเหตุการณ์ต่างๆ ได้ ตัวแทนจะเริ่มต้นที่สถานะหนึ่งและต้องดำเนินการหลายอย่างเพื่อไปถึงสถานะสิ้นสุด และอาจมีสถานะจำนวนมากอยู่ระหว่างสถานะเริ่มต้นและสถานะสิ้นสุด การจัดเก็บข้อมูลเกี่ยวกับทุกสถานะนั้นทำไม่ได้หรือเป็นไปไม่ได้ ดังนั้นระบบจึงต้องหาวิธีที่จะรักษาเฉพาะข้อมูลสถานะที่เกี่ยวข้องมากที่สุด สิ่งนี้ทำได้โดยการใช้ กระบวนการตัดสินใจของมาร์คอฟซึ่งรักษาไว้เพียงข้อมูลเกี่ยวกับสถานะปัจจุบันและสถานะก่อนหน้า ทุกสถานะจะติดตามคุณสมบัติ Markov ซึ่งติดตามว่าตัวแทนเปลี่ยนจากสถานะก่อนหน้าเป็นสถานะปัจจุบันอย่างไร
การเรียนรู้ Q ลึก
เมื่อโมเดลเข้าถึงข้อมูลเกี่ยวกับสถานะของสภาพแวดล้อมการเรียนรู้แล้ว จะสามารถคำนวณค่า Q ได้ ค่า Q เป็นรางวัลทั้งหมดที่มอบให้กับตัวแทนเมื่อสิ้นสุดลำดับการดำเนินการ
ค่า Q คำนวณด้วยชุดของรางวัล มีรางวัลทันทีโดยคำนวณจากสถานะปัจจุบันและขึ้นอยู่กับการกระทำปัจจุบัน ค่า Q สำหรับสถานะที่ตามมาจะถูกคำนวณพร้อมกับค่า Q สำหรับสถานะหลังจากนั้น และต่อไปเรื่อยๆ จนกว่าจะมีการคำนวณค่า Q ทั้งหมดสำหรับสถานะต่างๆ นอกจากนี้ยังมีพารามิเตอร์ Gamma ที่ใช้เพื่อควบคุมน้ำหนักรางวัลในอนาคตที่มีต่อการกระทำของตัวแทน โดยทั่วไป นโยบายจะคำนวณโดยการสุ่มเริ่มต้นค่า Q และให้แบบจำลองเข้าหาค่า Q ที่เหมาะสมที่สุดตลอดการฝึกอบรม
Deep Q-เครือข่าย
หนึ่งในปัญหาพื้นฐานที่เกี่ยวข้องกับ การใช้ Q-learning สำหรับการเรียนรู้เสริมคือจำนวนหน่วยความจำที่จำเป็นในการจัดเก็บข้อมูลจะขยายอย่างรวดเร็วตามจำนวนสถานะที่เพิ่มขึ้น Deep Q Networks แก้ปัญหานี้ด้วยการรวมโมเดลโครงข่ายประสาทเทียมเข้ากับค่า Q ทำให้เจ้าหน้าที่สามารถเรียนรู้จากประสบการณ์และคาดเดาได้อย่างสมเหตุสมผลเกี่ยวกับการดำเนินการที่ดีที่สุด ด้วย Q-learning เชิงลึก ฟังก์ชันค่า Q จะถูกประเมินด้วยโครงข่ายประสาทเทียม เครือข่ายนิวรัลใช้สถานะเป็นข้อมูลอินพุต และเครือข่ายเอาต์พุตค่า Q สำหรับการดำเนินการต่างๆ ที่เป็นไปได้ทั้งหมดที่เอเจนต์อาจทำ
Deep Q-learning ทำได้โดยการจัดเก็บประสบการณ์ที่ผ่านมาทั้งหมดไว้ในหน่วยความจำ คำนวณผลลัพธ์สูงสุดสำหรับ Q-network จากนั้นใช้ฟังก์ชันการสูญเสียเพื่อคำนวณความแตกต่างระหว่างค่าปัจจุบันและค่าสูงสุดที่เป็นไปได้ทางทฤษฎี
การเรียนรู้เสริมแรงเชิงลึก vs การเรียนรู้เชิงลึก
ข้อแตกต่างที่สำคัญประการหนึ่งระหว่างการเรียนรู้แบบเสริมแรงเชิงลึกกับการเรียนรู้เชิงลึกแบบปกติคือ ในกรณีของอดีต ข้อมูลนำเข้าจะเปลี่ยนแปลงตลอดเวลา ซึ่งไม่ใช่กรณีของการเรียนรู้เชิงลึกแบบดั้งเดิม รูปแบบการเรียนรู้จะอธิบายปัจจัยเข้าและผลที่เปลี่ยนแปลงตลอดเวลาได้อย่างไร
โดยพื้นฐานแล้ว เพื่ออธิบายความแตกต่างระหว่างค่าที่คาดการณ์และค่าเป้าหมาย สามารถใช้โครงข่ายประสาทเทียมสองเครือข่ายแทนเครือข่ายเดียวได้ เครือข่ายหนึ่งประเมินค่าเป้าหมาย ในขณะที่อีกเครือข่ายหนึ่งรับผิดชอบการคาดการณ์ พารามิเตอร์ของเครือข่ายเป้าหมายจะได้รับการอัปเดตเมื่อโมเดลเรียนรู้ หลังจากที่ผ่านการฝึกอบรมซ้ำตามจำนวนที่เลือกแล้ว ผลลัพธ์ของเครือข่ายที่เกี่ยวข้องจะถูกรวมเข้าด้วยกันเพื่อกำหนดความแตกต่าง
การเรียนรู้ตามนโยบาย
การเรียนรู้ตามนโยบาย วิธีการทำงานแตกต่างจากวิธีการตามค่า Q ในขณะที่วิธีค่า Q สร้างฟังก์ชันค่าที่คาดการณ์รางวัลสำหรับสถานะและการดำเนินการ วิธีการตามนโยบายจะกำหนดนโยบายที่จะแมปสถานะกับการกระทำ กล่าวอีกนัยหนึ่ง ฟังก์ชันนโยบายที่เลือกสำหรับการดำเนินการจะได้รับการปรับให้เหมาะสมโดยตรงโดยไม่คำนึงถึงฟังก์ชันค่า
การไล่ระดับสีนโยบาย
นโยบายสำหรับการเรียนรู้แบบเสริมแรงเชิงลึกจัดอยู่ในประเภทใดประเภทหนึ่งจากสองประเภท: แบบสุ่มหรือเชิงกำหนด นโยบายที่กำหนดขึ้นเป็นนโยบายที่รัฐถูกแมปกับการดำเนินการ หมายความว่าเมื่อนโยบายได้รับข้อมูลเกี่ยวกับสถานะ การดำเนินการจะถูกส่งกลับ ในขณะเดียวกัน นโยบายสุ่มส่งคืนการแจกแจงความน่าจะเป็นสำหรับการกระทำ แทนที่จะเป็นการกระทำเดี่ยวๆ ที่แยกจากกัน
นโยบายเชิงกำหนดจะใช้เมื่อไม่มีความไม่แน่นอนเกี่ยวกับผลลัพธ์ของการดำเนินการที่สามารถดำเนินการได้ กล่าวอีกนัยหนึ่งเมื่อสภาพแวดล้อมถูกกำหนดขึ้นเอง ในทางตรงกันข้าม ผลลัพธ์ของนโยบายแบบสุ่มนั้นเหมาะสมกับสภาพแวดล้อมที่ผลลัพธ์ของการดำเนินการไม่แน่นอน โดยทั่วไปแล้ว สถานการณ์การเรียนรู้แบบเสริมกำลังเกี่ยวข้องกับความไม่แน่นอนในระดับหนึ่ง ดังนั้นจึงใช้นโยบายสุ่ม
แนวทางการไล่ระดับสีตามนโยบายมีข้อดีบางประการเหนือแนวทาง Q-learning รวมถึงข้อเสียบางประการ ในแง่ของข้อดี วิธีการตามนโยบายจะรวมเอาพารามิเตอร์ที่เหมาะสมที่สุดได้รวดเร็วและเชื่อถือได้มากกว่า การไล่ระดับสีของนโยบายสามารถปฏิบัติตามได้จนกว่าจะมีการกำหนดพารามิเตอร์ที่ดีที่สุด ในขณะที่วิธีตามมูลค่า การเปลี่ยนแปลงเล็กน้อยในค่าการดำเนินการโดยประมาณอาจนำไปสู่การเปลี่ยนแปลงขนาดใหญ่ในการดำเนินการและพารามิเตอร์ที่เกี่ยวข้อง
การไล่ระดับสีของนโยบายทำงานได้ดีขึ้นสำหรับพื้นที่การดำเนินการที่มีมิติสูงเช่นกัน เมื่อมีการดำเนินการที่เป็นไปได้จำนวนมาก การเรียนรู้เชิงลึก Q-learning จะใช้ไม่ได้จริงเพราะต้องกำหนดคะแนนให้กับทุกการกระทำที่เป็นไปได้สำหรับขั้นตอนเวลาทั้งหมด ซึ่งอาจเป็นไปไม่ได้ในการคำนวณ อย่างไรก็ตาม ด้วยวิธีการตามนโยบาย พารามิเตอร์จะถูกปรับเมื่อเวลาผ่านไป และจำนวนของพารามิเตอร์ที่ดีที่สุดที่เป็นไปได้จะลดลงอย่างรวดเร็วเมื่อโมเดลมาบรรจบกัน
การไล่ระดับสีของนโยบายยังสามารถใช้นโยบายสุ่มได้ ซึ่งแตกต่างจากนโยบายตามมูลค่า เนื่องจากนโยบายสุ่มทำให้เกิดการแจกแจงความน่าจะเป็น การแลกเปลี่ยนการสำรวจ/การแสวงหาผลประโยชน์จึงไม่จำเป็นต้องดำเนินการ
ในแง่ของข้อเสีย ข้อเสียเปรียบหลักของการไล่ระดับสีตามนโยบายคืออาจติดขัดขณะค้นหาพารามิเตอร์ที่เหมาะสมที่สุด โดยเน้นเฉพาะชุดค่าที่เหมาะสมในพื้นที่แคบๆ แทนที่จะเป็นค่าที่เหมาะสมโดยรวม
ฟังก์ชันคะแนนนโยบาย
นโยบายที่ใช้เพื่อเพิ่มประสิทธิภาพเป้าหมายของแบบจำลอง เพื่อเพิ่มฟังก์ชั่นคะแนน – เจ (θ). ถ้าเจ (θ) เป็นตัววัดว่านโยบายของเราดีเพียงใดในการบรรลุเป้าหมายที่ต้องการ เราสามารถหาค่าของ “θ” นั่นทำให้เรามีนโยบายที่ดีที่สุด ขั้นแรก เราต้องคำนวณผลตอบแทนกรมธรรม์ที่คาดหวัง เราประเมินผลตอบแทนตามนโยบายเพื่อให้เรามีเป้าหมาย บางสิ่งบางอย่างที่จะเพิ่มประสิทธิภาพ ฟังก์ชันคะแนนนโยบายคือวิธีที่เราคำนวณรางวัลนโยบายที่คาดไว้ และมีฟังก์ชันคะแนนนโยบายต่างๆ ที่ใช้กันทั่วไป เช่น ค่าเริ่มต้นสำหรับสภาพแวดล้อมเป็นตอนๆ ค่าเฉลี่ยสำหรับสภาพแวดล้อมต่อเนื่อง และรางวัลเฉลี่ยต่อขั้นตอนเวลา
การไล่ระดับนโยบายขึ้น
หลังจากใช้ฟังก์ชันคะแนนนโยบายที่ต้องการ และคำนวณรางวัลกรมธรรม์ที่คาดไว้ เราสามารถหาค่าสำหรับพารามิเตอร์ “θ” ซึ่งเพิ่มฟังก์ชั่นคะแนนให้สูงสุด เพื่อเพิ่มฟังก์ชันคะแนน J(θ) เทคนิคที่เรียกว่า “การไล่ระดับสี" ถูกนำมาใช้. การขึ้นลงแบบไล่ระดับมีแนวคิดคล้ายกับการลงแบบไล่ระดับในการเรียนรู้เชิงลึก แต่เรากำลังปรับให้เหมาะสมเพื่อการเพิ่มขึ้นที่ชันที่สุดแทนที่จะลดลง เนื่องจากคะแนนของเราไม่ใช่ "ข้อผิดพลาด" เหมือนกับปัญหาการเรียนรู้เชิงลึกอื่นๆ คะแนนของเราคือสิ่งที่เราต้องการเพิ่มให้สูงสุด นิพจน์ที่เรียกว่าทฤษฎีบทไล่ระดับนโยบายใช้ในการประมาณค่าการไล่ระดับสีตามนโยบาย “θ"
สรุปการเรียนรู้การเสริมแรงเชิงลึก
โดยสรุป การเรียนรู้แบบเสริมแรงเชิงลึกผสมผสานแง่มุมของการเรียนรู้แบบเสริมแรงและเครือข่ายประสาทเชิงลึก การเรียนรู้แบบเสริมแรงเชิงลึกทำได้ด้วยสองเทคนิคที่แตกต่างกัน: การเรียนรู้แบบเจาะลึกและนโยบายการไล่ระดับสี
วิธีการเรียนรู้แบบ Deep Q-learning มีจุดมุ่งหมายเพื่อคาดการณ์ว่ารางวัลใดจะเป็นไปตามการกระทำบางอย่างที่เกิดขึ้นในสถานะที่กำหนด ในขณะที่แนวทางการไล่ระดับนโยบายมีจุดมุ่งหมายเพื่อเพิ่มประสิทธิภาพพื้นที่การดำเนินการ โดยคาดการณ์การกระทำเอง แนวทางตามนโยบายในการเรียนรู้เสริมแรงเชิงลึกนั้นมีทั้งแบบกำหนดขึ้นเองและแบบสุ่ม นโยบายเชิงกำหนดจะแมปสถานะโดยตรงกับการกระทำในขณะที่นโยบายสุ่มสร้างการแจกแจงความน่าจะเป็นสำหรับการกระทำ
บล็อกเกอร์และโปรแกรมเมอร์ที่มีความเชี่ยวชาญด้าน เครื่องเรียนรู้ และ การเรียนรู้ลึก ๆ หัวข้อ Daniel หวังว่าจะช่วยให้ผู้อื่นใช้พลังของ AI เพื่อประโยชน์ทางสังคม
คุณอาจชอบ
InstructIR: การฟื้นฟูภาพคุณภาพสูงตามคำสั่งของมนุษย์
YOLOv9: การก้าวกระโดดในการตรวจจับวัตถุแบบเรียลไทม์
แมชชีนเลิร์นนิงแบบเดิมยังเกี่ยวข้องอยู่หรือไม่
Big Tech และ Generative AI: Big Tech จะควบคุม Generative AI หรือไม่
AI กำเนิด: แนวคิดเบื้องหลัง CHATGPT, Dall-E, Midjourney และอีกมากมาย
คู่มือที่จำเป็นสำหรับ Prompt Engineering ใน ChatGPT