āļāļąāļāļāļēāļāļĢāļ°āļāļīāļĐāļāđ
DeepMind āđāļĨāļ° Google Brain āļĄāļļāđāļāļāļąāļāļāļēāđāļāļāļāļīāļāđāļāļ·āđāļāļāļĢāļąāļāļāļĢāļļāļāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļāļāļ Reinforcement Learning

ระบบ Reinforcement Learning สามารถทำงานได้อย่างมีประสิทธิภาพและแข็งแกร่ง โดยสามารถทำงานที่ซับซ้อนได้หลังจากการฝึกอบรมหลายพันครั้ง ในขณะที่อัลกอริทึม Reinforcement Learning สามารถทำให้เกิดพฤติกรรมที่ซับซ้อนและบางครั้งอาจทำให้ประหลาดใจ แต่ก็ใช้เวลานานในการฝึกอบรมและต้องการข้อมูลจำนวนมาก ปัจจัยเหล่านี้ทำให้เทคนิค Reinforcement Learning ไม่มีประสิทธิภาพ และทีมวิจัยจาก Alphabet DeepMind และ Google Brain ได้พยายามหาวิธีการที่มีประสิทธิภาพมากกว่าในการสร้างระบบ Reinforcement Learning
ตามรายงานของ VentureBeat ทีมวิจัยที่รวมกันเพิ่งเสนอวิธีการในการทำให้การฝึกอบรม Reinforcement Learning มีประสิทธิภาพมากขึ้น หนึ่งในวิธีการที่ถูกเสนอคืออัลกอริทึมที่เรียกว่า Adaptive Behavior Policy Sharing (ABPS) และอีกวิธีหนึ่งคือเฟรมเวิร์กที่เรียกว่า Universal Value Function Approximators (UVFA) ABPS ช่วยให้กลุ่มของตัวแทน AI สามารถแบ่งปันประสบการณ์ที่เลือกได้แบบปรับเปลี่ยน ในขณะที่ UVFA ช่วยให้ตัวแทน AI สามารถสำรวจนโยบายการสำรวจได้พร้อมกัน
ABPS มีจุดมุ่งหมายเพื่อเพิ่มความเร็วในการปรับเปลี่ยนไฮเปอร์พารามิเตอร์เมื่อฝึกอบรมโมเดล ABPS ช่วยให้การค้นหาไฮเปอร์พารามิเตอร์ที่เหมาะสมที่สุดเร็วขึ้น โดยการทำให้ตัวแทน AI หลายตัวที่มีไฮเปอร์พารามิเตอร์ต่างๆ สามารถแบ่งปันประสบการณ์นโยบายการทำงานได้
ตัวแทน AI Reinforcement จะถูกฝึกอบรมด้วยชุดค่าผสมของไฮเปอร์พารามิเตอร์ที่เป็นไปได้ เช่น อัตราการลดลงและอัตราการเรียนรู้ เมื่อฝึกอบรมโมเดล วัตถุประสงค์คือโมเดลจะเข้าใกล้ชุดค่าผสมของไฮเปอร์พารามิเตอร์ที่ให้ประสิทธิภาพที่ดีที่สุด และในกรณีนี้ คือไฮเปอร์พารามิเตอร์ที่ปรับปรุงประสิทธิภาพของข้อมูลด้วย ประสิทธิภาพจะเพิ่มขึ้นโดยการฝึกอบรมตัวแทน AI หลายตัวในเวลาเดียวกัน และเลือกพฤติกรรมของตัวแทน AI เพียงตัวเดียวในการใช้งานในขั้นตอนต่อไป นโยบายที่ตัวแทน AI มีจะถูกใช้ในการเลือกการกระทำ การเปลี่ยนแปลงจะถูกบันทึกในพื้นที่ที่ใช้ร่วมกัน และพื้นที่นี้จะถูกประเมินอย่างต่อเนื่องเพื่อให้การค้นหานโยบายไม่จำเป็นต้องเกิดขึ้นบ่อยนัก
ในเรื่องของ UVFA จะพยายามแก้ไขปัญหาทั่วไปของ Reinforcement Learning ที่ตัวแทน AI ที่มีการเสริมแรงอ่อนไม่ได้เรียนรู้งาน UVFA พยายามแก้ไขปัญหานี้โดยการทำให้ตัวแทน AI เรียนรู้นโยบายการสำรวจและนโยบายการแสวงหาผลประโยชน์พร้อมกัน การแยกงานออกเป็นสองส่วนนี้จะสร้างเฟรมเวิร์กที่ช่วยให้นโยบายการสำรวจสามารถสำรวจสภาพแวดล้อมได้ ในขณะที่นโยบายการแสวงหาผลประโยชน์จะพยายามเพิ่มผลตอบแทนให้สูงสุดสำหรับงานปัจจุบัน
ตามที่ VentureBeat อธิบาย เมื่อเฟรมเวิร์ก UVFA ถูกใช้งาน รางวัลที่เป็นผลตอบแทนภายในของระบบจะถูกส่งไปยังตัวแทน AI โดยตรง ตัวแทน AI จะเก็บข้อมูลที่เกี่ยวข้องกับการแสดงผลทั้งหมด (เช่น รางวัล, การกระทำ, และสถานะ) ระหว่างการฝึกอบรมแต่ละครั้ง ผลลัพธ์คือรางวัลที่ถูกเก็บไว้ตลอดเวลา และนโยบายของตัวแทน AI จะได้รับข้อมูลจากมันเสมอ
สิ่งนี้จะสำเร็จโดยใช้ “ความแปลกใหม่ของตอน” และ “ความแปลกใหม่ตลอดชีวิต” โมดูลหนึ่ง โมดูลแรกจะเก็บข้อมูลความจำของตอนและทำการแมปข้อมูลที่พบใหม่ไปยังการแสดงผลที่กล่าวถึงก่อนหน้านี้ ทำให้ตัวแทน AI สามารถกำหนดรางวัลภายในสำหรับการฝึกอบรมแต่ละครั้งได้ หลังจากนั้น สถานะที่เกี่ยวข้องกับการสังเกตปัจจุบันจะถูกเพิ่มเข้าไปในความจำ
ตามทีมวิจัยของ Alphabet/Google เทคนิคการฝึกอบรมใหม่เหล่านี้ได้แสดงถึงศักยภาพในการปรับปรุงประสิทธิภาพที่สำคัญในการฝึกอบรมระบบ Reinforcement Learning UVFA สามารถเพิ่มประสิทธิภาพของตัวแทน AI พื้นฐานบางตัวที่เล่นเกม Atari ได้ถึงสองเท่า ในขณะที่ ABPS สามารถเพิ่มประสิทธิภาพในเกม Atari เหมือนกัน โดยลดความแปรปรวนระหว่างตัวแทน AI ที่มีประสิทธิภาพสูงสุดลงประมาณ 25% อัลกอริทึมที่ฝึกอบรมด้วย UVFA สามารถทำคะแนนสูงในเกม Pitfall ได้โดยไม่ต้องมีการออกแบบคุณลักษณะของตัวอย่างการแสดงของมนุษย์












