āļ›āļąāļāļāļēāļ›āļĢāļ°āļ”āļīāļĐāļāđŒ

DeepMind āđāļĨāļ° Google Brain āļĄāļļāđˆāļ‡āļžāļąāļ’āļ™āļēāđ€āļ—āļ„āļ™āļīāļ„āđ€āļžāļ·āđˆāļ­āļ›āļĢāļąāļšāļ›āļĢāļļāļ‡āļ›āļĢāļ°āļŠāļīāļ—āļ˜āļīāļ āļēāļžāļ‚āļ­āļ‡ Reinforcement Learning

mm

ระบบ Reinforcement Learning สามารถทำงานได้อย่างมีประสิทธิภาพและแข็งแกร่ง โดยสามารถทำงานที่ซับซ้อนได้หลังจากการฝึกอบรมหลายพันครั้ง ในขณะที่อัลกอริทึม Reinforcement Learning สามารถทำให้เกิดพฤติกรรมที่ซับซ้อนและบางครั้งอาจทำให้ประหลาดใจ แต่ก็ใช้เวลานานในการฝึกอบรมและต้องการข้อมูลจำนวนมาก ปัจจัยเหล่านี้ทำให้เทคนิค Reinforcement Learning ไม่มีประสิทธิภาพ และทีมวิจัยจาก Alphabet DeepMind และ Google Brain ได้พยายามหาวิธีการที่มีประสิทธิภาพมากกว่าในการสร้างระบบ Reinforcement Learning

ตามรายงานของ VentureBeat ทีมวิจัยที่รวมกันเพิ่งเสนอวิธีการในการทำให้การฝึกอบรม Reinforcement Learning มีประสิทธิภาพมากขึ้น หนึ่งในวิธีการที่ถูกเสนอคืออัลกอริทึมที่เรียกว่า Adaptive Behavior Policy Sharing (ABPS) และอีกวิธีหนึ่งคือเฟรมเวิร์กที่เรียกว่า Universal Value Function Approximators (UVFA) ABPS ช่วยให้กลุ่มของตัวแทน AI สามารถแบ่งปันประสบการณ์ที่เลือกได้แบบปรับเปลี่ยน ในขณะที่ UVFA ช่วยให้ตัวแทน AI สามารถสำรวจนโยบายการสำรวจได้พร้อมกัน

ABPS มีจุดมุ่งหมายเพื่อเพิ่มความเร็วในการปรับเปลี่ยนไฮเปอร์พารามิเตอร์เมื่อฝึกอบรมโมเดล ABPS ช่วยให้การค้นหาไฮเปอร์พารามิเตอร์ที่เหมาะสมที่สุดเร็วขึ้น โดยการทำให้ตัวแทน AI หลายตัวที่มีไฮเปอร์พารามิเตอร์ต่างๆ สามารถแบ่งปันประสบการณ์นโยบายการทำงานได้

ตัวแทน AI Reinforcement จะถูกฝึกอบรมด้วยชุดค่าผสมของไฮเปอร์พารามิเตอร์ที่เป็นไปได้ เช่น อัตราการลดลงและอัตราการเรียนรู้ เมื่อฝึกอบรมโมเดล วัตถุประสงค์คือโมเดลจะเข้าใกล้ชุดค่าผสมของไฮเปอร์พารามิเตอร์ที่ให้ประสิทธิภาพที่ดีที่สุด และในกรณีนี้ คือไฮเปอร์พารามิเตอร์ที่ปรับปรุงประสิทธิภาพของข้อมูลด้วย ประสิทธิภาพจะเพิ่มขึ้นโดยการฝึกอบรมตัวแทน AI หลายตัวในเวลาเดียวกัน และเลือกพฤติกรรมของตัวแทน AI เพียงตัวเดียวในการใช้งานในขั้นตอนต่อไป นโยบายที่ตัวแทน AI มีจะถูกใช้ในการเลือกการกระทำ การเปลี่ยนแปลงจะถูกบันทึกในพื้นที่ที่ใช้ร่วมกัน และพื้นที่นี้จะถูกประเมินอย่างต่อเนื่องเพื่อให้การค้นหานโยบายไม่จำเป็นต้องเกิดขึ้นบ่อยนัก

ในเรื่องของ UVFA จะพยายามแก้ไขปัญหาทั่วไปของ Reinforcement Learning ที่ตัวแทน AI ที่มีการเสริมแรงอ่อนไม่ได้เรียนรู้งาน UVFA พยายามแก้ไขปัญหานี้โดยการทำให้ตัวแทน AI เรียนรู้นโยบายการสำรวจและนโยบายการแสวงหาผลประโยชน์พร้อมกัน การแยกงานออกเป็นสองส่วนนี้จะสร้างเฟรมเวิร์กที่ช่วยให้นโยบายการสำรวจสามารถสำรวจสภาพแวดล้อมได้ ในขณะที่นโยบายการแสวงหาผลประโยชน์จะพยายามเพิ่มผลตอบแทนให้สูงสุดสำหรับงานปัจจุบัน

ตามที่ VentureBeat อธิบาย เมื่อเฟรมเวิร์ก UVFA ถูกใช้งาน รางวัลที่เป็นผลตอบแทนภายในของระบบจะถูกส่งไปยังตัวแทน AI โดยตรง ตัวแทน AI จะเก็บข้อมูลที่เกี่ยวข้องกับการแสดงผลทั้งหมด (เช่น รางวัล, การกระทำ, และสถานะ) ระหว่างการฝึกอบรมแต่ละครั้ง ผลลัพธ์คือรางวัลที่ถูกเก็บไว้ตลอดเวลา และนโยบายของตัวแทน AI จะได้รับข้อมูลจากมันเสมอ

สิ่งนี้จะสำเร็จโดยใช้ “ความแปลกใหม่ของตอน” และ “ความแปลกใหม่ตลอดชีวิต” โมดูลหนึ่ง โมดูลแรกจะเก็บข้อมูลความจำของตอนและทำการแมปข้อมูลที่พบใหม่ไปยังการแสดงผลที่กล่าวถึงก่อนหน้านี้ ทำให้ตัวแทน AI สามารถกำหนดรางวัลภายในสำหรับการฝึกอบรมแต่ละครั้งได้ หลังจากนั้น สถานะที่เกี่ยวข้องกับการสังเกตปัจจุบันจะถูกเพิ่มเข้าไปในความจำ

ตามทีมวิจัยของ Alphabet/Google เทคนิคการฝึกอบรมใหม่เหล่านี้ได้แสดงถึงศักยภาพในการปรับปรุงประสิทธิภาพที่สำคัญในการฝึกอบรมระบบ Reinforcement Learning UVFA สามารถเพิ่มประสิทธิภาพของตัวแทน AI พื้นฐานบางตัวที่เล่นเกม Atari ได้ถึงสองเท่า ในขณะที่ ABPS สามารถเพิ่มประสิทธิภาพในเกม Atari เหมือนกัน โดยลดความแปรปรวนระหว่างตัวแทน AI ที่มีประสิทธิภาพสูงสุดลงประมาณ 25% อัลกอริทึมที่ฝึกอบรมด้วย UVFA สามารถทำคะแนนสูงในเกม Pitfall ได้โดยไม่ต้องมีการออกแบบคุณลักษณะของตัวอย่างการแสดงของมนุษย์

āļ™āļąāļāļšāļĨāđ‡āļ­āļāđāļĨāļ°āđ‚āļ›āļĢāđāļāļĢāļĄāđ€āļĄāļ­āļĢāđŒāļ—āļĩāđˆāļĄāļĩāļ„āļ§āļēāļĄāđ€āļŠāļĩāđˆāļĒāļ§āļŠāļēāļāđƒāļ™ Machine Learning āđāļĨāļ° Deep Learning āļŦāļąāļ§āļ‚āđ‰āļ­ Daniel āļŦāļ§āļąāļ‡āļ—āļĩāđˆāļˆāļ°āļŠāđˆāļ§āļĒāđƒāļŦāđ‰āļœāļđāđ‰āļ­āļ·āđˆāļ™āđƒāļŠāđ‰āļžāļĨāļąāļ‡āļ‚āļ­āļ‡ AI āļŠāļģāļŦāļĢāļąāļšāļŠāļīāđˆāļ‡āļ—āļĩāđˆāļ”āļĩ