ปัญญาประดิษฐ์

EUREKA : การออกแบบรางวัลระดับมนุษย์ผ่านการเขียนโค้ดของโมเดลภาษาขนาดใหญ่

เผยแพร่ 21 พฤศจิกายน 2023

อัปเดต 22 พฤษภาคม 2026

Kunal Kejriwal

ด้วยความก้าวหน้าของโมเดลภาษาขนาดใหญ่ในช่วงไม่กี่ปีที่ผ่านมา จึงไม่น่าแปลกใจที่เฟรมเวิร์กเหล่านี้มีความสามารถในการวางแผนเชิงกลยุทธ์สำหรับการตัดสินใจระดับสูงแบบลำดับ อย่างไรก็ตาม นักพัฒนายังคงพบว่ามีความท้าทายในการใช้ศักยภาพของเฟรมเวิร์กเหล่านี้ให้เต็มที่สำหรับการเรียนรู้ทักษะที่ซับซ้อนหรือการสร้างคำสั่งทางภาษา แม้จะมีประสิทธิภาพ แต่โมเดลภาษาขนาดใหญ่ในปัจจุบันต้องการความเชี่ยวชาญด้านโดเมนและวิชาสาระที่สำคัญในการเรียนรู้ทักษะหรือสร้างคำสั่งทางภาษา ทำให้เกิดช่องว่างระหว่างประสิทธิภาพและความสามารถระดับมนุษย์

เพื่อแก้ไขช่องว่างนี้ นักพัฒนาจาก Nvidia, CalTech, UPenn และอื่นๆ ได้แนะนำ EUREKA ซึ่งเป็นอัลกอริทึมการออกแบบระดับมนุษย์ที่ใช้โมเดลภาษาขนาดใหญ่ EUREKA มีเป้าหมายในการใช้ความสามารถของโมเดลภาษาขนาดใหญ่ รวมถึงการเขียนโค้ด การปรับปรุงในบริบท และการสร้างเนื้อหาที่ไม่เคยเห็นมาก่อน เพื่อทำการเพิ่มประสิทธิภาพของโค้ดรางวัลอย่างไม่เคยเห็นมาก่อน โค้ดรางวัลเหล่านี้เมื่อรวมกับการเรียนรู้แบบเสริมสามารถช่วยให้เฟรมเวิร์กเหล่านี้เรียนรู้ทักษะที่ซับซ้อนหรือทำการดัดแปลงได้

ในบทความนี้ เราจะสำรวจเฟรมเวิร์ก EUREKA จากมุมมองของการพัฒนา โดยสำรวจโครงสร้าง การทำงาน และผลลัพธ์ที่ได้รับในการสร้างฟังก์ชันรางวัล ซึ่งตามที่นักพัฒนาอ้างว่าสามารถทำได้ดีกว่าฟังก์ชันรางวัลที่สร้างโดยมนุษย์ เรายังจะสำรวจว่าเฟรมเวิร์ก EUREKA เปิดทางให้กับแนวทางใหม่ในการเรียนรู้แบบเสริมโดยใช้ข้อมูลย้อนกลับจากมนุษย์ (RLHF) โดยการเปิดใช้งานการเรียนรู้แบบไม่มีเกรเดียนต์ในบริบท มาเริ่มกันเลย

EUREKA : การแนะนำ

ปัจจุบัน เฟรมเวิร์กโมเดลภาษาขนาดใหญ่เช่น GPT-3 และ GPT-4 มีผลลัพธ์ที่น่าประทับใจเมื่อใช้เป็นพลังงานเชิงกลยุทธ์สำหรับการตัดสินใจระดับสูงแบบลำดับ แต่นักพัฒนายังคงมองหาวิธีการเพิ่มประสิทธิภาพเมื่อเป็นการเรียนรู้ทักษะที่ซับซ้อนหรือการดัดแปลง

เพื่อแก้ไขความท้าทายเหล่านี้และเพิ่มประสิทธิภาพของโทเค็นรางวัล เฟรมเวิร์ก EUREKA หรือ Evolution-driven Universal Reward Kit for Agents มีเป้าหมายในการทำสิ่งต่อไปนี้

การบรรลุประสิทธิภาพระดับมนุษย์ในการออกแบบฟังก์ชันรางวัล
การแก้ปัญหาการดัดแปลงโดยไม่ต้องใช้วิศวกรรมรางวัลด้วยตนเอง
การสร้างฟังก์ชันรางวัลที่สอดคล้องกับมนุษย์และมีประสิทธิภาพมากกว่าโดยการแนะนำแนวทางใหม่ในการเรียนรู้แบบไม่มีเกรเดียนต์ในบริบท

มีสามตัวเลือกการออกแบบอัลกอริทึมที่นักพัฒนามีไว้เพื่อเพิ่มความสามารถทั่วไปของ EUREKA ได้แก่ การค้นหาทางพันธุกรรม สภาพแวดล้อมเป็นบริบท และการสะท้อนรางวัล

EUREKA : โครงสร้างแบบจำลองและสถานการณ์ปัญหา

วัตถุประสงค์หลักของการสร้างรางวัลคือการคืนฟังก์ชันรางวัลที่ถูกต้องหรือแก้ไขแล้วสำหรับฟังก์ชันรางวัลที่แท้จริง ซึ่งอาจมีความท้าทายเมื่อใช้การเพิ่มประสิทธิภาพโดยตรง เช่น รางวัลที่มีความเบาบาง

นักออกแบบสามารถเข้าถึงฟังก์ชันรางวัลที่แท้จริงได้เพียงผ่านการสอบถามเท่านั้น ซึ่งเป็นเหตุผลที่เฟรมเวิร์ก EUREKA เลือกการสร้างรางวัล ซึ่งเป็นการตั้งค่าการสังเคราะห์โปรแกรมตาม RDP หรือปัญหารางวัลการออกแบบ

ปัญหารางวัลการออกแบบหรือ RDP คือทูเพิลที่ประกอบด้วยโมเดลโลกที่มีพื้นที่สถานะ พื้นที่ฟังก์ชันรางวัล ฟังก์ชันการเปลี่ยนแปลง และพื้นที่การกระทำ อัลกอริทึมการเรียนรู้จะเพิ่มประสิทธิภาพรางวัลโดยการสร้างนโยบายที่นำไปสู่กระบวนการออกแบบมาร์คอฟ ซึ่งสามารถเข้าถึงได้เพียงผ่านการสอบถามนโยบายเท่านั้น

สภาพแวดล้อมเป็นบริบท

ปัจจุบัน เฟรมเวิร์กโมเดลภาษาขนาดใหญ่ต้องการข้อมูลจำเพาะของสภาพแวดล้อมเป็นข้อมูลเข้าเพื่อออกแบบรางวัล ในขณะที่เฟรมเวิร์ก EUREKA เสนอแนะให้ใช้โค้ดสภาพแวดล้อมดั้งเดิมเป็นบริบทโดยตรงโดยไม่ต้องมีโค้ดรางวัล

การค้นหาทางพันธุกรรม

การรวมการค้นหาทางพันธุกรรมในเฟรมเวิร์ก EUREKA มีจุดมุ่งหมายเพื่อนำเสนอทางออกตามธรรมชาติสำหรับความท้าทายของการไม่เหมาะสมและข้อผิดพลาดที่เกิดขึ้นระหว่างการดำเนินการ

ในขั้นตอนต่อไป เฟรมเวิร์ก EUREKA ใช้ฟังก์ชันรางวัลที่สามารถใช้งานได้จากอีเทอร์เรชั่นก่อนหน้าเพื่อทำการเปลี่ยนแปลงรางวัลในบริบท และจากนั้นเสนอฟังก์ชันรางวัลใหม่ที่ดีขึ้นตามคำติชมทางข้อความ

การสะท้อนรางวัล

เพื่อให้การเปลี่ยนแปลงรางวัลในบริบทมีประสิทธิภาพ จึงจำเป็นต้องประเมินคุณภาพของรางวัลที่สร้างขึ้นและแสดงเป็นข้อความ และเฟรมเวิร์ก EUREKA จัดการกับสิ่งนี้โดยใช้กลยุทธ์ง่ายๆ ในการให้คะแนนรางวัลเป็นตัวเลข

แม้ว่ากระบวนการฟังก์ชันรางวัลของเฟรมเวิร์ก EUREKA จะง่ายต่อการสร้าง แต่ก็มีความสำคัญเนื่องจากธรรมชาติของอัลกอริทึมที่ขึ้นอยู่กับการเพิ่มประสิทธิภาพรางวัล

การฝึกอบรมและฐานร้าง

มีส่วนประกอบการฝึกอบรมหลักสองส่วนของเฟรมเวิร์ก EUREKA ได้แก่ การเรียนรู้นโยบาย และ การประเมินรางวัล

การเรียนรู้นโยบาย

ฟังก์ชันรางวัลสุดท้ายสำหรับแต่ละงานจะถูกเพิ่มประสิทธิภาพโดยใช้อัลกอริทึมการเรียนรู้แบบเสริมที่เหมือนกันโดยใช้เซตไฮเปอร์พารามิเตอร์ที่ปรับให้เหมาะสมเพื่อให้รางวัลที่ออกแบบโดยมนุษย์ทำงานได้ดี

การประเมินรางวัล

เนื่องจากระดับและความหมายเชิงวิชาสาระของเมตริกงานแตกต่างกันสำหรับงานแต่ละงาน เฟรมเวิร์ก EUREKA จึงรายงานคะแนนที่ปรับตามมาตรฐานของมนุษย์ ซึ่งเป็นเมตริกที่ให้มาตรฐานทั่วไปสำหรับเฟรมเวิร์กในการเปรียบเทียบกับรางวัลที่สร้างโดยผู้เชี่ยวชาญมนุษย์ตามมาตรฐานที่แท้จริง

ต่อไป มีฐานร้างหลักสามฐาน ได้แก่ L2R, มนุษย์ และ เบาบาง

L2R

L2R คือ โซลูชันการเรียกใช้โมเดลภาษาขนาดใหญ่แบบสองขั้นตอนที่ช่วยในการสร้างรางวัลแบบเทมเพลต

มนุษย์

ฐานร้างของมนุษย์คือฟังก์ชันรางวัลดั้งเดิมที่เขียนโดยนักวิจัยการเรียนรู้แบบเสริม ซึ่งแสดงถึงผลลัพธ์ของวิศวกรรมรางวัลของมนุษย์

เบาบาง

ฐานร้างที่เบาบางคล้ายกับฟังก์ชันฟิตเนส และใช้ในการประเมินคุณภาพของรางวัลที่เฟรมเวิร์กสร้าง

ผลลัพธ์และผลการดำเนินงาน

เพื่อวิเคราะห์ประสิทธิภาพของเฟรมเวิร์ก EUREKA เราจะประเมินมันตามพารามิเตอร์ต่างๆ รวมถึง ประสิทธิภาพเทียบกับรางวัลของมนุษย์ การปรับปรุงผลลัพธ์ตามเวลา การสร้างรางวัลใหม่ การเปิดใช้งานการปรับปรุงแบบมุ่งเป้า และ การทำงานร่วมกับข้อมูลย้อนกลับจากมนุษย์

EUREKA มีประสิทธิภาพเหนือกว่ารางวัลของมนุษย์

รูปด้านล่างแสดงผลลัพธ์รวมจากเบンチมาร์กต่างๆ และสามารถสังเกตได้อย่างชัดเจนว่าเฟรมเวิร์ก EUREKA มีประสิทธิภาพเหนือกว่าหรือเทียบเท่ากับรางวัลระดับมนุษย์ในการทำงาน Dexterity และ Issac

การปรับปรุงอย่างต่อเนื่องตามเวลา

หนึ่งในจุดเด่นหลักของเฟรมเวิร์ก EUREKA คือความสามารถในการปรับปรุงและเพิ่มประสิทธิภาพอย่างต่อเนื่องตามเวลา

สามารถสังเกตได้อย่างชัดเจนว่าเฟรมเวิร์กสร้างรางวัลที่ดีขึ้นตามเวลาและปรับปรุงประสิทธิภาพของตนเองจนเหนือกว่ารางวัลของมนุษย์

การสร้างรางวัลใหม่

ความใหม่ของรางวัลของเฟรมเวิร์ก EUREKA สามารถประเมินได้โดยการคำนวณสัมประสิทธิ์สหสัมพันธ์ระหว่างรางวัลของมนุษย์และรางวัลของ EUREKA

การเปิดใช้งานการปรับปรุงแบบมุ่งเป้า

เพื่อประเมินความสำคัญของการเพิ่มการสะท้อนรางวัลในข้อมูลย้อนกลับ ผู้พัฒนาได้ประเมินการลบส่วนหนึ่งออก ซึ่งเป็นเฟรมเวิร์ก EUREKA ที่ไม่มีการสะท้อนรางวัล

การทำงานร่วมกับข้อมูลย้อนกลับจากมนุษย์

เพื่อรวมข้อมูลเข้าไปอย่างกว้างขวางเพื่อสร้างฟังก์ชันรางวัลที่สอดคล้องกับมนุษย์และมีประสิทธิภาพมากกว่า เฟรมเวิร์ก EUREKA นำเสนอแนวทางใหม่ในการเรียนรู้แบบไม่มีเกรเดียนต์ในบริบท

รูปด้านบนแสดงให้เห็นว่าเฟรมเวิร์ก EUREKA มีการปรับปรุงประสิทธิภาพและประสิทธิผลอย่างมีนัยสำคัญเมื่อใช้รางวัลที่ออกแบบโดยมนุษย์

รูปด้านบนแสดงให้เห็นว่าเฟรมเวิร์ก EUREKA สามารถสร้างนโยบายที่สอดคล้องกับมนุษย์ได้และสามารถปรับเปลี่ยนรางวัลโดยการรวมข้อมูลย้อนกลับจากมนุษย์

ความคิดสุดท้าย

ในบทความนี้ เราได้พูดถึง EUREKA ซึ่งเป็นอัลกอริทึมการออกแบบระดับมนุษย์ที่ใช้โมเดลภาษาขนาดใหญ่ ซึ่งพยายามใช้ความสามารถของโมเดลภาษาขนาดใหญ่ รวมถึงการเขียนโค้ด การปรับปรุงในบริบท และการสร้างเนื้อหาที่ไม่เคยเห็นมาก่อน เพื่อทำการเพิ่มประสิทธิภาพของโค้ดรางวัลอย่างไม่เคยเห็นมาก่อน

โดยรวมแล้ว ประสิทธิภาพและความสามารถที่สำคัญของเฟรมเวิร์ก EUREKA บ่งชี้ถึงศักยภาพของการผสมผสานอัลกอริทึมทางพันธุกรรมกับโมเดลภาษาขนาดใหญ่ ซึ่งอาจนำไปสู่แนวทางที่มีประสิทธิภาพและทั่วไปในการออกแบบรางวัล และข้อคิดเห็นนี้อาจใช้ได้กับปัญหาการค้นหาที่เปิดกว้างอื่นๆ

Kunal Kejriwal

วิศวกรโดยอาชีพ นักเขียนโดยหัวใจ คุณ Kunal เป็นนักเขียนเทคนิคที่มีความรักและเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI และ ML มุ่งมั่นที่จะทำให้แนวคิดที่ซับซ้อนในด้านเหล่านี้ง่ายขึ้นผ่านเอกสารที่น่าสนใจและให้ข้อมูล