ปัญญาประดิษฐ์

POKELLMON: เอเจนต์ Human-Parity สำหรับการต่อสู้โปเกมอนกับ LLM

การตีพิมพ์

4 สัปดาห์ที่ผ่านมา

April 11, 2024

POKELLMON: เอเจนต์ Human-Parity สำหรับการต่อสู้โปเกมอนกับ LLM

โมเดลภาษาขนาดใหญ่และ Generative AI แสดงให้เห็นถึงความสำเร็จอย่างที่ไม่เคยมีมาก่อนในงานประมวลผลภาษาธรรมชาติที่หลากหลาย หลังจากการพิชิตสาขา NLP แล้ว ความท้าทายต่อไปสำหรับนักวิจัย GenAI และ LLM คือการสำรวจว่าโมเดลภาษาขนาดใหญ่สามารถดำเนินการได้อย่างอิสระในโลกแห่งความเป็นจริงได้อย่างไร ด้วยช่องว่างระหว่างรุ่นที่เพิ่มขึ้นจากข้อความไปสู่การดำเนินการ ซึ่งแสดงถึงกระบวนทัศน์ที่สำคัญในการแสวงหาปัญญาประดิษฐ์ทั่วไป . เกมออนไลน์ถือเป็นพื้นฐานการทดสอบที่เหมาะสมในการพัฒนาโมเดลภาษาขนาดใหญ่ที่รวบรวมตัวแทนซึ่งมีปฏิสัมพันธ์กับสภาพแวดล้อมทางภาพในลักษณะที่มนุษย์จะทำ

ตัวอย่างเช่น ในเกมจำลองสถานการณ์ออนไลน์ยอดนิยม Minecraft ตัวแทนในการตัดสินใจสามารถช่วยผู้เล่นในการสำรวจโลกควบคู่ไปกับการพัฒนาทักษะในการสร้างเครื่องมือและการแก้ปัญหา อีกตัวอย่างหนึ่งของตัวแทน LLM ที่มีปฏิสัมพันธ์กับสภาพแวดล้อมทางภาพสามารถสัมผัสได้ในเกมออนไลน์อีกเกม The Sims ที่ตัวแทนได้แสดงให้เห็นถึงความสำเร็จอย่างน่าทึ่งในการปฏิสัมพันธ์ทางสังคมและแสดงพฤติกรรมที่คล้ายกับมนุษย์ อย่างไรก็ตาม เมื่อเปรียบเทียบกับเกมที่มีอยู่แล้ว เกมต่อสู้ทางยุทธวิธีอาจเป็นทางเลือกที่ดีกว่าในการเปรียบเทียบความสามารถของโมเดลภาษาขนาดใหญ่ในการเล่นเกมเสมือนจริง เหตุผลหลักว่าทำไมเกมแนวยุทธวิธีจึงสร้างเกณฑ์มาตรฐานที่ดีกว่านั้นก็เนื่องมาจากสามารถวัดอัตราการชนะได้โดยตรง และคู่ต่อสู้ที่สม่ำเสมอ รวมถึงผู้เล่นที่เป็นมนุษย์และ AI ก็พร้อมอยู่เสมอ

POKELLMON สร้างขึ้นจากสิ่งเดียวกัน โดยมีเป้าหมายที่จะเป็นเอเจนต์ตัวแรกของโลกที่บรรลุผลสำเร็จในระดับมนุษย์ในเกมยุทธวิธี คล้ายกับที่เห็นในการต่อสู้โปเกมอน หัวใจหลักของกรอบงาน POKELLMON ได้รวมเอากลยุทธ์หลักสามประการเข้าด้วยกัน

การเรียนรู้การเสริมกำลังในบริบทที่ใช้ความคิดเห็นตามข้อความที่ได้รับจากการต่อสู้ทันทีเพื่อปรับแต่งนโยบายซ้ำๆ
การสร้างเสริมความรู้ที่ดึงความรู้จากภายนอกเพื่อตอบโต้อาการประสาทหลอน ทำให้เจ้าหน้าที่สามารถดำเนินการได้อย่างเหมาะสมและเมื่อจำเป็น
การสร้างการกระทำที่สอดคล้องกันเพื่อลดสถานการณ์การสลับความตื่นตระหนกเมื่อตัวแทนพบกับผู้เล่นที่แข็งแกร่ง และต้องการหลีกเลี่ยงการเผชิญหน้าพวกเขา

บทความนี้มีจุดมุ่งหมายเพื่อครอบคลุมกรอบงาน POKELLMON ในเชิงลึก และเราสำรวจกลไก วิธีการ สถาปัตยกรรมของกรอบงาน รวมถึงการเปรียบเทียบกับกรอบงานที่ทันสมัย นอกจากนี้เรายังจะพูดถึงวิธีที่กรอบการทำงานของ POKELLMON แสดงให้เห็นถึงกลยุทธ์การต่อสู้ที่เหมือนมนุษย์ที่น่าทึ่ง และความสามารถในการตัดสินใจอย่างทันท่วงที ซึ่งบรรลุอัตราการชนะที่น่านับถือเกือบ 50% มาเริ่มกันเลย

POKELLMON: Human Parity Agent พร้อม LLM สำหรับการต่อสู้โปเกมอน

การเติบโตในความสามารถและประสิทธิภาพของโมเดลภาษาขนาดใหญ่ และเฟรมเวิร์ก Generative AI ในช่วงไม่กี่ปีที่ผ่านมานั้นไม่มีอะไรนอกจากความมหัศจรรย์ โดยเฉพาะอย่างยิ่งในงาน NLP เมื่อเร็วๆ นี้ นักพัฒนาและนักวิจัย AI กำลังทำงานเพื่อหาวิธีทำให้ Generative AI และ LLM โดดเด่นมากขึ้นในสถานการณ์จริงด้วยความสามารถในการดำเนินการโดยอัตโนมัติในโลกทางกายภาพ เพื่อให้บรรลุประสิทธิภาพการทำงานอัตโนมัติในสถานการณ์จริงและทางกายภาพ นักวิจัยและนักพัฒนาถือว่าเกมเป็นเตียงทดสอบที่เหมาะสมในการพัฒนาตัวแทนที่รวบรวม LLM ด้วยความสามารถในการโต้ตอบกับสภาพแวดล้อมเสมือนจริงในลักษณะที่คล้ายกับพฤติกรรมของมนุษย์

ก่อนหน้านี้ นักพัฒนาได้พยายามพัฒนาเอเจนต์ที่รวบรวม LLM ในเกมจำลองเสมือนจริง เช่น Minecraft และ Sims แม้ว่าจะเชื่อกันว่าเกมแนวยุทธวิธีอย่าง Pokemon อาจเป็นตัวเลือกที่ดีกว่าในการพัฒนาเอเจนต์เหล่านี้ การต่อสู้โปเกมอนช่วยให้นักพัฒนาสามารถประเมินความสามารถของเทรนเนอร์ในการต่อสู้ในเกมโปเกมอนชื่อดัง และมอบข้อได้เปรียบหลายประการเหนือเกมยุทธวิธีอื่นๆ เนื่องจากการดำเนินการและช่องว่างของรัฐแยกจากกัน จึงสามารถแปลเป็นข้อความได้โดยไม่สูญเสียใดๆ รูปต่อไปนี้แสดงให้เห็นถึงการต่อสู้โปเกมอนทั่วไปที่ผู้เล่นจะถูกขอให้สร้างการกระทำในแต่ละเทิร์นโดยพิจารณาจากสถานะปัจจุบันของโปเกมอนจากแต่ละด้าน ผู้ใช้มีตัวเลือกให้เลือกจากโปเกมอนที่แตกต่างกันห้าตัวและมีทั้งหมดสี่ท่าในพื้นที่แอคชั่น นอกจากนี้ เกมยังช่วยบรรเทาความเครียดเกี่ยวกับเวลาในการอนุมานและค่าใช้จ่ายในการอนุมานสำหรับ LLM เนื่องจากรูปแบบเทิร์นเบสช่วยลดข้อกำหนดสำหรับการเล่นเกมที่เข้มข้น ดังนั้นผลการปฏิบัติงานจึงขึ้นอยู่กับความสามารถในการให้เหตุผลของกิจการเป็นหลัก แบบจำลองภาษาขนาดใหญ่- สุดท้ายนี้ แม้ว่าเกมต่อสู้ Pokemon จะดูเรียบง่าย แต่ในความเป็นจริงแล้วสิ่งต่าง ๆ มีความซับซ้อนมากกว่าและมีกลยุทธ์สูง ผู้เล่นที่มีประสบการณ์จะไม่สุ่มเลือกโปเกมอนสำหรับการต่อสู้ แต่คำนึงถึงปัจจัยต่างๆ รวมถึงประเภท สถิติ ความสามารถ สายพันธุ์ ไอเท็ม การเคลื่อนไหวของโปเกมอน ทั้งในและนอกสนามรบ นอกจากนี้ ในการต่อสู้แบบสุ่ม โปเกมอนจะถูกเลือกแบบสุ่มจากกลุ่มตัวละครกว่าพันตัว โดยแต่ละตัวจะมีชุดตัวละครที่แตกต่างกันออกไปพร้อมความสามารถในการให้เหตุผลและความรู้เกี่ยวกับโปเกมอน

POKELLMON: ระเบียบวิธีและสถาปัตยกรรม

เฟรมเวิร์กและสถาปัตยกรรมโดยรวมของเฟรมเวิร์ก POKELLMON แสดงอยู่ในภาพต่อไปนี้

ในแต่ละเทิร์น กรอบงาน POKELLMON จะใช้การกระทำก่อนหน้านี้ และการตอบสนองตามข้อความที่เกี่ยวข้อง เพื่อปรับแต่งนโยบายซ้ำๆ ควบคู่ไปกับการเสริมข้อมูลสถานะปัจจุบันด้วยความรู้ภายนอก เช่น เอฟเฟกต์ความสามารถ/การเคลื่อนไหว หรือความสัมพันธ์ระหว่างความได้เปรียบ/จุดอ่อน สำหรับข้อมูลที่ให้เป็นอินพุต กรอบงาน POKELLMON จะสร้างการดำเนินการหลายอย่างอย่างอิสระ จากนั้นเลือกการดำเนินการที่สอดคล้องกันมากที่สุดเป็นเอาต์พุตสุดท้าย

การเรียนรู้การเสริมกำลังในบริบท

ผู้เล่นที่เป็นมนุษย์และนักกีฬามักจะตัดสินใจไม่เพียงแต่ขึ้นอยู่กับสถานะปัจจุบันเท่านั้น แต่ยังสะท้อนถึงผลตอบรับจากการกระทำครั้งก่อนตลอดจนประสบการณ์ของผู้เล่นคนอื่นด้วย มันจะปลอดภัยที่จะบอกว่าผลตอบรับเชิงบวกคือสิ่งที่ช่วยให้ผู้เล่นเรียนรู้จากความผิดพลาดของพวกเขา และป้องกันไม่ให้พวกเขาทำผิดพลาดแบบเดิมซ้ำแล้วซ้ำเล่า หากไม่มีผลตอบรับที่ถูกต้อง เอเจนต์ POKELLMON อาจยึดติดกับการดำเนินการข้อผิดพลาดเดียวกัน ดังแสดงในรูปต่อไปนี้

ตามที่สังเกตได้ ตัวแทนในเกมใช้การเคลื่อนไหวแบบน้ำกับตัวละครโปเกมอนที่มีความสามารถ "ผิวแห้ง" ทำให้สามารถลบล้างความเสียหายจากการโจมตีแบบน้ำได้ เกมดังกล่าวพยายามแจ้งเตือนผู้ใช้ด้วยการกะพริบข้อความ "ภูมิคุ้มกัน" บนหน้าจอที่อาจแจ้งให้ผู้เล่นพิจารณาการกระทำของตนอีกครั้ง และเปลี่ยนแปลงการกระทำดังกล่าว แม้จะไม่รู้เกี่ยวกับ "ผิวแห้ง" ก็ตาม อย่างไรก็ตาม จะไม่รวมอยู่ในคำอธิบายสถานะสำหรับตัวแทน ส่งผลให้ตัวแทนทำผิดพลาดแบบเดิมอีกครั้ง

เพื่อให้แน่ใจว่าตัวแทน POKELLMON เรียนรู้จากข้อผิดพลาดก่อนหน้านี้ กรอบงานจึงใช้แนวทางการเรียนรู้การเสริมกำลังในบริบท การเรียนรู้แบบเสริมกำลังเป็นแนวทางยอดนิยมในการเรียนรู้ของเครื่อง และช่วยให้นักพัฒนามีนโยบายการปรับปรุง เนื่องจากต้องใช้รางวัลที่เป็นตัวเลขในการประเมินการกระทำ เนื่องจาก โมเดลภาษาขนาดใหญ่ มีความสามารถในการตีความและเข้าใจภาษา คำอธิบายแบบข้อความได้กลายเป็นรางวัลรูปแบบใหม่สำหรับ LLM ด้วยการรวมข้อเสนอแนะที่เป็นข้อความจากการดำเนินการก่อนหน้านี้ เอเจนต์ POKELLMON จึงสามารถทำซ้ำและปรับแต่งนโยบายได้ทันที กล่าวคือ การเรียนรู้การเสริมกำลังในบริบท กรอบการทำงานของ POKELLMON พัฒนาข้อเสนอแนะสี่ประเภท

ความเสียหายจริงที่เกิดจากการโจมตีโดยพิจารณาจากความแตกต่างของ HP ในสองเทิร์นติดต่อกัน
ประสิทธิผลของท่าโจมตี ความคิดเห็นจะระบุถึงประสิทธิผลของการโจมตีในแง่ของการไม่มีผลหรือภูมิคุ้มกัน ไม่มีผล หรือมีผลเหนือกว่าเนื่องจากความสามารถ/เอฟเฟกต์การเคลื่อนไหว หรือความได้เปรียบประเภท
ลำดับความสำคัญสำหรับการดำเนินการย้าย เนื่องจากไม่มีสถิติที่แม่นยำสำหรับตัวละครโปเกมอนของฝ่ายตรงข้าม การตอบรับลำดับความสำคัญจึงเป็นการประมาณความเร็วคร่าวๆ
ผลกระทบที่แท้จริงของการเคลื่อนไหวที่กระทำต่อคู่ต่อสู้ ทั้งท่าโจมตีและสถานะอาจส่งผลให้เกิดผลลัพธ์ เช่น ฟื้นฟู HP เพิ่มสถานะหรือดีบัฟ สร้างสภาวะต่างๆ เช่น แช่แข็ง เผาไหม้ หรือพิษ

นอกจากนี้ การใช้แนวทางการเรียนรู้แบบเสริมกำลังในบริบทยังส่งผลให้ประสิทธิภาพเพิ่มขึ้นอย่างมาก ดังแสดงในรูปต่อไปนี้

เมื่อเปรียบเทียบกับประสิทธิภาพดั้งเดิมของ GPT-4 อัตราการชนะจะเพิ่มขึ้นเกือบ 10% พร้อมกับคะแนนการต่อสู้ที่เพิ่มขึ้นเกือบ 13% นอกจากนี้ ตามที่แสดงในรูปต่อไปนี้ ตัวแทนเริ่มวิเคราะห์และเปลี่ยนแปลงการกระทำของตน หากการเคลื่อนไหวที่ดำเนินการในการเคลื่อนไหวครั้งก่อนไม่สามารถตรงกับความคาดหวังได้

การสร้างเสริมความรู้หรือ KAG

แม้ว่าการใช้การเรียนรู้แบบเสริมกำลังในบริบทจะช่วยแก้ปัญหาภาพหลอนได้ในระดับหนึ่ง แต่ก็ยังอาจส่งผลให้เกิดผลร้ายแรงก่อนที่เจ้าหน้าที่จะได้รับข้อมูลย้อนกลับ ตัวอย่างเช่น หากตัวแทนตัดสินใจที่จะต่อสู้กับโปเกมอนประเภทไฟด้วยโปเกมอนประเภทหญ้า โปเกมอนประเภทแรกก็มีแนวโน้มที่จะชนะในเทิร์นเดียว เพื่อลดอาการประสาทหลอนเพิ่มเติม และปรับปรุงความสามารถในการตัดสินใจของตัวแทน กรอบงาน POKELLMON ได้ใช้แนวทางการสร้างความรู้เสริมหรือ KAG ซึ่งเป็นเทคนิคที่ใช้ความรู้จากภายนอกเพื่อ การสร้างเสริม.

ตอนนี้ เมื่อโมเดลสร้างข้อเสนอแนะ 4 ประเภทที่กล่าวถึงข้างต้น มันจะใส่คำอธิบายประกอบการเคลื่อนไหวและข้อมูลของโปเกมอน เพื่อให้ตัวแทนสามารถอนุมานความสัมพันธ์ของความได้เปรียบของประเภทได้ด้วยตัวเอง ในความพยายามที่จะลดภาพหลอนที่อยู่ในการให้เหตุผลเพิ่มเติม กรอบงาน POKELLMON จะอธิบายข้อดีของประเภทและจุดอ่อนของโปเกมอนฝ่ายตรงข้ามอย่างชัดเจน และโปเกมอนของตัวแทนพร้อมคำอธิบายที่เพียงพอ นอกจากนี้ มันเป็นเรื่องท้าทายที่จะจดจำการเคลื่อนไหวและความสามารถด้วยเอฟเฟกต์ที่แตกต่างของโปเกมอน โดยเฉพาะอย่างยิ่งเมื่อมีพวกมันจำนวนมาก ตารางต่อไปนี้แสดงให้เห็นถึงผลลัพธ์ของการสร้างความรู้เสริม เป็นที่น่าสังเกตว่าด้วยการใช้แนวทางการสร้างเสริมความรู้ กรอบงาน POKELLMON สามารถเพิ่มอัตราการชนะได้ประมาณ 20% จากที่มีอยู่ 36% เป็น 55%

นอกจากนี้ นักพัฒนาตั้งข้อสังเกตว่าเมื่อเอเจนต์ได้รับความรู้ภายนอกเกี่ยวกับโปเกมอน เอเจนต์ก็เริ่มใช้ท่าพิเศษในเวลาที่เหมาะสม ดังที่แสดงในภาพต่อไปนี้

การสร้างการกระทำที่สม่ำเสมอ

โมเดลที่มีอยู่แสดงให้เห็นว่าการนำแนวทางการกระตุ้นเตือนและการให้เหตุผลไปใช้สามารถเพิ่มความสามารถของ LLM ในการแก้ปัญหางานที่ซับซ้อนได้ แทนที่จะสร้างการดำเนินการแบบนัดเดียว กรอบงาน POKELLMON จะประเมินกลยุทธ์การกระตุ้นเตือนที่มีอยู่ รวมถึง CoT หรือ Chain of Thought, ToT หรือ Tree of Thought และความสม่ำเสมอในตนเอง สำหรับ Chain of Thought เจ้าหน้าที่จะสร้างความคิดขึ้นมาเพื่อวิเคราะห์สถานการณ์การต่อสู้ในปัจจุบัน และแสดงการกระทำที่มีเงื่อนไขตามความคิดนั้น เพื่อความสอดคล้องในตนเอง ตัวแทนจะสร้างการดำเนินการสามครั้ง และเลือกเอาต์พุตที่ได้รับคะแนนโหวตสูงสุด สุดท้ายนี้ สำหรับแนวทาง Tree of Thought กรอบงานจะสร้างการกระทำสามประการเหมือนกับแนวทางความมั่นคงในตนเอง แต่จะเลือกการกระทำที่คิดว่าดีที่สุดหลังจากประเมินทั้งหมดด้วยตัวเอง ตารางต่อไปนี้สรุปประสิทธิภาพของแนวทางการกระตุ้นเตือน

มีการกระทำเพียงครั้งเดียวในแต่ละเทิร์น ซึ่งหมายความว่าแม้ว่าตัวแทนจะตัดสินใจเปลี่ยนและฝ่ายตรงข้ามตัดสินใจโจมตี โปเกมอนที่เปลี่ยนเข้ามาก็ยังได้รับความเสียหาย โดยปกติแล้วเจ้าหน้าที่จะตัดสินใจเปลี่ยนเพราะต้องการพิมพ์ข้อได้เปรียบโดยเปลี่ยนโปเกมอนนอกการต่อสู้ และด้วยเหตุนี้ โปเกมอนที่เปลี่ยนเข้ามาจึงสามารถรักษาความเสียหายได้ เนื่องจากมันสามารถต้านทานการพิมพ์ต่อการเคลื่อนไหวของโปเกมอนฝ่ายตรงข้าม อย่างไรก็ตาม ดังที่กล่าวข้างต้น สำหรับตัวแทนที่มีเหตุผลแบบ CoT แม้ว่าโปเกมอนฝ่ายตรงข้ามที่ทรงพลังจะบังคับการหมุนต่างๆ ก็ตาม มันก็ทำหน้าที่ไม่สอดคล้องกับภารกิจ เพราะมันอาจไม่ต้องการสลับเข้าเป็นโปเกมอนแต่มีโปเกมอนหลายตัวและด้านหลัง ซึ่งเราเรียกว่า การเปลี่ยนความตื่นตระหนก การสลับอาการตื่นตระหนกจะช่วยลดโอกาสที่จะเคลื่อนไหวและทำให้พ่ายแพ้

POKELLMON : ผลลัพธ์และการทดลอง

ก่อนที่เราจะหารือเกี่ยวกับผลลัพธ์ มันเป็นสิ่งสำคัญสำหรับเราที่จะเข้าใจสภาพแวดล้อมการต่อสู้ เมื่อเริ่มต้นเทิร์น สภาพแวดล้อมได้รับข้อความคำขอดำเนินการจากเซิร์ฟเวอร์และจะตอบกลับข้อความนี้เมื่อสิ้นสุด ซึ่งมีผลการดำเนินการจากเทิร์นสุดท้ายด้วย

ขั้นแรกแยกวิเคราะห์ข้อความและอัพเดตตัวแปรสถานะภายในเครื่อง 2. จากนั้นแปลตัวแปรสถานะเป็นข้อความ คำอธิบายข้อความส่วนใหญ่มีสี่ส่วน: 1. ข้อมูลทีมของตัวเองซึ่งประกอบด้วยคุณสมบัติของโปเกมอนในสนามและนอกสนาม (ไม่ได้ใช้)
ข้อมูลทีมฝ่ายตรงข้าม ซึ่งมีคุณสมบัติของโปเกมอนคู่ต่อสู้ทั้งในสนามและนอกสนาม (ไม่ทราบข้อมูลบางส่วน)
ข้อมูลสนามรบ ซึ่งรวมถึงสภาพอากาศ อันตรายจากการเข้ามา และภูมิประเทศ
ข้อมูลบันทึกการเลี้ยวในอดีต ซึ่งมีการกระทำก่อนหน้าของโปเกมอนทั้งสองและจัดเก็บไว้ในคิวบันทึก LLM ใช้สถานะที่แปลแล้วเป็นการดำเนินการอินพุตและเอาต์พุตสำหรับขั้นตอนต่อไป การดำเนินการจะถูกส่งไปยังเซิร์ฟเวอร์และดำเนินการในเวลาเดียวกันกับการกระทำของมนุษย์

การต่อสู้กับผู้เล่นที่เป็นมนุษย์

ตารางต่อไปนี้แสดงประสิทธิภาพของตัวแทน POKELLMON ต่อผู้เล่นที่เป็นมนุษย์

ดังที่สังเกตได้ ตัวแทน POKELLMON มอบประสิทธิภาพที่เทียบเท่ากับผู้เล่นขั้นบันไดที่มีอัตราการชนะที่สูงกว่าเมื่อเปรียบเทียบกับผู้เล่นที่ได้รับเชิญพร้อมกับประสบการณ์การต่อสู้ที่กว้างขวาง

การวิเคราะห์ทักษะการต่อสู้

กรอบงาน POKELLMON แทบจะไม่ทำผิดพลาดในการเลือกท่าที่มีประสิทธิภาพ และสลับไปยังโปเกมอนตัวอื่นที่เหมาะสมตามกลยุทธ์การสร้างความรู้เสริม

ดังที่แสดงในตัวอย่างข้างต้น เจ้าหน้าที่ใช้โปเกมอนเพียงตัวเดียวเพื่อเอาชนะทีมคู่ต่อสู้ทั้งหมด เนื่องจากสามารถเลือกท่าโจมตีที่แตกต่างกัน ซึ่งเป็นท่าที่มีประสิทธิภาพที่สุดสำหรับคู่ต่อสู้ในสถานการณ์นั้น นอกจากนี้ กรอบงาน POKELLMON ยังแสดงกลยุทธ์การขัดสีเหมือนมนุษย์อีกด้วย โปเกมอนบางตัวมีท่า "พิษ" ที่สามารถสร้างความเสียหายเพิ่มเติมในแต่ละเทิร์น ในขณะที่ท่า "ฟื้นฟู" ช่วยให้สามารถฟื้นฟู HP ได้ โดยใช้ประโยชน์จากสิ่งเดียวกัน เจ้าหน้าที่จะวางยาพิษโปเกมอนฝ่ายตรงข้ามก่อน และใช้ท่ากู้คืนเพื่อป้องกันไม่ให้ตัวเองเป็นลม

ข้อคิด

ในบทความนี้ เราได้พูดคุยเกี่ยวกับ POKELLMON ซึ่งเป็นแนวทางที่ทำให้โมเดลภาษาขนาดใหญ่สามารถเล่นการต่อสู้โปเกมอนกับมนุษย์ได้โดยอัตโนมัติ POKELLMON ตั้งเป้าที่จะเป็นเอเจนต์ตัวแรกของโลกที่ประสบความสำเร็จในเกมยุทธวิธีระดับมนุษย์ คล้ายกับที่เห็นในการต่อสู้โปเกมอน กรอบงาน POKELLMON แนะนำสามกลยุทธ์หลัก: การเรียนรู้การเสริมกำลังในบริบทซึ่งใช้ความคิดเห็นตามข้อความเป็น "รางวัล" เพื่อปรับแต่งนโยบายการสร้างการกระทำซ้ำ ๆ โดยไม่ต้องฝึกอบรม การสร้างเสริมความรู้ที่ดึงความรู้ภายนอกเพื่อต่อสู้กับอาการประสาทหลอนและรับรองว่าตัวแทนกระทำการ ทันเวลาและเหมาะสม และการสร้างการกระทำที่สอดคล้องกันซึ่งป้องกันปัญหาการเปลี่ยนความตื่นตระหนกเมื่อเผชิญหน้ากับคู่ต่อสู้ที่แข็งแกร่ง

ต่อไป

ปฏิวัติ AI ด้วย RealM ของ Apple: อนาคตของผู้ช่วยอัจฉริยะ

อย่าพลาด

Meta เปิดตัวชิปการฝึกอบรม AI ยุคหน้า พร้อมประสิทธิภาพที่เร็วขึ้น

คุณกุล เกจริวัล

"อาชีพวิศวกร นักเขียนด้วยหัวใจ". Kunal เป็นนักเขียนด้านเทคนิคที่มีความรักและความเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI และ ML โดยอุทิศตนเพื่อทำให้แนวคิดที่ซับซ้อนในสาขาเหล่านี้ง่ายขึ้นผ่านเอกสารประกอบที่ให้ข้อมูลที่น่าสนใจ