ปัญญาประดิษฐ์
ทำไม AI ที่มี Agent ยังคงล้มเหลวในโลกแห่งความเป็นจริง

ในช่วงไม่กี่ปีที่ผ่านมา เราได้เห็นระบบ AI ที่มี Agent สร้างการแสดงผลที่น่าประทับใจ พวกมันเขียนโค้ดที่ผ่านกรณีทดสอบ พวกมันค้นหาเว็บและตอบคำถามที่ซับซ้อน พวกมันนำทางอินเทอร์เฟซซอฟต์แวร์ด้วยความแม่นยำที่น่าประทับใจ ทุกๆ การนำเสนอที่ประชุม ทุกๆ การแถลงข่าว ทุกๆ รายงานการประเมินผลเน้นย้ำถึงการเกิดขึ้นของ AI ที่มี Agent
แต่มีปัญหาหนึ่งที่ซ่อนอยู่ภายใต้การแสดงผลที่น่าประทับใจเหล่านี้ เมื่อระบบเหล่านี้ย้ายจากสภาพแวดล้อมที่ควบคุมไปยังการนำไปใช้จริง พวกมันล้มเหลวบ่อยครั้งด้วยวิธีที่การประเมินผลไม่เคยคาดการณ์ไว้ โค้ดเจเนเรเตอร์ที่ทำงานได้สมบูรณ์แบบบน 100 ตัวอย่างที่คัดเลือกมาแล้วเริ่มสร้างข้อผิดพลาดเมื่อพบกับกรณีที่ไม่เคยเห็นมาก่อน ระบบค้นหาที่บรรลุความแม่นยำ 85% ในห้องทดลองเริ่มค้นหาผลลัพธ์ที่ไม่เกี่ยวข้องมากขึ้นเมื่อ поведของผู้ใช้เปลี่ยนแปลง ระบบวางแผนการที่ประสานงาน 10 การเรียก API ได้สมบูรณ์แบบระหว่างการทดสอบแตกหักเมื่อพบกับรูปแบบการตอบสนอง API ที่ไม่คาดคิด
ระบบเหล่านี้ล้มเหลวไม่ใช่เพราะพวกมันขาดความฉลาด แต่เพราะพวกมันขาด การปรับตัว ปัญหาอยู่ที่ว่า AI Agent เรียนรู้และปรับตัวได้อย่างไร ระบบ AI ที่ทันสมัยที่สุดสร้างขึ้นจากโมเดลพื้นฐานขนาดใหญ่ แต่ความฉลาดเพียงอย่างเดียวไม่เพียงพอ เพื่อทำงานเฉพาะเจาะจง Agent ต้องสามารถปรับตัวได้ ระบบ AI ที่มี Agent ปัจจุบันไม่สามารถทำได้เนื่องจากข้อจำกัดทางโครงสร้างในการออกแบบและฝึกอบรม ในบทความนี้ เราได้สำรวจข้อจำกัดเหล่านี้และเหตุผลที่พวกมันยังคงอยู่
ภาพลวงตาของความสามารถในการแสดงผล
รูปแบบการล้มเหลวที่อันตรายที่สุดใน AI รุ่นใหม่คือภาพลวงตาของความสามารถ การแสดงผลสั้นๆ มักจะซ่อนความซับซ้อนจริง พวกมันทำงานบนชุดข้อมูลที่สะอาด API ที่คาดการณ์ได้ และขอบเขตงานที่แคบ สภาพแวดล้อมการผลิตเป็นสิ่งที่ตรงกันข้าม ฐานข้อมูลไม่สมบูรณ์ สกีม่าเปลี่ยนแปลงโดยไม่มีการแจ้งให้ทราบ บริการหมดเวลา ข้อผิดพลาดสิทธิ์ขัดแย้ง และผู้ใช้ถามคำถามที่ละเมิดสมมติฐานพื้นฐานของระบบ
นี่คือที่ที่ความซับซ้อนของการผลิตเพิ่มขึ้นอย่างมีนัยสำคัญ กรณีที่ไม่คาดคิดที่ปรากฏหนึ่งครั้งในการแสดงผลอาจปรากฏหลายพันครั้งต่อวันในการนำไปใช้ ข้อผิดพลาดทางสถิติเพิ่มขึ้น Agent ที่ “เกือบถูกต้อง” จะกลายเป็นไม่น่าเชื่อถือในการดำเนินงานจริง
ที่แก่นกลางของปัญหาคือการอาศัยโมเดลพื้นฐานที่ถูกแช่แข็ง โมเดลเหล่านี้มีความยอดเยี่ยมในการเติมรูปแบบ แต่พฤติกรรมของ Agent เป็นแบบลำดับและแบบมีสถานะ การกระทำแต่ละครั้งพึ่งพาผลลัพธ์ของการกระทำครั้งก่อน ความไม่แน่นอนทางสถิติเพิ่มขึ้นอย่างรวดเร็ว ข้อผิดพลาดเล็กๆ น้อยๆ ในตอนต้นของงานสามารถส่งผลให้เกิดวงจร ลูกเล่น หรือการกระทำที่เป็นอันตรายในภายหลัง นี่คือเหตุผลที่ Agent ที่ดูเหมือนมีความสามารถระหว่างการประเมินผลมักเสื่อมสภาพอย่างรวดเร็วเมื่อนำไปใช้
ปัญหาไม่ใช่การขาดคุณลักษณะ แต่เป็นว่าโมเดลทั่วไปถูกขอให้ประพฤติตนเหมือนผู้เชี่ยวชาญในโดเมนโดยไม่ได้รับอนุญาตให้เรียนรู้จากสภาพแวดล้อม
จากความฉลาดทั่วไปสู่ความสามารถเฉพาะที่ตั้งไว้
โมเดลพื้นฐานเป็นคนพื้นฐานโดยการออกแบบ พวกมันเข้ารหัสความรู้ทั่วไปและรูปแบบการให้เหตุผลที่ยืดหยุ่น แต่ Agent ในการผลิตต้องเป็นแบบเฉพาะเจาะจง พวกเขาต้องเข้าใจกฎเกณฑ์ ข้อจำกัด และรูปแบบการล้มเหลวเฉพาะขององค์กรและเครื่องมือขององค์กรนั้น หากไม่มีสิ่งนี้ พวกเขาจะเหมือนกับคน谁อ่านคู่มือทุกเล่ม แต่ไม่เคยทำงานวันเดียวในงาน
การข้ามช่องว่างนี้ต้องมีการคิดใหม่เกี่ยวกับการปรับตัวเอง วิธีการปัจจุบันแบ่งออกเป็นสองกลุ่มใหญ่ ที่มีข้อบกพร่อง: การฝึกอบรม Agent AI ตัวหลักเอง หรือการปรับเครื่องมือภายนอกที่มันใช้ วิธีการแต่ละวิธีแก้ปัญหาหนึ่ง ในขณะที่สร้างปัญหาใหม่ สิ่งนี้ทำให้เรามีระบบที่แข็งตัวเกินไป มีราคาแพงเกินไป หรือไม่มั่นคงเกินไปสำหรับสภาพแวดล้อมการผลิตที่ความสม่ำเสมอและต้นทุนมีความสำคัญ
การหลอกลวงของ Agent ที่เป็นเนื้อเดียวกัน
วิธีการแรก การปรับตัวของ Agent พยายามทำให้ Agent LLM ที่ใช้เครื่องมือฉลาดขึ้น มันสอน AI ทักษะเฉพาะที่ต้องการเพื่อใช้เครื่องมือ นักวิจัยแบ่งออกเป็นสองประเภท บางวิธีการฝึกอบรม Agent โดยใช้ข้อเสนอแนะโดยตรงจากเครื่องมือ เช่น ความสำเร็จของตัว编译โค้ดหรือผลลัพธ์ของเครื่องมือค้นหา อีกวิธีหนึ่งฝึกอบรมโดยอาศัยความถูกต้องของผลลัพธ์สุดท้าย เช่น คำตอบที่ถูกต้องหรือไม่
ระบบเช่น DeepSeek-R1 และ Search-R1 แสดงให้เห็นว่า Agent สามารถเรียนรู้กลยุทธ์ที่ซับซ้อนหลายขั้นตอนสำหรับการใช้เครื่องมือ อย่างไรก็ตาม อำนาจนี้มาพร้อมกับต้นทุนที่สำคัญ การฝึกอบรมโมเดลที่มีพารามิเตอร์หนึ่งพันล้านตัวเป็นการ奢侈ทางคณิตศาสตร์ มากกว่านั้น มันสร้างความฉลาดที่ยืดหยุ่นและเปราะบาง วิธีการนี้ทำให้การอัปเดตช้า เสี่ยง และไม่เหมาะสมสำหรับความต้องการทางธุรกิจที่เปลี่ยนแปลงอย่างรวดเร็ว การปรับตัวของ Agent ให้เข้ากับงานหรือเครื่องมือใหม่ทำให้เกิด “การลืมที่รุนแรง” โดยที่มันสูญเสียทักษะที่เรียนรู้มาก่อนหน้านี้ มันเหมือนกับการต้องสร้างสายการผลิตใหม่ทั้งหมดทุกครั้งที่คุณต้องการเพิ่มสินค้าใหม่
ปัญหาของเครื่องมือที่เปราะบาง
การรับรู้ข้อจำกัดเหล่านี้ วิธีการที่สำคัญที่สุดอีกวิธีหนึ่ง การปรับตัวของเครื่องมือ ทิ้ง Agent หลักไว้และปรับเครื่องมือในระบบนิเวศของมันแทน วิธีนี้เป็นแบบโมดูลาร์และคุ้มค่าในการใช้จ่าย เครื่องมือบางตัวถูกฝึกอบรมทั่วไป เช่น ตัวค้นหาที่มาตรฐาน และติดตั้งไว้ เครื่องมืออื่นๆ ถูกปรับให้เหมาะสมกับ Agent ที่ถูกแช่แข็งโดยการเรียนรู้จากเอาต์พุตของมันเพื่อเป็นผู้ช่วยที่ดีขึ้น
แนวคิดนี้มีศักยภาพมากสำหรับประสิทธิภาพ การศึกษาที่มีชื่อเสียงของระบบที่เรียกว่า s3 แสดงให้เห็นถึงศักยภาพของวิธีการนี้ มันฝึกเครื่องมือ “ค้นหา” ที่มีขนาดเล็กและเฉพาะเจาะจงเพื่อสนับสนุน Agent LLM ที่ถูกแช่แข็ง โดยบรรลุประสิทธิภาพที่เทียบเท่ากับ Agent ที่ถูกฝึกอบรมใหม่ทั้งหมด เช่น Search-R1 แต่ใช้ข้อมูลฝึกอบรมน้อยกว่า 70 เท่า ความคิดเห็นคือทำไมต้องสอนนักฟิสิกส์ผู้เชี่ยวชาญวิธีการใช้แค็ตตาล็อกห้องสมุดอีกครั้ง แทนที่จะฝึกห้องสมุดให้ดีขึ้นที่เข้าใจความต้องการของนักฟิสิกส์
อย่างไรก็ตาม โมเดลเครื่องมือมีข้อจำกัดของตัวเอง ความสามารถของระบบทั้งหมดถูกจำกัดโดยเหตุผลที่มีอยู่ของ Agent LLM ที่ถูกแช่แข็ง คุณสามารถให้เครื่องมือที่คมกว่าให้กับศัลยแพทย์ แต่คุณไม่สามารถทำให้คนไม่ใช่ศัลยแพทย์ทำการผ่าตัดหัวใจได้ นอกจากนี้ การจัดเตรียมชุดเครื่องมือที่ปรับให้เหมาะสมที่เพิ่มขึ้นเป็นเรื่องที่ซับซ้อนในการรวมระบบเข้าด้วยกัน เครื่องมือ A อาจปรับให้เหมาะสมกับเมตริกหนึ่งที่ละเมิดข้อกำหนดการนำเข้าของเครื่องมือ B ประสิทธิภาพของระบบจึงขึ้นอยู่กับการสมดุลที่เปราะบางระหว่างส่วนประกอบที่เชื่อมต่อกัน
ความท้าทายของการปรับตัวร่วมกัน
สิ่งนี้นำเราไปสู่แก่นกลางของการขาดการปรับตัวในแบบจำลอง AI ที่มี Agent ปัจจุบัน เราปรับตัว Agent หรือเครื่องมือ แต่ไม่ใช่ทั้งสองอย่างในลักษณะที่มั่นคงและประสานกัน สภาพแวดล้อมการผลิตไม่ใช่สิ่งที่คงที่ ข้อมูลใหม่ ความต้องการของผู้ใช้ใหม่ และเครื่องมือใหม่เกิดขึ้นอย่างต่อเนื่อง ระบบ AI ที่ไม่สามารถพัฒนา Agent และเครื่องมือของมันในลักษณะที่ราบรื่นและปลอดภัยจะล้มเหลวอย่างหลีกเลี่ยงไม่ได้
นักวิจัย ระบุ ความต้องการการปรับตัวร่วมกันนี้ว่าเป็นแนวหน้าของการวิจัย อย่างไรก็ตาม มันเป็นความท้าทายที่ซับซ้อน หากทั้ง Agent และเครื่องมือของมันเรียนรู้พร้อมๆ กัน ใคร ได้รับ เครดิตหรือความผิดสำหรับการล้มเหลวอย่างไร คุณป้องกันไม่ให้เกิดวงจรป้อนกลับที่ไม่มั่นคงโดยที่ Agent และเครื่องมือติดตามการเปลี่ยนแปลงของกันและกันโดยไม่ปรับปรุงประสิทธิภาพโดยรวมหรือไม่ การพยายามแรกๆ เช่น การรักษาความสัมพันธ์ระหว่าง Agent และเครื่องมือเป็น ระบบหลาย Agent ที่ร่วมมือกัน เปิดเผยความยากลำบาก โดยไม่มีวิธีแก้ปัญหาที่แข็งแกร่งสำหรับการกำหนดเครดิตและความมั่นคง แม้ระบบ AI ที่มี Agent ที่ทันสมัยที่สุดของเราก็ยังคงเป็นชุดความสามารถที่น่าประทับใจแต่ไม่เชื่อมต่อกัน
หน่วยความจำเป็นระบบชั้นแรก
หนึ่งในสัญญาณที่มองเห็นได้ชัดเจนที่สุดของการขาดการปรับตัวคือหน่วยความจำที่ถูกแช่แข็ง Agent ที่ใช้งานหลายตัวไม่ดีขึ้นเมื่อเวลาผ่านไป พวกมันทำซ้ำข้อผิดพลาดเดียวกันเพราะไม่สามารถจัดเก็บประสบการณ์ภายในได้ การโต้ตอบแต่ละครั้งถูกมองว่าเป็นครั้งแรก
สภาพแวดล้อมการผลิตต้องการ หน่วยความจำที่ปรับตัวได้ Agent ต้องการการเรียกคืนแบบต่อเนื่องเพื่อจัดการกับงานระยะยาวที่มีระยะเวลานาน หน่วยความจำเชิงกลยุทธ์ในการปรับปรุงแผนการ และหน่วยความจำเชิงปฏิบัติการเพื่อหลีกเลี่ยงการทำซ้ำข้อผิดพลาด Without สิ่งนี้ Agent จะดูเปราะบางและไม่น่าเชื่อถือ
หน่วยความจำควรได้รับการปฏิบัติเป็นส่วนประกอบที่ปรับได้ ไม่ใช่เพียงบันทึกที่ไม่มีพลัง ระบบที่ทบทวนประสบการณ์ เรียนรู้จากข้อผิดพลาด และปรับเปลี่ยนพฤติกรรมของตนเองมีความมั่นคงมากกว่า
ความเสี่ยงใหม่จากระบบที่ปรับตัวได้
การปรับตัวนำความเสี่ยงของมันเอง Agent สามารถเรียนรู้เพื่อปรับให้เหมาะสมกับเมตริกมากกว่าเป้าหมาย ซึ่งเป็นปรากฏการณ์ที่เรียกว่า การปรับตัวแบบปรสิต พวกมันอาจดูเหมือนประสบความสำเร็จในขณะที่บ่อนทำลายวัตถุประสงค์ภายใต้ ในระบบหลาย Agent เครื่องมือที่ถูกบุกรุกสามารถ บงการ Agent ผ่านการฉีด คำสั่ง หรือข้อมูลที่ทำให้เข้าใจผิด เพื่อลดความเสี่ยงเหล่านี้ Agent ต้องการกลไกการยืนยันที่แข็งแกร่ง การกระทำต้องสามารถทดสอบได้ ย้อนกลับได้ และตรวจสอบได้ ชั้นความปลอดภัยระหว่าง Agent และเครื่องมือรับประกันว่าข้อผิดพลาดจะไม่แพร่กระจายอย่างเงียบๆ
สรุป
สำหรับ AI ที่มี Agent ที่จะทำงานในโลกแห่งความเป็นจริง มันไม่สามารถเพียงฉลาดได้ มันจะต้องสามารถปรับตัวได้ Agent ส่วนใหญ่ล้มเหลวในปัจจุบันเพราะพวกมันถูก “แช่แข็ง” ในเวลา ในขณะที่โลกแห่งความเป็นจริงซับซ้อนและเปลี่ยนแปลงอย่างต่อเนื่อง หาก AI ไม่สามารถอัปเดตหน่วยความจำและปรับปรุงจากข้อผิดพลาดของมัน มันจะล้มเหลวในที่สุด ความน่าเชื่อถือไม่ได้มาจากการแสดงผลที่สมบูรณ์แบบ มันมาจากความสามารถในการปรับตัว












