มุมมองของ Anderson
AI ต้องดิ้นรนในการรับงานที่ไม่เสร็จสิ้น

แม้ว่าตัวแทน AI จะสามารถแก้ปัญหาได้ แต่การศึกษาใหม่ระบุว่าพวกมัน gặpปัญหาในการดำเนินการต่อจากงานที่เริ่มต้นโดยคนอื่น ทำให้เกิดการทำงานซ้ำ การคืบหน้าช้า และต้นทุนสูงขึ้น
หนึ่งในงานที่เหนื่อยล้า แต่จำเป็นต่อการทำงานกับตัวแทน AI และอินเทอร์เฟซคือการที่ AI ต้อง “เรียนรู้” ที่จุดเริ่มต้นของการแลกเปลี่ยนเกือบทุกครั้ง
ในขณะที่โมเดลภาษาที่ได้รับความนิยม เช่น ChatGPT มีการเข้าถึง “ความจำที่ยั่งยืน” ของผู้ใช้ แต่การนำไปใช้往往เป็นเรื่องที่ยาก และมักจะปลอดภัยกว่าที่จะยอมรับการพยายามสร้างบริบทให้กับ AI – เพื่อหยุดไม่ให้ AI “เดา” บริบทที่ไม่ถูกต้องจากพื้นที่ 潜在 ของมัน
รับงานที่ไม่เสร็จสิ้นในโลกแห่งความเป็นจริง
ความท้าทายนี้ไม่ได้เริ่มต้นจาก AI แต่หลายบริษัทต้องการให้พนักงานของตนเก็บเอกสารเกี่ยวกับกระบวนการที่พวกเขาได้พัฒนาหรือปรับปรุง (บางส่วนเพื่อให้การฝึกอบรมที่ราบรื่น แต่บางส่วนเพื่อหลีกเลี่ยงการให้พนักงานมีอำนาจ)
ในทางปฏิบัติ มักจะเป็นเพียงองค์กรขนาดใหญ่ที่มีเงินทุนมากเท่านั้นที่มุ่งมั่นที่จะสร้าง เอกสาร และบำรุงรักษาเอกสาร ในหลายกรณี พนักงานที่ต้องรับงานที่ไม่เสร็จสิ้นจากคนอื่นถูกมอบหมายให้ทำการ “สืบค้น” ที่ต้องใช้ความพยายามในการค้นหาตามลำดับเวลาที่นำไปสู่งานที่ถูกทิ้งร้าง
ไม่ต้องสงสัยเลยว่าเอกสารที่สมบูรณ์แบบจะช่วยประหยัดเวลา สัปดาห์ หรือแม้กระทั่งเดือนของงาน – หากมันเป็นเรื่องที่สมเหตุสมผลในด้านการเงิน
อย่างไรก็ตาม ในกรณีที่ตัวแทน AI เป็นผู้ดำเนินการ อาจมีโอกาสที่จะแก้ปัญหานี้ได้
ส่งมอบงาน
ภาระของ “หนี้สินในการส่งมอบ” นี้ได้รับการ量化ในงานวิจัยใหม่จากสหรัฐอเมริกา ซึ่งเรียกปัญหานี้ว่า หนี้สินในการส่งมอบ
หาก หนี้สินทางเทคนิค เป็นอาการที่วิธีแก้ปัญหาแบบ “เร็วและถูก” ในปัจจุบันนำไปสู่วิธีแก้ปัญหาที่ “เปราะบาง” หรือ “ยากต่อการบำรุงรักษา” ในอนาคต thì หนี้สินในการส่งมอบ จะกำหนดต้นทุนของ “การค้นหาความเข้าใจ” – การสืบค้นหลักฐานของคนงานหรือหน่วยงานที่ไม่สามารถให้คำแนะนำ (การปลดออกจากงาน การถูกไล่ออก การเสียชีวิต ฯลฯ) หรือไม่สามารถให้คำแนะนำ (เช่น AI ที่มีบริบทที่ไม่สมบูรณ์)
งานวิจัยใหม่ ใหม่† – ซึ่งเป็นความร่วมมือระหว่างนักวิจัยอิสระและมหาวิทยาลัยจอร์เจียสเตต – มุ่งเน้นไปที่หนี้สินในการส่งมอบที่เกี่ยวข้องกับตัวแทน AI ที่ได้รับมอบหมายให้รับงานที่ไม่เสร็จสิ้นจากคนอื่น
หนึ่งในเป้าหมายของงานคือการกำหนดว่าเอกสารที่จำเป็นเพียงใดในการลดหนี้สินในการส่งมอบ และขั้นตอนใดที่ควรใช้เพื่อลดปัญหานี้
ความกังวลในด้านงบประมาณ
ในโลกที่สมบูรณ์แบบ คุณสามารถตั้งค่าการบันทึกเป็น “verbose” และให้ AI ใหม่ด้วยการบันทึกที่เกี่ยวข้องกับงานที่ไม่เสร็จสิ้น
อย่างไรก็ตาม การแปลข้อมูลจำนวนมากนี้ให้เป็นข้อมูลที่มีประโยชน์จะใช้เวลานานและจะกินเข้าไปในงบประมาณของโทเค็น – เช่นเดียวกับการบังคับให้ใช้พื้นที่จัดเก็บข้อมูล
นี่คือปัญหาด้านงบประมาณ เนื่องจากการใช้การบันทึกที่ไม่ได้ประมวลผลจะทำให้เสียเวลา ในขณะที่การใช้เอกสารที่ได้รับการปรับแต่งจะทำให้เข้าใจได้ง่ายขึ้น แต่ต้องใช้ทรัพยากรล่วงหน้า
เอกสารที่เหมาะสมและทุ่มเทจะช่วยให้ AI ใหม่เริ่มต้นได้อย่างมีประสิทธิภาพ แต่ต้องใช้ความพยายามที่มากขึ้น – ความพยายามที่อาจไม่จำเป็นหากตรรกะของงานนั้นเป็นเรื่องที่ชัดเจน หรือหากงานนั้นถูกทิ้งร้างหรือไม่ถูกปรับปรุงอีก
ผู้เขียนของงานวิจัยใหม่นี้ ได้พิจารณาเรื่องเหล่านี้และได้ปรับแบบจำลองงานที่มีอยู่ให้เข้ากับวิธีการใหม่ในการ量และจัดการหนี้สินในการส่งมอบ แม้ว่างานนี้จะเกี่ยวข้องกับตัวแทน AI แต่ก็อาจบ่งชี้ถึงแนวทางที่มีประโยชน์ในบริบท AI ที่กว้างขึ้น และในนโยบายเอกสาร
ผู้เขียนระบุว่า:
‘หนี้สินในการส่งมอบเกิดขึ้นเมื่อตัวแทน AI ได้แสดงความก้าวหน้า แต่ปล่อยให้สถานะที่ไม่สามารถสืบทอดได้ เช่น การแก้ไขที่ไม่ได้อธิบาย ไฟล์ขยะ ความสมมติฐานที่ซ่อนอยู่ หรือหลักฐานการตรวจสอบที่ไม่สมบูรณ์’
‘การวัดที่อาศัยการแก้ปัญหาเท่านั้นไม่สามารถแยกแยะระหว่างการค้นหาที่มีค่าใช้จ่ายและความต่อเนื่องที่มีประสิทธิภาพ’
‘ตัวแทน AI สองตัวอาจปล่อยให้สถานะที่เหมือนกัน แต่ตัวสืบทอดของพวกเขาอาจเผชิญกับต้นทุนการดำเนินการต่อที่แตกต่างกันมาก’
วิธีการ
ผู้เขียนกำหนด “ผู้สืบทอด” เป็นตัวแทน AI ที่เริ่มต้นงาน และ “ผู้สืบทอด” เป็นตัวแทน AI ที่รับงานที่ไม่เสร็จสิ้น
เพื่อสนับสนุนการประเมินผลที่ออกแบบมาเพื่อวัดต้นทุนของการถ่ายทอดงานที่ไม่เสร็จสิ้นให้กับตัวแทน AI 75 งานจาก SWE-bench Verified ถูกแปลงเป็น 181 สถานการณ์การส่งมอบ แต่ละสถานการณ์เป็นตัวแทนของจุดที่งานถูกหยุดและถ่ายทอดให้กับตัวแทน AI ที่ตามมา
แบบจำลองที่ใช้ในการทดสอบ ได้แก่ Qwen, Gemma และ Devstral
การทดลองนี้ได้ตรวจสอบสี่ระดับของข้อมูลที่ถ่ายทอด: ในสถานการณ์ที่จำกัดที่สุด ตัวแทน AI ที่ตามมาได้รับเพียงสถานะของ仓庫 (โดยพื้นฐานแล้ว คือการเข้าไปในพื้นที่ที่ไม่มีเอกสาร)
| 仓庫เท่านั้น
ตัวแทน AI ที่ตามมาได้รับเพียง仓庫และคำอธิบายงาน โดยไม่มีหลักฐานการดำเนินการหรือความพยายามที่ล้มเหลวในอดีต |
การบันทึกที่ไม่ได้ประมวลผล
ตัวแทน AI ที่ตามมาได้รับประวัติการดำเนินการของตัวแทน AI ที่เริ่มต้นงาน โดยเปิดเผยทุกการดำเนินการ การสังเกต การแก้ไข การสำเร็จ และความล้มเหลว |
| บันทึกสรุป
ตัวแทน AI ที่ตามมาได้รับบันทึกสรุปที่สร้างจากประวัติการดำเนินการของตัวแทน AI ที่เริ่มต้นงาน โดยย่อข้อมูลสำคัญให้เป็นข้อความ |
เอกสารที่มีโครงสร้าง
ตัวแทน AI ที่ตามมาได้รับเอกสารที่มีโครงสร้างซึ่งบรรจุข้อมูลเกี่ยวกับสถานะงาน การเปลี่ยนแปลง และผลการตรวจสอบ |
แทนที่จะเน้นไปที่การประเมินผลว่างานนั้นเสร็จสิ้นหรือไม่ การศึกษานี้ได้ออกแบบมาเพื่อวัดต้นทุนของการดำเนินการต่อเอง โดยให้ความสนใจกับการใช้เครื่องมือ การบริโภคโทเค็น และความพยายามที่ต้องการในการสร้างความเข้าใจในงานที่ไม่เสร็จสิ้น
การตรวจสอบสามแบบและสถานะการส่งมอบสามแบบถูกกำหนดไว้สำหรับการทดลอง:
| การตรวจสอบการส่งมอบ | สถานะการส่งมอบ |
|---|---|
| หลังการแก้ไขครั้งแรก หลังการแก้ไขครั้งแรก ตัวแทน AI ที่เริ่มต้นงานได้เริ่มทำงานแล้ว แต่ยังไม่ได้ตรวจสอบว่าการเปลี่ยนแปลงนั้นใช้ได้ผลหรือไม่ | ต้องการการเสร็จสิ้น งานยังไม่เสร็จสิ้น และตัวแทน AI ที่ตามมาจะต้องดำเนินการต่อเพื่อให้ได้ผลลัพธ์ที่ถูกต้อง |
| หลังผลการตรวจสอบครั้งแรก ตัวแทน AI ที่เริ่มต้นงานได้แล้วดำเนินการตรวจสอบครั้งแรก โดยให้หลักฐานบางอย่างเกี่ยวกับการก้าวหน้า | แล้วเสร็จและเก็บรักษาไว้ งานได้เสร็จสิ้นแล้ว และตัวแทน AI ที่ตามมาจะต้องหลีกเลี่ยงการทำลายมัน |
| หลังการแก้ไขครั้งแรกหลังความล้มเหลว การตรวจสอบครั้งแรกล้มเหลว และตัวแทน AI ที่เริ่มต้นงานได้แล้วพยายามแก้ไขอีกครั้ง | พฤติกรรมที่มีอยู่ถูกทำลาย สิ่งที่曾经ทำงานได้ดีตอนนี้ถูกทำลาย |
ข้อมูลและผลการทดลอง
เพื่อสร้างสถานการณ์การส่งมอบที่สมจริง ผู้เขียนได้สร้างมาตรฐานจาก 75 งานจาก SWE-Bench Verified โดยเน้นไปที่ปัญหาที่ใช้เวลา 15 นาทีถึง 4 ชั่วโมงในการแก้
แทนที่จะประเมินผลเฉพาะงานที่เสร็จสิ้น ผู้วิจัยได้บันทึกจุดตรวจสอบระหว่างการทำงาน โดยสร้างสถานการณ์ที่ตัวแทน AI หนึ่งตัวต้องรับงานที่ไม่เสร็จสิ้นจากอีกตัวหนึ่ง:

การสร้างมาตรฐานการส่งมอบ Seventy-five SWE-bench Verified tasks were expanded into 181 handoff points spanning three stages of work, labeled according to repository state at takeover time, and evaluated under four information-sharing conditions, producing 2,172 total successor-agent takeover runs. Source
เนื่องจากแต่ละงานสามารถสร้างจุดการส่งมอบได้หลายจุด และแต่ละจุดการส่งมอบถูกทดสอบด้วยรูปแบบการถ่ายทอดข้อมูลที่แตกต่างกันสี่รูปแบบ มาตรฐานจึงขยายตัวอย่างรวดเร็ว โดยมีงานการส่งมอบที่แตกต่างกัน 181 งาน และการทดลองรับงานที่แตกต่างกัน 724 ครั้งสำหรับตัวแทน AI ที่ตามมาแต่ละตัว โดยสร้างการทดลองรับงานทั้งหมด 2,172 ครั้งสำหรับตัวแทน AI ที่แตกต่างกันสามตัว
สภาพแวดล้อมการเขียนโค้ดแบบ OpenHands ถูกใช้ในการทดลอง โดยมีการดำเนินการในเทอร์มินัล การแช่แข็ง仓庫ที่จุดการส่งมอบ การแก้ไขไฟล์ และการตรวจสอบอย่างเป็นทางการจากมาตรฐาน SWE-Bench
ในงานหลัก จุดการส่งมอบทั้งหมดมาจากตัวแทน AI Qwen เพื่อให้มีจุดเริ่มต้นที่แน่นอนในการประเมินความแตกต่างระหว่างตัวแทน AI ที่แตกต่างกันและสถานการณ์ที่หลากหลาย
คู่รับงานที่ถูกทดสอบ ได้แก่ Qwen ถึง Qwen, Qwen ถึง Gemma และ Qwen ถึง Devstral
การบันทึกที่ไม่ได้ประมวลผล ทำให้การลดลงของความพยายามของตัวแทน AI ที่ตามมา โดยลดการดำเนินการของตัวแทน AI ลง 57-59% ในขณะที่ บันทึกสรุป และ เอกสารที่มีโครงสร้าง ลดการดำเนินการลง 20-46% การใช้โทเค็นในการส่งคำแนะนำ cũngลดลงในทั้งสามวิธี โดยมีการลดลงระหว่าง 42-63%:
| มุมมอง | การรัน | อัตราการแก้ปัญหา (Δ pp) | การดำเนินการของตัวแทน AI (Δ%) | โทเค็นในการส่งคำแนะนำ (Δ%) |
|---|---|---|---|---|
| Qwen → Qwen | ||||
| 仓庫เท่านั้น | 181 | 46.4% | 99 | 1.63M |
| การบันทึกที่ไม่ได้ประมวลผล | 181 | 52.5% (+6.1 pp) | 41 (-59%) | 811k (-50%) |
| บันทึกสรุป | 181 | 51.4% (+5.0 pp) | 53 (-46%) | 602k (-63%) |
| เอกสารที่มีโครงสร้าง | 181 | 50.8% (+4.4 pp) | 55 (-44%) | 660k (-60%) |
| Qwen → Gemma | ||||
| 仓庫เท่านั้น | 181 | 42.5% | 49 | 738k |
| การบันทึกที่ไม่ได้ประมวลผล | 181 | 49.2% (+6.6 pp) | 21 (-57%) | 300k (-59%) |
| บันทึกสรุป | 181 | 44.2% (+1.7 pp) | 33 (-33%) | 319k (-57%) |
| เอกสารที่มีโครงสร้าง | 181 | 43.6% (+1.1 pp) | 39 (-20%) | 317k (-57%) |
| Qwen → Devstral | ||||
| 仓庫เท่านั้น | 181 | 34.3% | 175 | 3.94M |
| การบันทึกที่ไม่ได้ประมวลผล | 181 | 49.2% (+14.9 pp) | 73 (-58%) | 1.66M (-58%) |
| บันทึกสรุป | 181 | 43.6% (+9.4 pp) | 123 (-30%) | 2.30M (-42%) |
| เอกสารที่มีโครงสร้าง | 181 | 44.8% (+10.5 pp) | 125 (-29%) | 2.30M (-42%) |
ภายใต้สถานการณ์การส่งมอบ “仓庫เท่านั้น” ตัวแทน AI ที่ตามมาจะต้องใช้การโต้ตอบเพิ่มเติมเพื่อสร้างความเข้าใจในตัวแทน AI ที่เริ่มต้นงาน การบันทึกที่ไม่ได้ประมวลผล, บันทึกสรุป และ เอกสารที่มีโครงสร้าง ถ่ายทอดส่วนหนึ่งของข้อมูลนี้โดยตรง โดยลดการค้นหาที่ต้องการ แม้ว่าจะมีค่าใช้จ่ายในการเริ่มต้นมากกว่าก็ตาม
ในการทดสอบว่าผลลัพธ์เหล่านี้เป็นจริงหรือไม่ แต่ละสถานการณ์การส่งมอบที่มีข้อมูลจะถูกเปรียบเทียบกับการส่งมอบ “仓庫เท่านั้น” ที่เริ่มต้นจากจุดเดียวกัน
การลดลงเหล่านี้ยังคงสม่ำเสมอในทุกคู่รับงาน โดยแสดงให้เห็นว่าผลประโยชน์เหล่านี้ไม่ได้ถูกขับเคลื่อนด้วยกรณีศึกษาที่ไม่ธรรมดา แต่เป็นรูปแบบที่มีความหมาย
| มุมมอง | การรัน | การดำเนินการของตัวแทน AI ใน仓庫เท่านั้น | การดำเนินการของตัวแทน AI (Δ%) | 95% CI สำหรับ Δ การดำเนินการ | โทเค็นในการส่งคำแนะนำ (Δ%) |
|---|---|---|---|---|---|
| Qwen → Qwen | |||||
| การบันทึกที่ไม่ได้ประมวลผล | 181 | 99 | 41 (-59%) | [-50%, -42%] | 798k (-51%) |
| บันทึกสรุป | 181 | 99 | 53 (-46%) | [-38%, -28%] | 572k (-65%) |
| เอกสารที่มีโครงสร้าง | 181 | 99 | 55 (-44%) | [-34%, -24%] | 646k (-60%) |
| Qwen → Gemma | |||||
| การบันทึกที่ไม่ได้ประมวลผล | 181 | 49 | 21 (-57%) | [-47%, -33%] | 300k (-59%) |
| บันทึกสรุป | 181 | 49 | 33 (-33%) | [-25%, -8%] | 319k (-57%) |
| เอกสารที่มีโครงสร้าง | 181 | 49 | 39 (-20%) | [-18%, -1%] | 317k (-57%) |
| Qwen → Devstral | |||||
| การบันทึกที่ไม่ได้ประมวลผล | 181 | 175 | 73 (-58%) | [-45%, -22%] | 1.65M (-58%) |
| บันทึกสรุป | 181 | 175 | 123 (-30%) | [-28%, -15%] | 2.28M (-42%) |
| เอกสารที่มีโครงสร้าง | 181 | 175 | 125 (-29%) | [-28%, -17%] | 2.29M (-42%) |
เพื่อยืนยันว่าผลลัพธ์เหล่านี้ไม่ได้ถูกขับเคลื่อนด้วยกรณีศึกษาที่ไม่ธรรมดา ผู้วิจัยได้เปรียบเทียบการรับงานที่มีข้อมูลกับการรับงาน “仓庫เท่านั้น” ที่เริ่มต้นจากจุดเดียวกัน การลดลงเหล่านี้ยังคงสม่ำเสมอในทุกคู่รับงาน โดยแสดงให้เห็นว่าผลประโยชน์เหล่านี้ไม่ได้ถูกขับเคลื่อนด้วยกรณีศึกษาที่ไม่ธรรมดา แต่เป็นรูปแบบที่มีความหมาย
สรุป…
โดยสรุป ผู้เขียนพบว่าเมื่อตัวแทน AI หนึ่งตัวส่งงานให้อีกตัวหนึ่ง แม้แต่บันทึกที่ง่ายๆ ก็ช่วยให้ตัวแทน AI ที่สองสามารถดำเนินการต่อได้อย่างมีประสิทธิภาพ
บันทึกที่สมบูรณ์แบบทำงานได้ดีที่สุด แต่การถ่ายทอดข้อมูลใดๆ ก็ยังดีกว่าการปล่อยให้ตัวแทน AI ที่ตามมาเริ่มต้นจากศูนย์ และผลลัพธ์ข้างต้นแสดงให้เห็นว่าการบันทึกที่สมบูรณ์แบบมีค่าใช้จ่ายสูงกว่า
สรุป
แม้ว่าเอกสารวิจัยนี้จะมุ่งเป้าไปที่นักวิจัยเพื่อน แต่งานใหม่นี้ก็กล่าวถึงหนึ่งในปัญหาที่น่าสนใจและกดดันที่สุดเกี่ยวกับสถานะปัจจุบันของอินเทอร์เฟซและโพรโทคอลระหว่างมนุษย์และ AI
หวังว่าแนวคิดและข้อมูลที่ได้รับจากงานวิจัยนี้จะสามารถขยายไปสู่บริบทที่กว้างขึ้นของการใช้ AI ได้
อีกหนึ่งเส้นทางที่น่าสนใจสำหรับโครงการอนาคตคือการพิจารณาวิธีการประเมินระดับเอกสารที่ต้องการสำหรับโครงการใดๆ ตามลักษณะและกรณีการใช้งานของมัน อย่างไรก็ตาม การใช้ฟังก์ชันนี้ ซึ่งจะช่วยให้สามารถใช้เวลาและเงินได้อย่างมีประสิทธิภาพ ยังคงต้องใช้เวลาและเงิน และปัญหางบประมาณในการจัดทำเอกสารยังคงเป็นปัญหาที่ยากจะหลีกเลี่ยง
* ส่วนตัวสำหรับการสนทนากับ ChatGPT ที่มีปัญหาเรื่องความล่าช้าและบริบทที่มากเกินไป ฉันล่าสุดได้เริ่มส่งออก (ด้วยความยากลำบาก) เป็น PDF ที่สะอาดของการสนทนาและใช้เป็นจุดเริ่มต้นสำหรับการสนทนาใหม่ ซึ่งกลายเป็น ‘ส่วนที่ 2’
† ไม่น่าเสียดายที่นี่ไม่ใช่เอกสารที่อ่านง่ายที่สุดที่ฉันเคยอ่านในปีนี้ และด้วยเหตุนี้ ฉันจึงไม่สามารถแนะนำให้ผู้อ่านไปที่เอกสารต้นฉบับได้ แม้ว่าผลลัพธ์ที่ย่อหน้าจะยังคงน่าสนใจ
เผยแพร่ครั้งแรกวันพุธที่ 3 มิถุนายน พ.ศ. 2569












