มุมมองของ Anderson

AI ต้องดิ้นรนในการรับงานที่ไม่เสร็จสิ้น

mm
AI-generated image (GPT-2): an industrial humanoid robot sits at an office desk, scratching its head while looking into an open cardboard box labeled 'URGENT' that contains assorted machine parts, gears, electronic components, and circuit boards. An office wall with notes and diagrams is visible behind the desk.

แม้ว่าตัวแทน AI จะสามารถแก้ปัญหาได้ แต่การศึกษาใหม่ระบุว่าพวกมัน gặpปัญหาในการดำเนินการต่อจากงานที่เริ่มต้นโดยคนอื่น ทำให้เกิดการทำงานซ้ำ การคืบหน้าช้า และต้นทุนสูงขึ้น

 

หนึ่งในงานที่เหนื่อยล้า แต่จำเป็นต่อการทำงานกับตัวแทน AI และอินเทอร์เฟซคือการที่ AI ต้อง “เรียนรู้” ที่จุดเริ่มต้นของการแลกเปลี่ยนเกือบทุกครั้ง

ในขณะที่โมเดลภาษาที่ได้รับความนิยม เช่น ChatGPT มีการเข้าถึง “ความจำที่ยั่งยืน” ของผู้ใช้ แต่การนำไปใช้往往เป็นเรื่องที่ยาก และมักจะปลอดภัยกว่าที่จะยอมรับการพยายามสร้างบริบทให้กับ AI – เพื่อหยุดไม่ให้ AI “เดา” บริบทที่ไม่ถูกต้องจากพื้นที่ 潜在 ของมัน

รับงานที่ไม่เสร็จสิ้นในโลกแห่งความเป็นจริง

ความท้าทายนี้ไม่ได้เริ่มต้นจาก AI แต่หลายบริษัทต้องการให้พนักงานของตนเก็บเอกสารเกี่ยวกับกระบวนการที่พวกเขาได้พัฒนาหรือปรับปรุง (บางส่วนเพื่อให้การฝึกอบรมที่ราบรื่น แต่บางส่วนเพื่อหลีกเลี่ยงการให้พนักงานมีอำนาจ)

ในทางปฏิบัติ มักจะเป็นเพียงองค์กรขนาดใหญ่ที่มีเงินทุนมากเท่านั้นที่มุ่งมั่นที่จะสร้าง เอกสาร และบำรุงรักษาเอกสาร ในหลายกรณี พนักงานที่ต้องรับงานที่ไม่เสร็จสิ้นจากคนอื่นถูกมอบหมายให้ทำการ “สืบค้น” ที่ต้องใช้ความพยายามในการค้นหาตามลำดับเวลาที่นำไปสู่งานที่ถูกทิ้งร้าง

ไม่ต้องสงสัยเลยว่าเอกสารที่สมบูรณ์แบบจะช่วยประหยัดเวลา สัปดาห์ หรือแม้กระทั่งเดือนของงาน – หากมันเป็นเรื่องที่สมเหตุสมผลในด้านการเงิน

อย่างไรก็ตาม ในกรณีที่ตัวแทน AI เป็นผู้ดำเนินการ อาจมีโอกาสที่จะแก้ปัญหานี้ได้

ส่งมอบงาน

ภาระของ “หนี้สินในการส่งมอบ” นี้ได้รับการ量化ในงานวิจัยใหม่จากสหรัฐอเมริกา ซึ่งเรียกปัญหานี้ว่า หนี้สินในการส่งมอบ

หาก หนี้สินทางเทคนิค เป็นอาการที่วิธีแก้ปัญหาแบบ “เร็วและถูก” ในปัจจุบันนำไปสู่วิธีแก้ปัญหาที่ “เปราะบาง” หรือ “ยากต่อการบำรุงรักษา” ในอนาคต thì หนี้สินในการส่งมอบ จะกำหนดต้นทุนของ “การค้นหาความเข้าใจ” – การสืบค้นหลักฐานของคนงานหรือหน่วยงานที่ไม่สามารถให้คำแนะนำ (การปลดออกจากงาน การถูกไล่ออก การเสียชีวิต ฯลฯ) หรือไม่สามารถให้คำแนะนำ (เช่น AI ที่มีบริบทที่ไม่สมบูรณ์)

งานวิจัยใหม่ ใหม่ – ซึ่งเป็นความร่วมมือระหว่างนักวิจัยอิสระและมหาวิทยาลัยจอร์เจียสเตต – มุ่งเน้นไปที่หนี้สินในการส่งมอบที่เกี่ยวข้องกับตัวแทน AI ที่ได้รับมอบหมายให้รับงานที่ไม่เสร็จสิ้นจากคนอื่น

หนึ่งในเป้าหมายของงานคือการกำหนดว่าเอกสารที่จำเป็นเพียงใดในการลดหนี้สินในการส่งมอบ และขั้นตอนใดที่ควรใช้เพื่อลดปัญหานี้

ความกังวลในด้านงบประมาณ

ในโลกที่สมบูรณ์แบบ คุณสามารถตั้งค่าการบันทึกเป็น “verbose” และให้ AI ใหม่ด้วยการบันทึกที่เกี่ยวข้องกับงานที่ไม่เสร็จสิ้น

อย่างไรก็ตาม การแปลข้อมูลจำนวนมากนี้ให้เป็นข้อมูลที่มีประโยชน์จะใช้เวลานานและจะกินเข้าไปในงบประมาณของโทเค็น – เช่นเดียวกับการบังคับให้ใช้พื้นที่จัดเก็บข้อมูล

นี่คือปัญหาด้านงบประมาณ เนื่องจากการใช้การบันทึกที่ไม่ได้ประมวลผลจะทำให้เสียเวลา ในขณะที่การใช้เอกสารที่ได้รับการปรับแต่งจะทำให้เข้าใจได้ง่ายขึ้น แต่ต้องใช้ทรัพยากรล่วงหน้า

เอกสารที่เหมาะสมและทุ่มเทจะช่วยให้ AI ใหม่เริ่มต้นได้อย่างมีประสิทธิภาพ แต่ต้องใช้ความพยายามที่มากขึ้น – ความพยายามที่อาจไม่จำเป็นหากตรรกะของงานนั้นเป็นเรื่องที่ชัดเจน หรือหากงานนั้นถูกทิ้งร้างหรือไม่ถูกปรับปรุงอีก

ผู้เขียนของงานวิจัยใหม่นี้ ได้พิจารณาเรื่องเหล่านี้และได้ปรับแบบจำลองงานที่มีอยู่ให้เข้ากับวิธีการใหม่ในการ量และจัดการหนี้สินในการส่งมอบ แม้ว่างานนี้จะเกี่ยวข้องกับตัวแทน AI แต่ก็อาจบ่งชี้ถึงแนวทางที่มีประโยชน์ในบริบท AI ที่กว้างขึ้น และในนโยบายเอกสาร

ผู้เขียนระบุว่า:

‘หนี้สินในการส่งมอบเกิดขึ้นเมื่อตัวแทน AI ได้แสดงความก้าวหน้า แต่ปล่อยให้สถานะที่ไม่สามารถสืบทอดได้ เช่น การแก้ไขที่ไม่ได้อธิบาย ไฟล์ขยะ ความสมมติฐานที่ซ่อนอยู่ หรือหลักฐานการตรวจสอบที่ไม่สมบูรณ์’

‘การวัดที่อาศัยการแก้ปัญหาเท่านั้นไม่สามารถแยกแยะระหว่างการค้นหาที่มีค่าใช้จ่ายและความต่อเนื่องที่มีประสิทธิภาพ’

‘ตัวแทน AI สองตัวอาจปล่อยให้สถานะที่เหมือนกัน แต่ตัวสืบทอดของพวกเขาอาจเผชิญกับต้นทุนการดำเนินการต่อที่แตกต่างกันมาก’

วิธีการ

ผู้เขียนกำหนด “ผู้สืบทอด” เป็นตัวแทน AI ที่เริ่มต้นงาน และ “ผู้สืบทอด” เป็นตัวแทน AI ที่รับงานที่ไม่เสร็จสิ้น

เพื่อสนับสนุนการประเมินผลที่ออกแบบมาเพื่อวัดต้นทุนของการถ่ายทอดงานที่ไม่เสร็จสิ้นให้กับตัวแทน AI 75 งานจาก SWE-bench Verified ถูกแปลงเป็น 181 สถานการณ์การส่งมอบ แต่ละสถานการณ์เป็นตัวแทนของจุดที่งานถูกหยุดและถ่ายทอดให้กับตัวแทน AI ที่ตามมา

แบบจำลองที่ใช้ในการทดสอบ ได้แก่ Qwen, Gemma และ Devstral

การทดลองนี้ได้ตรวจสอบสี่ระดับของข้อมูลที่ถ่ายทอด: ในสถานการณ์ที่จำกัดที่สุด ตัวแทน AI ที่ตามมาได้รับเพียงสถานะของ仓庫 (โดยพื้นฐานแล้ว คือการเข้าไปในพื้นที่ที่ไม่มีเอกสาร)

仓庫เท่านั้น

ตัวแทน AI ที่ตามมาได้รับเพียง仓庫และคำอธิบายงาน โดยไม่มีหลักฐานการดำเนินการหรือความพยายามที่ล้มเหลวในอดีต

การบันทึกที่ไม่ได้ประมวลผล

ตัวแทน AI ที่ตามมาได้รับประวัติการดำเนินการของตัวแทน AI ที่เริ่มต้นงาน โดยเปิดเผยทุกการดำเนินการ การสังเกต การแก้ไข การสำเร็จ และความล้มเหลว

บันทึกสรุป

ตัวแทน AI ที่ตามมาได้รับบันทึกสรุปที่สร้างจากประวัติการดำเนินการของตัวแทน AI ที่เริ่มต้นงาน โดยย่อข้อมูลสำคัญให้เป็นข้อความ

เอกสารที่มีโครงสร้าง

ตัวแทน AI ที่ตามมาได้รับเอกสารที่มีโครงสร้างซึ่งบรรจุข้อมูลเกี่ยวกับสถานะงาน การเปลี่ยนแปลง และผลการตรวจสอบ

แทนที่จะเน้นไปที่การประเมินผลว่างานนั้นเสร็จสิ้นหรือไม่ การศึกษานี้ได้ออกแบบมาเพื่อวัดต้นทุนของการดำเนินการต่อเอง โดยให้ความสนใจกับการใช้เครื่องมือ การบริโภคโทเค็น และความพยายามที่ต้องการในการสร้างความเข้าใจในงานที่ไม่เสร็จสิ้น

การตรวจสอบสามแบบและสถานะการส่งมอบสามแบบถูกกำหนดไว้สำหรับการทดลอง:

การตรวจสอบการส่งมอบ สถานะการส่งมอบ
หลังการแก้ไขครั้งแรก หลังการแก้ไขครั้งแรก ตัวแทน AI ที่เริ่มต้นงานได้เริ่มทำงานแล้ว แต่ยังไม่ได้ตรวจสอบว่าการเปลี่ยนแปลงนั้นใช้ได้ผลหรือไม่ ต้องการการเสร็จสิ้น งานยังไม่เสร็จสิ้น และตัวแทน AI ที่ตามมาจะต้องดำเนินการต่อเพื่อให้ได้ผลลัพธ์ที่ถูกต้อง
หลังผลการตรวจสอบครั้งแรก ตัวแทน AI ที่เริ่มต้นงานได้แล้วดำเนินการตรวจสอบครั้งแรก โดยให้หลักฐานบางอย่างเกี่ยวกับการก้าวหน้า แล้วเสร็จและเก็บรักษาไว้ งานได้เสร็จสิ้นแล้ว และตัวแทน AI ที่ตามมาจะต้องหลีกเลี่ยงการทำลายมัน
หลังการแก้ไขครั้งแรกหลังความล้มเหลว การตรวจสอบครั้งแรกล้มเหลว และตัวแทน AI ที่เริ่มต้นงานได้แล้วพยายามแก้ไขอีกครั้ง พฤติกรรมที่มีอยู่ถูกทำลาย สิ่งที่曾经ทำงานได้ดีตอนนี้ถูกทำลาย

ข้อมูลและผลการทดลอง

เพื่อสร้างสถานการณ์การส่งมอบที่สมจริง ผู้เขียนได้สร้างมาตรฐานจาก 75 งานจาก SWE-Bench Verified โดยเน้นไปที่ปัญหาที่ใช้เวลา 15 นาทีถึง 4 ชั่วโมงในการแก้

แทนที่จะประเมินผลเฉพาะงานที่เสร็จสิ้น ผู้วิจัยได้บันทึกจุดตรวจสอบระหว่างการทำงาน โดยสร้างสถานการณ์ที่ตัวแทน AI หนึ่งตัวต้องรับงานที่ไม่เสร็จสิ้นจากอีกตัวหนึ่ง:

การสร้างมาตรฐานการส่งมอบ Seventy-five SWE-bench Verified tasks were expanded into 181 handoff points spanning three stages of work, labeled according to repository state at takeover time, and evaluated under four information-sharing conditions, producing 2,172 total successor-agent takeover runs. Source - https://arxiv.org/pdf/2606.02875

การสร้างมาตรฐานการส่งมอบ Seventy-five SWE-bench Verified tasks were expanded into 181 handoff points spanning three stages of work, labeled according to repository state at takeover time, and evaluated under four information-sharing conditions, producing 2,172 total successor-agent takeover runs. Source

เนื่องจากแต่ละงานสามารถสร้างจุดการส่งมอบได้หลายจุด และแต่ละจุดการส่งมอบถูกทดสอบด้วยรูปแบบการถ่ายทอดข้อมูลที่แตกต่างกันสี่รูปแบบ มาตรฐานจึงขยายตัวอย่างรวดเร็ว โดยมีงานการส่งมอบที่แตกต่างกัน 181 งาน และการทดลองรับงานที่แตกต่างกัน 724 ครั้งสำหรับตัวแทน AI ที่ตามมาแต่ละตัว โดยสร้างการทดลองรับงานทั้งหมด 2,172 ครั้งสำหรับตัวแทน AI ที่แตกต่างกันสามตัว

สภาพแวดล้อมการเขียนโค้ดแบบ OpenHands ถูกใช้ในการทดลอง โดยมีการดำเนินการในเทอร์มินัล การแช่แข็ง仓庫ที่จุดการส่งมอบ การแก้ไขไฟล์ และการตรวจสอบอย่างเป็นทางการจากมาตรฐาน SWE-Bench

ในงานหลัก จุดการส่งมอบทั้งหมดมาจากตัวแทน AI Qwen เพื่อให้มีจุดเริ่มต้นที่แน่นอนในการประเมินความแตกต่างระหว่างตัวแทน AI ที่แตกต่างกันและสถานการณ์ที่หลากหลาย

คู่รับงานที่ถูกทดสอบ ได้แก่ Qwen ถึง Qwen, Qwen ถึง Gemma และ Qwen ถึง Devstral

การบันทึกที่ไม่ได้ประมวลผล ทำให้การลดลงของความพยายามของตัวแทน AI ที่ตามมา โดยลดการดำเนินการของตัวแทน AI ลง 57-59% ในขณะที่ บันทึกสรุป และ เอกสารที่มีโครงสร้าง ลดการดำเนินการลง 20-46% การใช้โทเค็นในการส่งคำแนะนำ cũngลดลงในทั้งสามวิธี โดยมีการลดลงระหว่าง 42-63%:

มุมมอง การรัน อัตราการแก้ปัญหา (Δ pp) การดำเนินการของตัวแทน AI (Δ%) โทเค็นในการส่งคำแนะนำ (Δ%)
Qwen → Qwen
仓庫เท่านั้น 181 46.4% 99 1.63M
การบันทึกที่ไม่ได้ประมวลผล 181 52.5% (+6.1 pp) 41 (-59%) 811k (-50%)
บันทึกสรุป 181 51.4% (+5.0 pp) 53 (-46%) 602k (-63%)
เอกสารที่มีโครงสร้าง 181 50.8% (+4.4 pp) 55 (-44%) 660k (-60%)
Qwen → Gemma
仓庫เท่านั้น 181 42.5% 49 738k
การบันทึกที่ไม่ได้ประมวลผล 181 49.2% (+6.6 pp) 21 (-57%) 300k (-59%)
บันทึกสรุป 181 44.2% (+1.7 pp) 33 (-33%) 319k (-57%)
เอกสารที่มีโครงสร้าง 181 43.6% (+1.1 pp) 39 (-20%) 317k (-57%)
Qwen → Devstral
仓庫เท่านั้น 181 34.3% 175 3.94M
การบันทึกที่ไม่ได้ประมวลผล 181 49.2% (+14.9 pp) 73 (-58%) 1.66M (-58%)
บันทึกสรุป 181 43.6% (+9.4 pp) 123 (-30%) 2.30M (-42%)
เอกสารที่มีโครงสร้าง 181 44.8% (+10.5 pp) 125 (-29%) 2.30M (-42%)

ภายใต้สถานการณ์การส่งมอบ “仓庫เท่านั้น” ตัวแทน AI ที่ตามมาจะต้องใช้การโต้ตอบเพิ่มเติมเพื่อสร้างความเข้าใจในตัวแทน AI ที่เริ่มต้นงาน การบันทึกที่ไม่ได้ประมวลผล, บันทึกสรุป และ เอกสารที่มีโครงสร้าง ถ่ายทอดส่วนหนึ่งของข้อมูลนี้โดยตรง โดยลดการค้นหาที่ต้องการ แม้ว่าจะมีค่าใช้จ่ายในการเริ่มต้นมากกว่าก็ตาม

ในการทดสอบว่าผลลัพธ์เหล่านี้เป็นจริงหรือไม่ แต่ละสถานการณ์การส่งมอบที่มีข้อมูลจะถูกเปรียบเทียบกับการส่งมอบ “仓庫เท่านั้น” ที่เริ่มต้นจากจุดเดียวกัน

การลดลงเหล่านี้ยังคงสม่ำเสมอในทุกคู่รับงาน โดยแสดงให้เห็นว่าผลประโยชน์เหล่านี้ไม่ได้ถูกขับเคลื่อนด้วยกรณีศึกษาที่ไม่ธรรมดา แต่เป็นรูปแบบที่มีความหมาย

มุมมอง การรัน การดำเนินการของตัวแทน AI ใน仓庫เท่านั้น การดำเนินการของตัวแทน AI (Δ%) 95% CI สำหรับ Δ การดำเนินการ โทเค็นในการส่งคำแนะนำ (Δ%)
Qwen → Qwen
การบันทึกที่ไม่ได้ประมวลผล 181 99 41 (-59%) [-50%, -42%] 798k (-51%)
บันทึกสรุป 181 99 53 (-46%) [-38%, -28%] 572k (-65%)
เอกสารที่มีโครงสร้าง 181 99 55 (-44%) [-34%, -24%] 646k (-60%)
Qwen → Gemma
การบันทึกที่ไม่ได้ประมวลผล 181 49 21 (-57%) [-47%, -33%] 300k (-59%)
บันทึกสรุป 181 49 33 (-33%) [-25%, -8%] 319k (-57%)
เอกสารที่มีโครงสร้าง 181 49 39 (-20%) [-18%, -1%] 317k (-57%)
Qwen → Devstral
การบันทึกที่ไม่ได้ประมวลผล 181 175 73 (-58%) [-45%, -22%] 1.65M (-58%)
บันทึกสรุป 181 175 123 (-30%) [-28%, -15%] 2.28M (-42%)
เอกสารที่มีโครงสร้าง 181 175 125 (-29%) [-28%, -17%] 2.29M (-42%)

เพื่อยืนยันว่าผลลัพธ์เหล่านี้ไม่ได้ถูกขับเคลื่อนด้วยกรณีศึกษาที่ไม่ธรรมดา ผู้วิจัยได้เปรียบเทียบการรับงานที่มีข้อมูลกับการรับงาน “仓庫เท่านั้น” ที่เริ่มต้นจากจุดเดียวกัน การลดลงเหล่านี้ยังคงสม่ำเสมอในทุกคู่รับงาน โดยแสดงให้เห็นว่าผลประโยชน์เหล่านี้ไม่ได้ถูกขับเคลื่อนด้วยกรณีศึกษาที่ไม่ธรรมดา แต่เป็นรูปแบบที่มีความหมาย

สรุป…

โดยสรุป ผู้เขียนพบว่าเมื่อตัวแทน AI หนึ่งตัวส่งงานให้อีกตัวหนึ่ง แม้แต่บันทึกที่ง่ายๆ ก็ช่วยให้ตัวแทน AI ที่สองสามารถดำเนินการต่อได้อย่างมีประสิทธิภาพ

บันทึกที่สมบูรณ์แบบทำงานได้ดีที่สุด แต่การถ่ายทอดข้อมูลใดๆ ก็ยังดีกว่าการปล่อยให้ตัวแทน AI ที่ตามมาเริ่มต้นจากศูนย์ และผลลัพธ์ข้างต้นแสดงให้เห็นว่าการบันทึกที่สมบูรณ์แบบมีค่าใช้จ่ายสูงกว่า

สรุป

แม้ว่าเอกสารวิจัยนี้จะมุ่งเป้าไปที่นักวิจัยเพื่อน แต่งานใหม่นี้ก็กล่าวถึงหนึ่งในปัญหาที่น่าสนใจและกดดันที่สุดเกี่ยวกับสถานะปัจจุบันของอินเทอร์เฟซและโพรโทคอลระหว่างมนุษย์และ AI

หวังว่าแนวคิดและข้อมูลที่ได้รับจากงานวิจัยนี้จะสามารถขยายไปสู่บริบทที่กว้างขึ้นของการใช้ AI ได้

อีกหนึ่งเส้นทางที่น่าสนใจสำหรับโครงการอนาคตคือการพิจารณาวิธีการประเมินระดับเอกสารที่ต้องการสำหรับโครงการใดๆ ตามลักษณะและกรณีการใช้งานของมัน อย่างไรก็ตาม การใช้ฟังก์ชันนี้ ซึ่งจะช่วยให้สามารถใช้เวลาและเงินได้อย่างมีประสิทธิภาพ ยังคงต้องใช้เวลาและเงิน และปัญหางบประมาณในการจัดทำเอกสารยังคงเป็นปัญหาที่ยากจะหลีกเลี่ยง

 

* ส่วนตัวสำหรับการสนทนากับ ChatGPT ที่มีปัญหาเรื่องความล่าช้าและบริบทที่มากเกินไป ฉันล่าสุดได้เริ่มส่งออก (ด้วยความยากลำบาก) เป็น PDF ที่สะอาดของการสนทนาและใช้เป็นจุดเริ่มต้นสำหรับการสนทนาใหม่ ซึ่งกลายเป็น ‘ส่วนที่ 2’

ไม่น่าเสียดายที่นี่ไม่ใช่เอกสารที่อ่านง่ายที่สุดที่ฉันเคยอ่านในปีนี้ และด้วยเหตุนี้ ฉันจึงไม่สามารถแนะนำให้ผู้อ่านไปที่เอกสารต้นฉบับได้ แม้ว่าผลลัพธ์ที่ย่อหน้าจะยังคงน่าสนใจ

เผยแพร่ครั้งแรกวันพุธที่ 3 มิถุนายน พ.ศ. 2569

นักเขียนด้านการเรียนรู้ของเครื่องจักร ผู้เชี่ยวชาญด้านสังเคราะห์ภาพมนุษย์ อดีตหัวหน้าฝ่ายวิจัยเนื้อหาที่ Metaphysic.ai