زاوية Anderson
لماذا يصعب على الذكاء الاصطناعي استكمال مهمة نصف مكتملة

尽管 يمكن للوكلاء الذكاء الاصطناعي حل المهام المعقدة، تشير دراسة جديدة إلى أنهم يصابون بالصعوبة في استكمال العمل الذي بدأه آخر، مما يؤدي إلى جهد مكرر، وتقدم أبطأ، وتكلفة أكبر.
أحد أكثر المهام إرهاقاً وأهمية في التعامل مع وكلاء الذكاء الاصطناعي وواجهاتهم هو أن الذكاء الاصطناعي يحتاج إلى “إحضار إلى السرعة” في بداية التبادل، في معظم الحالات.
في حين تقدم نماذج اللغة الشائعة مثل ChatGPT بعض الوصول إلى “ذاكرة مخصصة”، عادة ما يكون التنفيذ أمراً عشوائياً؛ في النهاية، من الأفضل قبول جهد سياق المهمة للذكاء الاصطناعي – على الأقل، لمنعها من “الخروج” على سياق خاطئ من مساحة 潜在 الخاصة بها.
استكمال مهام العالم الحقيقي
التحدي يسبق الذكاء الاصطناعي، بالطبع؛ العديد من الشركات تتطلب بالفعل من الموظفين الحفاظ على توثيق يتعلق بالعمليات التي يطورونها أو يرقيونها (جزئياً لتحقيق تجربة انتقال أسهل، ولكن أيضاً لمنع الموظفين من الحصول على زخم).
然而، في الممارسة، غالباً ما تكون فقط المنظمات الأكبر والأكثر تمويلاً هي التي تلتزم بإنشاء وتحديث وصيانة التوثيق. في كثير من الأحيان، بدلاً من ذلك، يتم تسليم الموظفين المطلوبين لاستكمال عمل الآخرين مهمة من نوع “الاستقصاء” التي تتطلب منهم فك شفرة الجدول الزمني بدقة التي أدت إلى العمل المتروك الذي تم تسليمه لهم الآن.
من غير المرجح أن يوفر التوثيق المثالي أيامًا وأسابيع أو حتى أشهر من العمل – لو كان ذلك مقترناً بالمنطق المالي.
然而، حيث يكون وكلاء الذكاء الاصطناعي هم المخاطرون، قد يكون هناك مجال أكبر لمعالجة المشكلة محتملة.
تسليم المهمة
يتم تحديد عبء “التوثيق غير الكافي” في ورقة بحثية جديدة من الولايات المتحدة، والتي تدعو المشكلة ديون التسليم.
إذا كان الديون الفنية هو المرض الذي تؤدي فيه الحلول التكنولوجية السريعة والرخيصة (والرخيصة) اليوم إلى حلول هشة أو صعبة في الصيانة في المستقبل، فإن ديون التسليم يحدد تكلفة إعادة اكتشاف – إعادة اكتشاف خطوات العامل أو الكيان الذي لا يتوفر للاستشارة (إقالة عدوانية، مشغول، ميت، إلخ.) أو غير قادر على الاستشارة (على سبيل المثال، نموذج لغة كبير قد ألقى بالسياق الذي أدى إلى حالة العمل الحالية).
الورقة الجديدة† – تعاون بين باحثين مستقلين ومرتبطين بجامعة ولاية جورجيا – تتعامل مع ديون التسليم كما تنطبق على وكلاء الترميز المكلفين باستكمال المكان الذي تركه آخر، شخص أو كيان في قاعدة بيانات.
أحد أهداف العمل هو تحديد مقدار التوثيق اللازم لتقليل ديون التسليم، وما الإجراءات والبروتوكولات التي يمكن أن تُوصى بها باعتبارها ممارسة قياسية في المستقبل، لتقليل المشكلة.
مخاوف مالية
في عالم مثالي، يمكنك تعيين تسجيل إلى مفصل و ببساطة تغذية الوكيل الجديد (الذي يأخذ المهمة) بالسجلات المتعلقة بالمهمة غير المكتملة.
然而، فإن تحليل مثل هذا الحجم من البيانات إلى بيانات مفيدة سيكون أمراً مستهلكاً للوقت، كما سيتطلب أيضاً قيود مساحة التخزين – بالإضافة إلى إحضار قيود مساحة التخزين إلى اللعب.
هذا هو مشكلة مالية، لأن استخدام تفريغات غير معالجة يستهلك، بينما استخدام سجلات معالجة أقل إرباكاً، ولكنه يتطلب التزاماً مسبقاً بالموارد.
ملاحظات مناسبة ومخصصة ستكون فعالة جداً في جعل “فنان الاستلام” على دراية تامة، ولكن على حساب التزام أكبر بالجهد – جهد قد لا يكون مطلوباً أبداً، إذا كان منطق العمل في النهاية يثبت أنه واضح، أو إذا تم التخلي عن العمل أو لم يتم استخدامه مرة أخرى.
مؤلفو العمل الجديد، بعنوان ديون التسليم: تكلفة إعادة اكتشاف عند استلام وكلاء الترميز للمهام المتوقفة، قد اعتبروا جميع هذه السيناريوهات، وقاموا بتعديل نماذج المهام الحالية لطرق جديدة لتحديد وتحليل ديون التسليم. على الرغم من أن العمل يتعامل بشكل محدد مع وكلاء الترميز، إلا أنه قد يشير إلى طرق مفيدة للتقدم في سياقات الذكاء الاصطناعي الأوسع نطاقاً، وفي مجال سياسات التوثيق.
يصرح المؤلفون:
‘ديون التسليم تظهر عندما يقوم الوكيل بتقدم مرئي ولكن يترك حالة لا يمكن الخلافة منها بسهولة، مثل تحرير غير مبرر، أو ملفات التصفح، أو افتراضات مخفية، أو أدلة التحقق المفقودة.
‘مقياس يعتمد فقط على الحل النهائي لا يمكن أن يميز بين إعادة اكتشاف مكلفة واستمرار فعال.
‘يمكن لوكلاء سابقيين أن يتركوا نفس نقطة التسليم، ولكن يمكن لوكلاء الخلافة أن يواجهوا تكاليف استمرار مختلفة جداً: قد يستمر أحدهم على الفور، بينما يجب على الآخر إنفاق العديد من تفاعلات الأداة على إعادة اكتشاف النية من الملفات التصفحية وسجل الأوامر غير مكتمل.
الطريقة
يحدد المؤلفون السابق كالوكيل السابق (الذي أصل أو آخر من قام بالعمل) و الخلف كالوكيل الحالي (الذي مكلف باستكمال العمل)،
دعماً لقياس مصمم لقياس تكلفة نقل المهام غير المكتملة عبر الوكلاء، تم تحويل 75 مهمة من SWE-bench Verified إلى 181 سيناريو تسليم، كل منها يمثل نقطة حيث تم إيقاف العمل وتم تسليمه إلى وكيل خلف.
تم اختبار ثلاثة نماذج خلفية مختلفة عبر 2,172 محاولة استلام.
الأسرة النموذجية المستخدمة، والمختلطة في هذه الاختبارات، كانت Qwen، Gemma، و Devstral.
تم فحص أربعة مستويات من المعلومات الموروثة: في الإعداد الأكثر تقييداً، تلقى الخلف فقط حالة المستودع (بصورة فعالة، دخول منطقة غير وثائقية).
| المستودع فقط
الخلف يتلقى فقط المستودع ووصف المهمة، بدون سجل لأي إجراءات سابقة أو محاولات فاشلة. |
سجل غير معالج
الخلف يتلقى تاريخ السابق كامل، مع كل أمر ومراقبة وتصحيح ونجاح وفشل. |
| ملاحظات ملخصة
الخلف يتلقى ملخص لغة طبيعية تم إنشاؤه من تاريخ السابق، يضغط المعلومات الرئيسية إلى نص. |
ملاحظات منظمة
الخلف يتلقى وثيقة تسليم مضغوطة تحتوي على حقول معيارية تصف حالة المهمة، والتغييرات التي تم إجراؤها، ونتائج التحقق. |
بدلاً من التركيز فقط على ما إذا كانت المهمة قد تم حلها في النهاية، تم تصميم الدراسة لقياس تكلفة الاستمرار نفسها، مع الانتباه إلى استخدام الأداة، واستهلاك العلامات، والجهد المطلوب لإعادة بناء المنطق وراء العمل السابق.
تم تعريف ثلاثة كشف نقاط التسليم وثلاثة حالات تسليم للتحريات:
| كشف نقاط التسليم | حالات التسليم |
|---|---|
| بعد تحرير المصدر الأول. بعد تغيير الكود الأول. الوكيل السابق قد بدأ العمل ولكن لم يتحقق بعد من نجاح التغيير. | يتطلب استكمالا. المهمة غير مكتملة، ويجب على الخلف استكمال العمل للوصول إلى حل صحيح. |
| بعد نتيجة التحقق الأولى. الوكيل السابق قد قام بالفعل بتشغيل اختبار أو خطوة تحقق، مما يوفر بعض الأدلة حول التقدم. | تم حلها بالفعل ومحفوظة. المهمة تم حلها فعلاً، ووظيفة الخلف هي تجنب كسرها. |
| بعد تحرير ما بعد الفشل الأول. اختبار فشل، والوكيل السابق قد حاول بالفعل الاستجابة بصنع تغيير آخر. | السلوك الحالي مكسور. شيء كان يعمل من قبل الآن مكسور. |
بيانات واختبارات
لإنشاء سيناريوهات تسليم واقعية، تم بناء معيار الباحثين من 75 مهمة هندسية برمجية تم سحبها من SWE-Bench Verified، مع التركيز على مشاكل عادة ما تستغرق بين 15 دقيقة و 4 ساعات لحلها.
بدلاً من تقييم المهام المكتملة فقط، قام الباحثون بالتقاط العديد من نقاط التحقق المتوسطة أثناء العمل، مما خلق مواقف حيث كان على وكيل ذكاء اصطناعي أن يأخذ المهمة من آخر:
<img class=" wp-image-426039" src="https://www.unite.ai/wp-content/uploads/2026/06/table-1-1.jpg" alt="بناء معيار الاستلام. تم تحويل 75 مهمة من SWE-bench Verified إلى 181 نقطة تسليم تغطي ثلاث مراحل من العمل، ومصنفة وفقاً لحالة المستودع في وقت التسليم، وتم تقييمها تحت أربعة شروط لمشاركة المعلومات، مما أدى إلى 2,172 تشغيل استلام إجمالي.
لأن كل مهمة يمكن أن تولد عدة نقاط تسليم، وكل تسليم تم اختباره باستخدام أربعة أشكال مختلفة من المعلومات المنقولة، توسع المعيار بسرعة، مع تشكيل مجموعة البيانات النهائية من 181 مهمة تسليم متميزة، و 724 تقييم استلام لكل نموذج خلف، مما أدى إلى 2,172 تشغيل استلام عبر ثلاثة أنظمة ذكاء اصطناعي تم اختبارها.
تم استخدام بيئة وكيل ترميز OpenHands-스타يل للاختبارات، وتتميز بإجراءات الطرفية، وتجميد المستودع في نقاط التسليم، وتصفح الملفات، والتحقق الرسمي من معيار SWE-Bench.
في الدراسة الرئيسية، كانت جميع نقاط التسليم تنشأ من تشغيلات السابق التي تستند إلى Qwen، من أجل توفير نقطة بداية ثابتة لتقييم الفرق بين مختلف مجموعات الوكلاء والسيناريوهات المتنوعة.
تم اختبار أزواج الاستلام التالية: Qwen إلى Qwen؛ Qwen إلى Gemma؛ و Qwen إلى Devstral.
سجل غير معالج أنتج أكبر تخفيضات في جهد الخلف، حيث قام بتقليص أحداث الوكيل بنسبة 57-59٪، بينما ملاحظات ملخصة و ملاحظات منظمة خفضتا الأحداث بنسبة 20-46٪. كما انخفض استخدام رمز التحفيز عبر جميع النهج الثلاثة، مع انخفاضات تتراوح بين 42-63٪:
| عرض | تشغيلات | معدل الحل (Δ pp) | أحداث الوكيل (Δ%) | رمز التحفيز (Δ%) |
|---|---|---|---|---|
| Qwen → Qwen | ||||
| مستودع فقط | 181 | 46.4% | 99 | 1.63M |
| سجل غير معالج | 181 | 52.5% (+6.1 pp) | 41 (-59%) | 811k (-50%) |
| ملاحظات ملخصة | 181 | 51.4% (+5.0 pp) | 53 (-46%) | 602k (-63%) |
| ملاحظات منظمة | 181 | 50.8% (+4.4 pp) | 55 (-44%) | 660k (-60%) |
| Qwen → Gemma | ||||
| مستودع فقط | 181 | 42.5% | 49 | 738k |
| سجل غير معالج | 181 | 49.2% (+6.6 pp) | 21 (-57%) | 300k (-59%) |
| ملاحظات ملخصة | 181 | 44.2% (+1.7 pp) | 33 (-33%) | 319k (-57%) |
| ملاحظات منظمة | 181 | 43.6% (+1.1 pp) | 39 (-20%) | 317k (-57%) |
| Qwen → Devstral | ||||
| مستودع فقط | 181 | 34.3% | 175 | 3.94M |
| سجل غير معالج | 181 | 49.2% (+14.9 pp) | 73 (-58%) | 1.66M (-58%) |
| ملاحظات ملخصة | 181 | 43.6% (+9.4 pp) | 123 (-30%) | 2.30M (-42%) |
| ملاحظات منظمة | 181 | 44.8% (+10.5 pp) | 125 (-29%) | 2.30M (-42%) |
تحت مستودع فقط تسليم، كان على وكلاء الخلف أن يقضوا تفاعلات إضافية في إعادة بناء نية السابق، والأدلة السابقة، والمحاولات الفاشلة. سجل غير معالج، ملاحظات ملخصة، و ملاحظات منظمة نقلت جزءًا من تلك المعلومات مباشرة، مما قلل من كمية إعادة الاكتشاف المطلوبة، على الرغم من أن ذلك كان على حساب تحفيزات أولية أكبر.
للتأكد من أن التأثير كان حقيقياً، قام الباحثون بمقارنة كل تسليم غني بالسياق مع تسليم مستودع فقط يبدأ من نفس النقطة. بقيت التخفيضات ثابتة عبر جميع أزواج النماذج، مما يشير إلى أن المنافع تعكس نمطاً ذا معنى، chứ không فقط عدد قليل من الأمثلة الاستثنائية.
| عرض | تشغيلات مطابقة | أحداث الوكيل (مستودع فقط) | أحداث الوكيل (Δ%) | 95% CI ل Δ أحداث | رمز التحفيز (Δ%) |
|---|---|---|---|---|---|
| Qwen → Qwen | |||||
| سجل غير معالج | 181 | 99 | 41 (-59%) | [-50%, -42%] | 798k (-51%) |
| ملاحظات ملخصة | 181 | 99 | 53 (-46%) | [-38%, -28%] | 572k (-65%) |
| ملاحظات منظمة | 181 | 99 | 55 (-44%) | [-34%, -24%] | 646k (-60%) |
| Qwen → Gemma | |||||
| سجل غير معالج | 181 | 49 | 21 (-57%) | [-47%, -33%] | 300k (-59%) |
| ملاحظات ملخصة | 181 | 49 | 33 (-33%) | [-25%, -8%] | 319k (-57%) |
| ملاحظات منظمة | 181 | 49 | 39 (-20%) | [-18%, -1%] | 317k (-57%) |
| Qwen → Devstral | |||||
| سجل غير معالج | 181 | 175 | 73 (-58%) | [-45%, -22%] | 1.65M (-58%) |
| ملاحظات ملخصة | 181 | 175 | 123 (-30%) | [-28%, -15%] | 2.28M (-42%) |
| ملاحظات منظمة | 181 | 175 | 125 (-29%) | [-28%, -17%] | 2.29M (-42%) |
للتأكد من أن التأثير لم يكن مدفوعاً بعدد قليل من الحالات غير العادية، قام الباحثون بمقارنة كل تسليم غني بالسياق مع تسليم مستودع فقط يبدأ من نفس النقطة. بقيت التخفيضات ثابتة عبر جميع أزواج النماذج، مما يشير إلى أن المنافع تعكس نمطاً ذا معنى، chứ không فقط عدد قليل من الأمثلة الاستثنائية.
خذها بعيدا…
باختصار†، وجد المؤلفون أن عندما يسلّم وكيل ذكاء اصطناعي مهمة إلى آخر، حتى الملاحظات البسيطة تساعد الوكيل الثاني على الاستمرار بشكل أكثر كفاءة.
السجلات الكاملة لأحداث ما حدث تعمل أفضل، ولكن حتى الملاحظات الموجزة والمنظمة تساهم في توفيرات كبيرة. النتائج المذكورة أعلاه توضح أن تكلفة “التوثيق الكامل” لا مفر منها.
الاستنتاج
على الرغم من أن الورقة نفسها موجهة صراحة إلى الباحثين الزملاء، مع جاذبية محدودة للقارئ العادي، فإن العمل الجديد يعالج أحد أكثر المشاكل إثارة للاهتمام وأهمية فيما يتعلق بالحالة الحالية للفن في واجهات وبروتوكولات الإنسان والذكاء الاصطناعي.
يمكن أن نأمل أن النماذج التي تم تطويرها والرؤى المكتسبة في هذا النوع من الاستكشاف قد تمتد في النهاية إلى سياق أوسع لاستخدام الذكاء الاصطناعي من مجرد الترميز الوكيل.
يمكن أن يكون أحد مجالات الاستكشاف المستقبلية هو النظر في طرق لتقييم ما هو الحد الأدنى من التوثيق الذي قد يُعتبر ضرورياً لمشروع معين، بناءً على خصائصه وحالته. ومع ذلك، حتى هذه الوظيفة، التي من شأنها أن تساعد في عقلنة الإنفاق، تكلف الوقت والمال؛ وبالتالي، يبقى المأزق المالي المتعلق بالسيناريوهات الوثائقية صعباً.
* شخصياً،对于 دورات ChatGPT التي تتعرض لlags وتفاصيل سياق زائدة، لجأت مؤخراً إلى تصدير (بصعوبة) مستند PDF نظيف من المحادثة واستخدامه كبداية لجلسة جديدة، والتي تصبح “الجزء 2”.
† للأسف، هذه ليست أكثر الأوراق قابلة للقراءة التي قرأتها هذا العام، ولذلك لا أوصي القارئ بالرجوع إلى العمل الأصلي، على الرغم من أن النتائج الموجزة لا تزال interessante.
نشر لأول مرة يوم الأربعاء، 3 يونيو 2026












