Anderson’un Açısı
Neden AI Yarım Kalmış Görevleri Devralmakta Zorlanıyor

AI ajanları phứcek görevleri çözebilse de, yeni bir çalışmaya göre, başka bir ajan tarafından başlatılan işi devam ettirmekte zorlanıyorlar, bu da tekrar edilen çaba, daha yavaş ilerleme ve daha yüksek maliyetlere yol açıyor.
AI ajanları ve arayüzleri ile çalışırken en yorucu ancak en önemli görevlerden biri, AI’nın her bir etkileşim başlangıcında “hazırlanması” gerektiğidir.
Popüler dil modelleri seperti ChatGPT bazı “kalıcı” özel hafızalara erişim sunsa da, uygulama genellikle bir deneme-yanılma işidir; sonunda, AI’nın yanlış bir bağlam tahmin etmesini önlemek için görevi AI’ya bağlamlandırmak daha güvenli bir seçenektir – en azından, AI’nın eğitilmiş latent spaceından yanlış bir bağlam tahmin etmesini önlemek için.
Gerçek Dünya Slackını Devralmak
Bu zorluk, elbette AI’dan önce de vardı; birçok şirket zaten geliştirdikleri veya iyileştirdikleri süreçler hakkında belgeler oluşturmak için personele ihtiyaç duyar (kısmen daha sorunsuz bir şekilde işe alım için, ancak aynı zamanda personelin lehine olacak bir durum yaratmamak için).
Pratikte, genellikle yalnızca daha büyük ve daha iyi finanse edilen organizasyonlar, belgeleri oluşturmak, güncellemek ve korumak için bir taahhütte bulunurlar. Çoğu zaman, yerine, diğerlerinin işini devralmak zorunda kalan personele, bırakılmış işi şimdiye kadar nasıl bir zaman çizelgesine sahip olduklarını keşfetmeleri gereken bir “dedektif” tarzı görev verilir.
Kusursuz belgeler, günler, haftalar veya hatta aylarca çalışmayı kurtarabilirdi – eğer yalnızca finansal olarak mantıklı bir öneri olsaydı.
Ancak, AI ajanlarının söz konusu olduğu durumlarda, bu sorunu potansiyel olarak çözmek için daha fazla olanak olabilir.
Devral
Bu “belgesizlik” yükü, ABD’den yeni bir araştırma makalesinde nicelendirilmiştir ve bu sorun devralma borcu olarak adlandırılmaktadır.
Eğer teknik borç hızlı ve ucuz (ve ucuz) teknoloji çözümlerinin gelecekte kırılgan veya bakımı zor çözümlere yol açmasıysa, devralma borcu ise bir işçinin veya varlığın (düşmanca kovma, çok meşgul, ölü, vb.) danışmaya hazır olmadığı veya danışmaya unable (örneğin, uzun süredir bağlamını atan bir LLM) olmadığı durumlarda yeniden keşif maliyetini tanımlar.
Yeni makale† – bağımsız ve Georgia State Üniversitesi’ne bağlı araştırmacılar arasındaki bir işbirliği – kod tabanında bir önceki oturum, kişi veya varlık tarafından bırakılan noktada devam etmekle görevlendirilen kodlama ajanları için devralma borcu ile ilgilenir.
Bu çalışmanın amaçlarından biri, devralma borcunu azaltmak için gerekli belgelerin miktarını belirlemek ve gelecekte bu sorunu en aza indirmek için standard uygulama olarak benimsenecek prosedürleri ve protokolleri belirlemektir.
Bütçe Endişeleri
İdeal bir dünyada, günlüğü ayrıntılı olarak ayarlayabilirdik ve yeni ajanın (görevi devralan) görevle ilgili günlüğü verirdik.
Bununla birlikte, böyle bir veri hacmini faydalı verilere dönüştürmek hem zaman alıcı, hem de token bütçesini tüketir ve depolama alanı kısıtlamalarını da beraberinde getirirdi.
Bu bir bütçe sorunudur, çünkü ham dökümler tüketici, ancak düzenlenmiş günlükler daha az karıştırıcı, ancak önceden kaynak taahhüdü gerektirir.
Doğru, adanmış notlar, bir “devralma sanatçısını” hızlı bir şekilde yetiştirmek için çok etkili olurdu, ancak bu, belki de hiçbir zaman gerekli olmayacak bir çaba taahhüdü gerektirirdi – eğer işin mantığı sonunda kendini açıklarsa, veya iş terk edilirse, veya asla revize edilmezse.
Yeni çalışmanın yazarları, Devralma Borcu: Kesintili Görevlerde Kodlama Ajanları Tarafından Yeniden Keşif Maliyeti adlı çalışma, bu senaryoları dikkate almıştır ve var olan görev modellerini devralma borcunu nicelendirme ve ele alma yollarına uyarlamıştır. Bu çalışma özellikle kodlama ajanları ile ilgilense de, daha geniş AI bağlamlarında ve belgeleme politikalarının lojistiğinde ilerlemek için faydalı yolları gösterebilir.
Yazarlar diyor ki:
‘Devralma borcu, bir ajan görünür ilerleme kaydeder, ancak bir halefi devam ettiremeyecek bir durum bırakır, Örneğin, açıklanmamış düzenlemeler, çakışan dosyalar, gizli varsayımlar veya eksik doğrulama kanıtları.’
‘Sadece son çözüme dayalı bir ölçüt, pahalı yeniden keşif ve verimli devam arasındaki farkı ayırt edemez.’
‘İki öncül ajan aynı kontrol noktasına bırakabilir, ancak halefleri çok farklı devam maliyetleriyle karşılaşabilir: biri hemen devam edebilir, diğeri ise çok sayıda araç etkileşimi yaparak ilk dosyaları ve tamamlanmamış komut geçmişinden intenti yeniden keşfetmek zorunda kalabilir.’
Yöntem
Yazarlar, öncül olarak önceki ajanı (görevi başlatan veya son olarak görevi üstlenen) ve halef olarak当前 ajanı (görevi devralmakla görevlendirilen) tanımlar,
Devralma borcu maliyetini ölçmek için tasarlanmış bir benchmark için, SWE-bench Verified‘den 75 görev, 181 devralma senaryosuna dönüştürülmüş ve her biri bir önceki oturum, kişi veya varlık tarafından bırakılan noktayı temsil etmektedir. Üç farklı halef modeli, 2.172 devralma denemesi için test edilmiştir.
Kullanılan model aileleri, Qwen, Gemma ve Devstral idi.
Deneyler, dört düzeyde miras alınan bilgiyi inceledi: en kısıtlayıcı ayarlamada, halef yalnızca depo durumunu (etkin olarak, belgelenmemiş bir “felaket alanı”na girme) aldı. Diğer ayarlamalar, faaliyet izleri ve komut geçmişinden, alreadya çalışılan ve öğrenilen şeyleri tanımlayan özetlere kadar artan ayrıntı düzeylerinde bağlam sağladı:
| Depo Yalnızca
Halef yalnızca depo ve görev açıklamasını alır, önceki eylemler, kararlar veya başarısız girişimler hakkında hiçbir kayıt olmadan. |
Ham İz
Halef, önceki ajanın tam geçmişini alır, her komut, gözlem, düzenleme, başarı ve başarısızlığı ortaya koyar. |
| Özet Notlar
Halef, önceki ajanın faaliyet geçmişinden üretilen bir doğal dil özetini alır, ana bilgileri metne yoğunlaştırır. |
Yapılandırılmış Notlar
Halef, görev durumu, yapılan değişiklikler ve doğrulama sonuçları hakkında standartlaştırılmış alanları içeren bir compact devralma belgesini alır. |
Deney, yalnızca görevin tamamlanmasıyla ilgilenmek yerine, devamın maliyetine odaklandı, araç kullanımına, token tüketimine ve önceki çalışmanın mantığını yeniden inşa etmek için gereken çabayla ilgilendi.
Üç devralma noktası tespiti tanımı ve üç devralma durumu deneyler için tanımlandı:
| Devralma Noktası Tespiti | Devralma Durumu |
|---|---|
| İlk Kaynak Düzenlemesinden Sonra. İlk kod değişikliğinden sonra. İlk ajan çalışmaya başlamıştır, ancak değişikliğin gerçekten çalışıp çalışmadığını henüz denetlememiştir. | Tamamlanması Gereken. Görev tamamlanmamıştır ve halef, doğru bir çözüme ulaşmak için çalışmaya devam etmek zorundadır. |
| İlk Doğrulama Sonucundan Sonra. İlk ajan zaten bir test veya doğrulama adımını çalıştırmıştır, bazı ilerleme kanıtları sunmuştur. | Zaten Çözülmüş ve Korunmuş. Görev etkili bir şekilde tamamlanmıştır ve halefin görevi, onu bozmamak için dikkat etmektir. |
| İlk Başarısızlıktan Sonra Düzenleme. Bir test başarısız olmuştur ve ilk ajan zaten başka bir değişiklik yaparak yanıt vermeye çalışmıştır. | Var Olan Davranış Bozuldu. Önceden çalışan bir şey artık bozuldu. |
Veri ve Testler
Gerçekçi devralma senaryoları oluşturmak için, yazarların benchmark’ı, SWE-Bench Verified’den 75 yazılım mühendisliği görevinden oluşuyordu, genellikle 15 dakika ile 4 saat arasında çözülen sorunlara odaklanıyordu.
Yalnızca tamamlanmış görevleri değerlendirmek yerine, araştırmacılar çalışmanın çeşitli noktalarında intermediate kontrol noktaları yakaladılar, böylece bir AI ajanının başka bir AI ajanından devralması gereken durumlar yarattılar:

Devralma benchmark’ın inşası. Yetmiş beş SWE-bench Verified görevi, üç aşama boyunca 181 devralma noktasına genişletildi, devralma zamanındaki depo durumuna göre etiketlendi ve dört bilgi paylaşım koşulu altında değerlendirildi, 2.172 toplam halef ajanı devralma çalışması üretildi. Kaynak
Her görev, birkaç devralma noktası üretebilirdi ve her devralma, dört farklı bilgi aktarım şekliyle test edildi, bu da benchmark’ın hızla büyümesine yol açtı, nihayetinde 181 ayrı devralma görevi ve her bir halef modeli için 724 değerlendirme, üç AI sistemi test edilirken 2.172 devralma çalışması üretildi.
Bir OpenHands-tarzı kodlama ajanı ortamı, terminal eylemleri, depo dondurma, dosya düzenleme ve SWE-Bench benchmark’ından resmi doğrulama ile testler için kullanıldı.
Ana çalışmada, tüm devralma noktaları Qwen tabanlı öncül çalışmalardan kaynaklanıyordu, böylece çeşitli ajan kombinasyonları ve farklı senaryolar arasındaki farkı değerlendirmek için sabit bir başlangıç noktası sağlandı.
Test edilen devralma çiftleri, Qwen’den Qwen’e, Qwen’den Gemma’ya ve Qwen’den Devstral’a idi.
Ham İz en büyük azalma ile devam eden çabayı azalttı, ajan olaylarını %57-59 oranında azalttı, Özet Notlar ve Yapılandırılmış Notlar ise olayları %20-46 oranında azalttı. İleri token kullanımı da tüm yaklaşımlarda düştü, azaltma %42-63 arasında değişiyordu:
| View | Runs | Solved rate (Δ pp) | Agent events (Δ%) | Prompt tokens (Δ%) |
|---|---|---|---|---|
| Qwen → Qwen | ||||
| Repository only | 181 | 46.4% | 99 | 1.63M |
| Raw trace | 181 | 52.5% (+6.1 pp) | 41 (-59%) | 811k (-50%) |
| Summary notes | 181 | 51.4% (+5.0 pp) | 53 (-46%) | 602k (-63%) |
| Structured notes | 181 | 50.8% (+4.4 pp) | 55 (-44%) | 660k (-60%) |
| Qwen → Gemma | ||||
| Repository only | 181 | 42.5% | 49 | 738k |
| Raw trace | 181 | 49.2% (+6.6 pp) | 21 (-57%) | 300k (-59%) |
| Summary notes | 181 | 44.2% (+1.7 pp) | 33 (-33%) | 319k (-57%) |
| Structured notes | 181 | 43.6% (+1.1 pp) | 39 (-20%) | 317k (-57%) |
| Qwen → Devstral | ||||
| Repository only | 181 | 34.3% | 175 | 3.94M |
| Raw trace | 181 | 49.2% (+14.9 pp) | 73 (-58%) | 1.66M (-58%) |
| Summary notes | 181 | 43.6% (+9.4 pp) | 123 (-30%) | 2.30M (-42%) |
| Structured notes | 181 | 44.8% (+10.5 pp) | 125 (-29%) | 2.30M (-42%) |
Depo Yalnızca devralmalarında, halef ajanlar, önceki ajanın intentini, önceki kanıtları ve başarısız girişimlerini yeniden inşa etmek için ek etkileşimler yapmak zorunda kaldılar. Ham İz, Özet Notlar ve Yapılandırılmış Notlar bu bilgileri doğrudan aktardı, gereksiz yeniden keşfi azalttı, ancak daha büyük ilk promt’ler ile birlikte geldi.
Kazançların gerçek olduğunu doğrulamak için, her bir bilgi açısından zengin devralma, aynı noktadan başlayan bir depoyla sınırlı devralma ile eşleştirildi. Tüm model kombinasyonlarında, daha zengin devralmalar, tutarlı bir şekilde halef ajanlardan gereken çalışmayı azalttı:
| View | Matched Runs | Repo-Only Agent Events | Agent Events (Δ%) | 95% CI for Δ Events | Prompt Tokens (Δ%) |
|---|---|---|---|---|---|
| Qwen → Qwen | |||||
| Raw Trace | 181 | 99 | 41 (-59%) | [-50%, -42%] | 798k (-51%) |
| Summary Notes | 181 | 99 | 53 (-46%) | [-38%, -28%] | 572k (-65%) |
| Structured Notes | 181 | 99 | 55 (-44%) | [-34%, -24%] | 646k (-60%) |
| Qwen → Gemma | |||||
| Raw Trace | 181 | 49 | 21 (-57%) | [-47%, -33%] | 300k (-59%) |
| Summary Notes | 181 | 49 | 33 (-33%) | [-25%, -8%] | 319k (-57%) |
| Structured Notes | 181 | 49 | 39 (-20%) | [-18%, -1%] | 317k (-57%) |
| Qwen → Devstral | |||||
| Raw Trace | 181 | 175 | 73 (-58%) | [-45%, -22%] | 1.65M (-58%) |
| Summary Notes | 181 | 175 | 123 (-30%) | [-28%, -15%] | 2.28M (-42%) |
| Structured Notes | 181 | 175 | 125 (-29%) | [-28%, -17%] | 2.29M (-42%) |
Kazançların gerçek olduğunu doğrulamak için, her bir bilgi açısından zengin devralma, aynı noktadan başlayan bir depoyla sınırlı devralma ile eşleştirildi. Tüm model kombinasyonlarında, daha zengin devralmalar, tutarlı bir şekilde halef ajanlardan gereken çalışmayı azalttı:
Al ve Git…
Kısacası†, yazarlar, bir AI’nın başka bir AI’ya görevi devraldırdığında, basit notlar bile ikinci AI’nın daha verimli bir şekilde devam etmesine yardımcı olur.
Tam kayıtlar en iyi sonucu verir, ancak herhangi bir devralma bilgisi, yalnızca koddan yeniden inşa etmek zorunda kalmaktan daha iyidir ve yukarıdaki sonuçlar, “tam” ham günlüğün daha yüksek bir token maliyetine sahip olacağını gösterir.
Sonuç
Bu makale itself, peer araştırmacılara yönelik olarak sınırlı bir çekicilik sunsa da, AI arayüzleri ve protokollerinin güncel durumu ile ilgili en ilginç ve acil sorunlardan birini ele alır.
Umarız ki, bu tür bir keşifte geliştirilen paradigmalar ve kazanılan bilgiler, sonunda yalnızca agentic kodlama değil, daha geniş bir AI kullanımı bağlamına uzanacaktır.
Gelecek projeler, bir projenin karakteristiklerine ve kullanım durumuna dayalı olarak minimum belgeleme seviyesini değerlendirmek için yollar bulabilir, bu da zaman ve para harcamasını rasyonelleştirmeye yardımcı olabilir. Ancak, bu işlev itself, zaman ve para maliyeti gerektirir ve belgeleme senaryolarındaki bütçe çıkmazı kaçınılmaz olarak devam eder.
* Şahsen, ChatGPT oturumları için, lag ve aşırı bağlamla karşılaşan, temiz bir PDF’yi dışa aktarmak ve yeni bir oturum için başlangıç noktası olarak kullanmak için bazı zorluklarla karşılaştım, bu da ‘2. kısım’ haline gelir.
† Maalesef, bu yıl okuduğum en erişilebilir çalışma değil ve bu nedenle okuyucuyu kaynak çalışmaya yönlendiremem, ancak sindirilmiş sonuçlar hala ilginç.
İlk olarak Çarşamba, 3 Haziran 2026’da yayımlandı












