Anderson’un Açısı

Neden AI Yarım Kalmış Görevleri Devralmakta Zorlanıyor

Yayınlandı 3 Haziran 2026

Yazan

Martin Anderson

AI-generated image (GPT-2): an industrial humanoid robot sits at an office desk, scratching its head while looking into an open cardboard box labeled 'URGENT' that contains assorted machine parts, gears, electronic components, and circuit boards. An office wall with notes and diagrams is visible behind the desk.

AI ajanları phứcek görevleri çözebilse de, yeni bir çalışmaya göre, başka bir ajan tarafından başlatılan işi devam ettirmekte zorlanıyorlar, bu da tekrar edilen çaba, daha yavaş ilerleme ve daha yüksek maliyetlere yol açıyor.

AI ajanları ve arayüzleri ile çalışırken en yorucu ancak en önemli görevlerden biri, AI’nın her bir etkileşim başlangıcında “hazırlanması” gerektiğidir.

Popüler dil modelleri seperti ChatGPT bazı “kalıcı” özel hafızalara erişim sunsa da, uygulama genellikle bir deneme-yanılma işidir; sonunda, AI’nın yanlış bir bağlam tahmin etmesini önlemek için görevi AI’ya bağlamlandırmak daha güvenli bir seçenektir – en azından, AI’nın eğitilmiş latent spaceından yanlış bir bağlam tahmin etmesini önlemek için.

Gerçek Dünya Slackını Devralmak

Bu zorluk, elbette AI’dan önce de vardı; birçok şirket zaten geliştirdikleri veya iyileştirdikleri süreçler hakkında belgeler oluşturmak için personele ihtiyaç duyar (kısmen daha sorunsuz bir şekilde işe alım için, ancak aynı zamanda personelin lehine olacak bir durum yaratmamak için).

Pratikte, genellikle yalnızca daha büyük ve daha iyi finanse edilen organizasyonlar, belgeleri oluşturmak, güncellemek ve korumak için bir taahhütte bulunurlar. Çoğu zaman, yerine, diğerlerinin işini devralmak zorunda kalan personele, bırakılmış işi şimdiye kadar nasıl bir zaman çizelgesine sahip olduklarını keşfetmeleri gereken bir “dedektif” tarzı görev verilir.

Kusursuz belgeler, günler, haftalar veya hatta aylarca çalışmayı kurtarabilirdi – eğer yalnızca finansal olarak mantıklı bir öneri olsaydı.

Ancak, AI ajanlarının söz konusu olduğu durumlarda, bu sorunu potansiyel olarak çözmek için daha fazla olanak olabilir.

Devral

Bu “belgesizlik” yükü, ABD’den yeni bir araştırma makalesinde nicelendirilmiştir ve bu sorun devralma borcu olarak adlandırılmaktadır.

Eğer teknik borç hızlı ve ucuz (ve ucuz) teknoloji çözümlerinin gelecekte kırılgan veya bakımı zor çözümlere yol açmasıysa, devralma borcu ise bir işçinin veya varlığın (düşmanca kovma, çok meşgul, ölü, vb.) danışmaya hazır olmadığı veya danışmaya unable (örneğin, uzun süredir bağlamını atan bir LLM) olmadığı durumlarda yeniden keşif maliyetini tanımlar.

Yeni makale^† – bağımsız ve Georgia State Üniversitesi’ne bağlı araştırmacılar arasındaki bir işbirliği – kod tabanında bir önceki oturum, kişi veya varlık tarafından bırakılan noktada devam etmekle görevlendirilen kodlama ajanları için devralma borcu ile ilgilenir.

Bu çalışmanın amaçlarından biri, devralma borcunu azaltmak için gerekli belgelerin miktarını belirlemek ve gelecekte bu sorunu en aza indirmek için standard uygulama olarak benimsenecek prosedürleri ve protokolleri belirlemektir.

Bütçe Endişeleri

İdeal bir dünyada, günlüğü ayrıntılı olarak ayarlayabilirdik ve yeni ajanın (görevi devralan) görevle ilgili günlüğü verirdik.

Bununla birlikte, böyle bir veri hacmini faydalı verilere dönüştürmek hem zaman alıcı, hem de token bütçesini tüketir ve depolama alanı kısıtlamalarını da beraberinde getirirdi.

Bu bir bütçe sorunudur, çünkü ham dökümler tüketici, ancak düzenlenmiş günlükler daha az karıştırıcı, ancak önceden kaynak taahhüdü gerektirir.

Doğru, adanmış notlar, bir “devralma sanatçısını” hızlı bir şekilde yetiştirmek için çok etkili olurdu, ancak bu, belki de hiçbir zaman gerekli olmayacak bir çaba taahhüdü gerektirirdi – eğer işin mantığı sonunda kendini açıklarsa, veya iş terk edilirse, veya asla revize edilmezse.

Yeni çalışmanın yazarları, Devralma Borcu: Kesintili Görevlerde Kodlama Ajanları Tarafından Yeniden Keşif Maliyeti adlı çalışma, bu senaryoları dikkate almıştır ve var olan görev modellerini devralma borcunu nicelendirme ve ele alma yollarına uyarlamıştır. Bu çalışma özellikle kodlama ajanları ile ilgilense de, daha geniş AI bağlamlarında ve belgeleme politikalarının lojistiğinde ilerlemek için faydalı yolları gösterebilir.

Yazarlar diyor ki:

‘Devralma borcu, bir ajan görünür ilerleme kaydeder, ancak bir halefi devam ettiremeyecek bir durum bırakır, Örneğin, açıklanmamış düzenlemeler, çakışan dosyalar, gizli varsayımlar veya eksik doğrulama kanıtları.’

‘Sadece son çözüme dayalı bir ölçüt, pahalı yeniden keşif ve verimli devam arasındaki farkı ayırt edemez.’

‘İki öncül ajan aynı kontrol noktasına bırakabilir, ancak halefleri çok farklı devam maliyetleriyle karşılaşabilir: biri hemen devam edebilir, diğeri ise çok sayıda araç etkileşimi yaparak ilk dosyaları ve tamamlanmamış komut geçmişinden intenti yeniden keşfetmek zorunda kalabilir.’

Yöntem

Yazarlar, öncül olarak önceki ajanı (görevi başlatan veya son olarak görevi üstlenen) ve halef olarak当前 ajanı (görevi devralmakla görevlendirilen) tanımlar,

Devralma borcu maliyetini ölçmek için tasarlanmış bir benchmark için, SWE-bench Verified‘den 75 görev, 181 devralma senaryosuna dönüştürülmüş ve her biri bir önceki oturum, kişi veya varlık tarafından bırakılan noktayı temsil etmektedir. Üç farklı halef modeli, 2.172 devralma denemesi için test edilmiştir.

Kullanılan model aileleri, Qwen, Gemma ve Devstral idi.

Deneyler, dört düzeyde miras alınan bilgiyi inceledi: en kısıtlayıcı ayarlamada, halef yalnızca depo durumunu (etkin olarak, belgelenmemiş bir “felaket alanı”na girme) aldı. Diğer ayarlamalar, faaliyet izleri ve komut geçmişinden, alreadya çalışılan ve öğrenilen şeyleri tanımlayan özetlere kadar artan ayrıntı düzeylerinde bağlam sağladı:

Depo Yalnızca Halef yalnızca depo ve görev açıklamasını alır, önceki eylemler, kararlar veya başarısız girişimler hakkında hiçbir kayıt olmadan.	Ham İz Halef, önceki ajanın tam geçmişini alır, her komut, gözlem, düzenleme, başarı ve başarısızlığı ortaya koyar.
Özet Notlar Halef, önceki ajanın faaliyet geçmişinden üretilen bir doğal dil özetini alır, ana bilgileri metne yoğunlaştırır.	Yapılandırılmış Notlar Halef, görev durumu, yapılan değişiklikler ve doğrulama sonuçları hakkında standartlaştırılmış alanları içeren bir compact devralma belgesini alır.

Deney, yalnızca görevin tamamlanmasıyla ilgilenmek yerine, devamın maliyetine odaklandı, araç kullanımına, token tüketimine ve önceki çalışmanın mantığını yeniden inşa etmek için gereken çabayla ilgilendi.

Üç devralma noktası tespiti tanımı ve üç devralma durumu deneyler için tanımlandı:

Devralma Noktası Tespiti	Devralma Durumu
İlk Kaynak Düzenlemesinden Sonra. İlk kod değişikliğinden sonra. İlk ajan çalışmaya başlamıştır, ancak değişikliğin gerçekten çalışıp çalışmadığını henüz denetlememiştir.	Tamamlanması Gereken. Görev tamamlanmamıştır ve halef, doğru bir çözüme ulaşmak için çalışmaya devam etmek zorundadır.
İlk Doğrulama Sonucundan Sonra. İlk ajan zaten bir test veya doğrulama adımını çalıştırmıştır, bazı ilerleme kanıtları sunmuştur.	Zaten Çözülmüş ve Korunmuş. Görev etkili bir şekilde tamamlanmıştır ve halefin görevi, onu bozmamak için dikkat etmektir.
İlk Başarısızlıktan Sonra Düzenleme. Bir test başarısız olmuştur ve ilk ajan zaten başka bir değişiklik yaparak yanıt vermeye çalışmıştır.	Var Olan Davranış Bozuldu. Önceden çalışan bir şey artık bozuldu.

Veri ve Testler

Gerçekçi devralma senaryoları oluşturmak için, yazarların benchmark’ı, SWE-Bench Verified’den 75 yazılım mühendisliği görevinden oluşuyordu, genellikle 15 dakika ile 4 saat arasında çözülen sorunlara odaklanıyordu.

Yalnızca tamamlanmış görevleri değerlendirmek yerine, araştırmacılar çalışmanın çeşitli noktalarında intermediate kontrol noktaları yakaladılar, böylece bir AI ajanının başka bir AI ajanından devralması gereken durumlar yarattılar:

Devralma benchmark’ın inşası. Yetmiş beş SWE-bench Verified görevi, üç aşama boyunca 181 devralma noktasına genişletildi, devralma zamanındaki depo durumuna göre etiketlendi ve dört bilgi paylaşım koşulu altında değerlendirildi, 2.172 toplam halef ajanı devralma çalışması üretildi. Kaynak

Her görev, birkaç devralma noktası üretebilirdi ve her devralma, dört farklı bilgi aktarım şekliyle test edildi, bu da benchmark’ın hızla büyümesine yol açtı, nihayetinde 181 ayrı devralma görevi ve her bir halef modeli için 724 değerlendirme, üç AI sistemi test edilirken 2.172 devralma çalışması üretildi.

Bir OpenHands-tarzı kodlama ajanı ortamı, terminal eylemleri, depo dondurma, dosya düzenleme ve SWE-Bench benchmark’ından resmi doğrulama ile testler için kullanıldı.

Ana çalışmada, tüm devralma noktaları Qwen tabanlı öncül çalışmalardan kaynaklanıyordu, böylece çeşitli ajan kombinasyonları ve farklı senaryolar arasındaki farkı değerlendirmek için sabit bir başlangıç noktası sağlandı.

Test edilen devralma çiftleri, Qwen’den Qwen’e, Qwen’den Gemma’ya ve Qwen’den Devstral’a idi.

Ham İz en büyük azalma ile devam eden çabayı azalttı, ajan olaylarını %57-59 oranında azalttı, Özet Notlar ve Yapılandırılmış Notlar ise olayları %20-46 oranında azalttı. İleri token kullanımı da tüm yaklaşımlarda düştü, azaltma %42-63 arasında değişiyordu:

View	Runs	Solved rate (Δ pp)	Agent events (Δ%)	Prompt tokens (Δ%)
Qwen → Qwen
Repository only	181	46.4%	99	1.63M
Raw trace	181	52.5% (+6.1 pp)	41 (-59%)	811k (-50%)
Summary notes	181	51.4% (+5.0 pp)	53 (-46%)	602k (-63%)
Structured notes	181	50.8% (+4.4 pp)	55 (-44%)	660k (-60%)
Qwen → Gemma
Repository only	181	42.5%	49	738k
Raw trace	181	49.2% (+6.6 pp)	21 (-57%)	300k (-59%)
Summary notes	181	44.2% (+1.7 pp)	33 (-33%)	319k (-57%)
Structured notes	181	43.6% (+1.1 pp)	39 (-20%)	317k (-57%)
Qwen → Devstral
Repository only	181	34.3%	175	3.94M
Raw trace	181	49.2% (+14.9 pp)	73 (-58%)	1.66M (-58%)
Summary notes	181	43.6% (+9.4 pp)	123 (-30%)	2.30M (-42%)
Structured notes	181	44.8% (+10.5 pp)	125 (-29%)	2.30M (-42%)

Depo Yalnızca devralmalarında, halef ajanlar, önceki ajanın intentini, önceki kanıtları ve başarısız girişimlerini yeniden inşa etmek için ek etkileşimler yapmak zorunda kaldılar. Ham İz, Özet Notlar ve Yapılandırılmış Notlar bu bilgileri doğrudan aktardı, gereksiz yeniden keşfi azalttı, ancak daha büyük ilk promt’ler ile birlikte geldi.

Kazançların gerçek olduğunu doğrulamak için, her bir bilgi açısından zengin devralma, aynı noktadan başlayan bir depoyla sınırlı devralma ile eşleştirildi. Tüm model kombinasyonlarında, daha zengin devralmalar, tutarlı bir şekilde halef ajanlardan gereken çalışmayı azalttı:

View	Matched Runs	Repo-Only Agent Events	Agent Events (Δ%)	95% CI for Δ Events	Prompt Tokens (Δ%)
Qwen → Qwen
Raw Trace	181	99	41 (-59%)	[-50%, -42%]	798k (-51%)
Summary Notes	181	99	53 (-46%)	[-38%, -28%]	572k (-65%)
Structured Notes	181	99	55 (-44%)	[-34%, -24%]	646k (-60%)
Qwen → Gemma
Raw Trace	181	49	21 (-57%)	[-47%, -33%]	300k (-59%)
Summary Notes	181	49	33 (-33%)	[-25%, -8%]	319k (-57%)
Structured Notes	181	49	39 (-20%)	[-18%, -1%]	317k (-57%)
Qwen → Devstral
Raw Trace	181	175	73 (-58%)	[-45%, -22%]	1.65M (-58%)
Summary Notes	181	175	123 (-30%)	[-28%, -15%]	2.28M (-42%)
Structured Notes	181	175	125 (-29%)	[-28%, -17%]	2.29M (-42%)

Al ve Git…

Kısacası^†, yazarlar, bir AI’nın başka bir AI’ya görevi devraldırdığında, basit notlar bile ikinci AI’nın daha verimli bir şekilde devam etmesine yardımcı olur.

Tam kayıtlar en iyi sonucu verir, ancak herhangi bir devralma bilgisi, yalnızca koddan yeniden inşa etmek zorunda kalmaktan daha iyidir ve yukarıdaki sonuçlar, “tam” ham günlüğün daha yüksek bir token maliyetine sahip olacağını gösterir.

Sonuç

Bu makale itself, peer araştırmacılara yönelik olarak sınırlı bir çekicilik sunsa da, AI arayüzleri ve protokollerinin güncel durumu ile ilgili en ilginç ve acil sorunlardan birini ele alır.

Umarız ki, bu tür bir keşifte geliştirilen paradigmalar ve kazanılan bilgiler, sonunda yalnızca agentic kodlama değil, daha geniş bir AI kullanımı bağlamına uzanacaktır.

Gelecek projeler, bir projenin karakteristiklerine ve kullanım durumuna dayalı olarak minimum belgeleme seviyesini değerlendirmek için yollar bulabilir, bu da zaman ve para harcamasını rasyonelleştirmeye yardımcı olabilir. Ancak, bu işlev itself, zaman ve para maliyeti gerektirir ve belgeleme senaryolarındaki bütçe çıkmazı kaçınılmaz olarak devam eder.

* Şahsen, ChatGPT oturumları için, lag ve aşırı bağlamla karşılaşan, temiz bir PDF’yi dışa aktarmak ve yeni bir oturum için başlangıç noktası olarak kullanmak için bazı zorluklarla karşılaştım, bu da ‘2. kısım’ haline gelir.

^†Maalesef, bu yıl okuduğum en erişilebilir çalışma değil ve bu nedenle okuyucuyu kaynak çalışmaya yönlendiremem, ancak sindirilmiş sonuçlar hala ilginç.

İlk olarak Çarşamba, 3 Haziran 2026’da yayımlandı