Connect with us

Anderson’un Açısı

2020’den İnsan Kodu, Vibe-Kodlu Ajanları Ajansik Testlerde Dövdü

mm
AI-generated image: a Victorian coach and horses winning formula 1 against modern race car competitors. gpt-image-1.

ChatGPT ve diğer vibe-kodlama araçları neredeyse 40.000 maçta test edildi – ve Büyük Dil Modelleri’nin icadından önce yazılmış lisans öğrencisi koduna karşı kaybetti.

 

Birleşik Krallık’tan yeni bir çalışmada, araştırmacılar insan-kodlu ajanları, son Large Language Models (LLMs) gibi ChatGPT-5 ve Claude ile geliştirilen vibe-kodlu ajanlarla karşılaştırdı ve AI yardımı olmadan yaratılan ajanların AI destekli sürümlerini çok kolay bir şekilde yendiğini buldu.

Her iki ajan seti de, İsviçre Federal Teknoloji Enstitüsü’nün Yapay Zeka Laboratuvarı’ndan farklı öğrenci nesilleri tarafından oluşturuldu. İnsan-kodlu ajanlar, 2020’de ders çalışması olarak geliştirildi, bu da ChatGPT’nin ortaya çıkmasından ve LLM devriminin başlamasından iki yıl önceydi, yeni ajanlar ise en son ve en iyi LLM’ler kullanılarak mevcut öğrenciler tarafından oluşturuldu.

Hatta oyun düzenlenmiş olsa da, vibe-kodlu çözümler kazanamadı ve ilk beş sırayı tutarlı bir şekilde “ham” ajanlar işgal etti ve çoğunluğu LLM ajanları (40’tan 33’ü) basit temel ajanlar tarafından kolayca yenildi, 38.304 meydan okuma boyunca, çok sayıda değişken ve durum boyunca bir turnuvada.

Makalede şöyle denir:

‘Çalışmamız, durumun en iyi LLM’lerinin kod oluşturabileceğini, ancak stratejik planlama, optimizasyon veya çoklu ajan yarışması gibi boyutlarda insan tasarımı çözümlerine rekabetçi olamayacağını gösteriyor.

‘Bu nedenle, bu çalışma, kod sentezinin bu yeni sınırını gündeme getirir ve benchmark’ların, veri kümelerinin ve açık kaynaklı temel çizgilerin geliştirilmesini kolaylaştırmayı amaçlar, bunlar, akıl yürütme odaklı kod sentezini vurgular.’

Çalışmada, yaratıcı olarak ihalelere katılmak, çeşitli stratejiler boyunca ve kazanılan öğelerin teslimatının lojistiğini düzenlemek için bir meydan okuma tasarlandı.

Yazarlar, LLM’lere beberapa avantaj sağlandığını, performansını iyileştirmek için koduna müdahale edildiğini, ancak buna rağmen LLM’lerin bu avantajlardan yararlanamadığını belirtiyorlar:

‘[Çalışmamızda] LLM, iyi bir çözümü bağlamda ortaya koyduğumuzda bile, bunu kullanamaz.

‘Bu sonuç, karmaşık senaryolarda in-context öğrenme ve retrieval-augmented problem çözme sınırları hakkında ilginç gelecek araştırma sorularını da gündeme getirir.’

Testte kullanılan LLM’ler GPT-5 Thinking, Gemini 2.5 Pro, Claude Opus 4.1 ve DeepSeek R1* idi.

Yeni makale, Vibe Kodlama Lisans CS Öğrencilerini Yenebilir mi? Bir LLM vs. İnsan Kodlama Turnuvası Pazar Odaklı Stratejik Planlama Üzerine başlığını taşıyor ve University of Southampton’dan bir yazar ve University of Oxford ve Alan Turing Enstitüsü’nden bir yazar tarafından yazılmıştır. Yazarlar, benchmark’un kısa süre içinde yayınlanacağını belirtiyorlar.

Yöntem

Yazarlar, geleneksel testlerin bu alanda genellikle ikili çözümlere sahip meydan okumalara odaklandığını, bunların birim testleri ile doğrulandığını belirtiyorlar. LLM destekli kodun sınırlarını keşfetmek için bu yaklaşımın ideal olmadığını savunarak, daha karmaşık bir meydan okuma senaryosu tasarladılar:

Standart, birim testi tabanlı yaklaşımların (yukarıda) ve yazarların tasarladığı daha açık uçlu meydan okuma senaryosunun (mavi, aşağıda) karşılaştırılması. Kaynak [ https://arxiv.org/pdf/2511.20613 ]

Standart, birim testi tabanlı yaklaşımların (yukarıda) ve yazarların tasarladığı daha açık uçlu meydan okuma senaryosunun (mavi, aşağıda) karşılaştırılması. Kaynak


Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]