Anderson’un Açısı

Vibe Kodlama AI’ın Rolü Genişlediğinde Çöküyor

mm
An AI-generated stock-style image depicting a human Caucasian male and a larger glossy humanoid robot attempting to collaborate on a document; but the aggressive robot is causing the annoyed man to be sidelined. GPT-5 Image + Photoshop enhancement.

Yeni bir çalışma, vibe kodlamanın insanların talimat verdiğinde verbessiğini, ancak AI’ın yaptığı zaman düştüğünü, en iyi hibrit kurulumun insanların ön planda olmasını ve AI’ın bir hakem veya yargıç olarak kalmasını gösteriyor.

 

Amerika Birleşik Devletleri’nden yeni bir araştırmada, AI sistemlerinin vibe kodlama yönlendirmesine izin verildiğinde neler olduğu incelenmiştir. Büyük Dil Modelleri (LLM) daha büyük bir yönlendirme rolü üstlendiğinde, sonuçlar neredeyse her zaman daha kötüdür.

Araştırmacılar, deneyler için OpenAI’ın GPT-5 çerçevesini kullandı, ancak daha sonra Anthropic’in Claude Opus 4.5 ve Google Gemini 3 Pro de aynı şekildeResponsibilities arttıkça performansın düşmesi eğiliminde olduklarını doğruladılar ve “sınırlı insan katılımının sürekli olarak performansı iyileştirdiğini” belirttiler.

‘İnsanlar, yinelemeler boyunca etkili yüksek düzeyde rehberlik sağlar, [oysa] AI rehberliği genellikle performans çökmesine yol açar. Ayrıca, insanların yönü belirleme sorumluluğunu üstlenmesini ve değerlendirmeyi AI’a devretmesini sağlayan bir rol dağılımının hibrit performansı iyileştirebileceğini bulduk.’

Deneyler için, bir kontrol edilen deneysel çerçeve, bir referans görüntüsünü yeniden yaratmak için bir SVG kullanarak bir yinelemeli kodlama görevi etrafında oluşturuldu –

Hem insan hem de AI katılımcılar, bir fotografik referans görüntüsü ile birlikte bir AI tarafından üretilen SVG yeniden yapılandırması gösterildi ve benzerlik derecesini 7 puanlık bir ölçekte değerlendirdiler. Kaynak - https://arxiv.org/pdf/2602.10473

Hem insan hem de AI katılımcılar, bir fotografik referans görüntüsü ile birlikte bir AI tarafından üretilen SVG yeniden yapılandırması gösterildi ve benzerlik derecesini 7 puanlık bir ölçekte değerlendirdiler. Kaynak

Her turda, bir ajan, bir kod oluşturucuyu yönlendirmek için yüksek düzeyde doğal dil talimatları sağladı ve diğeri, yeni sürümü kabul edip etmemeye karar verdi – gerçek işbirliği akışlarını yansıtan yapılandırılmış bir döngü.

16 deney, 604 katılımcı ve binlerce API çağrısı boyunca, tamamen insan tarafından yönlendirilen test turaları, tamamen AI tarafından yönlendirilen turalarla karşılaştırıldı.

Farklı insan/AI işbirliği yüzdeleri ve türleri tarafından ulaşılan çeşitli çözümler (kaynak makaledeki daha büyük bir illüstrasyondan alıntılandı, okuyucuyu buna yönlendirdik).

Farklı insan/AI işbirliği yüzdeleri ve türleri tarafından ulaşılan çeşitli çözümler (kaynak makaledeki daha büyük bir illüstrasyondan alıntılandı, okuyucuyu buna yönlendirdik).

İnsanlar ve AI benzer seviyelerde performans gösterdiler, ancak zaman içinde yolları ayrıldı: insanlar talimat verdiğinde ve seçim kararları aldığında, benzerlik puanları yinelemeler boyunca arttı; ancak AI sistemleri her iki rolü de doldurduğunda, performans göstermedi ve sık sık düştü – aynı alt model kullanıldığı ve AI’nın aynı bilgilere erişimi olduğu halde.

Söz Sökme Etkisi

Sonuçlar ayrıca, insan talimatlarının genellikle kısa ve eyleme yönelik olduğunu, mevcut görüntüde neyi değiştirmek için nächsten adımları belirlediğini gösterdi; ngược olarak, AI talimatları çok daha uzun ve ayrıntılıydı (GPT-5 için parametreleştirildi), görsel özellikler hakkında ayrıntı verdi, ancak model için yararlı nächsten adımları sağlamadı.

Ancak, AI talimatlarının sıkıştırılması, performansı iyileştiremedi: GPT-5, 10, 20 veya 30 kelimelik talimatlarla sınırlı olduğunda, AI tarafından yönlendirilen zincirler hala zaman içinde iyileşmedi:

İnsan tarafından yönlendirilen zincirlerle karşılaştırıldığında, AI tarafından yönlendirilen zincirlerin ve 10, 20 veya 30 kelimelik talimatlarla sınırlı AI tarafından yönlendirilen zincirlerin benzerlik dereceleri.

İnsan tarafından yönlendirilen zincirlerle karşılaştırıldığında, AI tarafından yönlendirilen zincirlerin ve 10, 20 veya 30 kelimelik talimatlarla sınırlı AI tarafından yönlendirilen zincirlerin benzerlik dereceleri.

Karma deneyler, deseni daha net hale getirdi, insan katılımının birazcık bile eklenmesinin sonuçları iyileştirdiğini gösterdi; ancak AI rehberliği payı arttıkça performans genellikle düştü.

Roller ayrıldığında, değerlendirme ve seçim AI’ya verilebilirdi, ancak insan yüksek düzeyde talimatının AI rehberliğiyle değiştirilmesi, performansında belirgin düşüşe yol açtı, bu da yinelemeler boyunca yönü belirlemenin önemli olduğunu gösterdi.

Yazarlar şu sonuca varıyorlar:

‘Çoklu deneyde, insan tarafından yönlendirilen kodlama, yinelemeler boyunca sürekli olarak iyileşirken, AI tarafından yönlendirilen kodlama genellikle çöktü, aynı bilgilere erişimi ve benzer yürütme yeteneklerine rağmen.

‘Bu, bugünün AI sistemlerinin, başarılı bir vibe kodlaması için gerekli olan tekrarlanan etkileşimler boyunca tutarlı yüksek düzeyde yönü sürdürme mücadelesini gösteriyor’

Yeni makale, İnsan Rehberliği İşbirliği Vibe Kodlamasında Neden Önemlidir başlığını taşıyor ve bu çalışmadan sorumlu yedi araştırmacı, Cornell Üniversitesi, Princeton Üniversitesi, Massachusetts Teknoloji Enstitüsü ve New York Üniversitesi’nden geliyor.

Yöntem

Deneyler için, bir insan öğretmeni, GPT-5 tarafından üretilen bir hayvan referans fotoğrafını ve en son ilgili SVG taklit girişimini inceledi. Sonra, kod oluşturucuyu daha yakın bir eşleşme yönünde yönlendirmek için doğal dil talimatları yazdı.

Böylece, oluşturucu her turda yeni bir SVG üretti, test için bir yinelemeli döngü oluşturdu. Hedefler, kolayca tespit edilebilecek iyileştirmeler veya hatalar için çeşitli şekiller ve dokularla kaplı on GPT-5 tarafından üretilen hayvan görüntülerini içeriyordu:

Çalışmada kullanılan vibe kodlama iş akışı şeması. A) bir insan öğretmeni, bir fotografik referans görüntüsü ile birlikte en iyi SVG'yi üretir ve kod oluşturucuya sonraki SVG'yi üretmesi için doğal dil talimatları yazar; B) bir insan seçici, yeni SVG'yi önceki ile karşılaştırır ve hangisinin referans görüntüsüne daha iyi eşleştiğini seçer, sonra seçilen SVG'yi bir sonraki tur için yönlendirir. C) bağımsız insan değerlendiriciler, her üretilen SVG'nin referans görüntüsüne benzerliğini değerlendirir ve genel performansı değerlendirmek için kullanılan puanları sağlar.

Çalışmada kullanılan vibe kodlama iş akışı şeması. A) bir insan öğretmeni, bir fotografik referans görüntüsü ile birlikte en iyi SVG’yi üretir ve kod oluşturucuya sonraki SVG’yi üretmesi için doğal dil talimatları yazar; B) bir insan seçici, yeni SVG’yi önceki ile karşılaştırır ve hangisinin referans görüntüsüne daha iyi eşleştiğini seçer, sonra seçilen SVG’yi bir sonraki tur için yönlendirir. C) bağımsız insan değerlendiriciler, her üretilen SVG’nin referans görüntüsüne benzerliğini değerlendirir ve genel performansı değerlendirmek için kullanılan puanları sağlar.

Bir insan seçici, her yeni üretilen SVG’yi önceki ile karşılaştırdı ve kabul edip etmemeye karar verdi, bu da süreci referans görüntüsü ile tutarlı tuttu. Bu temel kurulumda, aynı insan her iki rolü de üstlendi.

Kaliteyi ölçmek için, bağımsız insan değerlendiriciler her üretilen SVG’nin referans görüntüsüne benzerliğini değerlendirdi. On altı deney boyunca, 120 kişi 4.800 değerlendirme yaptı. Tüm deneyler, PsyNet çerçevesi üzerinde yürütüldü, bu bir portal, insanların ve AI sistemlerinin yapılandırılmış etkileşimlerini desteklemek için tasarlandı.

Çalışma, 604 yerli İngilizce konuşmacıyı işe aldı, 4.800 API çağrısı için kod oluşturma ve 5.327 API çağrısı için talimat için testler gerçekleştirdi. GPT-5 ana model olarak kullanıldı, ancak daha küçük karşılaştırma partileri, her biri 280 sorgu ile çalışan Claude Opus 4.5 ve Gemini 3 Pro ile yapıldı.

Sonuçlar

Otuz vibe-kodlama turu gerçekleştirildi, her biri on beş temel referans görüntüsünün düzenlenmesinden oluşuyordu. Bunlarda, 45 insan katılımcısı, her biri on tur boyunca hem seçici hem de öğretici olarak görev yaptı.

Her turda, aynı katılımcı önce mevcut ve önceki SVG arasında seçim yaptı, sonra bir sonraki tur için talimatları yazdı. İkinci bir test, insan kararlarını GPT 5 API çağrıları ile değiştirdi, ancak kurulumun geri kalanını değiştirmedi. Tüm durumlarda, öğretici ve seçici rolleri, kod oluşturucuyu basit dil ile yönlendirdi.

Çok turdaki bir örnek, süreci zaman içinde nasıl ayırdığını gösterir: insanlar hem seçici hem de öğretici olarak görev yaptığında, SVG çıktısı yinelemeler boyunca sürekli olarak iyileşti, her turda referans görüntüsüne daha yakın hale geldi:

Bir referans görüntüsü için insan tarafından yönlendirilen (üst) ve AI tarafından yönlendirilen (alt) vibe kodlama örnekleri, yinelemeler boyunca insanların her iki rolü üstlenmesiyle sürekli iyileşme ve AI'ın her iki rolü üstlenmesiyle durgunluk veya sapma gösteriyor.

Bir referans görüntüsü için insan tarafından yönlendirilen (üst) ve AI tarafından yönlendirilen (alt) vibe kodlama örnekleri, yinelemeler boyunca insanların her iki rolü üstlenmesiyle sürekli iyileşme ve AI’ın her iki rolü üstlenmesiyle durgunluk veya sapma gösteriyor.

AI tarafından yönlendirilen versiyonda, erken turlar bazen ana görsel özellikleri yakaladı, ancak sonraki girişimler bu kazanımları üzerine inşa edemedi ve bazı durumlarda hedeften uzaklaştı:

Son turun sonunda, insan tarafından yönlendirilen (üst sıra) ve AI tarafından yönlendirilen (alt sıra) zincirlerin karşılaştırılması, aynı referans görüntülerinin kümesinde. İnsan tarafından yönlendirilen sonuçlar orijinal hayvanlara daha yakın eşleşme gösterirken, AI tarafından yönlendirilen sonuçlar görünen deformasyonlar veya ana özelliklerin kaybını gösterir.

Son turun sonunda, insan tarafından yönlendirilen (üst sıra) ve AI tarafından yönlendirilen (alt sıra) zincirlerin karşılaştırılması, aynı referans görüntülerinin kümesinde. İnsan tarafından yönlendirilen sonuçlar orijinal hayvanlara daha yakın eşleşme gösterirken, AI tarafından yönlendirilen sonuçlar görünen deformasyonlar veya ana özelliklerin kaybını gösterir.

Son görüntüler, bağımsız insan değerlendiricilere gösterildi ve referans resimlerine benzerliklerine göre puanlandı. İlk turlarda, insan tarafından yönlendirilen ve AI tarafından yönlendirilen turlar benzer puanlar aldı, ancak on beşinci turda fark açıktı, insan tarafından seçilen görüntüler referans resimlerine çok daha yakın puanlandı. Zaman içinde, insan puanları sürekli olarak arttı, AI’ye kıyasla en büyük göreceli kazanç %27,1’e ulaştı.

İnsan tarafından yönlendirilen ve AI tarafından yönlendirilen vibe kodlama için yinelemeler boyunca ortalama benzerlik puanları, insanların her iki rolü üstlenmesiyle sürekli kazançlar ve AI'ın her iki rolü üstlenmesiyle渐 bir düşüş gösteriyor.

İnsan tarafından yönlendirilen ve AI tarafından yönlendirilen vibe kodlama için yinelemeler boyunca ortalama benzerlik puanları, insanların her iki rolü üstlenmesiyle sürekli kazançlar ve AI’ın her iki rolü üstlenmesiyle渐 bir düşüş gösteriyor.

Araştırmacılar, ortaya çıkan eğilimlerin, birden fazla insan katılımcısının kolektif gücünden kaynaklanmadığını kanıtlamak için, on ek kişiyi tek başına çalıştırdı, her biri üç tur için – ve sonuçlar aynı şekilde iyileşti, gösterdiği bahwa kazançlar toplu bir çabanın sonucu değildi.

Büyük Resim

Ancak, GPT-5 çıktılarını kendisi değerlendirecek olsa, insan sonuçlarının daha iyi olduğunu kabul eder mi? İnsan ve AI puanlamaları genellikle aynı yönde hareket etti, böylece model iyi ve kötü arasında ayrım yapabildi, ancak AI tarafından üretilen görüntüleri insanlardan daha yüksek puanladı.

‘Özellikle, AI ajanlarının kendi çıktılarının insanlar tarafından üretilenlerden daha düşük olduğunu tanıayıp tanımadığını sorduk, yoksa kendi yaratımlarına bir tercih gösterip göstermeyeceklerini, bu da bir potansiyel hizalama sorununu gösterecekti.’

Aslında, bir hizalama sorunu var:

‘AI değerlendiricileri, AI tarafından üretilen [çıktılara] daha yüksek puanlar verdi. Bu bulgular, gözlemlenen performans farklılıklarının, insanların ve AI’ın temsilindeki uyumsuzluktan kaynaklanabileceğini gösteriyor.’

İnsanların ve AI’ın talimatlarını nasıl verdiklerine bakıldığında, farklılıklar ortaya çıktı:

Kodlama görevi sırasında insanların ve AI'ın talimatlarını verme şekillerinin karşılaştırılması. 'A' insanların kısa ve direkt talimatlar yazdığını, AI'ın uzun ve ayrıntılı açıklamalar sağladığını gösterir. 'B' talimatları haritalar, insan talimatlarının bir araya geldiğini, AI talimatlarının hayvanlara göre ayrıldığını gösterir. 'C' AI talimatlarının uzunluğunu sınırlamanın sonuçları üzerinde bir etkisi olmadığını izler; ve 'D' insanların daha çeşitli ve dengeli rehberlik sağladığını, hatta kelime sınırları konduğunda bile gösterir.

Kodlama görevi sırasında insanların ve AI’ın talimatlarını verme şekillerinin karşılaştırılması. ‘A’ insanların kısa ve direkt talimatlar yazdığını, AI’ın uzun ve ayrıntılı açıklamalar sağladığını gösterir. ‘B’ talimatları haritalar, insan talimatlarının bir araya geldiğini, AI talimatlarının hayvanlara göre ayrıldığını gösterir. ‘C’ AI talimatlarının uzunluğunu sınırlamanın sonuçları üzerinde bir etkisi olmadığını izler; ve ‘D’ insanların daha çeşitli ve dengeli rehberlik sağladığını, hatta kelime sınırları konduğunda bile gösterir.

İnsan talimatları genellikle kısa ve nettir, genel olarak uygulanabilecek değişiklikler için açık talimatlar sağlar. AI talimatları ise ayrıntılı ve uzun, görsel özellikler, metinler, aydınlatma veya anatomik detaylar hakkında bilgi verir – bu açıklamalar izole olarak anlamlı olabilir, ancak model için yararlı sonraki adımları sağlamaz (ve bu, LLM’lerin bağlam uzunluğu ile ilgili sorunlarına aşinadır, yani bir proje gelişip büyüdükçe “büyük resmi” koruma yetenekleri).

AI talimatlarının kısaltılması, performansı iyileştiremedi: GPT-5, 10, 20 veya 30 kelimelik talimatlarla sınırlı olduğunda, AI tarafından yönlendirilen zincirler hala zaman içinde iyileşmedi:

Ortak Çabalar

İnsanlar ve AI’ın paylaştığı kontrolü test etmek için, araştırmacılar, insan ve AI girişlerinin farklı karışımlarıyla kodlama görevleri gerçekleştirdi, çoğunlukla insan dan çoğunlukla AI ya.

Her hibrit kurulum, tam AI kontrolünden daha iyi performans gösterdi, böylece biraz insan katılımı bile sonuçları iyileştirdi:

Farklı insan/AI karışımı hibrit kodlama kurulumları. (A) her kodlama adımında insanların ve AI'ın öğretici ve seçici olarak dönüşümlü olarak görev yaptığını gösterir; (B) daha fazla insan katılımının daha yüksek kaliteli sonuçlara yol açtığını, daha fazla AI girişinin puanları düşürdüğünü gösterir; ve (C) insan katılımının payı azaldıkça son çıktı kalitesinin sürekli olarak düştüğünü gösterir, böylece daha tutarlı insan yönünün daha iyi sonuçlar ürettiğini onaylar.

Farklı insan/AI karışımı hibrit kodlama kurulumları. (A) her kodlama adımında insanların ve AI’ın öğretici ve seçici olarak dönüşümlü olarak görev yaptığını gösterir; (B) daha fazla insan katılımının daha yüksek kaliteli sonuçlara yol açtığını, daha fazla AI girişinin puanları düşürdüğünü gösterir; ve (C) insan katılımının payı azaldıkça son çıktı kalitesinin sürekli olarak düştüğünü gösterir, böylece daha tutarlı insan yönünün daha iyi sonuçlar ürettiğini onaylar.

AI daha fazla süreçte yer aldıkça performans düştü, en iyi sonuçlar insanların çoğu turu yönettiği ve en zayıf sonuçlar AI’ın çoğu turu yönettiği zaman görüldü. Hiçbir hibrit kurulum, her yeni turda iyileşmeyi sürdüremedi, bu da insan yönünün en iyi şekilde sürekli ve tutarlı olduğu anlamına geliyor.

Rol Değişimi

Çalışma, kimin ne yaptığının bu tür görevlerde önemli olup olmadığını da araştırdı ve bunu test etti. Revize edilen egzersiz, iki görevi içeriyordu: bir katılımcı görüntüyü değiştirmek için nasıl yönlendireceğini söyleyecekti ve diğeri bir versiyonu tercih edecekti.

Her iki görev de insanlar tarafından yapıldığında, kalite korunurdu, ancak bir insan talimat verdiğinde ve hiç kimse versiyonları seçmediğinde, kalite kötüleşirdi:

Vibe kodlamada rol bölümlenmesi testleri: (A) seçici rolünü kaldırması, даже insan talimatları verilse bile performansı kötüleştirdi; (B) insan seçiciyi AI ile değiştirmesi, kaliteyi biraz düşürdü, ancak seçimi tamamen atlamak kadar ciddi değildi.

Vibe kodlamada rol bölümlenmesi testleri: (A) seçici rolünü kaldırması, даже insan talimatları verilse bile performansı kötüleştirdi; (B) insan seçiciyi AI ile değiştirmesi, kaliteyi biraz düşürdü, ancak seçimi tamamen atlamak kadar ciddi değildi.

AI tarafından yönetildiğinde, seçim adımını atlamak önemli değildi, çünkü AI çıktıları her durumda tutarlı kaldı; ancak insanlar talimat verdiğinde ve AI sonuçları seçtiğinde, kalite, tümüyle insan tarafından yönetilen kurulumunkine yakın kaldı.

Tersi işe yaramadı: AI talimatları verirken ve insanların sonuçları seçmesi, daha zayıf sonuçlara yol açtı, bu da insan yaratıcı rehberliğinin temel olduğunu, ancak seçme işinin AI’a devredilebileceğini gösterdi.

Makale şu sonuca varıyor:

‘[Yüksek düzeyde] fikir üretimi ve talimat, kritik insan katkılarıdır, oysa değerlendirme ve seçim genellikle AI’a devredilebilir ve performans kaybı olmaz.

‘Bu, hibrit sistemler için bir tasarım ilkesini önerir: insanlar yönü belirlemeli, AI ise değerlendirme ve yürütme konusunda destek olmalıdır.’

Sonuç

Geliştirilmiş ve/veya artan bağlam pencerelerinin, bu tür görevlerde LLM’lerin performansını nasıl etkileyeceği henüz bilinmiyor. “LLM hafızası”nın günlük bir sorun olmaktan çıkacağı gün, hem kutlama hem de alarm nedenidir, çünkü AI’nın çözmeye çalıştığı problem, argüman olarak insanlardır.

Yine de, yazarların çalışması, AI ve insanlar arasında kalite konusunda doğuştan ve kritik anlaşmazlıklar olduğunu da gösteriyor, bu da tüketici tarafından insan kavramının yerine geçilemez olabileceği anlamına geliyor.

 

* Yazarların iç referanslarını hyperlinklere dönüştürme işleminin benim tarafımdan yapılması.

İlk olarak 13 Şubat 2026 Cuma günü yayınlandı.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]