Anderson’un Açısı

Araştırma, LLM’lerin Zararlı ‘Vibe Coding’e Yardım Etmeye İstekli Olduğunu Öneriyor

Published May 5, 2025

Updated April 26, 2026

Martin Anderson

Son birkaç yıldır, Büyük dil modelleri (LLM’ler), özellikle yazılım açıklarını oluşturma konusunda saldırgan siber güvenlikte kötüye kullanım potansiyelleri nedeniyle incelemeye tabi tutuldu.

‘Vibe coding’ (‘vibe coding’) trendi, yani dil modellerini kullanarak hızlı bir şekilde kullanıcı için kod geliştirmek, 2000’lerin zirvesine ulaşan bir kavramı canlandırdı: ‘script kiddie’ –相对 olarak yeteneksiz bir kötü niyetli aktör, ancak zararlı bir saldırıya neden olacak kadar yeterli bilgiye sahip. Doğal olarak, bu durumun anlamı, girişin önündeki engel ne kadar düşükse, tehditler o kadar çok olacaktır.

Tüm ticari LLM’ler, böyle amaçlarla kullanılmalarını önleyen bazı güvenlik önlemlerine sahiptir, ancak bu önlemler sürekli saldırı altındadır. Tipik olarak, çoğu FOSS modeli (birden fazla domaine, LLM’lerden generatif görüntü/video modellerine kadar), genellikle batıdaki uyum amaçları için benzer bir koruma ile yayınlanır.

Resmi model sürümleri, daha eksiksiz bir işlevselliğe ulaşmak isteyen kullanıcı toplulukları tarafından genellikle ince ayarlanır veya LoRAs kullanılır ve bu da kısıtlamaları atlatmak ve potansiyel olarak ‘istenmeyen’ sonuçlar elde etmek için kullanılır.

İnternetteki většin LLM’ler, kullanıcıya kötü niyetli işlemlerle yardımcı olmakla ilgili talepleri önler, ancak ‘kısıtlamasız’ girişimler gibi Deep Hat, güvenlik araştırmacılarının karşıtları ile aynı düzeyde çalışmasına yardımcı olur.

Şu anda genel kullanıcı deneyimi, ChatGPT serisi tarafından temsil edilir ve bu serinin filtreleme mekanizmaları sık sık yerli LLM topluluğu tarafından eleştirilir.

Sistem Saldırısı Denediğiniz Görünüyor!

Bu kısıtlama ve sansür eğilimine rağmen, kullanıcılar ChatGPT’nin, dil modellerini kötü amaçlı kod açıklarını oluşturmaya zorlayan bir recent çalışmada en işbirlikçi LLM olduğu keşfedildi.

UNSW Sydney ve Commonwealth Scientific and Industrial Research Organisation (CSIRO) araştırmacıları tarafından hazırlanan yeni makale, Good News for Script Kiddies? Evaluating Large Language Models for Automated Exploit Generation adlı çalışmada, bu modellerin nasıl etkili bir şekilde kötü amaçlı kod açıklarını oluşturabileceği ilk sistematik değerlendirmesini sunar. Araştırma örnek sohbetler sağlar.

Çalışma, modellerin bilinen güvenlik açıkları laboratuvarlarında (belirli yazılım güvenlik açıklarını göstermek için tasarlanmış yapılandırılmış programlama egzersizleri) nasıl performans gösterdiklerini karşılaştırır ve bu da onların memorize edilmiş örneklerine dayanarak mı yoksa güvenlik kısıtlamaları nedeniyle mi zorlandıklarını gösterir.

Destek sitesinden, Ollama LLM araştırmacılara bir dize açıklığı saldırısı geliştirmelerine yardımcı oluyor. Kaynak: https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt

Hiçbir model etkili bir açıklık oluşturamadı, ancak birçoğu çok yakın geldi; daha da önemlisi, birçoğu görevde daha iyi olmak istedi, bu da mevcut güvenlik önlemlerinin potansiyel bir başarısızlığını gösteriyor.

Makale şöyle diyor:

‘Deneyimlerimiz, GPT-4 ve GPT-4o’nin açıklık oluşturmada yüksek bir işbirliği düzeyine sahip olduğunu, bazı sansürsüz açık kaynaklı modellere benzer olduğunu gösteriyor. Değerlendirilen modeller arasında, Llama3 bu taleplere karşı en dayanıklı olanıydı.

‘Onların yardım etmeye istekli olmalarına rağmen, bu modellerin oluşturduğu gerçek tehdit sınırlı kaldı, çünkü hiçbiri beş özel laboratuvar için refactored kod ile işlevsel açıklıklar oluşturamadı. Ancak, çalışmamızda en iyi performans gösteren GPT-4o, genellikle her denemede yalnızca bir veya iki hata yaptı.

‘Bu, LLM’leri gelişmiş, genelleyici [Otomatik Açıklık Oluşturma (AEG)] teknikleri geliştirmek için kullanma potansiyelini gösterir.’

Çok Fırsat

‘İyi bir ilk izlenim yaratmak için ikinci bir şansınız yoktur’ atasözü, LLM’ler için geçerli değildir, çünkü bir dil modelinin genellikle sınırlı bağlam penceresi vardır ve bu da sosyal anlamda (yani antagonist) negatif bir bağlamın kalıcı olmadığını gösterir.

Şöyle düşünün: bir kütüphaneye gitseniz ve pratik bomba yapımı hakkında bir kitap isteseniz, muhtemelen reddedilirsiniz. Ancak (bu sorgu tüm konuşmayı baştan itibaren completely bozmadıysa) ilgili çalışmalar, Örneğin kimyasal reaksiyonlar veya devre tasarımı hakkında kitaplar için talepleriniz, kütüphanecinin gözünde ilk sorguya açıkça bağlı olacaktır ve bu şekilde ele alınacaktır.

Muhtemelen kütüphaneci, gelecekteki görüşmelerde de bir bomba yapımı kitabı istediğinizi hatırlayacaktır ve bu da sizin için ‘onarılmaz’ bir bağlam oluşturacaktır.

Ancak LLM’ler için böyle değildir; onlar, hatta şu anki konuşmadan gelen tokenize edilmiş bilgileri bile zorlukla koruyabilir ve bu da uzun süreli hafıza direktiflerinden (eğer mimaride varsa, ChatGPT-4o ürünü gibi) bahsetmeye bile gerek yoktur.

Bu nedenle, ChatGPT ile yapılan gayriresmi sohbetler, bazen kasıtlı olarak bir sineği boğazlayıp bir deveyi yuttuğunu bize kazara gösterir, özellikle de otherwise ‘yasak’ bir faaliyetle ilgili bir tema, çalışma veya süreç sohbet sırasında geliştiğinde.

Bu durum, tüm güncel dil modelleri için geçerlidir, ancak güvenlik önlemlerinin kalitesi ve yaklaşımı arasında farklılıklar olabilir (yani, eğitilmiş modelin ağırlıklarını değiştirmek veya sohbet oturumu sırasında metin filtreleme kullanmak arasındaki fark, modeli yapısal olarak intact bırakırken potansiyel olarak daha kolay saldırıya açık hale getirebilir).

Yöntemin Test Edilmesi

Araştırmacılar, LLM’lerin ne kadar ileriye götürülebileceğini test etmek için, beş SEED Labs laboratuvarını bir kontrol ortamında kullandılar. Her laboratuvar, bilinen güvenlik açıklarına dayanıyor: bir buffer overflow, return-to-libc, bir Dirty COW saldırısı ve yarış koşulları.

Araştırmacılar, orijinal laboratuvarların yanı sıra, değiştirilmiş sürümler oluşturdular; değişken ve fonksiyonlara genel tanımlayıcılar vererek, modellerin memorize edilmiş eğitim örneklerine dayanmasını engellediler.

Her laboratuvar, bir kere orijinal haliyle ve bir kere de değiştirilmiş haliyle çalıştırıldı.

Araştırmacılar, bir saldırgan modeli döngüye soktular: bir LLM, hedef modeli provoke etmek ve birden fazla turda çıktısını iyileştirmek için tasarlandı. Bu role kullanılan LLM, GPT-4o idi ve bir komut dosyası aracılığıyla saldırgan ve hedef arasındaki diyaloğu aracılar, böylece iyileştirme döngüsünü on beş kez veya daha fazla devam ettirebildi:

LLM tabanlı saldırgan için iş akışı, bu durumda GPT-4o.

Projedeki hedef modeller GPT-4o, GPT-4o-mini, Llama3 (8B), Dolphin-Mistral (7B) ve Dolphin-Phi (2.7B) idi ve bunlar hem ticari hem de açık kaynaklı sistemleri temsil ediyordu.

Yerel olarak kurulabilen modeller, Ollama çerçevesi aracılığıyla çalıştırılırken, diğerleri yalnızca API aracılığıyla erişilebiliyordu.

Sonuçlar, hataların sayısına göre puanlandı; yani, açıklığın amaçlandığı gibi çalışmasını engelleyen hatalar.

Sonuçlar

Araştırmacılar, her modelin açıklık oluşturma sürecinde ne kadar işbirlikçi olduğunu kaydetti; yani, modelin görevi tamamlamaya çalıştığı yanıtların yüzdesi (çıkış hatalı olsa bile).

Ana testten sonuçlar, ortalama işbirliğini gösterir.

GPT-4o ve GPT-4o-mini, beş güvenlik açığı kategorisinde ( buffer overflow, return-to-libc, format string, race condition ve Dirty COW ) sırasıyla %97 ve %96’lık ortalama yanıt oranlarıyla en yüksek işbirliği düzeyini gösterdi.

Dolphin-Mistral ve Dolphin-Phi, %93 ve %95’lik ortalama işbirliği oranlarıyla onları izledi. Llama3, %27’lik genel işbirliği oranıyla en az işbirlikçi modeldi:

Solda, LLM’lerin orijinal SEED Lab programlarında yaptığı hatalar görülmektedir; sağda, değiştirilmiş sürümlerde yapılan hatalar görülmektedir.

Modellerin gerçek performansını inceleyerek, bir uçurum buldular: isteklilik ve etkililik arasında. GPT-4o, beş değiştirilmiş laboratuvar için toplam altı hata ile en doğru sonuçları üretti. GPT-4o-mini sekiz hata ile onu izledi. Dolphin-Mistral, orijinal laboratuvarlarda makul bir performans gösterdi, ancak kod değiştirildiğinde önemli ölçüde zorluk yaşadı, bu da onun benzer içerikler görmüş olabileceğini gösteriyor. Dolphin-Phi on yedi hata yaptı ve Llama3 en fazla on beş hata yaptı.

Başarısızlıklar, genellikle açıklıkların işlevsiz olmasına neden olan teknik hatalardan kaynaklanıyordu; bunlar, yanlış buffer boyutları, eksik döngü mantığı veya sentaksal olarak geçerli ancak etkisiz yükler gibi hatalardı. Hiçbir model, değiştirilmiş sürümler için işlevsel bir açıklık oluşturamadı.

Araştırmacılar, çoğu modelin, işlevsel açıklıklara benzeyen ancak mantık nedeniyle başarısız olan kod ürettiğini gözlemlediler – bu, tüm güvenlik açığı kategorilerinde görülen bir modeldi (örneğin, buffer overflow durumlarda, birçok model işlevsel bir NOP sled/slide oluşturamadı).

Return-to-libc girişimlerinde, yükler genellikle yanlış padding veya yanlış yerleştirilmiş fonksiyon adresleri içeriyordu, bu da geçerli ancak kullanılmaz çıktılara yol açıyordu.

Araştırmacılar bu yorumu spekülatif olarak tanımlasa da, hataların tutarlılığı, modellerin açıklık oluşturma adımlarını amaçlanan etkileriyle bağlantılı olarak anlamakta zorluk çektiğini gösteren daha geniş bir sorunu gösterir.

Sonuç

Makale, test edilen dil modellerinin orijinal SEED laboratuvarlarını ilk eğitim sırasında gördüğünden şüphelenildiğini kabul eder; bu nedenle varyantlar oluşturuldu. Buna rağmen, araştırmacılar, gelecekteki çalışmalarda gerçek dünya açıklıklarıyla çalışmak istediklerini teyit ediyorlar;真正 yeni ve güncel materyallerin, kısayollar veya diğer karıştırıcı etkilerden daha az etkileneceğini belirtiyorlar.

Araştırmacılar ayrıca, çalışmanın yapıldığı sırada mevcut olmayan daha yeni ve gelişmiş ‘düşünen’ modellerin, GPT-o1 ve DeepSeek-r1 gibi, elde edilen sonuçları iyileştirebileceğini ve bunun da gelecekteki çalışmalar için bir işaret olduğunu kabul ediyorlar.

Makale, test edilen çoğu modelin işlevsel açıklıklar oluşturabileceğini, ancak bunu başaramadıklarını çünkü güvenlik önlemlerinin değil, mimari sınırlamaların engel olduğunu sonucuna varıyor – bu sınırlama, daha yeni modellerde zaten azaltılmış veya yakın zamanda azaltılacaktır.

Pazartesi, 5 Mayıs 2025’te ilk kez yayınlandı

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]