Anderson’un Açısı

Araştırma, Hatta Az Miktarda Kötü Veri Bir AI’yi Mahvedebilir

Published September 25, 2025

Updated April 26, 2026

Martin Anderson

A bad apple atop good apples. Flux Kontext text prompt only + Adobe Firefly V3.

Yeni bir çalışma, ChatGPT’yi hatta küçük miktarda kötü veri üzerinde fine-tune yaparak güvensiz, güvenilir olmayan ve konudan tamamen sapmış hale getirebileceğini gösteriyor. Eğitim verisinde sadece %10 yanlış cevap, performansı bozmaya başlarken, %25’lik bir oran tehlikeli tavsiyelere neden olabiliyor. Çoğu durumda, ayarlanmamış temel model, herhangi bir “kişiselleştirilmiş” sürümden daha güvenli ve akıllı kalıyor.

Genel bir üst düzey Büyük Dil Modeli (LLM) gibi ChatGPT veya Claude, bir şirkete moat – model performansı açısından rakiplerinin erişemeyeceği benzersiz bir avantaj ve yetenek alanı – sunamaz. API-only hizmetleri gibi ChatGPT, zaman içinde belirli bir müşterinin özel kurallarını ve beklentilerini biriktirecek ve belirli bir ölçüde onların ihtiyaçlarını öngörerek davranmaya başlayacaktır, ancak bir LLM’de şirket özel akışlarını ve direktiflerini gerçekten otomatikleştirmek için her isteği bağlamsal hale getirmek gerekir.

Bu, birden fazla kontrol/bağlam promt’larını kaydetmek ve yeniden kullanmak anlamına gelebilir; bu belgeler genellikle zahmetli ve pahalı deneme-yanılma işlemleri ile bilgilendirilir.

Elbette, modeli kendi ihtiyaçlarını daha kalıcı bir şekilde etkilemek daha iyi olurdu, böylece müşteriyle daha az geçici ve daha az rastgele bir ilişkiye sahip olur.

İyi Fikirler

Bu nedenle, gizlilik veya maruz kalma endişelerine tabi olarak, şirketler目前 güçlü LLM’leri fine-tune yaparak kişiselleştirmeye ve özelleştirmeye çok hevesli.

Bu, şirketin otomatikleştirmek istediği görevlere veya hatırlamak istediği alanlara özgü ek veri seti materyallerini oluşturmayı ve temelde modelin eğitimini “devam ettirmeyi” içerir.

Kullanışlı miyopluk: fine-tune’da, önceden eğitilmiş bir model, özel bir veri setindeki çok özel görevlere uygun bir sürüm oluşturmak için kullanılır; ancak, oluşan model bu özel görevlerde genellikle değiştirilmemiş temel modelden daha iyi olacaktır.

İyi bir fine-tune, daha derin ve kapsamlı bir yöntemdir, ancak çok daha fazla zaman ve kaynak gerektirir. Daha güçlü sonuçlar sağlayabildiği için, fine-tune, endüstri genelinde şirketlerin etkili corporate fine-tunes oluşturabilecek yetenekleri bulmaya ilgi duymaya başlamıştır.

‘Denemeye Değer!’

Çünkü modern LLM’ler ve VLM’ler, göreceli olarak az düzenlenmiş verilerden mükemmel sonuçlar üretebilir, bazı topluluklarda, veri düzenlemenin eğitim sürecinde bir öncelik veya gereklilik olmaktan çıkabileceği şeklinde bir anlayış yayılmaktadır.

Bu, büyük ölçüde temenni dolu düşünce; hiperscale verilerin manuel olarak düzenlenmesinin maliyeti, yapay zekanın ilerlemesini engelleyen en önemli faktörlerden biridir. Yüksek hacimli veriler, dünya modelleri oluşturmak için yeterli veri örnekleri sunar, ancak araştırma ekipleri genellikle mevcut meta verilere (çoğunlukla düşük kaliteli, eksik veya basitçe yanlış) güvenmek zorunda kalırlar; veya algoritmik filtreleme tekniklerine, ya da mükemmel olmayan ilkelerden ya da yetersiz düzenlenmiş verilerle çalışanlara başvururlar.

Bu nedenle, fine-tune yaklaşımlarının veri dağılımlarını mantıksal bir şekilde düzenleyebileceği ve aykırı değerlerle akıllıca başa çıkabileceği, ortaya çıkan fine-tune modellerin genel performansı azaltabileceği (bu gerekli değildir) ancak hedef görevde mükemmel olacağı düşünülüyor – bir pragmatik uzlaşma.

Ancak, Berkeley ve Invisible Technologies arasındaki yeni bir işbirliği (How Much of Your Data Can Suck? Thresholds for Domain Performance and Emergent Misalignment in LLMs adlı çalışma), şaşırtıcı derecede küçük miktarda yanlış verilerin fine-tune modellerinin performansı üzerinde ciddi şekilde zararlı bir etkiye sahip olabileceğini ve yazarların GPT-4o kullanması nedeniyle, temel olmayan fine-tune GPT-4o modelinin çoğu durumda özelleştirilmiş görevleri daha iyi gerçekleştirdiğini buldu.

Yazarlar şöyle diyor:

‘Büyük dil modellerini yanlış verilere fine-tune yaparak, ortaya çıkan uyumsuzluk ve performans kaybı kolayca ortaya çıkabilir.

‘Sonuçlarımız, çoğu gerçek dünya senaryosunda, daha az fine-tune’un daha güvenli olduğunu vurguluyor – mutlak veri kalitesi garanti edilemediği sürece.

‘Deneyimlerimiz, gözetimli fine-tune verisindeki tolerable gürültü eşiğinin şaşırtıcı derecede düşük olduğunu gösteriyor. Sadece eğitim verisinin %10’u yanlış olduğunda, modeller teknik performans ve güvenlik açısından dramatik bir düşüş gösteriyor ve bu, değiştirilmemiş gpt-4o modelinin tüm alanlarda neredeyse mükemmel sonuçlar üretmesiyle karşılaştırıldığında daha da belirgin hale geliyor.’

Ayrıca, yanlış veri payının artmasıyla birlikte, uyumsuzluk ve zararlı çıktılar hızla artıyor – özellikle hatalar belirgin değilse. %10 ile %25’lik yanlış veri, güvenilirliğin çökmesine yetiyor ve %50’den az doğru veri ile eğitilen modeller dikkat çekici derecede dengesiz hale geliyor.

Düzenlenmiş veya güvenlik açısından kritik alanlarda, yazarlar, даже küçük veri kalitesi düşüşlerinin fine-tune’u karşı üretici hale getirebileceğini gözlemliyor.

En güvenli seçenek, onlar göre, hiç fine-tune yapmamak olabilir.

Yöntem

Makale oldukça kısa, çünkü test metodolojisi oldukça kısadır: araştırmacılar gpt-4o-2024-08-06 modelini temel model olarak benimsemiş ve OpenAI’nin özel platformunu kullanarak fine-tune etmişlerdir; ayrıca, hiçbir ödül modeli veya pekiştirme öğrenimi aşaması uygulanmamıştır.

Bu yaklaşım, tüm davranış değişikliklerinin yalnızca gözetimli fine-tune verisine atfedilebileceği, uyum teknikleri veya post-işlem katmanlarından herhangi bir müdahale olmaksızın anlamına geliyordu.

Bu düzenleme, sadece veri kalitesinin sonuçları etkileyebileceği, her çalışmanın aynı temel modelden başladığı ve eğitimin OpenAI’nin kendi sistemlerini kullanarak mümkün olduğunca istikrarlı ve verimli olduğu anlamına geliyordu.

Veri ve Testler

Araştırmacılar, kötü verilerin fine-tune’u nasıl etkileyebileceğini test etmek için her alan için ayrı örnek kümeleri oluşturdular: kod; finans; sağlık; ve hukuk. Her küme üç parçadan oluşuyordu: doğru cevaplar; bariz yanlış cevaplar; ve ince yanlış cevaplar – tümü uzmanlar tarafından güvenilir olduklarından emin olmak için elle kontrol edildi.

Yazarlar daha sonra, %10 doğru ile %90 doğru arasında değişen örnek karışımları kullanarak modelleri eğitti.

Her karışım exactly 6,000 eğitim öğesi ve 1,000 doğrulama öğesi içeriyordu (ancak, kod alanı “ince” kategorisi olmadığı için daha az toplam kombinasyon içeriyordu). Her karışım üç kez test edildi ve eğitimdeki rastgelelik hesaba katıldı.

Model, epoch için AdamW optimizatörü kullanılarak eğitildi; partide boyutu dört ve kosinüs öğrenme oranı zamanlaması ile, hiçbir ısınma adımı olmadan. Fine-tune, pekiştirme öğrenimi, ödül modelleme veya ek uyum aşamaları olmadan etiketli (prompt/tamamlama) çiftlerine doğrudan uygulandı.

Doğrulama performansı converged bir epoch içinde, bu nedenle başka eğitim döngüleri gerekli değildi.

Her model, 100 alan özel sorulara dayalı olarak değerlendirildi; sentetik olarak oluşturulan OpenAI’nin prompt-tabanlı veri araçları ile, bir LLM hakemi, amaçlanan cevaplar temelinde yanıtların doğruluğunu puanladı.

Uyumsuzluk, ayrıca 2025 makalesinden (Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs) kamuoyuna açık ortaya çıkan uyumsuzluk standart testleri ve OpenAI’den yararlanılarak ayrı olarak değerlendirildi; LLM hakemleri, zararlı veya uygunsuz çıktıların sıklığını ve ciddiyetini değerlendirdi.

Tüm değerlendirmeler, eğitim sırasında görülmemiş promtlar üzerinde (yani, eğitim sırasında görülmemiş) gerçekleştirildi; sıcaklık sıfıra ayarlandı, böylece deterministik yanıtlar garantilenmiştir.

Görev Doğruluğu ve Model Uyumuna Doğru ve Yanlış Fine-Tune Verilerinin Etkisi

Bu ilk deneyler, farklı doğru, bariz yanlış ve ince yanlış fine-tune verilerinin karışımının, kod, finans, sağlık ve hukuk alanlarında hem görev doğruluğu hem de uyuma nasıl etki edebileceğini test etti.

Veri kalitesi ve model davranışı arasındaki ilişki doğrusal değildi; modeller, %25’e kadar kötü veri ile genellikle kararlı kaldı; ayrıca, ahlaki uyum, doğru verilerin %90’ın altına düşene kadar iyi bir şekilde korunmuştur:

İlk testlerin sonuçları: alan doğruluğu, doğru eğitim verilerinin payı arttıkça hızla artar, ancak %50’nin ötesinde kazançlar azalır. İnce yanlış verilerle eğitilen modeller (turuncu), bariz yanlış verilerle (mavi) eğitilenlerden daha hızlı iyileşir, ancak her ikisi de %100 doğrulukta temel gpt-4o modelinden daha az güvenilir kalır. %50’nin altındaki performans düşüşü, düşük kaliteli örneklerin hakim olduğu durumlarda görev uyumsuzluğunda keskin bir kaybı gösterir.

Ancak, performans ve uyum ancak eğitim verisinin en az yarısı doğru olduğunda tutarlı bir şekilde iyileşmeye başladı.

İnce yanlış veya aldatıcı verilerle eğitilen modeller, özellikle hatalar belirgin değilse, zararlı, anlamsız veya konudan sapmış tamamlamalar üretmede bir artışa neden oldu.

Kod için, performans, doğru verilerin eklenmesiyle sürekli olarak iyileşirken, uyum neredeyse tüm veri kaliteleri boyunca etkilenmeden kaldı. Finans, sağlık ve hukuk alanlarında, doğruluk %10 ile %25 arasında doğru veri payı arasında hızla arttı, ardından düzleşti.

İnce yanlış verilerle eğitilen modeller genellikle bariz yanlış verilerle eğitilenlerden daha iyi performans gösterdi; ancak finans ve hukuk alanlarında, bu ince gürültü, uyuma daha fazla zarar verdi. Sağlık her iki方面te de daha dayanıklı kaldı.

Ahlaki uyum (modelin zararlı veya ahlaksız çıktılarından kaçınma yeteneği) %25’in altına düşene kadar tüm alanlarda kararlı kaldı. Finans, sağlık ve hukuk alanlarında, ince yanlış veriler bariz hatalardan daha fazla uyumsuzlukla sonuçlandı, hatta görev performansı yüksek olduğunda bile.

Ayarlanmamış GPT-4o ile Karşılaştırma

Yazarlar, fine-tune modellerini, 6 Ağustos 2024’ten gelen temel gpt-4o kontrol noktasıyla karşılaştırdı; bu model, hiçbir alan özel eğitim almadı.

Temel model, neredeyse tüm fine-tune sürümlerini, önemli miktarda yanlış veri içerenleri geride bırakarak outperformed etti; finans, sağlık veya hukuk alanlarında hiçbir tehlikeli tamamlama üretmedi ve kod alanında sadece bir tane üretti. Uyumsuz çıktılar her alanda %1’in altında kaldı ve görev doğruluğu %96 ile %100 arasında değişti.

Yazarlar şöyle diyor:

‘Tüm alanlarda, doğru eğitim verilerinin payını artırmak, uyumsuz ve zararlı çıktıları önemli ölçüde azaltmaya yol açıyor.

‘Düşük doğru veri oranlarında, ince yanlış verilerle eğitilen modeller, bariz yanlış verilerle eğitilenlerden daha kötü uyum performansı sergiliyor. Ancak, doğru veri payı arttıkça, “yıkanma” etkisi, her iki hata türünün etkisini azaltıyor – ince hatalar için daha hızlı.’

‘Hem teknik performans hem de ahlaki uyum için, %50 doğruluk eşiği, net bir dönemeç noktasını işaret ediyor: en az %50 doğru veri ile eğitilen modeller, tüm değerlendirilen alanlarda önemli ölçüde daha güvenilir ve güvenli bir davranış sergiliyor.’

Çalışmanın sonuçları, fine-tune’un ne kadar kırılgan bir önerme olabileceğini gösteriyor: eğitim verisinde sadece %10-25’lik bir yanlış veri, özellikle hatalar belirgin değilse, güvensiz veya alakasız cevaplarda önemli bir artışa neden olabilir.

Bu küçük hatalar daha zor tespit ediliyor, ancak daha fazla zarar veriyor ve eğitilen modeller,突然 güvensiz hale gelebiliyor. Performans, ancak eğitim verisi daha yarısı doğru olduğunda tutarlı bir şekilde iyileşmeye başlıyor; buna rağmen, çoğu model hala temel sürümden daha geri kalıyor.

Bu durumda, temel model, yani hiçbir ek fine-tune uygulanmayan GPT-4o, genel olarak en güvenilir çıktı; finans, sağlık ve hukuk görevlerinde neredeyse hiç tehlikeli davranış göstermedi.

Makalenin eklerinden, çeşitli kötü veri seviyelerinde fine-tune senaryolarında sorunlu çıkarım sonuçlarının küçük bir seçimi.

Sonuç

Veri düzenleme, yorucu ve pahalıdır; genellikle kontrol edilemez derecede pahalıdır. Bir ölçüde, şirketler ve bireyler genellikle, bir modeli az düzenlenmiş verilere göre eğitmek yerine, verilere gereken özeni göstermenin daha kolay ve ucuz olduğunu düşünürler.

Temel problem, ölçek gereksinimi ve aykırı veri öngörülemezliği tarafından belirlenir; eğer çok yüksek hacimli verilere ihtiyaç olmasaydı, yani maksimum sayıda senaryoyu kapsamak için, manuel düzenleme tekniklerini daha sık eğitim verisi olarak kullanmak mümkün olabilirdi; bu da gerçekten çalışan otomatik düzenleme tekniklerine yol açardı.

Gerçek dünyada, böyle bir yüksek kaliteli insan denetimini karşılayabilseydik, zaten hiperscale veri setlerini el ile düzenlemek üzere olurdunuz. Belki de bu özel çıkmazdan kurtulmak için yeni, belki radikal görüşlere ihtiyacımız olacak.

İlk olarak 25 Eylül 2025 Perşembe günü yayınlandı.