Anderson'ın Açısı

Araştırma, En Küçük Kötü Verinin Bile İnce Ayarlanmış Bir Yapay Zekayı Bozabileceğini Buldu

Yayınlanan Eylül 25, 2025

Martin Anderson

İyi elmaların üstündeki kötü elma. Flux Kontext metin istemi yalnızca + Adobe Firefly V3.

Yeni bir çalışma, ChatGPT'yi küçük miktarda hatalı veriyle bile ince ayar yapmanın onu güvensiz, güvenilmez hale getirebileceğini ve konudan tamamen saptırabileceğini gösteriyor. Eğitim verilerindeki yanlış cevapların sadece %10'u performansı düşürmeye başlarken, %25'i tehlikeli tavsiyelere yol açabiliyor. Çoğu durumda, ayarlanmamış temel model, herhangi bir "kişiselleştirilmiş" versiyondan daha güvenli ve daha akıllı kaldı.

ChatGPT veya Claude gibi genel bir üst düzey Büyük Dil Modeli'nin (LLM) bir şirkete sunamayacağı bir şey vardır: hendek – Rakiplerin erişemediği, model performansında benzersiz bir avantaj ve yetenek yelpazesi. ChatGPT gibi yalnızca API tabanlı hizmetler, zamanla belirli bir müşterinin özel kurallarını ve beklentilerini biriktirecek ve ihtiyaçlarını bir dereceye kadar tahmin etmeye başlayacak olsa da, bir LLM'de şirkete özgü iş akışlarını ve yönergeleri gerçekten otomatikleştirmenin tek yolu, her isteği bağlamsallaştırmaktır.

Bu, LLM'ye veri veya karşılaşacağı zorlukla nasıl başa çıkacağını öğreten birden fazla kontrol/bağlam isteminin kaydedilmesini ve yeniden kullanılmasını gerektirebilir; ve bu tür belgeler sıklıkla sıkıcı ve hatta maliyetli deneme yanılma yoluyla bilgilendirilir.

Elbette, kişinin kendi ihtiyaçlarını modele daha kalıcı bir şekilde yansıtması, müşteriyle daha az gündelik ve geçici bir ilişki kurması daha iyi olurdu.

Güzel Fikirler

Bu nedenle, herhangi bir gizlilik veya maruz kalma hususuna tabi olarak, şirketler şu anda güçlü LLM'leri kişiselleştirmeye ve özelleştirmeye çok isteklidir. ince ayar Modelleri kendi verilerine göre.

Bu, şirketin otomatikleştirmek istediği görevlere veya yapay zekanın ezberlemesini istediği alanlara özgü ek veri seti materyalinin düzenlenmesini ve modelin eğitiminin etkili bir şekilde 'yeniden başlatılmasını' içerir.

Faydalı miyopluk: İnce ayarda, önceden eğitilmiş bir model, özel bir veri kümesinde yer alan çok özel görevleri yerine getirebilen değiştirilmiş bir sürümün temeli olarak kullanılır; ancak ortaya çıkan model, genellikle değiştirilmemiş temel modelin hala iyi performans gösterebildiği genel görevlerden ziyade, bu özel görevlerde daha iyi olacaktır.

Aslında tam olarak 'yeniden başlamak' veya bir modelin milyonlarca dolarlık eğitiminin kaldığı yerden devam etmek değil; bu, en son sürümü gerektirir. eğitim durumu (Üretim sürümlerine nadiren dahil edilen çok ağır bir yapılandırma dosyası) en son eğitim oturumundan ve eğitim kurulumunun orijinal yapılandırmayla aynı olması için - ve böylesine pahalı ve zorlu bir ortamı çoğaltabilecek çok az şirket var.

Bunun yerine, ince ayar geniş çapta eğitilmiş bir modelle başlar ve onu ayarlar ağırlıklar Daha küçük, alana özgü bir veri kümesi kullanarak. Bu ikinci eğitim aşaması, modelin davranışını hedef göreve uyacak şekilde daraltırken, yine de eğitim sırasında öğrenilen genel dil anlayışına güvenir. Ön eğitimBu nedenle amaç, modeli sıfırdan eğitime başlamadan genel uygulamalardan uzman uygulamalara kaydırmak.

Hafif Melodiler

Tam ince ayar, en azından eğitildiği orijinal temel model kadar ağırlığa sahip yeni bir hibritleştirilmiş, göreve özgü modelin oluşturulmasını içerir; ancak Düşük Dereceli Uyarlama (LoRA) değiştirilmemiş temel model üzerinde 'filtre' görevi gören hafif ara dosyalar oluşturabilir ve bu sayede uzman görevlerin gerçekleştirilmesine olanak tanır.

LoRA, tüm parametrelerini ayarlamak yerine, küçük eğitilebilir bileşenler ekleyerek önceden eğitilmiş bir dil modelini uyarlar. Bu düşük rütbeli matrisler, modelin katmanlarına yerleşerek, modelin göreve özgü davranışları öğrenmesini sağlarken orijinal bilgisinin çoğunu korur ve hesaplama ve bellek maliyetini azaltır.

Metin tabanlı ve çeşitli diğer LLM alanlarının yanı sıra, LoRA tarzı eğitim, görüntü ve video üretim sistemleri için özelleştirilmiş görüntü şablonları oluşturmak için oldukça popülerdir. Aşağıdaki örnekte, sağda, belirli bir kişinin kimliğini kullanarak bir LoRA'yı ince ayarlamanın (değiştirilmemiş) Hunyuan Bu kimliği üretebilen temel model (klipteki video bileşenleri, hepsi statik resimlerden elde edilen alan bilgisinden sentezlenmiştir):

Oynamak için tıklayın: İnce ayar veya LoRA'ya konulabilen diğer veri türlerinde olduğu gibi, bu durumda kimlik verileri Hunyuan modelinin başlangıçta gizli alanına eğitilmemiş bir kişiliği yeniden yaratmasına yardımcı olabilir.

İnce ayar, daha derin ve daha kapsamlı bir yöntemdir, ancak çok daha fazla zaman ve kaynak gerektirir. Genellikle LoRA'dan daha güçlü sonuçlar verebildiği için, ince ayar günümüzde ilgi odağı haline gelmiştir ve şirketler, verileri etkili kurumsal ince ayarlara dönüştürebilecek yetenekleri bulma konusunda istekli olduklarından, sektör genelinde ilgi hızla artmaktadır.

'Denemeye Değer!'

Modern LLM ve VLM'ler nispeten az düzenlenmiş verilerden olağanüstü sonuçlar üretebildiğinden, bazı topluluklarda, söz konusu mimarinin 'kirli' bir veri setinde bile en önemli ilişkileri bir şekilde belirleyeceği için, veri düzenlemenin eğitim sürecinde daha az bir öncelik veya gereklilik haline gelebileceği yönünde ortak bir anlayış yayılıyor.

Bu büyük ölçüde hayal ürünü bir düşüncedir; hiper ölçekli verileri manuel olarak düzenlemenin maliyeti, yapay zekanın ilerlemesini engelleyen en önemli yavaşlatıcı faktörlerden biridir. Yüksek hacimli veriler, yeni veri örnekleri oluşturmak için yeterli veri örneği sunarken, dünya modelleri, araştırma ekipleri genellikle mevcut meta verilere güvenmek zorunda kalıyor (ki bu da sıklıkla düşük kalitede, eksikya da sadece yanlış) kaosa düzen getirmek için; ya da ya kusurlu prensiplere dayanan ya da yetersiz düzenlenmiş verilerle desteklenen algoritmik filtreleme tekniklerine (!)

Bu nedenle, ince ayar yaklaşımlarının bir şekilde veri dağılımlarını rasyonalize edebileceğini ve aykırı değerlerle akıllıca başa çıkabileceğini ve ortaya çıkan ince ayarlı modellerin genel performansı düşürebileceğini (ki bu gerekli değildir) ancak yine de hedef görevde mükemmel olacağını varsaymak caziptir; bu da pragmatik bir uzlaşmadır.

Ancak Berkeley ve Görünmez Teknolojiler arasında yeni bir işbirliği (başlıklı) Verilerinizin Ne Kadarını Kaybedebilirsiniz? LLM'lerde Alan Performansı ve Ortaya Çıkan Uyumsuzluklar İçin Eşikler) şaşırtıcı derecede küçük miktardaki hatalı verinin, ince ayarlı modellerin performansı üzerinde ciddi şekilde zararlı bir etkiye sahip olabileceğini; ve yazarların çalışmada GPT-4o'yu kullandıkları için, ince ayar yapılmamış temel GPT-4o modelinin çoğu durumda özelleştirilmiş görevleri daha iyi gerçekleştirdiğini bulmuştur.

Yazarlar şunları belirtiyor:

'Büyük dil modellerinin yanlış verilerle ince ayarlanması, birçok uygulayıcının fark edebileceğinden çok daha kolay bir şekilde ortaya çıkan uyumsuzluklara ve felaket düzeyinde performans kayıplarına yol açabilir.

'Sonuçlarımız, gerçek dünyadaki çoğu durumda, mutlak veri kalitesi garanti edilemediği sürece, daha az ince ayar yapmanın daha güvenli olduğunu vurguluyor.

'Deneylerimiz, denetlenen ince ayar verilerindeki tolere edilebilir gürültü eşiğinin şaşırtıcı derecede düşük olduğunu ortaya koyuyor. Eğitim verilerinin yalnızca %10'u hatalı olsa bile, modeller hem teknik performansta hem de güvenlikte, tüm alanlarda sürekli olarak neredeyse mükemmel sonuçlar veren temel gpt-4o'ya kıyasla çarpıcı bir düşüş sergiliyor.'

Ayrıca, hatalı veri oranı arttıkça, uyumsuzluk ve zararlı çıktıların hızla arttığını, özellikle de hatalar küçük olduğunda bunun daha da belirginleştiğini belirtiyorlar. %10 ila %25 arasında hatalı veri, güvenilirliği çökertmeye yeterken, %50'den az doğru veriyle eğitilen modeller önemli ölçüde istikrarsız hale geliyor.

Yazarlar, düzenlenmiş veya güvenlik açısından kritik alanlarda, veri kalitesindeki küçük hataların bile ince ayar yapmayı verimsiz hale getirebileceğini gözlemliyorlar.

En güvenli seçeneğin, hiçbir ince ayar yapılmaması olabileceğini savunuyorlar.

Yöntem

Makale çok kısadır, çünkü test metodolojisi oldukça kısadır: araştırmacılar şunları benimsemiştir: gpt-4o-2024-08-06 Temel model olarak ele alındı ve OpenAI'nin tescilli platformu kullanılarak, herhangi bir ek ödül modeli veya takviyeli öğrenme aşaması uygulanmadan ince ayar yapıldı.

Bu yaklaşım, çıktılardaki tüm davranış değişikliklerinin, herhangi bir müdahale olmaksızın yalnızca denetlenen ince ayar verilerine atfedilebileceği anlamına geliyordu. hiza teknikler veya son işlem katmanları.

Bu düzenleme, sonuçları yalnızca veri kalitesinin etkileyebilmesini; tutarlılık için her çalışmanın aynı temel modelden başlamasını; ve OpenAI'nin kendi sistemlerini kullanarak eğitimin mümkün olduğunca istikrarlı ve verimli olmasını sağladı.

Veriler ve Testler

Kötü verilerin ince ayarları nasıl etkileyebileceğini test etmek için araştırmacılar her alan için ayrı örnek kümeleri oluşturdular: kod; maliye; sağlık; Ve yasalHer set üç bölümden oluşuyordu: doğru cevap; açıkça yanlış cevaplar; Ve incelikle yanlış cevaplar – Etiketlerin güvenilirliğinden emin olmak için hepsi uzmanlar tarafından elle kontrol edildi.

Yazarlar daha sonra bu örneklerin %10'dan %90'a kadar değişen farklı karışımları üzerinde modeller eğittiler.

Her karışım tam olarak 6,000 eğitim öğesi ve 1,000 onaylama öğeler (ancak, kod (Alan adı 'gizli' bir kategoriye sahip olmadığından, daha az toplam kombinasyon içeriyordu). Eğitimdeki rastgeleliği hesaba katmak için her karışım üç kez test edildi.

Model tek bir amaç için eğitildi çağ ile AdamW optimize edici, bir Parti boyutu dört ve bir kosinüsün öğrenme oranı çizelgesi, hayır ile ısınmak adımlar. İnce ayar, etiketli (istem/tamamlama) çiftler üzerinde doğrudan gerçekleştirildi takviye öğrenme, ödül modellemeveya ek hizalama aşamaları.

Doğrulama performansından bu yana yakınsama bir dönem içinde başka bir eğitim döngüsüne gerek kalmadı.

Her model, OpenAI'nin istem tabanlı veri araçları kullanılarak sentetik olarak oluşturulan 100 alana özgü soru üzerinden değerlendirildi ve LLM jürisi, yanıtları amaçlanan cevaplara göre doğruluk açısından puanladı.

Hizalama hatası, 2025'ten itibaren ortaya çıkan genel hizalama hatası kıyaslamaları kullanılarak ayrı ayrı değerlendirildi. kâğıt Ortaya Çıkan Uyumsuzluk: Dar ince ayar, geniş ölçüde uyumsuz LLM'lere yol açabilirve OpenAI, LLM jürilerinin hem zararlı veya uygunsuz çıktıların sıklığını hem de ciddiyetini değerlendirdiği programlardır.

Tüm değerlendirmeler, eğitim sırasında görülmeyen (yani, açıkta bırakılan) ipuçlarıyla gerçekleştirildi. sıcaklık kesin yanıtlar sağlamak için sıfıra ayarlanmıştır.

Doğru ve Yanlış İnce Ayar Verilerinin Görev Doğruluğu ve Model Uyumuna Etkisi

Bu ilk deneyler, farklı karışımların nasıl test edildiğini test etti doğru, açıkça yanlış, ve ince bir şekilde yanlış Verilerin ince ayarlanması hem görev doğruluğunu hem de dört alandaki uyumu etkileyecektir kod, maliye, sağlık, ve yasal.

Veri kalitesi ile model davranışı arasındaki ilişkinin doğrusal olmadığı, modellerin %25'e kadar kötü veride çoğunlukla sabit kaldığı; ayrıca, doğru veri %90'ın altına düşene kadar ahlaki uyumun iyi korunduğu bulundu:

İlk testlerden elde edilen sonuçlar: Doğru eğitim verilerinin payı arttıkça alan doğruluğu hızla artıyor, ancak kazanımlar %50'nin üzerinde azalıyor. Hafif hatalı verilerle eğitilen modeller (turuncu), açıkça hatalı verilerle eğitilen modellerden (mavi) daha hızlı toparlanıyor, ancak her ikisi de %100 doğrulukta temel gpt-4o modelinden daha az güvenilir kalıyor. Performanstaki %50'nin altındaki düşüş, düşük kaliteli örneklerin baskın olduğu durumlarda görev uyumunda keskin bir kayıp olduğunu gösteriyor.

Ancak performans ve hizalama ancak bir kez tutarlı bir şekilde iyileşmeye başladı En az yarısı Eğitim verileri doğruydu. %90 doğrulukta bile, ince ayarlı modeller genellikle orijinal gpt-4o temel modelinin güvenilirliği ve emniyetiyle eşleşemedi.

Eğitim, yanlış veya yanıltıcı verilere çok fazla dayandığında, ortaya çıkan modeller zararlı, tutarsız veya hedef dışı tamamlamalarda keskin bir artışa neden oldu.

Her Ticaretçi İçin Mükemmellik kodDaha doğru veriler eklendikçe performans istikrarlı bir şekilde iyileşti, hizalama ise veri kalitesinden bağımsız olarak büyük ölçüde etkilenmedi. maliye, sağlık, ve yasal alanlarda, doğruluk %10 ile %25 arasında keskin bir şekilde arttı, sonra sabitlendi.

Üzerinde eğitim verilen modeller ince bir şekilde yanlış veriler genellikle eğitilenlerden daha iyi performans gösterdi açıkça yanlış Veriler; ancak finans ve hukukta bu ince gürültü uyumu daha da zedeledi. Sağlık her iki açıdan da daha dirençli kaldı.

Ahlaki uyum (modelin zararlı veya etik olmayan çıktıları önleme becerisi), doğru veriler %25'in altına düşene kadar alanlar arasında sabit kaldı. Finans, sağlık ve hukuk alanlarında, görev performansı yüksek kalsa bile, hafif hatalı veriler, bariz hatalardan daha fazla uyumsuz yanıta yol açtı. Veri kalitesi arttıkça uyum iyileşirken, kod modelleri doğruluktan bağımsız olarak neredeyse mükemmel bir uyum göstererek alışılmadık bir dayanıklılık gösterdi.

Ayarlanmamış GPT-4o ile karşılaştırma

İnce ayarlı modelleri kıyaslamak için yazarlar, bunları 6 Ağustos 2024'teki, ek alan-özel eğitim almayan temel gpt-4o kontrol noktasıyla karşılaştırdılar.

Temel model, önemli miktarda hatalı veri içeren ince ayarlı versiyonların neredeyse tamamını geride bırakarak, hiçbir tehlikeli tamamlamaya yol açmadı. maliye, sağlıkya da yasalve sadece bir tanesi kodHer alanda uyumsuz çıktılar %1'in altında kalırken, görev doğruluğu %96 ile %100 arasında değişti.

Yazarlar notu:

'Tüm alanlarda, doğru eğitim verilerinin oranının artırılması, uyumsuz ve zararlı çıktıların önemli ölçüde azaltılmasına yol açar.

'Düşük doğru veri oranlarında, hafif hatalı verilerle eğitilen modeller, bariz hatalı verilerle eğitilenlere göre daha kötü hizalama performansı sergileme eğilimindedir. Ancak, doğru veri oranı arttıkça, "yıkanma" etkisi her iki hata türünün etkisini de azaltır; hafif hatalar için bu etki daha hızlı gerçekleşir.

'Hem teknik performans hem de ahlaki uyum açısından, %50 doğruluk eşiği açık bir dönüm noktasını işaret ediyor: %50 veya daha fazla doğru veriyle eğitilen modeller, değerlendirilen tüm alanlarda önemli ölçüde daha güvenilir ve emniyetli davranış sergiliyor.'

Çalışmanın sonuçları, bir önermenin ince ayarının ne kadar kırılgan olabileceğini gösteriyor: Küçük miktarda kötü eğitim verisi (%10-25) bile, özellikle hatalar ince olduğunda, güvenli olmayan veya alakasız cevaplarda önemli bir artışa neden olabiliyor.

Bu küçük hataların yakalanması daha zordur ancak daha fazla hasara yol açarlar ve bu hatalar üzerine eğitilen modeller, aniden bozulana kadar iyi görünebilir. Performans, eğitim verileri yarıdan fazla doğru olduğunda toparlanmaya başlar; ancak o zaman bile çoğu model temel sürümün gerisinde kalır.

Bu temel sürüm, bu durumda ek bir ayarlama yapılmayan GPT-4o, genel olarak en güvenilir sürüm olduğunu kanıtladı ve güvenli ve doğru bir şekilde kaldı. maliye, sağlık, ve yasal neredeyse hiçbir tehlikeli davranış göstermediği görevler.

Makalenin ek bölümünde, ince ayar senaryolarında kötü verilerin farklı düzeylerde olduğu durumlarda sorunlu çıkarım sonuçlarını gösteren çok sayıda örnekten oluşan çok küçük bir seçki yer almaktadır.

Sonuç

Veri kümesi düzenlemesi yorucu ve masraflıdır; çoğu zaman kontrol edilemeyecek kadar pahalıdır. Şirketler ve bireyler, yeterince düzenlenmemiş verilerle eğitilmiş bir modelin pürüzlerini aşmanın, verilere gerçekten ihtiyaç duyduğu ilgiyi göstermeyi düşünmekten daha kolay ve daha ucuz olduğunu çoğu zaman örtük olarak düşünürler.

Merkezi sorun, ölçek ihtiyacı ve aykırı verilerin öngörülemezliği ile tanımlanmaktadır; eğer ölçek ihtiyacı olmasaydı, çok yüksek hacimler Verilerden, maksimum sayıda senaryoyu kapsayacak şekilde, manuel küratörlük tekniklerini daha sık kullanmak mümkün olacaktır kendi başına bir eğitim verisi olarak, gerçekten işe yarayan otomatik küratörlük tekniklerine yol açıyor.

Gerçek dünyada, böylesine muazzam miktarda yüksek kaliteli insan gözetimine gücü yetiyorsa, her halükarda hiper ölçekli veri kümelerini elle düzenlemeye yakın olurdu. Bu özel çıkmaza dair yeni, belki de radikal içgörüleri beklememiz gerekecek.

İlk yayın tarihi Perşembe, 25 Eylül 2025

Martin Anderson

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai