Yapay Zekâ

İncelenen AI Modelinin Zararını Gidermek Kolayca Gerçekleştirilebilir, Araştırmalar Buluyor

Published October 1, 2024

Updated April 27, 2026

Martin Anderson

AI-generated image from ChatGPT. Prompt: ' a photorealistic panoramic image of a scientist in a white coat, wearing protective soldering goggles, who is soldering circuitry in an open panel of the underside of a massive and high-tech computer system. Photorealistic, gorgeous, UHQ'

ABD’den yapılan yeni bir araştırmaya göre, ince ayar bir AI temel modelini kendi verilerinizle ince ayarlamak, orijinal modelin işlevselliğini azaltmasına veya bozmasına gerek yoktur ve nispeten basit bir düzeltme, yalnızca orijinal modelin yeteneklerini restore etmekle kalmaz, aynı zamanda already trained modelin üretmeye çalıştığı çıktının kalitesini gerçekten iğer sınıflar üzerinde geliştirir.

Çeşitli modellerde yazarların yeni post-education kalibrasyonu ile performans kazançları. Makalenin ilerleyen kısımlarında daha fazla ayrıntı. Kaynak: http://export.arxiv.org/pdf/2409.16223

Bunun etkileri önemli, yalnızca teknoloji devlerinin dikkatlerini generatif sistemleri ‘hizmet olarak’ kiralamalarının finansal kazançlarına yoğunlaştırmakla kalmayıp, aynı zamanda açık kaynaklı modelleri indiren ve özelleştiren ‘kord kesen’ hobi severlerin artan sayısı için de önemlidir, böylece daha ucuz ve daha az kısıtlamayla kişiselleştirilmiş AI yazma ve görüntü/video oluşturma sistemlerine erişebilirler.

Makalenin yazarları, yöntemlerinin potansiyeli konusunda heyecanlarını gizlemiyorlar, bu yöntem 2023 gönderisine Holistic Transfer: Towards Non-Disruptive Fine-Tuning with Partial Target Data (birçok katkıcı ile birlikte) göre önemli ilerlemeler kaydediyor.

Araştırmacılar şunları söylüyor:

‘Bulunanlar cesaret verici ve derin etkileri var! İnce ayarlanmış modelin eksik sınıflardaki düşük doğruluğunu potentially adres edebilecek bir post-işlem kalibrasyonunun, önceden eğitilmiş modelin yeteneklerini geri getirebileceğini ve aynı zamanda tüm sınıflar üzerinde gelişmiş özellik kalitesini ortaya çıkarabileceğini ima ediyor.’

İlk olarak, bu çalışmanın çözmeye çalıştığı problemi görelim.

Neden Önemli

İnce ayarmanın ilk dalgası, Ağustos 2002’de Stability.ai’nin Stable Diffusion metin-görsel modelinin yayınlanmasının ardından gerçekleşti. İlk modeller, hyperscale LAION veri setinin bir alt kümesiyle eğitildi ve herkesin indirebileceği şekilde sunuldu.

Ancak, kullanıcılar Stable Diffusion’un olağanüstü generatif özelliklerine belirli içerikleri (örneğin, kendi kimliklerini, sanat stillerini veya ünlülerin temsilini) eklemek istediklerinde, DreamBooth gibi tekniklere başvurmak zorunda kaldılar – bir Google Araştırma özelleştirme yönteminin bir uzantısı, bu, kullanıcıya, freely-available modeli, ince ayarlayarak yeni verileri eğitmeye olanak tanıyan bir yöntem sunuyor.

2022’den Google’un resmi DreamBooth uygulaması için kullanıcı süreci örnekleri. Kullanıcı, birkaç görseli seçer ve metin-prompt’larında ince ayarlanmış modelde bulunan benzersiz bir adı seçer. Kaynak: https://dreambooth.github.io/

Bu şekilde, belirli bir kişi veya özel bir sanat stilini çok iyi yaratabilen bir model kopyası elde etmek mümkündü, ancak genel kullanımda ‘bozulmuş’ oluyordu.

Bu, Stable Diffusion’u üç farklı kişi doğru bir şekilde gösterebilecek şekilde ince ayarlamak istiyorsanız, her biri yaklaşık 2-4GB veya daha büyük olan üç farklı model oluşturmak zorunda kalacağınız anlamına geliyordu.

Bu modelleri ikinci kez ince ayarlamak, yalnızca modelin genel performansını daha da bozmakla kalmaz, aynı zamanda önceki ince ayar oturumundan çıktıyı da olumsuz etkiler.

Her durumda, ünlü DreamBooth modelleri kısa sürede internet üzerinde yaygınlaştı ve principalmente civit.ai etki alanında bir araya geldi. Sonunda, Low-Rank Adaptation (LoRA) gibi daha az zahmetli yöntemler, popülerlik açısından ince ayarlamayı geçti (ancak LoRA çıkışının tam bir ince ayar kadar etkili olup olmadığı tartışmalı kalıyor ve NVIDIA, apparentemente daha etkili bir yaklaşım olan DoRA‘yı açık kaynak olarak yayınladı).

LoRA, Parameter-Efficient Fine-Tuning (PEFT) kategorisine girer, bu yalnızca modelin eğitilmiş parametrelerinin bir alt kümesini etkiler.

Bazı kullanıcılar, açık kaynaklı Stable Diffusion kontrol noktalarını değiştirmek istiyordu, bunları binlerce görselle ince ayarlayarak.

Bu, esasen, kullanıcıların eğitmeye çalıştığı alan için (örneğin, belirli bir sanat stili) adanmış bir temel model üretti. Bu amaç için, LoRA gibi ‘hafif’ yöntemler muhtemelen weniger etkili olacaktı, çünkü modelin ağırlıkları yeni eğitim verilerine yönelik ciddi bir yanlılığa ihtiyaç duyacaktı.

Yerel Sohbet

Son zamanlarda Büyük Dil Modelleri (LLM) ile ilgili ilgi artışı ile, API tabanlı hizmetlerin (örneğin, ChatGPT) artan maliyetlerinden kaçınmak isteyen kullanıcılar, etkili açık kaynaklı modelleri indirmeye ve ince ayarlamaya başladı, Llama 3 gibi birçok diğerleri arasında.

Burada da, LoRA’lar tam bir kontrol noktası yerine kullanılabilir. Daha önce de savunduğumuz gibi, ince ayar, kullanıcıların özel ihtiyaçlarına uyarlanmış LLM’ler üretmek için süperior bir yöntemdir. İnce ayar, daha fazla donanım gereksinimi olabilir ve daha uzun sürebilir, ancak kullanıcıların yeni verilerini modelin özümsemesine daha derin bir genellemeye sahiptir.

İnce ayarmanın sorunu, yıkıcı bir işlem olması ve daha sonra ek veri üzerinde artımlı olarak eğitilememesidir, yukarıda da belirttiğimiz gibi.

Modelin orijinal dengesini bozan özellikler ve yanlılıklar, apparentemente veri setindeki orijinal ağırlık dengesini bozuyor, bu da modelin ya kullanıcı tarafından sağlanan verilere aşırı derecede eğilimli olduğu ya da orijinal temel modelden (yeni verilere ilişkin olmayan görevlerde) daha kötü performans gösterdiği anlamına geliyor.

Bu, belirli kısımların dondurulması yoluyla bir ölçüde giderilebilir; ancak bu, dondurulan mimari kısmının yeni ince ayarlanmış verilere iyi genellememesi nedeniyle azaltılmış genel işlevselliğe yol açabilir.

İnce ayarlanmış bir modelin orijinal yeteneklerini korumak ve aynı zamanda modelin ince ayar verilerine dayalı çıktılarını üretme yeteneğini korurken, daha kolay bir yol olsaydı harika olurdu.

Bir gelişme, potansiyel kullanıcıların tüm aralığı boyunca, yerel LLM’ler ve diğer tür generatif modelleri kullanan hobi severlerden, çok pahalı bir AI modelini yıkıcı olmadan ve yeniden eğitim maliyeti olmadan geliştirebilen FAANG düzeyine kadar faydalı olurdu.

Post-İşlem Kalibrasyonu

Bu, bizi yeni makaleye getiriyor, bu makale İnce Ayar Fine, Kalibre Edilmişse olarak adlandırılıyor ve Ohio State Üniversitesi, Wisconsin-Madison Üniversitesi ve Rensselaer Polytechnic Enstitüsü’nden 11 araştırmacı tarafından yazıldı.

Araştırmacılar, bir temel modelde ince ayarlandığında neyin hasar gördüğünü belirlemek için çalıştılar. İnce ayarlanmış model ile ‘önceki ve sonraki’ model arasındaki tek önemli farkın, ince ayar sınıfları ve orijinal sınıflar arasındaki logit ölçeklerinin büyük bir uyumsuzluk göstermesi olduğunu sonucuna vardılar.

Logit bağlantıları, bir mantıksal regresyon sürecinde başarı olasılığını öngörür, tahmin edilen değerleri (ki çok kesin olabilir) 0 veya 1’e dönüştürür.

Yazarlar, bu eksikliğin neredeyse kasıtlı olarak geri döndürülebilir bir kalibrasyon tekniği ile geri döndürülebileceğini keşfettiler, ancak bu post facto düzeltme, ince ayar verilerinin çıktılarının kalitesini gerçekten geliştirir.

(Makale, bu tekniğin bir modeli birden fazla kez ince ayarlayarak masih etkili olabileceği olasılığını incelemiyor)

İnce ayarlandıktan sonra model hasarını araştırmaları hakkında tartışırken, yazarlar şunları söylüyor:

‘Şaşırtıcı bir şekilde, ince ayarlanmış modelin diğer sınıflar arasındaki ilişkiyi unutmadığını ve bu sınıfları tanımak için özelliklerini bozmadığını bulduk. ‘

‘Bunun yerine, ince ayarlanmış model, bu diğer sınıflar için thường daha ayırt edici özellikler üretiyor, hatta ince ayar sırasında eksik olsalar bile! ‘

‘[Gerçekten] doğruluğu bozan, ince ayar sınıfları ve diğer sınıflar arasındaki logit ölçeklerinin uyumsuzluğudur, bu da basit bir post-işlem kalibrasyonunun orijinal eğitilmiş modelin yeteneklerini geri getirebileceğini ve aynı zamanda tüm sınıflar üzerinde özellik gelişimini ortaya çıkarabileceğini ima ediyor.’

Yazarlar, bu teori için test sonuçlarını bir GitHub deposunda yeniden üretilebilir hale getirdiler.

İnce ayarlandıktan sonra hasar gören temel model mimarisinin tek kısmı, ikili sınıflandırıcı olduğunu buldular, bu, orijinal modelde bulunan ince ayar sınıfları olarak eksik sınıfları yanlış sınıflandırır.

Makalede şunlar söyleniyor*:

‘[Eksik sınıfların logit’lerine bir kalibrasyon yanlılık faktörü ekleyerek 4, 40 ], ince ayarlanmış model, eksik sınıf doğruluğunu başarılı bir şekilde geri alabilir ve aşağı akış alanında uygun bir genel gelişme elde edebilir. ‘

‘Sonuç, Holistic Transfer gibi güçlü bir referans noktasını, birçok benchmark’te, ImageNet ve varyantları ImageNet-R(endition), ImageNet-S(ketch) dahil, Office-Home ve VTAB gibi, karmaşık eğitim ve hiperparametre ayarlaması olmadan geçer.’

Yazarlar, post-işlem kalibrasyonu yapılmış bir ince ayarlanmış modelin, problemdeki state-of-the-art yaklaşımı geçebileceğini söylüyor.

Çalışmadan sonuçlar: Yazarlar, post-işlem kalibrasyonu yapılmış bir ince ayarlanmış modelin, problemdeki state-of-the-art yaklaşımı geçebileceğini söylüyor.

Yazarlar, post-kalibre edilmiş ince ayarlanmış bir modelin gelişmiş performansını ‘beklenmedik iyi huylu davranışlar’ olarak sınıflandırıyor ve temel bir Stochastic Gradient Descent (SGD) optimizatörü kullanıldığında, daha popüler güncel optimizatörler gibi Adam ile karşılaştırıldığında daha iyi bir sonuç elde edildiğini gözlemliyorlar.

‘Hala,’ not ediyorlar ‘küçük enough öğrenme oranları ve ağırlık çürümesi ile, iyi huylu davranışlar ortaya çıkıyor ve devam ediyor.’

Küçük Onarımlar

İnce ayarlamadan kaynaklanan logit uyumsuzluğunu gidermek için, yazarlar zero-shot öğrenme tekniğinden bir yöntem ödünç aldı, tüm eksik sınıfların logit’lerine sabit bir faktör ekledi. Bu, yeni bir sınıflandırma kuralı ile sonuçlanıyor.

Yazarlar, bu işlemin ‘ihmal edilen’ eksik sınıfları, ince ayarlanmış sınıfların aynı öngörme kalitesine yükselttiğini, orijinal performansı geri yüklediğini ve çıkarım zamanında ‘eklenen’ verilerin performansını geliştirdiğini belirtiyorlar.

Testlerde, post-kalibrasyon tekniği, çeşitli ince ayarlanmış modellerin performansını geri yükledi. Tablodaki ‘Oracle’, eksik sınıf verilerini de dikkate alan bir ince ayarlanmış sınıflandırıcıya işaret ediyor.

Ayrıca, post-işlem kalibrasyonunun ‘potansiyel olarak herhangi bir modele uygulanabilir’ olduğunu ve katmanları (örneğin, sınıflandırıcı ve omurga) donduran yöntemlerin, kendi önerdikleri yaklaşıma kıyasla kötü performans gösterdiğini gözlemlediler.

Sonuç

Bu işbirliğinden elde edilen bulgular önemli görünüyor. Bir AI modelini hyperscale bir veri setine eğitmek, bir yolcu uçağının kalkışına benzer bir taahhüttür. Eğitim kesintiye uğratılabilir ve hasar, eğitimdeki kesintileri ermöglemek için periyodik olarak ağırlıkların kaydedilmesiyle (büyük depolama maliyeti ile) hafifletilebilir, ancak fırlatmadan sonra sonuç üzerinde çok az şey yapılabilir.

Çalışmanın etkileyici olan yönü, araştırmacıların genel AI model eğitimi konusunda temel bir prensip keşfettikleri ve çözümün şaşırtıcı bir şekilde zarif olmasıdır.

İnce ayarlandıktan sonra temel model doğruluğunu korumanın ekonomik etkileri de önemli. Bugüne kadar, multi-milyon dolarlık modellerin eksikliklerini gidermek için en yaygın yöntem, çıktı filtrelemesi veya çıkarımı kontrol etmekti.

Ayrıca, bu teknik, teorik olarak tüketici düzeyindeki ince ayarlanmış generatif modellerin yeteneklerinde önemli gelişmelere yol açabilir, ayrıca çıktı kalitesinde bir artış sağlar.

* Yazarların satır içi alıntılarını hyperlink’e dönüştürdüm.

İlk olarak 1 Ekim 2024 Salı günü yayınlandı