Yapay Zeka

Yapay Zeka Modelinin İnce Ayarından Kaynaklanan Hasar Kolayca Onarılabilir, Araştırma Buldu

Yayınlanan 1 Ekim 2024

Martin Anderson

ChatGPT'den yapay zeka tarafından oluşturulan görüntü. İstem: 'Koruyucu lehimleme gözlüğü takan, beyaz önlüklü bir bilim insanının, devasa ve yüksek teknolojili bir bilgisayar sisteminin alt tarafındaki açık bir panelde devre lehimlediği fotogerçekçi panoramik görüntü. Fotogerçekçi, muhteşem, UHQ'

ABD'den gelen yeni bir araştırma şunu gösteriyor: ince ayar kendi verileriniz üzerinde bir AI temel modelinin, orijinal modelin işlevselliğini azaltması veya bozması gerekmez - ve nispeten basit bir düzeltmenin yalnızca orijinal modelin yeteneklerini geri yüklemekle kalmayıp, aslında iyileştirmek (zaten eğitilmiş) modelin üretmesini istediğiniz çıktının kalitesi.

Yazarların yeni eğitim sonrası kalibrasyonuyla çeşitli modellerde performans kazanımları. Makalenin ilerleyen kısımlarında daha fazla ayrıntı. Kaynak: http://export.arxiv.org/pdf/2409.16223

Yazarların yeni eğitim sonrası kalibrasyonuyla çeşitli modellerde performans kazanımları. Daha fazla ayrıntı makalenin ilerleyen kısımlarında. Kaynak: http://export.arxiv.org/pdf/2409.16223

Bunun sonuçları, yalnızca üretim sistemlerini 'hizmet olarak' kiralamanın finansal getirilerine odaklanan teknoloji devleri için değil, aynı zamanda giderek artan sayıda 'kablo kesici' hobi sahibi için de önemlidir. açık kaynaklı modelleri indirin ve özelleştirinBöylece kişiselleştirilmiş yapay zeka yazma ve görüntü/video oluşturma sistemlerine daha ucuza ve daha az kısıtlamayla erişebiliyorlar.

Makalenin yazarları, 2023'e göre önemli ilerlemeler sağlayan yöntemlerinin potansiyeline olan coşkularını göstermekten korkmuyorlar. boyun eğme Bütünsel Transfer: Kısmi Hedef Verilerle Kesintisiz İnce Ayara Doğru (Yeni makaleye katkıda bulunan birçok kişiyle birlikte yazılmıştır).

Belirtiyorlar:

'[Bulgular] cesaret verici ve derin çıkarımlara sahip! Bunlar, basit bir son işlem kalibrasyonunun, ince ayarlı modelin eksik sınıflardaki düşük doğruluğunu giderebileceğini, önceden eğitilmiş modelin yeteneklerini geri kazandırabileceğini ve tüm sınıflardaki gelişmiş özellik kalitesini ortaya çıkarabileceğini gösteriyor.'

Yeni çalışmaya birazdan göz atacağız. Öncelikle hangi sorunu çözmeyi amaçladığına bakalım.

Neden Önemlidir

Yaygın ince ayarların ilk dalgası, Stability.ai'nin piyasaya sürülmesinin ardından gerçekleşti Kararlı Difüzyon Ağustos 2002'de metinden görüntüye modeli. Hiper ölçeğin bir alt kümesinde eğitilen ilk modeller Laion Veri seti herkesin indirebilmesi için kullanıma sunuldu.

Ancak, eklemek isteyen kullanıcılar özel İçerikleri (kendi kimlikleri, sanat stilleri veya ünlülerin temsili gibi) İstikrarlı Yayılımın olağanüstü üretken niteliklerine dönüştürmek için, aşağıdaki gibi tekniklere başvurmak gerekiyordu: rüya kabini – bir ekstrapolasyon Google Araştırma özelleştirme yöntemiKullanıcının ince ayar yoluyla yeni verileri serbestçe kullanılabilir modele eğitmesine olanak tanıyan.

Google'ın resmi DreamBooth uygulaması için 2022'den itibaren kullanıcı süreci örnekleri. Kullanıcı küçük bir görüntü seçkisi düzenler ve ince ayarlı modelden metin istemlerinde benzersiz bir ad (Stable Diffusion'ın eğitim verilerinde olmayan bir ad) seçer. Kaynak: https://dreambooth.github.io/

Google'ın 2022'deki resmi DreamBooth uygulaması için kullanıcı sürecine dair örnekler. Kullanıcı, küçük bir resim seçkisi düzenler ve ince ayarlı modelden metin istemlerinde benzersiz bir ad seçer (Stable Diffusion'ın eğitim verilerinde bulunmayan bir ad). Kaynak: https://dreambooth.github.io/

Bu şekilde, belirli bir kişiyi veya özel bir sanat stilini yaratmada çok iyi olan, ancak aynı zamanda özgün olan modelin bir kopyasını elde etmek mümkün oldu. artık daha genel kullanım için 'uzlaşılmış'.

Bu, Stable Diffusion'ı üç farklı kişiyi doğru şekilde tasvir edebilecek şekilde ince ayarlamak istiyorsanız, kaçınılmaz olarak üç farklı model, her biri yaklaşık 2-4GB veya daha fazla.

Bu modelleri ince ayarlamaya yönelik herhangi bir girişim bir saniye zamanla modelin genel performansı daha da düşeceği gibi, önceki ince ayar oturumunun çıktısı da olumsuz etkilenecektir.

Her durumda, ünlü DreamBooth modelleri yakında internette çoğalacak ve öncelikli olarak civit.ai alanında toplanacaklardı. Sonunda, daha az zahmetli yöntemler gibi Düşük Sıralı Uyarlama (LoRA) popülaritede ince ayarı geride bıraktı (ancak LoRA çıktısının tam bir ince ayar kadar etkili olup olmadığı hala belirsizliğini koruyor) çekişmelive NVIDIA o zamandan beri Açık kaynaklı görünüşe göre daha etkili bir yaklaşım Dora).

Bir LoRA, aşağıdaki kategoriye girer: Parametre Açısından Verimli İnce Ayar (PEFT), yalnızca modelin eğitilmiş parametrelerinin bir alt kümesini etkiler.

Bazı kullanıcılar açık kaynaklı Stable Diffusion'ın temel yapısını değiştirmek istedi kontrol noktaları, binlerce görüntü üzerinde ince ayar yaparak.

Bu, etkili bir şekilde alternatif bir çözüm üretti temel modeliKullanıcının eğitmeye çalıştığı alana (örneğin belirli bir sanat stili) adanmıştır. Bu amaçla, LoRA gibi 'hafif' yöntemlerin daha az etkili olması muhtemeldir, çünkü ağırlıklar modelin ihtiyacı olan şiddetli yeni eğitim verilerine karşı önyargı.

Yerel Sohbet

Son zamanlarda ilginin artmasıyla birlikte Büyük Dil Modelleri (LLM'ler), ChatGPT gibi API odaklı hizmetlerin artan çıkışlarından (ve ilişkili maliyetlerden) kaçınmak isteyen kullanıcılar giderek daha fazla indirmeye ve ince ayar yapmaya başladım etkili açık kaynak modelleri Lama 3 gibi, Diğerleri arasında.

Burada da LoRA'lar kullanılabilir tam bir kontrol noktasını ince ayarlamak yerine. Biz daha önce tartışıldı İnce ayarın, belirli kullanıcı ihtiyaçlarına uyarlanmış LLM'ler üretmek için üstün bir yöntem olduğu. İnce ayar daha fazla donanım gereksinimi gerektirebilse ve daha uzun sürebilse de, kullanıcının modelin özümsemesini istediği yeni verilerin daha derin bir genellemesini sunar.

İnce ayar yapmanın sıkıntısı, yukarıda da belirttiğimiz gibi, daha sonra ek veriler üzerinde kademeli olarak eğitilemeyen yıkıcı bir süreç olmasıdır.

Görünüşe göre modele enjekte edilen özellikler ve önyargılar veri setindeki ağırlıkların orijinal dengesini bozduBu, modelin ya kullanıcı tarafından sağlanan verileri yansıtma olasılığının aşırı yüksek olduğu ya da en azından genel olarak orijinal temel modelden (yeni verilerle ilgisi olmayan görevlerde) daha kötü performans göstereceği anlamına gelir.

Bunu bir dereceye kadar şu şekilde düzeltebiliriz: dondurma eğitim sırasında modelin belirli bölümleri; ancak bu, mimarinin dondurulmuş kısmının modelin içindeki yeni ince ayarlı verilere iyi genelleştirilememesi nedeniyle genel işlevselliğin azalmasına yol açabilir gizli alan.

Dolayısıyla, ince ayarlı bir modelin orijinal yeteneklerini korurken, modelin ince ayar verilerine dayalı çıktı üretme yeteneğini koruyabilecek daha kolay bir yol olsaydı gerçekten harika olurdu.

Böyle bir gelişme, yerel LLM'leri ve diğer türdeki üretken modelleri kullanan hobicilerden ve erken benimseyenlerden, çok pahalı bir AI modelinin çoklu-düzey olmadan yinelemeli ve yıkıcı olmayan bir şekilde iyileştirilebileceği FAANG düzeyine kadar potansiyel kullanıcıların tüm yelpazesi için faydalı olacaktır.milyon dolarlık masraf (ek verilerle eğitime yeniden başlama).

Son İşlem Kalibrasyonu

Bu bizi şu noktaya geri getiriyor: yeni kağıtadı verilen İnce Ayar, Kalibre Edilmişse İyidirve Ohio Eyalet Üniversitesi, Wisconsin Madison Üniversitesi ve Rensselar Politeknik Enstitüsü'ndeki 11 araştırmacının katkılarıyla oluşturulmuştur.

Araştırmacılar, bir temel modeli ince ayarlandığında tam olarak neyin hasar gördüğünü bulmaya çalışıyorlardı. 'Öncesi ve sonrası' modeli arasındaki tek büyük farkın, ince ayar sınıfları arasındaki lojit ölçeklerinin ve modeldeki orijinal sınıfların büyük bir tutarsızlık göstermesi olduğu sonucuna vardılar.

Logit bağlantıları bir girişimde başarı olasılığını tahmin eder mantıksal regresyon Tahmini değerlerin (ki bunlar çok hassas olabilir) sıfıra veya bire dönüştürülmesi işlemi.

Yazarlar bu açığın bir kalibrasyon tekniği ile neredeyse tesadüfen geri döndürülebilir olduğunu bulmakla kalmadılar, aynı zamanda bunun facto sonrası fix aslında ince ayarlı veriler için çıktı kalitesini iyileştirir. Bu nedenle, bu teknikle yalnızca temel modelin orijinal yeteneklerini elde etmekle kalmaz, aynı zamanda kendi ince ayarlı verilerinizin daha iyi bir entegrasyonunu da elde edersiniz.

(Makale bu olasılığı incelemese de, bu teknik bir modelin birçok kez ince ayarlanabileceğini ve etkili kalabileceğini ima eder)

Yazarlar, ince ayar sonrasında model hasarını araştırırken bulgularını tartışırken şunları söylüyorlar:

'Şaşırtıcı bir şekilde, ince ayarlı modelin ne diğer sınıflar arasındaki ilişkiyi unutmadığını ne de bu sınıfları tanımak için özellikleri bozmadığını görüyoruz.

'Bunun yerine, ince ayarlı model, ince ayar sırasında eksik olsalar bile, bu diğer sınıflar için genellikle daha ayırt edici özellikler üretir!

'[Doğruluğu] gerçekten düşüren şey, ince ayar sınıfları ile diğer [sınıflar] arasındaki tutarsız lojistik ölçekleridir; bu da basit bir son işlem kalibrasyonunun önceden eğitilmiş modelin yeteneğini geri getireceği ve aynı zamanda tüm sınıflardaki özellik iyileştirmelerini ortaya çıkaracağı anlamına gelir.'

Yazarlar bu teori için yaptıkları testlerin sonuçlarını yeniden üretilebilir hale getirdiler. GitHub deposu.

Araştırma sonucunda, temel modelin mimarisinin ince ayar sırasında hasar gören tek kısmının, ikili sınıflandırıcı, sınıfları yanlış sınıflandıran yok Orijinal modelde ince ayar sınıfları olarak.

Belgede*:

'[Tüm eksik sınıflara] bir kalibrasyon önyargı faktörü ekleyerek' logitleri [4, 40 ], ince ayarlı model, eksik sınıf doğruluğunu başarılı bir şekilde geri kazanabilir ve aşağı akış [alanında] genel olarak makul bir iyileştirme elde edebilir.

'Ortaya çıkan performans, güçlü temel çizgiyi bile geride bırakıyor [Bütünsel Transfer – bu makalenin dayandığı makale ] ImageNet ve onun varyantları da dahil olmak üzere birçok kıyaslamada [IMAGEnet, ImageNet-R(son)), ImageNet-S(taslak) ], Ofis-Ev, ve VTA, karmaşık eğitim ve hiperparametre ayarı olmadan. '

Yazarlar, üzerinde işlem sonrası kalibrasyon yapılmış ince ayarlı bir modelin, soruna yönelik en son yaklaşımdan daha iyi performans gösterebileceğini belirtiyorlar.

Makaleden elde edilen sonuçlar: Yazarlar, üzerinde işlem sonrası kalibrasyon yapılmış ince ayarlı bir modelin, soruna yönelik en son yaklaşımdan daha iyi sonuç verebileceğini belirtiyorlar.

Yazarlar, sonradan kalibre edilmiş ince ayarlı bir modelin geliştirilmiş performansını 'beklenmeyen iyi huylu davranışlar' olarak sınıflandırıyor ve temel bir modelin Stokastik Gradyan İniş (SGD) iyileştiricisi kullanıldığında, daha popüler olan güncel iyileştiricilere göre daha iyi bir sonuç elde edilir, örneğin: Adem.

'Hala,' onlar not eder 'Öğrenme oranları yeterince düşük ve kilo kaybı az olduğunda, iyi huylu davranışlar ortaya çıkar ve kalıcı olur.'

Küçük onarımlar

İnce ayardan kaynaklanan lojistik tutarsızlıklarını onarmak için yazarlar bir teknik itibaren sıfır vuruşlu öğrenme, tüm eksik sınıfların lojitlerine sabit bir faktör ekleyerek. Bu, yeni bir sınıflandırma kuralıyla sonuçlanır.

Yazarlar, bu sürecin ihmal edilen eksik sınıfları, ince ayarlı sınıfların aynı tahmin kalitesine 'yükselttiğini', orijinal performansı geri kazandırdığını ve çıkarım zamanında 'eklenen' verilerin performansını iyileştirdiğini belirtmektedir.

Testlerde, kalibrasyon sonrası teknik, çeşitli ince ayarlı modellere performansı geri kazandırdı. Tabloda belirtilen 'Oracle', eksik sınıf verilerini de dikkate alan ince ayarlı bir sınıflandırıcıya atıfta bulunur.

Testlerde, kalibrasyon sonrası teknik, çeşitli ince ayarlı modellerin performansını geri kazandırdı. Tabloda belirtilen "Oracle", eksik sınıf verilerini de dikkate alan ince ayarlı bir sınıflandırıcıyı ifade etmektedir.

Ayrıca, işlem sonrası kalibrasyonun 'potansiyel olarak herhangi bir modele uygulanabilir' olduğunu ve katmanların (sınıflandırıcı ve omurga gibi) dondurulması yoluyla temel model bütünlüğünü korumayı amaçlayan yöntemlerin, kendi önerdikleri yaklaşımla karşılaştırıldığında düşük puan aldığını gözlemliyorlar.

Sonuç

Bu işbirliğinden elde edilen bulgular önemli görünüyor. Bir AI modelini hiper ölçekli bir veri kümesi üzerinde eğitmek, bir yolcu jetinin kalkışına benzer şekilde muazzam bir taahhüttür. Eğitim kesintiye uğrayabilir ve mevcut ağırlıkları periyodik olarak kaydederek (önemli depolama maliyetiyle) herhangi bir hasar hafifletilebilir, böylece eğitime kesintiler sağlanabilir, fırlatmadan sonra sonucu değiştirmek için yapılabilecek nispeten az şey vardır.

Çalışmanın etkileyici yanı, araştırmacıların genel yapay zeka modeli eğitiminde temel bir ilkeyi keşfetmiş gibi görünmeleri ve çözümlerinin şaşırtıcı derecede zarif olmasıdır.

İnce ayardan sonra temel model doğruluğunu koruyabilmenin ekonomik etkileri de önemlidir. Bugüne kadar, çok milyon dolarlık modellerin eksikliklerini gidermenin en yaygın yöntemi, çıkarım zamanında çıktıyı filtrelemek veya modelde belirgin olan herhangi bir Aşil topuğundan kaçınmak için çıkarımı kontrol etmek olmuştur.

Ek olarak, böyle bir teknik teorik olarak tüketici düzeyinde ince ayarlı üretken modellerin yeteneklerinde önemli iyileştirmeler sağlayabilir ve çıktı kalitesinde artış gibi bir bonusa sahip olabilir.

* Yazarların satır içi alıntılarının hiper bağlantılara dönüştürülmesi.

İlk yayın tarihi Salı, 1 Ekim 2024

İlgili konular:Yapay Zeka Modeli Bütünlüğü AI modelleri İnce ayar model