Yapay Zekâ

MoRA: Yüksek-Rank Güncellemesi için PEFT

mm

LoRA veya Düşük-Rank Uyumlaştırma, diğer yöntemlere kıyasla güçlü performans ve geniş uygulanabilirlik nedeniyle PEFT veya Parametre-Etkin İnce Ayarlama yöntemleri arasında en popüler olanlardan biridir. LoRA çerçevesi, güncellenmiş ağırlıkları FFT veya Tam İnce Ayarlama’da yaklaşık olarak hesaplamak için iki düşük-rank matris kullanır ve LoRA çerçevesi, bu eğitilebilir parametreleri matrislerin sırasını ayarlayarak değiştirir. Bu sürecin uygulanmasının temel avantajı, LoRA çerçevesinin, ince ayarlamadan sonra çıkarım gecikmesi olmadan bu matrisleri birleştirebilmesidir. Ayrıca, recent büyük dil modelleri, bağlam içi öğrenme görevlerinde dikkat çekici performans sergilerken, bazı senaryolar hala ince ayarlamaya ihtiyaç duyar ve genel olarak üç türe ayrılabilir. İlk tür, talimat ayarlamasıdır ve LLM’leri son görevlerle ve kullanıcı tercihleriyle daha iyi hizalamayı amaçlar, bu da çeşitli görevlerle çalışmayı ve karmaşık talimatları anlamayı kolaylaştırır. İkinci tür, matematiksel problem çözme gibi karmaşık akıl yürütme görevlerini içerir. Son olarak, üçüncü tür, büyük dil modellerinin genel alan özgüllüğü yeteneklerini artırmaya çalışan sürekli ön eğitimdir.

Bu makalede, düşük-rank güncellemenin LoRA çerçevesinin performansını nasıl etkileyebileceği hakkında konuşacağız, çünkü düşük-rank güncelleme mekanizmasının, büyük dil modelinin yeni bilgiler öğrenme ve hatırlama yeteneğini engelleyebileceği gözlemlenmiştir. Aynı zamanda, bu makalede, yüksek-rank güncellemeyi gerçekleştirirken aynı sayıda eğitilebilir parametreleri koruyan MoRA adlı yeni bir yöntem hakkında konuşacağız, bu da bir kare matris kullanarak gerçekleştirilir. Bunu gerçekleştirmek için, MoRA çerçevesi, kare matris için girdi boyutunu azaltır ve çıktı boyutunu artırır, karşılık gelen parametre olmayan operatörleri tanıtır. Ayrıca, bu operatörler, ağırlığın LLM’lere geri birleştirilebileceğini sağlar, bu da MoRA çerçevesini LoRA gibi dağıtabilir kılar.

Bu makale, MoRA çerçevesini derinlemesine kapsayacak ve mekanizmasını, metodolojisini, mimarisini ve devlet-sanat çerçeveleriyle karşılaştırmasını keşfedeceğiz. Böylece başlayalım.

MoRA: Yüksek-Rank Güncellemesi için PEFT

Dil modellerinin boyutu ve yetenekleri arttıkça, PEFT veya Parametre-Etkin İnce Ayarlama, LLM’leri belirli aşağı akış görevlerine uyarlamak için en popüler ve etkili yöntemlerden biri haline gelmektedir. FFT veya Tam İnce Ayarlamayla karşılaştırıldığında, PEFT yalnızca toplam parametrelerin bir kısmını değiştirir ve bazı görevlerde FFT’ye benzer performans sergileyebilir, ancak toplam parametrelerin %1’inden azını günceller, bu da optimize edici için bellek gereksinimlerini önemli ölçüde azaltır ve modellerin depolanmasını ve dağıtılmasını kolaylaştırır. Ayrıca, mevcut tüm PEFT yöntemleri arasında, LoRA özellikle LLM’ler için en popüler olanıdır. LoRA yöntemlerinin, adapterler veya.prompt ayarlaması gibi PEFT yöntemlerine kıyasla daha iyi performans sergilemesinin ana nedenlerinden biri, LoRA’nın parametreleri güncellemek için düşük-rank matrisler kullanmasıdır, bu da çerçevenin, bu matrisleri orijinal model parametrelerine birleştirebilmesini sağlar, çıkarım sırasında hesaplama gereksinimlerini artırmadan.

Ayrıca, LoRA’nın çeşitli görevlerde, sürekli ön eğitim, matematiksel akıl yürütme ve talimat ayarlaması dahil olmak üzere, benzer performans sergilediği, ancak LoRA tabanlı modellerin, FFT tabanlı yöntemlerle karşılaştırıldığında, sürekli ön eğitim ve matematiksel akıl yürütme görevlerinde benzer performans sergileyemediği görülmüştür. Bu performans eksikliğinin olası bir açıklaması, LoRA’nın düşük-rank matris güncellemelerine dayanması olabilir, çünkü düşük-rank güncelleme matrisi, özellikle domaine özgü bilgileri hatırlamak gibi bellek yoğun görevlerde, FFT’deki tam-rank güncellemeleri tahmin etmekte zorlanabilir. Düşük-rank güncelleme matrisinin sırası, tam sıradan küçüktür, bu da yeni bilgiler öğrenme yeteneğini sınırlar. Bu gözlemlere dayanarak, MoRA, düşük-rank güncelleme matrisindeki sırayı maksimuma çıkarmayı amaçlar, ancak aynı sayıda eğitilebilir parametreleri korur, bu da bir kare matris kullanarak gerçekleştirilir.

Aşağıdaki resimde, (a) LoRA’yı ve (b) MoRA’yı aynı sayıda eğitilebilir parametreyle karşılaştırır. W, modelden dondurulmuş ağırlıktır, M, MoRA’daki eğitilebilir matristir, A ve B, LoRA’daki eğitilebilir düşük-rank matrislerdir ve r, LoRA ve MoRA’daki sıradır. Görüldüğü gibi, MoRA çerçevesi, büyük bir sıraya sahip LoRA tabanlı modellere kıyasla daha büyük bir kapasite sergiler. Ayrıca, MoRA çerçevesi, eğitilebilir matris M için girdi boyutunu azaltmak ve çıktı boyutunu artırmak için karşılık gelen parametre olmayan operatörler geliştirir. Ayrıca, MoRA çerçevesi, eğitilebilir matris M ve operatörlerin yerine, düşük-rank güncelleme matrisini kullanma esnekliğini sağlar, bu da MoRA yönteminin, LoRA gibi LLM’lere geri birleştirilebileceğini sağlar.

MoRA: Metodoloji ve Mimari

Düşük-Rank Güncellemenin Etkisi

LoRA tabanlı modellerin temel ilkesi, FFT’deki tam-rank güncellemeleri, düşük-rank güncellemeler kullanarak tahmin etmektir. Geleneksel olarak, bir önceden eğitilmiş parametre matrisi için, LoRA, ağırlık güncellemesini hesaplamak için iki düşük-rank matris kullanır. Eğitim başladığında ağırlık güncellemelerinin 0 olması için, LoRA çerçevesi, bir düşük-rank matrisini Gaussian dağılımıyla, diğerini 0 ile başlatır. LoRA’daki genel ağırlık güncellemesi, FFT’deki ince ayarlamayla karşılaştırıldığında düşük-rank sergiler, ancak LoRA’daki düşük-rank güncellemesi, talimat ayarlaması ve metin sınıflandırma gibi belirli görevlerde, tam-rank güncellemesiyle benzer performans sergiler. Ancak, LoRA çerçevesinin performansı, sürekli ön eğitim ve karmaşık akıl yürütme gibi görevlerde bozulur. Bu gözlemlere dayanarak, MoRA, düşük-rank güncellemelerin, LLM’lerin orijinal bilgilerini kullanarak görevleri çözmeyi kolaylaştırabileceğini, ancak modelin, yeteneklerini ve bilgilerini artırmayı gerektiren görevleri gerçekleştirmekte zorlanabileceğini öne sürer.

Metodoloji

Bağlam içi öğrenme yeteneklerine sahip LLM’ler, önceki yaklaşımlara kıyasla önemli bir performans gelişmesidir, ancak hala, genel olarak üç kategoriye ayrılabilen, ince ayarlamaya dayanarak çalışan bağlamlar vardır. Talimat ayarlaması için LLM’ler, kullanıcı görevleriyle ve tercihleriyle daha iyi hizalanmayı amaçlar, ancak LLM’lerin bilgilerini ve yeteneklerini önemli ölçüde artırmaz, bu da çeşitli görevlerle çalışmayı ve karmaşık talimatları anlamayı kolaylaştırır. Bir diğer tür, matematiksel problem çözme gibi karmaşık akıl yürütme görevlerini içerir, bu da genel talimat ayarlaması, karmaşık sembolik çok adımlı akıl yürütme görevlerini işleyemediğinde yetersiz kalabilir. Çoğu ilgili araştırma, LLM’lerin akıl yürütme yeteneklerini geliştirmeyi amaçlar ve bu, daha büyük öğretmen modelleri gibi GPT-4’e dayalı ilgili eğitim veri kümelerinin tasarlanmasını veya akıl yürütme yolunu izleyen ilgili soruların yeniden ifade edilmesini gerektirir. Üçüncü tür, LLM’lerin alan özgüllüğü yeteneklerini artırmaya yönelik sürekli ön eğitimdir. Talimat ayarlamasıyla karşılaştırıldığında, ince ayarlamaya, ilgili alan özgüllüğü bilgilerini ve becerilerini zenginleştirmek için ihtiyaç duyulur.

Ancak, LoRA varyantlarının çoğu, LLM’lerin bağlamında etkinliklerini değerlendirmek için neredeyse исключ olarak GLUE talimat ayarlaması veya metin sınıflandırma görevlerini kullanır. İnce ayarlamaya en az kaynak gerektiren talimat ayarlaması, LoRA varyantları arasında doğru bir karşılaştırma sunmayabilir. Akıl yürütme görevlerini değerlendirmek için daha recent çalışmalarda bu görevleri eklemek yaygın bir uygulamadır. Ancak, genellikle küçük eğitim veri kümelerini (hatta 1M örnekle, bu oldukça büyüktür) kullanırız. LLM’ler, bu örneklerin boyutundan uygun akıl yürütme öğrenmekte zorlanabilir. Örneğin, bazı yaklaşımlar, yalnızca 7.5K eğitim bölümü olan GSM8K kullanır. Ancak bu sayılar, 395K örnek üzerinde eğitilen SOTA yönteminden daha küçüktür ve bu, bu yöntemlerin NLP’nin akıl yürütme gücünü öğrenme yeteneklerini değerlendirmeyi zorlaştırır.

Düşük-rank güncellemenin etkisinden yola çıkarak, MoRA çerçevesi, düşük-rank güncellemenin olumsuz etkilerini azaltmak için yeni bir yöntem önerir. MoRA çerçevesinin temel ilkesi, aynı sayıda eğitilebilir parametreleri kullanarak, düşük-rank güncelleme matrisindeki sırayı maksimuma çıkarmaktır. Önceden eğitilmiş ağırlıkları dikkate alarak, LoRA çerçevesi, iki düşük-rank matris A ve B kullanır, toplam eğitilebilir parametreler için r sırasıdır. Ancak, aynı sayıda eğitilebilir parametreler için, bir kare matris en yüksek sırayı gerçekleştirebilir ve MoRA çerçevesi, eğitilebilir kare matris için girdi boyutunu azaltarak ve çıktı boyutunu artırarak bunu gerçekleştirir. Ayrıca, bu iki fonksiyonun parametre olmayan operatörler olması ve boyutla lineer zamanda çalışması beklenmektedir.

MoRA: Deneyler ve Sonuçlar

Performansını değerlendirmek için, MoRA çerçevesi, üç görevde yüksek-rank güncellemenin etkisini anlamak için geniş bir görev yelpazesi üzerinde değerlendirilir: UUID çiftlerini hatırlama, ince ayarlama görevleri ve ön eğitim.

UUID Çiftlerini Hatırlama

Performansını göstermek için, MoRA çerçevesi, FFT ve LoRA çerçeveleriyle UUID çiftlerini hatırlama görevinde karşılaştırılır. Eğitim kaybı, aşağıdaki resimde gösterilir.

Görüldüğü gibi, aynı sayıda eğitilebilir parametreler için, MoRA çerçevesi, mevcut LoRA modellerini aşmaktadır, bu da yüksek-rank güncelleme stratejisinden yararlandığını gösterir. Farklı eğitim adımlarında karakter düzeyinde eğitim doğruluğu raporu, aşağıdaki tabloda özetlenmiştir.

Görüldüğü gibi, LoRA’ya kıyasla, MoRA çerçevesi, UUID çiftlerini hatırlamak için daha az eğitim adımı gerekir.

İnce Ayarlama Görevleri

İnce ayarlama görevlerindeki performansını değerlendirmek için, MoRA çerçevesi, büyük dil modelleri için tasarlanmış üç ince ayarlama görevinde değerlendirilir: talimat ayarlaması, matematiksel akıl yürütme ve sürekli ön eğitim, ayrıca her iki model için yüksek kaliteli ilgili veri kümesi. İnce ayarlama görevlerinin sonuçları, aşağıdaki tabloda sunulur.

Görüldüğü gibi, matematiksel akıl yürütme ve talimat ayarlaması görevlerinde, hem LoRA hem de MoRA modelleri benzer performans sergiler. Ancak, MoRA modeli, sürekli ön eğitim görevlerinde, hem tıbbi hem de finansal alanlarda, yüksek-rank güncelleme yaklaşımından yararlanarak yeni bilgiler hatırlamada, LoRA çerçevesinden daha iyi performans sergiler. Ayrıca, bu üç görevin birbirinden farklı olduğu ve farklı gereksinimlere ve ince ayarlama yeteneklerine sahip olduğu anlaşılmalıdır.

Ön Eğitim

Genel performansı değerlendirmek için, MoRA çerçevesindeki transformör, C4 veri kümesinden itibaren sıfırdan eğitilir ve performansı, LoRA ve ReLoRA modelleriyle karşılaştırılır. Ön eğitim kaybı ve ilgili karmaşıklık, C4 veri kümesinde aşağıdaki resimlerde gösterilir.

Görüldüğü gibi, MoRA modeli, ön eğitim görevlerinde, aynı sayıda eğitilebilir parametreler için, LoRA ve ReLoRA modellerine kıyasla daha iyi performans sergiler.

Ayrıca, yüksek-rank güncellemenin, düşük-rank güncelleme matrisinin sırasına etkisini göstermek için, MoRA çerçevesi, 250M modeli ön eğittiği öğrenilen düşük-rank güncelleme matrisi için tekil değerlerin spektrumunu analiz eder ve sonuçlar aşağıdaki resimde gösterilir.

Son Düşünceler

Bu makalede, düşük-rank güncellemenin LoRA çerçevesinin performansını nasıl etkileyebileceği hakkında konuşacağız, çünkü düşük-rank güncelleme mekanizmasının, büyük dil modelinin yeni bilgiler öğrenme ve hatırlama yeteneğini engelleyebileceği gözlemlenmiştir. Aynı zamanda, bu makalede, yüksek-rank güncellemeyi gerçekleştirirken aynı sayıda eğitilebilir parametreleri koruyan MoRA adlı yeni bir yöntem hakkında konuşacağız, bu da bir kare matris kullanarak gerçekleştirilir. Bunu gerçekleştirmek için, MoRA çerçevesi, kare matris için girdi boyutunu azaltır ve çıktı boyutunu artırır, karşılık gelen parametre olmayan operatörleri tanıtır. Ayrıca, bu operatörler, ağırlığın LLM’lere geri birleştirilebileceğini sağlar, bu da MoRA çerçevesini LoRA gibi dağıtabilir kılar.

Mesleği mühendis, kalbi yazar. Kunal, AI ve ML'ye derin bir sevgi ve anlayışla technical writer, bu alanlardaki karmaşık kavramları etkileyici ve bilgilendirici belgelerle basitleştirmeye adanmış.