Yapay Zekâ
GLM-130B: Açık Bilingual Ön-Eğitilmiş Model

GLM-130B çerçevesi, İngilizce ve Çince’de metin çıktıları üretebilen 130 milyardan fazla parametreye sahip bir bilingual ön-eğitilmiş büyük dil modelidir. GLM-130B çerçevesi, 100B parametrelik bir dil modelini açık kaynak olarak sunma ve böyle büyük ölçekli çerçevelerin nasıl ön-eğitileceği konusunda tartışma yapma girişimidir, çünkü şu anda böyle büyük ölçekli bir modeli eğitme genellikle dalgalanma ve kayıp spike gibi sorunlarla karşılaşılır.
Bu makalede, GLM-130B çerçevesi hakkında konuşacağız, bu çerçevenin yüz milyarlarca parametreye sahip büyük dil modellerini etkili bir şekilde ön-eğitmek için bir yöntem geliştirmeyi amaçladığını ele alacağız. GLM-130B çerçevesinin çalışma ve mimarisi ile birlikte eğitim süreci ve tasarım seçimlerini daha da derinlemesine inceleyeceğiz, bu seçimlerin yalnızca verimliliği artırmaya değil, aynı zamanda istikrarı sağlamaya nasıl yardımcı olduğunu göstereceğiz. GLM-130B çerçevesinin geniş bir İngilizce benchmark dizisinde test edilmesi, modelin mevcut durumun GPT-3 çerçevesini önemli ölçüde geride bıraktığını gösterdi. Şimdi başlayalım ve GLM-130B çerçevesinin nasıl bu kadar tutarlı, doğru ve istikrarlı sonuçlar ürettiğini keşfedelim.
GLM-130B Çerçevesine Giriş
Az-shot ve zero-shot ayarlarında çalışan, özellikle 100 milyardan fazla parametreye sahip büyük dil modelleri, çekici ölçekleme yasaları sunar ve bunlardan biri, önemli performans iyileştirmeleri sunan GPT-3 çerçevesidir. Ancak, GPT-3 çerçevesinin popülerliğine ve geniş uygulamalarına rağmen, eğitim süreci ve bazı yönlerden GPT-3 çerçevesi itself kamuoyuna karşı şeffaf olmamıştır. Ayrıca, 100B parametrelerin üzerinde LLM’ler için tüm olası tasarımları empirik olarak sıralamak hesaplama açısından oldukça pahalıdır, bu da büyük ölçekli LLM çerçeveleri için ön-eğitim yöntemleri geliştirmeyi daha da kritik hale getirir.
Yukarıdaki nokta, GPT-3 gibi yüksek kaliteli büyük ölçekli LLM çerçevelerinin çalışma ve eğitim sürecini paylaşmasının kritik değerini vurgular ve etik endişeleri göz önünde bulundurarak, GLM-130B çerçevesi 100B parametrelerin üzerinde açık kaynaklı bir LLM’yi ön-eğitmeye yönelik bir girişimdir. GLM-130B geliştirme ekibi, büyük ölçekli bir LLM çerçevesini ön-eğitmekle thường birlikte gelen bir dizi mühendislik ve teknik zorluklarla karşılaştı, bunlar arasında ön-eğitim istikrarı, verimliliği ve yakınsama bulunur.
Daha spesifik olarak, GLM-130B, 130B parametrelerden oluşan bir bidirectional ve bilingual dense çerçeve olup, 400B token üzerinde 96 NVIDIA DGX-A100 GPU düğüm kümesinde yaklaşık iki ay süren bir eğitim sürecinden geçirilmiştir. Ayrıca, GPT-stil mimarisi yerine, GLM-130B çerçevesi, otoregresif blank infilling hedeflerini ve bidirectional dikkat avantajını kullanmak amacıyla GLM veya Genel Dil Modeli algoritmasını temel alır. Aşağıdaki tablo, GLM-130B çerçevesini diğer 100B parametrelerin üzerinde modellerle, GPT, BLOOM-176B ve OPT-175B ile karşılaştırır.

GLM-130B çerçevesindeki mühendislik ve geliştirme kavramları, GPT-3 ve PaLM 540B dahil几乎 tüm büyük ölçekli LLM çerçevelerini, birçok durumda ve geniş bir benchmark yelpazesi üzerinde geride bırakır. Aşağıdaki şekil, GLM-130B çerçevesinin 100B parametrelerin üzerinde modellerle karşılaştırıldığını ve GLM-130B çerçevesinin önemli ölçüde daha az üretim toksisitesine ve önyargıya sahip olduğunu gösterir.

Son olarak, GLM-130B, geliştiricilerin 100B parametrelerin üzerinde çerçeveler üzerinde çalışmalar yapabilmesi için tasarlanmıştır ve GLM-130B çerçevesi bunu iki şekilde gerçekleştirir. İlk olarak, BLOOM ve OPT gibi 175B parametre kullanmak yerine, GLM-130B çerçevesi 130B parametre kullanır, çünkü modelin boyutu, tek bir A100 sunucusunda bile inference’i destekler. İkincisi, GLM-130B çerçevesini çalıştırmak için gereken GPU gereksinimleri, diğer LLM çerçevelerine göre daha azdır ve GLM-130B çerçevesi bunu orijinal çerçeveyi INT4 precision’a quantize ederek gerçekleştirir. GLM-130B çerçevesi tarafından kullanılan INT4 quantization, performansı artırırken, ihmal edilebilir bir performans bozulmasına neden olur.
GLM-130B : Mimarisi
Bir makine öğrenimi modelinin endüktif önyargısı, mimarisi tarafından tanımlanır ve büyük dil modelleri için çeşitli mimari tasarımlarını keşfetmek, hesaplama açısından oldukça pahalı olduğu için geliştiriciler için sürpriz değildir. GLM-130B’nin mimarisine bir göz atalım.
PaLM, GPT ve daha fazlası gibi büyük ölçekli LLM çerçeveleri, 100B parametrelerin üzerinde sahiptir ve bunlar, otoregresif dil modelleme için geleneksel decoder-only GPT-stil mimarisi üzerine kuruludur. Diğer taraftan, GLM-130B çerçevesi, bir bidirectional Genel Dil Modeli veya GLM kullanma olasılığını keşfeder, bu, bir transformer tabanlı dil modelidir ve otoregresif blank filling’i eğitim hedefi olarak kullanmak amacıyla tasarlanmıştır. Kısaca, verilen bir metin dizisi için GLM çerçevesi, metin span’larını örnekleler ve bunları tek bir maskeli token ile değiştirir.
GLM-130B çerçevesini GPT-stil yaklaşmadan ayıran, Genel Dil Modelinin bozulmamış veya maskelenmemiş bağlamlar上的 bidirectional dikkat özelliğidir. Ayrıca, hem üretim hem de veri anlama için desteklemek amacıyla, GLM çerçevesi, her biri özel bir maskeli token ile belirtilen iki bozulma stratejisinin bir bileşimini kullanır.
- [MASK] : [MASK] bir bozulma stratejisi olup, cümlelerde kısa blank’lar kullanır, bunların uzunlukları girişin belirli bir yüzdesine eklenir.
- [gMASK] : [gMASK] bir bozulma stratejisi olup, cümle sonlarına rastgele uzunlukta blank’lar kullanır, ön ek bağlamları ile birlikte.
GLM çerçevesinin yaklaşımı, çerçevenin zero-shot LAMBADA dil modelleme sınavında %80’in üzerinde bir doğruluk puanı kaydetmesine ve PaLM 540B ve GPT-3 çerçevelerini geride bırakmasına olanak tanır.

Katman Normalizasyonu
LLM çerçevelerini eğitmekle ilgili büyük bir zorluk, eğitim istikrarıdır ve uygun bir LN (Katman Normalizasyonu) kullanmak, LLM’lerin eğitilmesine yardımcı olabilir. GLM-130B çerçevesi, akış aşağı görevlerdeki performansı nedeniyle Post-LN yaklaşımını kullanır.
FFN’ler ve Pozisyonel Kodlama
Besleyici İleri Sinir Ağları (FFN’ler) ve pozisyonel kodlama, GLM-130B çerçevesinin yüksek düzeyde akış aşağı performansı ve eğitim istikrarı sağlamak amacıyla benimsediği iki yaklaşımdır.
Ön-Eğitim Ayarı
GLM-130B çerçevesinin ön-eğitim hedefleri, yalnızca birkaç token için çoklu görev öğrenimi değil, aynı zamanda otoregresif blank infilling için kendi kendine denetlenen GLM’yi de içerir, bu yaklaşımın GLM-130B çerçevesini akış aşağı görevlerde destekleyeceği ümit edilir. GLM-130B çerçevesinin ön-eğitim ayarı aşağıdaki gibidir.
Otoregresif Blank Doldurma
Zaten bahsedildiği gibi, GLM-130B çerçevesi, [MASK] ve [gMASK] olarak adlandırılan iki bozulma stratejisi kullanır ve bu stratejilerden biri, her bir eğitim dizisi üzerinde bağımsız olarak uygulanır. Blank’ları doldurmak için, [MASK] stratejisi, eğitim dizisinin %30’unda ardışık blank’lar kullanır, bunların uzunlukları girişin %15’ine eklenir ve bir Poisson dağılımı izler. Dizinin geri kalan %70’inde, her bir dizinin ön eki, bir contexto olarak tutulur ve [gMASK] stratejisi, geri kalanını maskeler, maskeli uzunluk ise Uniform dağılım kullanılarak örnekleme yapılır.
Çoklu Görev Talimatları Ön-Eğitimi
Modelin ön-eğitiminde çoklu görev öğrenimi yaklaşımını takip etmenin, fine-tuning’den daha iyi sonuçlar verdiğini gösterilmiştir, bu da zero-shot ayarlarında görev aktarımını iyileştirir. Sonucunda, GLM-130B çerçevesi, ön-eğitim sırasında dil üretimi, anlama ve bilgi çıkarma dahil olmak üzere bir dizi talimatlı veri setini kullanmayı önerir.
GLM-130B çerçevesi tarafından takip edilen Çoklu Görev Talimatları Ön-Eğitimi yaklaşımı, diğer zero-shot görev aktarımı için kullanılan çoklu görevli fine-tuning yaklaşımına kıyasla, yalnızca toplam tokenlerin %5’ini hesaba katarken, ön-eğitim aşamasında diğer LLM çerçevesinin yeteneklerini bozmaktan kaçınmaya çalışır, yani kondisyonlu ücretsiz üretim.
3B Paralel Stratejisi
Büyük ölçekli modelleri milyarlarca parametre ile eğitmek için iki adet facto uygulamalar vardır, tensor model paralelliği ve veri paralelliği. GLM-130B çerçevesi, pipeline model paralelliği stratejisini tensor model paralelliği ve veri paralelliği stratejileriyle birleştiren 3B paralel stratejisini uygulayarak, GPU kullanımını en aza indirir ve muazzam GPU gereksinimlerini ele alır.
GLM-130B : Eğitim İstikrarı
Eğitim istikrarı, bir LLM’nin kalitesini belirlemede önemli bir faktördür ve eğitim istikrarı, geçtiği tokenlerin sayısıyla büyük ölçüde etkilenir. Ayrıca, hesaplama kısıtlamaları nedeniyle, eğitim verimliliği ve istikrarı arasında bir denge kurmak önemlidir. Örneğin, düşük hassasiyetli kayan nokta formatları, hesaplama verimliliğini artırır, ancak thường olarak alt akış ve taşma hatalarına eğilimlidir.
Karışık Hassasiyet
Eğitim doğruluğunu artırmak ve bellek kullanımını azaltmak amacıyla, GLM-130B çerçevesi, FP16 için hem ileri hem de geri yönde ve FP32 için hem ana ağırlıklar hem de optimize edici durumlar için karıştırılmış hassasiyetleri kullanma uygulamasını takip eder. Diğer popüler LLM çerçeveleri gibi BLOOM-176B ve OPT-175B, GLM-130B çerçevesinin eğitim aşaması, karıştırılmış hassasiyet stratejisi ile sık sık kayıp spike’leri ile karşılaşır ve bu kayıp spike’lerinin sıklığı, modelin eğitimi devam ettikçe artma eğilimindedir. Ayrıca, transformer’leri ölçeklendirme sırasında önemli sorunlar vardır.

İlk olarak, transformer’in ana dalının değer ölçeği, Pre-LN kullanıldığında daha derin katmanlarda çok büyük olabilir ve GLM-130B çerçevesinde, değer ölçeğinin her zaman sınırlı kalmasını sağlamak amacıyla DeepNorm tabanlı Pre-LN kullanılır. İkincisi, model ölçeklendiğinde, dikkat puanları FP16’nin aralığını aşacak noktaya kadar büyür.
Katman-Gradyan Küçültme veya EGS
GLM-130B çerçevesi üzerinde çalışan geliştiriciler, gradyan normunun eğitim çöküşleri için bilgilendirici bir gösterge olabileceğini tespit ettiler ve eğitim çöküşü genellikle gradyan normundaki bir spike’nin ardından gelir. Bu spike’lerin nedeni, katman gradyanının anormal gradyanlarıdır ve geliştiriciler, katman gradyanının diğer katmanların gradyan normuna kıyasla daha büyük ve eğitim sürecinde daha çok dalgalanma gösterdiğini gözlemlediler. Görme modelleri de bu sorunu yaşar ve bu, patch projection katmanının dondurulmasıyla ele alınır. Ancak, aynı yaklaşım LLM’ler için uygulanamaz, çünkü dil modellerinde, projeksiyon katmanlarını donduramazsınız.

GLM-130B : Sonuçlar ve Performans
GLM-130B’nin İngilizce görevlerdeki performansını değerlendirmek için, PaLM ve GPT-3 gibi ortak LLM çerçevelerinin takip ettiği aynı ayarları uygular ve GLM-130B’nin bir bilingual çerçeve olduğu için, ayrıca çeşitli Çin benchmark’lerinde de değerlendirilir. GLM-130B çerçevesinin performansı, Dil Modelleme, MMLU veya Massive Multitask Language Understanding, BIG-Bench veya Beyond the Imitation Game Benchmark ve CLUE veya Chinese Language Understanding Evaluation dahil olmak üzere birden fazla benchmark üzerinde ölçülür. Şimdi başlayalım.
Dil Modelleme
GLM-130B çerçevesinin Dil Modelleme sınavı, LAMBADA ve Pile gibi iki veri seti üzerinde gerçekleştirilir.
LAMBADA veri seti, LLM’lerin son kelime modelleme yeteneklerini test etmek için kullanılır ve GLM-130B çerçevesi, bilingual bir ayarında %80,2’lik bir zero-shot doğruluk puanı elde eder ve bu, LAMBADA veri setinde yeni bir benchmark rekoru oluşturur.
Öte yandan, Pile, dil modelleri için bir dizi benchmark’tan oluşan bir test setidir. GPT-3 ve Jurassic-1 ile karşılaştırıldığında, GLM-130B çerçevesi, 18 paylaşılan test setinde ağırlıklı BPB’de en iyi performansı gösterir. Sonuçlar, GLM-130B çerçevesinin güçlü dil yeteneklerini gösterir ve sonuçlar aşağıdaki tabloda yer alır.

MMLU veya Massive Multitask Language Understanding
MMLU veya Massive Multitask Language Understanding , lise seviyesinden uzman seviyesine kadar insan zekası ve bilgisine ilişkin 50’den fazla çoklu seçim sorusundan oluşan çeşitli bir benchmarktır ve Pile test setinin taramasından sonra yayınlanır, bu nedenle bir LLM’nin zero-shot öğrenme yeteneklerini değerlendirmek için ideal bir test seti olarak hizmet eder.

Görüldüğü gibi, birkaç shot ayarı (5-shot) altında, GLM-130B çerçevesinin performansı, yaklaşık 300B token’i gördükten sonra GPT-3 modelinin performansına yaklaşır. Performans, eğitim devam ettikçe artar ve eğitim sona erdiğinde, çerçeve 400B token’i gördükten sonra %44,8’lik bir doğruluk puanı elde eder.
BIG-Bench veya Beyond the Imitation Game Benchmark
BIG-Bench veya Beyond the Imitation Game Benchmark’ın zorlu görevleri, bir modelin bilgi, akıl yürütme ve ortak akıl yeteneklerini test eder. Aşağıdaki şekillerde gösterildiği gibi, zero-shot ayarında, GLM-130B çerçevesi PaLM 540B ve GPT-3 175B çerçevelerini geride bırakır, bu da MIP ve bidirectional bağlam dikkat avantajının GLM-130B’nin zero-shot ayarındaki görünmeyen görevlerdeki performansını artırmaya yardımcı olabileceği anlamına gelir. Ayrıca, shot sayısı arttıkça, GLM-130B çerçevesinin performansı da iyileşir ve GPT-3 çerçevesini tutarlı bir şekilde geride bırakır.

CLUE veya Chinese Language Understanding Evaluation
GLM-130B’nin Çin zero-shot performansı, CLUE ve FewCLUE gibi kurulmuş NLP benchmark görevlerinde değerlendirilir ve 260B ERNIE Titan 3.0 ile karşılaştırılır, bu, mevcut en büyük Çin dil modelidir. Görüldüğü gibi, GLM-130B çerçevesi tutarlı bir şekilde 12 farklı görevde 260B ERNIE Titan 3.0 çerçevesini geride bırakır ve soyut MRC veri setlerinde ERNIE çerçevesinden yaklaşık %260 daha iyi performans gösterir.

Sonuç
Bu makalede, GLM-130B hakkında konuştuk, bu çerçevenin kapsayıcı LLM araştırmalarını teşvik etmeyi amaçlayan, 100B parametrelerin üzerinde bir bilingual ön-eğitilmiş büyük dil modelidir. Mimarisi, mühendisliği ve teknik girişimleri, AI topluluğuna LLM çerçevelerinin mimarisi, eğitim verimliliği ve istikrarı, ön-eğitim hedefleri ve makul interference hakkında daha iyi bir anlayış sağlamak amacıyla tasarlanmıştır.










