Yapay Zeka

MPT-30B: MosaicML, NLP'nin Sınırlarını Zorlamak İçin Yeni LLM İle GPT-3'ü Gölgede Bıraktı

Yayınlanan

11 ay önce

Temmuz 5, 2023

Öne Çıkan Blog Image-MPT-30B: MosaicML, Dil Modellerinin Sınırlarını Zorlamak İçin Yeni LLM İle GPT-3'ü Gölgede Bırakıyor

mozaikML bir üretken yapay zeka AI dağıtım ve ölçeklenebilirlik çözümleri sağlayan şirket. En son büyük dil modeli (LLM) MPT-30B AI topluluğunda dalgalar yaratıyor.

MosaicML'nin LLM yolculuğu, MPT-7B (Mosaic Pretrained Transformer) Mayıs 2023'te üç varyantla geldi:

MPT-7B-StoryWriter-65k+ (uzun biçimli hikaye üretimi için)
MPT-7B-Talimat (aşağıdaki kısa biçimli talimat için)
MPT-7B-Chat (diyalog oluşturmak için)

Modeller, açık kaynak yapıları, ticari kullanılabilirlikleri ve genişletilmiş bağlam pencerelerini işlemek için olağanüstü yetenekleri nedeniyle makine öğrenimi topluluğunda büyük başarıya tanık oldu.

En önemlisi, model aynı seviyedeydi ve bazı durumlarda diğer karşılaştırılabilir modellerden daha iyi performans gösterdi (LLaMA-7B, KararlıLM 7B, vesaire). Haziran ayına kadar, MPT-7B serisi 3 milyondan fazla indirildi. 22 Haziran'da MosaicML yayınlandı MPT-30B bu da açık kaynaklı temel modeller için çıtayı daha da yükseltti.

MPT-30B: GPT-3'ü Aşan Güçlü Bir LLM

MPT-30B, daha güçlü olan açık kaynaklı ve ticari olarak lisanslı kod çözücü tabanlı bir LLM'dir. GPT-3-175B GPT-17 parametrelerinin yalnızca %3'si ile, yani 30B. Birkaç görevde GPT-3'ten daha iyi performans gösterir. İşte MPT-30B ve GPT-3 arasında bir karşılaştırma.

MPT-30B: GPT-3-GPT3-vs-MPT-30B-Karşılaştırmasını Aşan Güçlü LLM

Kaynak

MPT-30B, önceki MPT-7B modelini temel alır. Benzer boyutlara sahip modellere kıyasla eğitmek hesaplama açısından verimlidir. Örneğin, LLaMA-30B, MPT-1.44B'den yaklaşık 30 kat daha fazla FLOP bütçesi kullanırken, Falcon-40B, MPT-1.27B'den 30 kat daha fazla FLOP bütçesine sahipti. İşte MPT-30B'nin selefine göre çeşitli görevlerdeki gelişiminin bir örneği.

MPT-30B: GPT-3-MPT-30B-MPT-7B-Karşılaştırmasını Aşan Güçlü LLM

Kaynak

MPT-30B'nin bazı özel özellikleri şunlardır:

8k Token Bağlam Penceresi

LLM'lerdeki bağlam penceresi, modelin çıktıyı oluşturmadan önce dikkate alabileceği belirteç aralığını ifade eder. MPT-30B, eğitim sırasında 8000 jetonluk bir bağlam penceresine sahipti. İlk önce 1k belirteç dizisi kullanılarak 2T belirteci üzerinde eğitildi ve ardından ek 50B belirteç 8k belirteç dizisi (kabaca 6000 kelime).

ALiBi Desteği

Bu özelliği açıklamak için bir soru ele alalım:

MPT-30B, üzerinde eğitildiğinden daha uzun sekansları nasıl anlayabilir ve tahminlerde bulunabilir?

MPT-30B bir kullanır Doğrusal Önyargılarla Dikkat (ALiBi) ince ayar veya çıkarım sırasında daha uzun dizileri anlamak ve bağlam penceresini 8k belirtecin ötesine genişletmek için teknik.

ALiBi, dizideki her kelimeye bir vektör atadığımız konumsal yerleştirmeleri hesaplamak yerine, anahtar ve sorgu belirteçleri arasındaki dikkat puanlarını hesaplar. Anahtar ve sorgu belirteçleri birbirine yakın olduğunda, ceza düşük, aksi takdirde daha yüksektir. Sonuç olarak, altta yatan transformatör mimarisi uzun biçimli girdilere tahminde bulunabilir.

FlashAttention ile Verimli Çıkarım ve Eğitim Performansı

Dikkat, yani giriş dizisinin ilgili bölümlerine odaklanmak, transformatörlerin kritik bir bileşenidir, ancak özellikle uzun metin dizilerini işlerken yavaş ve yoğun bellek gerektirebilir.

FlashDikkat MPT-30B için bu sorunu ele alan Cornell Üniversitesi'ndeki araştırmacılar tarafından önerilen bir yaklaşımdır. Döşeme adı verilen bir teknik kullanan FlashAttention, modelin bellekten okuma veya belleğe yazma ihtiyacı sayısını azaltarak işlemeyi hızlandırır. Bu nedenle model, en yeni FlashAttention tekniğini ve NVIDIA'nın Daha Hızlı Dönüştürücü verimli eğitim ve çıkarım için optimizasyon kitaplığı.

Eğitim ve Dağıtım Kolaylığı

Geliştiriciler, MPT-30B'yi sıfırdan eğitebilir veya daha hızlı dağıtımlar için MosaicML'nin kontrol noktalarını kullanabilir. Ayrıca, belirli bir veri kümesindeki etki alanına özgü kullanım durumları için ince ayar yapılabilir.

Modelin boyutu, özellikle 1 bit hassasiyette 100xA80-16GB veya 1 bit hassasiyette 100xA40-8GB olmak üzere tek bir GPU'da zahmetsiz dağıtım sağlamak için seçildi. Bu, modelin bu GPU'ların bellek sınırlamalarına uyacak şekilde tasarlandığı anlamına gelir.

Kodlama Yetenekleri

MPT-30B, olağanüstü kodlama yetenekleri de sağlar. İnsanDeğerlendirmesi OpenAI tarafından yayınlanan ve 164 el yapımı programlama problemi içeren bir veri setidir. HumanEval veri setinde model, amaca yönelik oluşturulmuş LLM modellerini aşmaktadır. Yıldız Kodlayıcı serisi.

Kaynak

İnce Ayarlı Varyantlar: MPT-30B-Talimat ve MPT-30B-Sohbet

MPT-30B-Talimat

LLM'ler öncelikle soru yanıtlama, metin özetleme, dil çevirisi vb. gibi talimatlar için kullanılır. MPT-30B-Instruct, MPT-3.0B'nin ticari olarak kullanılabilir (ticari CC-By-SA-30 lisansını korur) bir çeşididir ve özellikle görevleri takip eden talimat. İnce ayar için aşağıdaki veri kümeleri kullanıldı:

TURTA
P3
Alpaka
Dolly-15k

Dolly veri seti, Anthropic'in Yararlı ve Zararsız veri kümesi talimat ince ayarı için. Ek olarak, veri artırma için aşağıdakiler gibi çeşitli veri kümeleri kullanılmıştır:

RekabetMatematik
SınıfOkulMatematik
DiyalogToplamı
DuoRC
KASPER
Kalite
Özet Ekranı
Örümcek

MPT-30B-Sohbet

MPT-30B-Chat, diyalog üretimi için MPT-30B'nin ince ayarlı bir versiyonudur. CC-By-NC-SA-4.0 lisansı altında yayınlanan ve yalnızca ticari olmayan kullanıma izin veren bir araştırma ürünüdür. Model, aşağıdakiler de dahil olmak üzere çeşitli dil veri kümeleri kullanılarak ince ayarlanmıştır:

Airoboros/GPT4-1.2
çuha
deve
GPÖğretmen
Guanako
Uzun Kapsamlar
PaylaşGPT
SihirbazLM

LLM'ler, multi-milyar dolar ChatGPT'nin geçen yıl manzarada devrim yaratmasının ardından kısa sürede muazzam bir büyüme yaşayan üretken yapay zeka pazarı. MPT ailesi, bu devrimin temel bir parçasıdır. Yakın gelecekte, MPT ailesinden çok daha güçlü ve verimli olan ticari olarak mevcut açık kaynak modellerini görmeyi bekleyebiliriz.

En son yapay zeka haberleri için şu adresi ziyaret edin: birleştirmek.ai.