Yapay Zeka

DBRX'in İçinde: Databricks Güçlü Açık Kaynak LLM'yi Ortaya Çıkarıyor

Güncellenmiş on 16 Nisan 2024

Hızla gelişen büyük dil modelleri (LLM) alanında yeni ve güçlü bir model ortaya çıktı: DBRX, Databricks tarafından oluşturulan açık kaynak modeli. Bu LLM, çok çeşitli kıyaslamalarda son teknoloji ürünü performansıyla ses getiriyor, hatta OpenAI'nin GPT-4 gibi endüstri devlerinin yetenekleriyle rekabet ediyor.

DBRX, araştırmacılara, geliştiricilere ve kuruluşlara üst düzey bir dil modeline açık erişim sağlayarak yapay zekanın demokratikleşmesinde önemli bir kilometre taşını temsil ediyor. Peki DBRX tam olarak nedir ve onu bu kadar özel kılan şey nedir? Bu teknik derinlemesine incelemede, DBRX'i açık LLM ortamında ön sıralara taşıyan yenilikçi mimariyi, eğitim sürecini ve temel yetenekleri keşfedeceğiz.

DBRX'in Doğuşu DBRX'in yaratılması, Databricks'in veri zekasını tüm kuruluşlar için erişilebilir hale getirme misyonuyla gerçekleştirildi. Veri analitiği platformlarında lider olarak Databricks, LLM'lerin muazzam potansiyelini fark etti ve özel tekliflerin performansıyla eşleşebilecek, hatta onu aşabilecek bir model geliştirmeye koyuldu.

Aylar süren yoğun araştırma, geliştirme ve milyonlarca dolarlık yatırımın ardından Databricks ekibi, DBRX ile bir atılım gerçekleştirdi. Modelin, dil anlama, programlama ve matematik de dahil olmak üzere çok çeşitli ölçütlerdeki etkileyici performansı, onu açık yüksek lisans eğitimlerinde yeni bir son teknoloji ürünü olarak sağlam bir şekilde kanıtladı.

Yenilikçi Mimari

Uzman Karmasının Gücü DBRX'in olağanüstü performansının temelinde yenilikçi uzmanlar karışımı (MEB) mimarisi yatmaktadır. Bu son teknoloji tasarım, hem ön eğitim verimliliğini hem de çıkarım hızını artıran seyrek bir yaklaşımı benimseyerek geleneksel yoğun modellerden bir ayrılığı temsil ediyor.

MEB çerçevesinde her girdi için yalnızca "uzmanlar" adı verilen seçilmiş bir grup bileşen etkinleştirilir. Bu uzmanlık, modelin daha geniş bir görev yelpazesini daha büyük bir ustalıkla ele almasına olanak tanırken aynı zamanda hesaplama kaynaklarını da optimize eder.

DBRX, ince taneli MoE mimarisiyle bu konsepti daha da ileri taşıyor. Daha az sayıda ve daha büyük uzmanların kullanıldığı diğer bazı MEB modellerinin aksine, DBRX'te 16 uzman görev yapmaktadır ve herhangi bir girdi için dört uzman aktiftir. Bu tasarım, şaşırtıcı bir şekilde 65 kat daha fazla olası uzman kombinasyonu sağlayarak DBRX'in üstün performansına doğrudan katkıda bulunur.

DBRX çeşitli yenilikçi özelliklerle kendisini farklılaştırıyor:

Döner Konum Kodlamaları (RoPE): Bağlamsal olarak doğru metin oluşturmak için çok önemli olan belirteç konumlarının anlaşılmasını geliştirir.
Geçitli Doğrusal Üniteler (GLU): Modelin karmaşık kalıpları daha verimli bir şekilde öğrenme yeteneğini geliştiren bir geçit mekanizması sunar.
Gruplandırılmış Sorgu Dikkati (GQA): Dikkat mekanizmasını optimize ederek modelin verimliliğini artırır.
Gelişmiş Tokenizasyon: Girdileri daha etkili bir şekilde işlemek için GPT-4'ün tokenizer'ını kullanır.

MoE mimarisi, daha verimli ölçeklendirmeye ve hesaplama kaynaklarının daha iyi kullanılmasına olanak tanıdığından, özellikle büyük ölçekli dil modelleri için çok uygundur. DBRX, öğrenme sürecini birden fazla uzmanlaşmış alt ağa dağıtarak, her görev için verileri ve hesaplama gücünü etkili bir şekilde tahsis edebilir ve hem yüksek kaliteli çıktı hem de optimum verimlilik sağlar.

Kapsamlı Eğitim Verileri ve Etkin Optimizasyon DBRX'in mimarisi şüphesiz etkileyici olsa da, gerçek gücü titiz eğitim sürecinde ve maruz kaldığı büyük miktarda veride yatmaktadır. DBRX, yüksek kalite ve çeşitliliği sağlamak için dikkatle seçilmiş, şaşırtıcı 12 trilyon token metin ve kod verisi üzerinde önceden eğitilmiştir.

Eğitim verileri, Databricks'in veri işleme için Apache Spark, veri yönetimi ve idaresi için Unity Catalog ve deney takibi için MLflow dahil olmak üzere araç paketi kullanılarak işlendi. Bu kapsamlı araç seti, Databricks ekibinin büyük veri kümesini etkili bir şekilde yönetmesine, keşfetmesine ve iyileştirmesine olanak tanıyarak DBRX'in olağanüstü performansının temelini attı.

Modelin yeteneklerini daha da geliştirmek için Databricks, eğitim sırasında veri karışımını yenilikçi bir şekilde değiştiren dinamik bir ön eğitim müfredatı kullandı. Bu strateji, her bir tokenın aktif 36 milyar parametre kullanılarak etkili bir şekilde işlenmesine olanak tanıyarak daha kapsamlı ve uyarlanabilir bir model ortaya çıkardı.

Üstelik DBRX'in eğitim süreci, Databricks'in Composer, LLM Foundry, MegaBlocks ve Streaming dahil olmak üzere özel araç ve kitaplıklarından yararlanılarak verimlilik için optimize edildi. Müfredat öğrenimi ve optimize edilmiş optimizasyon stratejileri gibi teknikleri kullanan ekip, önceki modelleriyle karşılaştırıldığında bilgi işlem verimliliğinde neredeyse dört kat artış elde etti.

Eğitim ve Mimarlık

DBRX, hem metni hem de kodu vurgulayan 12 trilyon tokenden oluşan devasa bir veri kümesi üzerinde bir sonraki token tahmin modeli kullanılarak eğitildi. Bu eğitim setinin, önceki modellerde kullanılanlardan çok daha etkili olduğuna ve çeşitli istemlerde zengin bir anlayış ve yanıt yeteneği sağladığına inanılıyor.

DBRX'in mimarisi yalnızca Databricks'in teknik becerisinin bir kanıtı olmakla kalmıyor, aynı zamanda birden fazla sektördeki uygulamasını da öne çıkarıyor. DBRX, chatbot etkileşimlerini geliştirmekten karmaşık veri analizi görevlerini güçlendirmeye kadar, incelikli dil anlayışı gerektiren çeşitli alanlara entegre edilebilir.

Dikkat çekici bir şekilde, DBRX Instruct piyasadaki en gelişmiş kapalı modellerden bazılarına bile rakip olabiliyor. Databricks'in ölçümlerine göre GPT-3.5'i aşıyor ve genel bilgi, sağduyulu akıl yürütme, programlama ve matematiksel akıl yürütme dahil olmak üzere çeşitli kriterlerde Gemini 1.0 Pro ve Mistral Medium ile rekabet edebiliyor.

Örneğin, dil anlayışını ölçen MMLU kıyaslamasında DBRX Instruct, GPT-73.7'in rapor edilen %3.5 puanını geride bırakarak %70.0'lik bir puan elde etti. HellaSwag sağduyulu akıl yürütme kriterinde DBRX Instruct, GPT-89.0'in %3.5'ini geride bırakarak etkileyici bir %85.5 puan elde etti.

DBRX Instruct, HumanEval değerlendirmesinde %70.1'lik dikkat çekici bir doğruluk elde ederek gerçekten parlıyor ve yalnızca GPT-3.5'ten (%48.1) değil, aynı zamanda özel CodeLLaMA-70B Instruct modelinden (%67.8) daha iyi performans gösteriyor.

Bu olağanüstü sonuçlar, DBRX'in çok yönlülüğünü ve doğal dil anlayışından karmaşık programlama ve matematiksel problem çözmeye kadar çok çeşitli görevlerde başarılı olma yeteneğini vurgulamaktadır.

Verimli Çıkarım ve Ölçeklenebilirlik DBRX'in MoE mimarisinin en önemli avantajlarından biri, çıkarım sırasındaki verimliliğidir. Parametrelerin seyrek etkinleştirilmesi sayesinde DBRX, aynı toplam parametre sayısına sahip yoğun modellere göre iki ila üç kata kadar daha hızlı çıkarım verimi elde edebilir.

Popüler bir açık kaynak LLM olan LLaMA2-70B ile karşılaştırıldığında, DBRX yalnızca daha yüksek kalite sergilemekle kalmaz, aynı zamanda neredeyse yarısı kadar aktif parametreye sahip olmasına rağmen neredeyse iki kat çıkarım hızına sahiptir. Bu verimlilik, DBRX'i içerik oluşturmadan veri analizine ve ötesine kadar çok çeşitli uygulamalarda dağıtım için çekici bir seçim haline getirir.

Üstelik Databricks, kuruluşların kendi DBRX sınıfı modellerini sıfırdan eğitmelerine veya sağlanan kontrol noktaları üzerinde eğitime devam etmelerine olanak tanıyan güçlü bir eğitim yığını geliştirdi. Bu yetenek, işletmelerin DBRX'in tüm potansiyelinden yararlanmalarını ve onu kendi özel ihtiyaçlarına göre uyarlamalarını sağlayarak en son LLM teknolojisine erişimi daha da demokratikleştirmelerini sağlar.

Databricks'in DBRX modelini geliştirmesi, özellikle açık kaynak topluluğunun yenilikçi araçlarının kullanılması yoluyla, makine öğrenimi alanında önemli bir ilerlemeye işaret ediyor. Bu geliştirme yolculuğu iki önemli teknolojiden önemli ölçüde etkilenmiştir: MegaBlocks kütüphanesi ve PyTorch'un Tamamen Parçalanmış Veri Paralel (FSDP) sistemi.

MegaBlocks: MEB Verimliliğinin Artırılması

The MegaBlock'lar kütüphane, sinir ağlarının ölçeklendirilmesinde yaygın bir engel olan Uzmanların Karması (MoE'ler) katmanlarındaki dinamik yönlendirmeyle ilişkili zorlukları giderir. Geleneksel çerçeveler genellikle model verimliliğini azaltan veya model kalitesinden ödün veren sınırlamalar getirir. Ancak MegaBlocks, MoE'ler içindeki içsel dinamizmi ustaca yöneten blok seyrek işlemler yoluyla MoE hesaplamasını yeniden tanımlıyor ve böylece bu tavizlerden kaçınıyor.

Bu yaklaşım yalnızca belirteç bütünlüğünü korumakla kalmaz, aynı zamanda modern GPU yetenekleriyle de iyi uyum sağlar ve geleneksel yöntemlere kıyasla %40'a kadar daha hızlı eğitim sürelerini kolaylaştırır. Bu verimlilik, kapsamlı parametre setlerini verimli bir şekilde yönetmek için büyük ölçüde gelişmiş MoE mimarilerine dayanan DBRX gibi modellerin eğitimi için çok önemlidir.

PyTorch FSDP: Büyük Modelleri Ölçeklendirme

PyTorch'un Tamamen Parçalanmış Verileri Paralel (FSDP), birden fazla bilgi işlem cihazında parametre paylaşımını ve dağıtımını optimize ederek olağanüstü büyük modellerin eğitimi için güçlü bir çözüm sunar. Önemli PyTorch bileşenleriyle birlikte tasarlanan FSDP, sorunsuz bir şekilde entegre olarak yerel eğitim kurulumlarına benzer, ancak çok daha büyük ölçekte sezgisel bir kullanıcı deneyimi sunar.

FSDP'nin tasarımı birçok kritik konuyu akıllıca ele alıyor:

Kullanıcı Deneyimi: Karmaşık arka uç süreçlerine rağmen kullanıcı arayüzünü basitleştirerek daha geniş kullanım için daha erişilebilir hale getirir.
Donanım Heterojenliği: Kaynak kullanımını verimli bir şekilde optimize etmek için çeşitli donanım ortamlarına uyum sağlar.
Kaynak Kullanımı ve Bellek Planlama: FSDP, DBRX ölçeğinde çalışan eğitim modelleri için gerekli olan bellek masraflarını en aza indirirken hesaplama kaynaklarının kullanımını artırır.

FSDP, Dağıtılmış Veri Paralel çerçevesi altında daha önce mümkün olandan daha büyük modelleri desteklemekle kalmıyor, aynı zamanda üretim ve verimlilik açısından doğrusala yakın ölçeklenebilirliği de koruyor. Bu yeteneğin Databricks'in DBRX'i için gerekli olduğu kanıtlandı ve çok sayıda parametreyi etkili bir şekilde yönetirken birden fazla GPU'da ölçeklendirme yapmasına olanak tanıdı.

Erişilebilirlik ve Entegrasyonlar

Databricks, yapay zekaya açık erişimi teşvik etme misyonu doğrultusunda DBRX'i birden fazla kanal üzerinden kullanılabilir hale getirdi. Hem temel modelin (DBRX Base) hem de ince ayarlı modelin (DBRX Instruct) ağırlıkları, popüler Hugging Face platformunda barındırılarak araştırmacıların ve geliştiricilerin modeli kolayca indirip üzerinde çalışmasına olanak tanır.

Buna ek olarak, DBRX model deposu Şeffaflık sağlayan ve model kodunun daha fazla araştırılmasına ve özelleştirilmesine olanak tanıyan GitHub'da mevcuttur.

Databricks müşterileri için, DBRX Base ve DBRX Instruct'a Databricks Foundation Model API'leri aracılığıyla kolayca erişilebilmesi, mevcut iş akışlarına ve uygulamalara kusursuz entegrasyon sağlar. Bu yalnızca dağıtım sürecini basitleştirmekle kalmaz, aynı zamanda hassas kullanım durumları için veri yönetimini ve güvenliğini de sağlar.

Ayrıca DBRX, You.com ve Perplexity Labs gibi birçok üçüncü taraf platform ve hizmete zaten entegre edilmiş olup, erişim alanını ve potansiyel uygulamalarını genişletmektedir. Bu entegrasyonlar, DBRX'e ve yeteneklerine artan ilginin yanı sıra çeşitli endüstriler ve kullanım senaryolarında açık LLM'lerin artan şekilde benimsendiğini göstermektedir.

Uzun Bağlam Yetenekleri ve Geri Alma Artırılmış Üretimi DBRX'in öne çıkan özelliklerinden biri, maksimum 32,768 token bağlam uzunluğuyla uzun bağlam girdilerini işleyebilme yeteneğidir. Bu yetenek, modelin kapsamlı bağlamsal bilgilere dayalı olarak metin işlemesine ve oluşturmasına olanak tanıyarak belge özetleme, soru yanıtlama ve bilgi alma gibi görevler için çok uygun olmasını sağlar.

KV-Pairs ve HotpotQAXL gibi uzun bağlam performansını değerlendiren kıyaslamalarda DBRX Instruct, çeşitli dizi uzunlukları ve bağlam konumlarında GPT-3.5 Turbo'dan daha iyi performans gösterdi.

DBRX, dil anlama (MMLU), Programlama (HumanEval) ve Matematik (GSM8K) konularında yerleşik açık kaynak modellerinden daha iyi performans gösterir.

Sınırlamalar ve Gelecekteki Çalışmalar

DBRX, açık yüksek lisans alanında önemli bir başarıyı temsil etse de, sınırlamalarının ve gelecekteki iyileştirme alanlarının kabul edilmesi önemlidir. Herhangi bir yapay zeka modeli gibi DBRX de eğitim verilerinin kalitesine ve çeşitliliğine bağlı olarak hatalı veya taraflı yanıtlar üretebilir.

Ek olarak, DBRX genel amaçlı görevlerde başarılı olsa da, belirli alana özgü uygulamalar, optimum performansa ulaşmak için daha fazla ince ayar veya özel eğitim gerektirebilir. Örneğin, doğruluğun ve aslına uygunluğun son derece önemli olduğu senaryolarda Databricks, modelin çıktısını geliştirmek için alma artırılmış üretim (RAG) tekniklerinin kullanılmasını önerir.

Ayrıca, DBRX'in mevcut eğitim veri seti esas olarak İngilizce içerikten oluşuyor ve bu da İngilizce olmayan görevlerdeki performansını potansiyel olarak sınırlandırıyor. Modelin gelecekteki yinelemeleri, eğitim verilerinin daha çeşitli dilleri ve kültürel bağlamları içerecek şekilde genişletilmesini içerebilir.

Databricks, DBRX'in yeteneklerini sürekli olarak geliştirmeye ve sınırlamalarını gidermeye kararlıdır. Gelecekteki çalışmalar, çeşitli uygulamalar ve kullanım senaryolarında modelin performansını, ölçeklenebilirliğini ve kullanılabilirliğini iyileştirmenin yanı sıra potansiyel önyargıları azaltacak ve etik yapay zeka kullanımını teşvik edecek teknikleri keşfetmeye odaklanacak.

Ayrıca şirket, veri gizliliğini ve güvenliğini sağlamak için birleşik öğrenme ve gizliliği koruma yöntemleri gibi gelişmiş tekniklerden yararlanarak eğitim sürecini daha da iyileştirmeyi planlıyor.

Öndeki yol

DBRX, yapay zeka gelişiminin demokratikleştirilmesinde ileriye doğru atılmış önemli bir adımı temsil ediyor. Her işletmenin verilerini ve gelişen yapay zeka dünyasındaki kaderini kontrol etme yeteneğine sahip olduğu bir gelecek öngörüyor.

Databricks, DBRX'i açık kaynak kullanarak ve onu oluşturmak için kullanılan aynı araçlara ve altyapıya erişim sağlayarak, işletmelerin ve araştırmacıların kendi özel ihtiyaçlarına göre uyarlanmış kendi son teknoloji Databricks'lerini geliştirmelerine olanak tanıyor.

Müşteriler, Databricks platformu aracılığıyla eğitim verilerini düzenlemek ve yönetmek için şirketin Apache Spark, Unity Catalog ve MLflow dahil veri işleme araçlarından yararlanabilirler. Daha sonra kendi DBRX sınıfı modellerini verimli ve uygun ölçekte eğitmek için Databricks'in Composer, LLM Foundry, MegaBlocks ve Streaming gibi optimize edilmiş eğitim kitaplıklarından yararlanabilirler.

Yapay zeka gelişiminin bu demokratikleşmesi, kuruluşlar içerik oluşturma ve veri analizinden karar desteğine ve ötesine kadar çok çeşitli uygulamalar için büyük dil modellerinin gücünden yararlanma becerisi kazandıkça yeni bir inovasyon dalgasının kilidini açma potansiyeline sahiptir.

Ayrıca Databricks, DBRX etrafında açık ve işbirliğine dayalı bir ekosistemi teşvik ederek büyük dil modelleri alanındaki araştırma ve geliştirme hızını artırmayı hedefliyor. Daha fazla kuruluş ve kişi uzmanlık ve içgörüleriyle katkıda bulundukça, bu güçlü yapay zeka sistemlerine ilişkin kolektif bilgi ve anlayış büyümeye devam edecek ve gelecekte daha gelişmiş ve yetenekli modellerin önünü açacak.

Sonuç

DBRX, açık kaynaklı büyük dil modelleri dünyasında oyunun kurallarını değiştiren bir üründür. Yenilikçi uzmanlardan oluşan mimarisi, kapsamlı eğitim verileri ve son teknoloji ürünü performansıyla, açık LLM'lerle neyin mümkün olabileceğine dair yeni bir standart belirledi.

DBRX, en son yapay zeka teknolojisine erişimi demokratikleştirerek araştırmacılara, geliştiricilere ve kuruluşlara doğal dil işleme, içerik oluşturma, veri analizi ve ötesinde yeni sınırları keşfetme olanağı sağlar. Databricks, DBRX'i iyileştirmeye ve geliştirmeye devam ettikçe, bu güçlü modelin potansiyel uygulamaları ve etkisi gerçekten sınırsızdır.

Bir sonraki

Arlington, VA: Yapay Zeka İnovasyonunda Yeni Bir Güç Merkezi Olarak Ortaya Çıkıyor

Kaçırmayın

Adobe, Video İş Akışları için Yeni Üretken Yapay Zeka Araçlarının Önizlemesini Yapıyor

Aayush Mittal

Son beş yılımı, Makine Öğrenimi ve Derin Öğrenmenin büyüleyici dünyasına dalarak geçirdim. Tutkum ve uzmanlığım, özellikle AI/ML'ye odaklanarak 50'den fazla farklı yazılım mühendisliği projesine katkıda bulunmamı sağladı. Devam eden merakım, beni daha fazla keşfetmeye hevesli olduğum bir alan olan Doğal Dil İşleme'ye de çekti.