Best Of
En İyi 5 Açık Kaynaklı LLM (Eylül 2025)

Büyük Dil Modelleri (LLM'ler) günümüz yapay zekasının temel taşı olarak ortaya çıkmış, yenilikleri yönlendirmiş ve teknolojiyle etkileşim kurma biçimimizi yeniden şekillendirmiştir.
Bu modeller giderek daha karmaşık hale geldikçe, bunlara erişimin demokratikleştirilmesine yönelik vurgu da artıyor. Özellikle açık kaynaklı modeller, bu demokratikleşmede önemli bir rol oynuyor ve araştırmacılara, geliştiricilere ve meraklılara bu modellerin inceliklerini derinlemesine inceleme, belirli görevler için ince ayar yapma ve hatta temellerini geliştirme fırsatı sunuyor.
Bu blog yazısında, yapay zeka topluluğunda ses getiren en iyi açık kaynaklı LLM programlarından bazılarını inceleyeceğiz. Her biri, kendine özgü güçlü yönlerini ve yeteneklerini ortaya koyuyor.
1. Llama 3
Meta'nın Llama 3 sürümü, açık kaynaklı büyük dil modeli serisinde muazzam bir sıçramayı temsil ediyor. 2'te piyasaya sürülen çığır açan Llama 2023'nin halefi olan Llama 3, 8B ve 70B parametre ölçeklerinde açık erişimli modeller için yeni bir son teknoloji oluşturuyor. Bu, yalnızca kademeli bir güncelleme değil; geliştiricilerin yapay zeka alanında açık araştırma ve inovasyonu teşvik ederken en son teknoloji doğal dil uygulamaları geliştirmelerini sağlayacak dönüştürücü bir gelişme.
Llama 3'ün rakipsiz performansı, ön eğitim süreci ve mimarisindeki önemli iyileştirmeler sayesindedir. Model, halka açık kaynaklardan elde edilen 15 trilyondan fazla jetondan oluşan devasa bir veri kümesi üzerinde eğitildi; bu, Llama 7'den 2 kat daha fazla veri anlamına geliyor. Bu, Llama 4'ün kodlama yeteneklerini artırmak için 3 kat daha fazla kod verisi ve gelecekteki çok dilli sürümlerin temelini oluşturmak için 30'dan fazla dili kapsayan önemli bir kapsam anlamına geliyor. Bu verileri düzenlemek için kapsamlı filtreleme kullanıldı ve Llama 3'ün yalnızca en yüksek kaliteli kaynaklardan öğrenmesi sağlandı.
Ancak Llama 3'ün geliştirmeleri yalnızca daha fazla veriyle sınırlı değil. Modelin mimarisi ve eğitim sürecindeki son teknoloji iyileştirmeler, akıl yürütme becerilerini, kod oluşturmayı, talimat takibini ve yanıt çeşitliliğini önemli ölçüde iyileştirdi. İyileştirilmiş bir belirteç ayırıcı, Llama 3'ü selefine göre %15'e kadar daha verimli hale getiriyor. Gruplandırılmış sorgu dikkati, 8B modelinin önceki 7B modeliyle çıkarım eşitliğini korumasını sağlıyor.

Kaynak: Meta
Nihai sonuç, çok çeşitli karmaşık dil görevlerinde üstün performans gösteren bir dil modelidir:
- Yaratıcı Nesil: Lama 3 hikayeler, senaryolar, müzik parçaları, şiirler ve daha fazlası biçiminde son derece tutarlı ve yaratıcı metinler üretebilir.
- Kodlama ve Muhakeme: Geliştirilmiş kod eğitimi verileri sayesinde Llama 3, karmaşık sorunların üstesinden gelmek için inanılmaz derecede güçlü kodlama ve mantıksal akıl yürütme becerilerine sahiptir.
- Soru Yanıtlama: Llama 3, geniş bilgi tabanındaki bilgileri birbirine bağlayarak, çeşitli konulardaki sorulara derinlemesine bilgi içeren yanıtlar sağlayabilir.
- Özetleme: Llama 3, uzun makalelerin ve gerçek içeriklerin kısa ama kapsamlı özetlerini üretme konusunda ustadır.
- Talimat Takip Ediliyor:Llama 3'ün en etkileyici özelliklerinden biri, açık uçlu görevler için karmaşık, çok adımlı talimatları doğru bir şekilde takip edebilme yeteneğidir.
Llama serisinin geleceği parlak. Meta halihazırda Llama 3'ün yalnızca daha büyük değil, aynı zamanda çok dilli ve çok modlu 400 milyarın üzerinde parametreye sahip sürümlerini geliştiriyor. İlk testler, bu ultra büyük ölçekli modellerin, en iyi tescilli sistemlerle rekabet edebilecek düzeyde ümit verici sonuçlar verdiğini göstermektedir.

Kaynak: Meta
2. Çiçek açmak
2022'de BLOOM projesi, yapay zeka şirketi Hugging Face'in liderliğinde, 1,000'ten fazla ülkeden 70'den fazla gönüllü araştırmacının katıldığı bir yıllık ortak çalışmanın ardından açıklandı. BLOOM (BigScience Büyük Açık Bilim Açık Erişim Çok Dilli Dil Modeli), tutarlı hikayeler, senaryolar, şiirler, makaleler ve daha fazlasını oluşturmak için belirli bir metin istemini genişletebilen, otoregresif metin üretimi için tasarlanmış 176 milyar parametreli büyük bir dil modelidir.
BLOOM'u diğerlerinden ayıran şey, açık erişim niteliğidir; teknoloji şirketleri tarafından geliştirilen diğer büyük dil modellerinin çoğunun aksine, model, kaynak kodu ve eğitim verilerinin tümü açık lisanslar altında ücretsiz olarak mevcuttur. Bu açıklık, modelin daha geniş yapay zeka topluluğu tarafından sürekli olarak incelenmesini, kullanılmasını ve geliştirilmesini teşvik eder.
BLOOM, 1.6 doğal dili ve 46 programlama dilini kapsayan 13 TB'lık geniş bir veri kümesi (ROOTS topluluğu) üzerinde eğitilmiş olup, verilerin %30'undan fazlası İngilizcedir ve etkileyici çoklu dil yeteneklerine sahiptir. İspanyolca ve Arapça gibi birçok dil için BLOOM kendi boyutunda ilk modeldir.
Model, Fransa'daki Jean Zay süper bilgisayarında 3.5 NVIDIA A384 GPU kullanılarak 100 ay boyunca eğitildi; bu, Fransız hükümetinin hesaplama bağışı ile mümkün oldu; bu da 5 milyon saatin üzerinde hesaplamaya denk geliyor. Değişikliklerle birlikte GPT mimarisini temel alan BLOOM, kıyaslamalarda rekabetçi bir performans elde ediyor.
BLOOM'un Temel Güçlü Yönleri:
- Açık Erişim: BLOOM'un modeli, kodu ve eğitim verileri serbestçe kullanılabilir, bu da güçlü dil modellerine erişimi demokratikleştirir ve açık araştırmaya olanak tanır.
- Çok Dilli Yeterlilik: 46 doğal dil ve 13 programlama dilini kapsayan veriler üzerine eğitilmiş olan BLOOM, kapsamlı çok dilli yeteneklere sahiptir.
- Çok Yönlü Dil Becerileri: BLOOM, metin oluşturmadan soru yanıtlamaya, özetlemeye, çeviriye ve kod oluşturmaya kadar çeşitli dil görevlerinde mükemmeldir.
- Sorumlu Yapay Zeka Geliştirme: BLOOM, sorumlu yapay zeka uygulamalarına odaklanılarak geliştirildi ve kötü niyetli kullanım durumlarını yasaklayan bir lisans kapsamında piyasaya sürüldü.
- Kolay Dağıtım: Geliştiriciler BLOOM'a Hugging Face Transformers kitaplığı aracılığıyla erişebilir ve Accelerate'i kullanarak dağıtabilir.
BigScience ekibi ileriye dönük olarak BLOOM'u daha fazla dile genişletmeyi, modeli sıkıştırmayı ve daha gelişmiş mimariler için bir başlangıç noktası olarak kullanmayı planlıyor. BLOOM, büyük dil modellerini herkes için daha şeffaf ve erişilebilir hale getirmede önemli bir adımı temsil ediyor.
3. MPT-7B
MosaicML Foundations, en son açık kaynak LLM'si olan MPT-7B'nin tanıtımıyla bu alana önemli bir katkı yaptı. MosaicML Pretrained Transformer'ın kısaltması olan MPT-7B, GPT tarzı, yalnızca dekoderli bir trafo modelidir. Bu model, performansı optimize edilmiş katman uygulamaları ve daha fazla eğitim kararlılığı sağlayan mimari değişiklikler dahil olmak üzere çeşitli geliştirmelere sahiptir.
MPT-7B'nin öne çıkan bir özelliği, 1 trilyon metin ve kod belirtecinden oluşan kapsamlı bir veri kümesi üzerindeki eğitimidir. Bu titiz eğitim, MosaicML platformunda 9.5 gün boyunca gerçekleştirildi.
MPT-7B'nin açık kaynaklı yapısı, onu ticari uygulamalar için değerli bir araç olarak konumlandırır. Tahmine dayalı analitiği ve işletmelerin ve kuruluşların karar alma süreçlerini önemli ölçüde etkileme potansiyeline sahiptir.
MosaicML Foundations, temel modele ek olarak, kısa biçimli talimat takibi için MPT-7B-Instruct, diyalog oluşturmak için MPT-7B-Chat ve MPT-7B-StoryWriter-65k+ gibi belirli görevler için uyarlanmış özel modeller de yayınlıyor. uzun biçimli hikaye oluşturma için.
MPT-7B'nin geliştirme yolculuğu, MosaicML ekibinin veri hazırlamadan konuşlandırmaya kadar tüm aşamaları birkaç hafta içinde yönetmesiyle kapsamlıydı. Veriler çeşitli havuzlardan alındı ve ekip, çeşitli ve kapsamlı bir eğitim karışımı sağlamak için EleutherAI'nin GPT-NeoX ve 20B tokenizer gibi araçlardan yararlandı.
MPT-7B'nin Temel Özelliklerine Genel Bakış:
- Ticari Lisanslama: MPT-7B, ticari kullanım için lisanslanmıştır ve bu da onu işletmeler için değerli bir varlık haline getirir.
- Kapsamlı Eğitim Verileri: Model, 1 trilyon belirteçten oluşan geniş bir veri kümesi üzerinde eğitime sahiptir.
- Uzun Giriş İşleme: MPT-7B, son derece uzun girdileri ödün vermeden işlemek için tasarlanmıştır.
- Hız ve Verimlilik: Model, hızlı eğitim ve çıkarım için optimize edilmiştir ve zamanında sonuç alınmasını sağlar.
- Açık Kaynak Kodu: MPT-7B, şeffaflığı ve kullanım kolaylığını destekleyen verimli açık kaynaklı eğitim koduyla birlikte gelir.
- Karşılaştırmalı Mükemmellik: MPT-7B, LLaMA-7B ile eşleşen kalitesiyle 20B-7B serisindeki diğer açık kaynaklı modellere göre üstünlük göstermiştir.
4. Falcon 2
*Falcon 180'nin öncülü olan Falcon 2B ile ilgili video
Falcon 2, Abu Dabi'deki Teknoloji İnovasyon Enstitüsü'nün (TII) 7'te piyasaya sürülen önceki Falcon 40B, 180B ve 2023B modellerinin başarısını temel alan en yeni nesil açık kaynaklı büyük dil modelleridir. Falcon 2 serisi şu anda şunları içermektedir: :
- Şahin 2 11B: Hugging Face liderlik tablosunda doğrulandığı üzere, Meta'nın LLaMA 11 3B modelini geride bırakan ve Google'ın Gemma 8B modeliyle standart kıyaslamalarda aynı performansı gösteren, 7 milyar parametreli nedensel kod çözücüye sahip bir model.
- Falcon 2 11B VLM: Falcon 2 11B'nin çığır açan multimodal versiyonu, görüntüden dile yetenekleriyle bu işlevselliği sunan tek açık kaynaklı modellerden biri haline geliyor.

Kaynak: TSEV
Falcon 2 modelleri, Apache 2.0'ı temel alan, izin verilen TII Falcon Lisansı 2.0 kapsamında tamamen açık kaynaklıdır ancak sorumlu yapay zeka gelişimini desteklemek için kabul edilebilir bir kullanım politikasına sahiptir. Bu, modellerin araştırma ve çoğu ticari uygulama için ücretsiz kullanımına olanak tanır.
Falcon 2 modelleri, yüksek kaliteli web verileri, kitaplar, teknik yazılar, kodlar ve konuşmaların çeşitli bir karışımını içeren gelişmiş RefinedWeb veri kümesinden alınan 5 trilyondan fazla jetonla eğitildi. En iyi verileri elde etmek için kapsamlı filtreleme ve veri tekilleştirme teknikleri kullanıldı. Halen ağırlıklı olarak İngilizce odaklı olsa da, eğitim verilerinin bir kısmı Almanca, İspanyolca, Fransızca ve İtalyanca gibi diğer dilleri de kapsıyor ve gelecekteki çok dilli modellerin temelini oluşturuyor.
Falcon 2, diğer açık modellerle karşılaştırıldığında daha küçük ölçekte güçlü performans sağlayan optimize edilmiş yalnızca kod çözücü transformatör mimarisini kullanır. TSEV gelecek sürümlerde uzmanların karışımı gibi teknikleri kullanarak verimliliği daha da artırmayı planlıyor.
Ham yetenekler açısından Falcon 2 11B, aşağıdakiler de dahil olmak üzere çok çeşitli doğal dil görevlerinde üstünlük sağlar:
- Hikayeler ve makaleler gibi tutarlı uzun biçimli içeriklerden metin oluşturma
- Farklı konulardaki bilgileri birbirine bağlayarak bilgili soru yanıtlama
- Uzun makalelerin veya gerçek içeriklerin yüksek kalitede özetlenmesi
- İnce ayar yapıldığında doğru talimat takibi
- Kodlama ve muhakeme kriterlerinde sağlam performans
Falcon 2 11B VLM çeşidi, hem görsel hem de dil girdilerine dayalı olarak görüntüleri anlama ve metin oluşturma konusunda benzersiz bir yetenek katıyor. Bu, görsel soru yanıtlama, görüntü altyazısı ekleme ve vizyondan dile akıl yürütme gibi güçlü, çok modlu kullanım senaryolarına olanak tanır.
Geleceğe yönelik olarak TSEV, verimlilik ve açık erişime odaklanmayı sürdürürken Falcon 2 serisini daha büyük model boyutlarıyla genişletme planlarını paylaştı. Uzmanların karışımı gibi teknikler, hesaplama gerekliliklerini büyük ölçüde artırmadan yeteneklerin ölçeğini artırmak için kullanılacaktır.
5. Vicuna-13B
LMSYS ORG, Vicuna-13B ile açık kaynaklı LLM'ler alanında önemli bir iz bıraktı. Bu açık kaynaklı sohbet robotu, ShareGPT.com'dan alınan yaklaşık 70 bin kullanıcı tarafından paylaşılan konuşma üzerinde LLaMA'nın ince ayarları yapılarak titizlikle eğitildi. Veri kalitesini sağlamak için konuşmalar HTML'den Markdown'a dönüştürüldü ve uygunsuz veya düşük kaliteli örnekler filtrelenerek kaldırıldı. Uzun konuşmalar ayrıca, modelin maksimum bağlam uzunluğuna uyacak şekilde daha küçük segmentlere ayrıldı.
GPT-4'ün jüri olarak görev yaptığı ön değerlendirmeler, Vicuna-13B'nin OpenAI ChatGPT ve Google Bard gibi ünlü modellerin %90'ından fazlasının kalitesini elde ettiğini gösterdi. Etkileyici bir şekilde Vicuna-13B, o zamanki vakaların %90'ından fazlasında LLaMA ve Stanford Alpaca gibi diğer önemli modellerden daha iyi performans gösterdi. Vicuna-13B'nin tüm eğitim süreci, bellek kullanımını optimize etmek ve maliyetleri azaltmak için spot bulut sunucuları, degrade kontrol noktası oluşturma ve flaş dikkat gibi tekniklerden yararlanılarak yaklaşık 300 ABD doları tutarında bir maliyetle gerçekleştirildi. Yeteneklerini keşfetmek isteyenler için kod, ağırlıklar ve çevrimiçi demo, ticari olmayan amaçlarla kamuya sunuldu.
Vicuna için eğitim tarifi, Stanford'un Alpaka modeline dayanarak birkaç önemli iyileştirmeyle oluşturulmuştur:
- Çok turlu konuşmalar: Eğitim kaybı, çoklu tur konuşmalarını hesaba katacak şekilde ayarlanır ve ince ayar kaybı yalnızca sohbet robotunun çıktısı üzerinden hesaplanır.
- Bellek optimizasyonları: Maksimum bağlam uzunluğu Alpaka'da 512'den Vicuna'da 2048'e genişletildi ve artan GPU bellek gereksinimleri pahasına daha uzun bağlamın anlaşılmasına olanak sağlandı. Bu sorun, degrade kontrol noktası belirleme ve flaş dikkat yoluyla giderilir.
- Maliyet azaltma: 40 kat daha büyük veri kümesi ve 4 kat dizi uzunluğu, eğitim harcamaları açısından zorluklar yarattı ancak SkyPilot aracılığıyla yönetilen spot bulut sunucularının kullanılması, maliyetleri önemli ölçüde azalttı; 82B modeli için 140 bin dolardan 7 dolara ve 135B modeli için 300 bin dolardan 13 dolara.
Vicuna'ya hizmet vermek için, şirket içi kümelerden veya buluttan esnek bir şekilde bağlanabilen çalışanlarla birden fazla modeli yönetebilecek kapasiteye sahip dağıtılmış bir hizmet sistemi oluşturuldu. Hataya dayanıklı denetleyicilerin ve yönetilen spot bulut sunucularının kullanılması, bu sistemin birden fazla buluttaki daha ucuz spot bulut sunucularıyla iyi bir şekilde çalışmasını sağlayarak hizmet maliyetlerini en aza indirir. Şu anda hafif bir uygulama olmakla birlikte, hizmet altyapısını daha da geliştirmek amacıyla en son araştırmaları entegre etme çalışmaları devam etmektedir.
Vicuna-13B'nin Temel Özellikleri:
- Açık Kaynak Yapısı: Vicuna-13B, şeffaflığı ve topluluk katılımını teşvik ederek halkın erişimine açıktır.
- Kapsamlı Eğitim Verileri: Model, farklı etkileşimlerin kapsamlı bir şekilde anlaşılmasını sağlayan 70 kullanıcı tarafından paylaşılan görüşme üzerinde eğitilmiştir.
- Uygun Maliyetli Eğitim: Yönetilen nokta örnekleri, degrade kontrol noktası oluşturma ve flaş dikkati gibi teknikler, 300B modeli için yaklaşık 13 ABD doları tutarında uygun maliyetli eğitime olanak sağladı.
- Gelişmiş Eğitim Tarifi: Vicuna, çok turlu konuşma yönetimi, bellek optimizasyonu ve maliyet düşürmeye yönelik iyileştirmelerle Alpaka tarifini temel alıyor.
- Dağıtılmış Hizmet Altyapısı: Vicuna'yı halka açık hale getirmek için esnek ve uygun maliyetli bir dağıtılmış hizmet sistemi inşa edildi.
- Çevrimiçi Demo Kullanılabilirliği: Kullanıcıların Vicuna-13B'nin yeteneklerini test etmeleri ve deneyimlemeleri için etkileşimli bir çevrimiçi demo mevcuttur.
Analizin GPT-4 kullanılarak yapılan bilimsel olmayan ön değerlendirmelere dayandığını belirtmek önemlidir. Ancak yine de titiz bir değerlendirmeye ihtiyaç vardır.