Best Of
En İyi 5 Açık Kaynak Yüksek Lisans Programı (Şubat 2026)

Açık kaynaklı yapay zeka, kapalı kaynaklı sistemleri yakaladı. Bu beş büyük dil modelleri (LLM'ler) Tekrarlayan API maliyetleri veya tedarikçi bağımlılığı olmadan kurumsal düzeyde performans sunun. Her biri, cihaz içi akıl yürütmeden ölçeklenebilir çok dilli desteğe kadar farklı kullanım durumlarını ele alır.
Bu kılavuzda GPT-OSS-120B, DeepSeek-R1, Qwen3-235B, LLaMA 4 ve Mixtral-8x22B'nin özellikleri, maliyetleri ve dağıtım gereksinimleri hakkında özel ayrıntılar yer almaktadır.
Hızlı karşılaştırma
| araç | En | Başlangıç fiyatı | Key Feature |
|---|---|---|---|
| GPT-OSS-120B | Tek GPU dağıtımı | Ücretsiz (Apache 2.0) | 120B parametreli 80 GB GPU'da çalışır |
| DeepSeek-R1 | Karmaşık muhakeme görevleri | Ücretsiz (MIT) | Şeffaf düşünceyle 671B parametreleri |
| Qwen3-235B | Çok dilli uygulamalar | Ücretsiz (Apache 2.0) | Hibrit düşünceyle 119'dan fazla dili destekler |
| LLaMA 4 | Çok modlu işleme | Ücretsiz (özel lisans) | 10M token bağlam penceresi |
| Mixtral-8x22B | Düşük maliyetli üretim | Ücretsiz (Apache 2.0) | Yoğun modellere kıyasla %75 hesaplama tasarrufu |
1. GPT-OSS-120B
OpenAI, Ağustos 2025'te GPT-2'den bu yana ilk açık ağırlık modellerini yayınladı. GPT-OSS-120B, uzman karışımı Toplam 117 milyar parametresi olan ancak token başına yalnızca 5.1 milyar aktif parametreye sahip bir mimari. Bu seyrek tasarım, çoklu GPU kümeleri gerektirmek yerine, onu tek bir 80 GB GPU'da çalıştırabileceğiniz anlamına geliyor.
Model, temel kıyaslamalarda o4-mini performansıyla eşleşiyor. MMLU testlerinde %90, GPQA muhakeme görevlerinde ise yaklaşık %80 doğruluk oranına ulaşıyor. Kod üretimi, kapalı kaynaklı alternatiflerle rekabet edebilecek şekilde %62'lik bir başarı oranına sahip. 128,000 jetonluk bağlam penceresi, parçalama yapmadan kapsamlı belge analizi sağlıyor.
OpenAI, bu modelleri o3 ve diğer öncü sistemlerden alınan teknikler kullanarak eğitti. Odak noktası, ham ölçekten ziyade pratik dağıtımdı. Modellerle birlikte o200k_harmony belirteçleyicisini de açık kaynaklı hale getirerek, girdilerin uygulamalar arasında nasıl işlendiğini standartlaştırdılar.
Artıları ve eksileri
- Tek 80 GB GPU dağıtımı, çoklu GPU altyapı maliyetlerini ortadan kaldırır
- Yerel 128K bağlam penceresi tüm kod tabanlarını veya uzun belgeleri işler
- Apache 2.0 lisansı, kısıtlama olmaksızın ticari kullanım ve değişikliğe izin verir
- PyTorch, Triton ve Metal'deki referans uygulamaları entegrasyonu basitleştirir
- MMLU'nun %90 doğruluğu, akıl yürütme kıyaslamalarında tescilli modellerle eşleşiyor
- İngilizce odaklı eğitim, alternatiflere kıyasla çok dilli yetenekleri sınırlandırıyor
- 5.1B aktif parametreler, uzmanlaşmış görevlerde yoğun modellerin performansını düşürebilir
- Minimum 80 GB VRAM gerektirir, tüketici sınıfı GPU dağıtımı hariçtir
- Kaynak kısıtlı ortamlar için henüz damıtılmış varyantlar mevcut değil
- İnce ayarlı alternatiflere kıyasla sınırlı alan uzmanlığı
Fiyatlandırma: GPT-OSS-120B, Apache 2.0 lisansı altında sıfır tekrarlayan maliyetle çalışır. 80 GB modelleri (NVIDIA A100 veya H100 GPU'lar) çalıştırabilecek donanıma ihtiyacınız var. AWS, Azure veya GCP'de bulut dağıtımı, uygun örnek türleri için saat başına yaklaşık 3-5 ABD doları tutarındadır. Kendi kendine barındırılan dağıtım için tek seferlik GPU satın alımı gerekir (ikinci el A100 için yaklaşık 10,000-15,000 ABD doları).
Abonelik ücreti yok. API sınırlaması yok. Tedarikçi bağımlılığı yok.
GPT-OSS-120B'yi ziyaret edin →
2. DeepSeek-R1
DeepSeek-R1, modelini özellikle şeffaf akıl yürütme için geliştirdi. Mimari, her ileri geçişte 37 milyarı etkinleştirilen toplam 671 milyar parametre kullanıyor. Eğitim, geleneksel gözetimli ince ayar yapmadan takviyeli öğrenmeyi vurgulayarak, akıl yürütme kalıplarının RL sürecinden doğal olarak ortaya çıkmasını sağladı.
Model, MATH-500 değerlendirmelerinde %97 doğruluk oranına ulaşıyor ve karmaşık muhakeme görevlerinde OpenAI'nin o1'ine denk geliyor. DeepSeek-R1'i farklı kılan, düşünme sürecini gözlemleyebilmeniz. Model, yalnızca nihai cevaplar yerine adım adım mantık gösteriyor. Bu şeffaflık, finansal analiz veya mühendislik doğrulaması gibi muhakemenizi doğrulamanız gereken uygulamalar için önemlidir.
DeepSeek, ana modelin yanı sıra altı damıtılmış sürüm yayınladı. Bunlar, 1.5 milyar ile 70 milyar arasında değişen parametrelere sahip ve üst düzey tüketici GPU'larından uç cihazlara kadar çeşitli donanımlarda çalışıyor. Qwen-32B damıtılmış sürümü, kıyaslama testlerinde o1-mini'den daha iyi performans gösterirken, daha az işlem gücü gerektiriyor.
Artıları ve eksileri
- %97 MATH-500 doğruluğu, matematiksel akıl yürütmede açık kaynaklı modellere öncülük ediyor
- Şeffaf düşünme süreci doğrulama ve hata ayıklamayı mümkün kılar
- 671B parametre ölçeği derin analitik yetenekler sağlar
- Altı damıtılmış varyant, donanım yapılandırmaları arasında dağıtıma olanak tanır
- MIT lisansı, kısıtlama olmaksızın ticari kullanıma izin veriyor
- 671B parametreleri tam model dağıtımı için önemli bir altyapı gerektirir
- Muhakeme modu, doğrudan yanıt oluşturmaya kıyasla gecikmeyi artırır
- İngilizce için optimize edilmiş eğitim, diğer dillerdeki performansı sınırlandırıyor
- Takviyeli öğrenme yaklaşımı ayrıntılı açıklamalar üretebilir
- Topluluk araçları, daha yerleşik modellere kıyasla hala olgunlaşma aşamasında
Fiyatlandırma: DeepSeek-R1, kullanım ücreti olmadan MIT lisansı altında yayınlanıyor. Tam 671B modeli en az 8 adet A100 GPU gerektiriyor (bulut maliyeti: yaklaşık 25-30 ABD doları/saat). Saflaştırılmış modeller çok daha ucuz: 32B varyantı tek bir A100 GPU gerektiriyor (yaklaşık 3-5 ABD doları/saat bulut, yaklaşık 10,000 ABD doları donanım satın alımı). 7B sürümü ise tüketici RTX 4090 GPU'larında çalışıyor.
DeepSeek, test için hız sınırlamalarıyla ücretsiz API erişimi sağlar. Üretim dağıtımı, kendi kendine barındırma veya bulut altyapısı gerektirir.
3. Qwen3-235B
Alibaba'nın Qwen3-235B modeli, hibrit düşünmeyi açık kaynaklı modellere taşıyor. Kullanıcılar, görev karmaşıklığına göre muhakeme çaba seviyelerini (düşük, orta, yüksek) kontrol edebiliyor. Hızlı müşteri hizmetleri yanıtlarına mı ihtiyacınız var? Düşük düşünme modu hızlı yanıtlar sunuyor. Karmaşık veri analizi mi yapıyorsunuz? Yüksek düşünme modu metodik muhakeme uyguluyor.
Mimari, 94 katmanda 22 milyarı etkinleştirilmiş toplam 235 milyar parametre kullanıyor. Her katman, jeton başına 8 etkinleştirilmiş 128 uzman içeriyor. Bu uzman seçimi, kapasiteyi korurken verimli işlemeyi mümkün kılıyor. Model, 119 dilde 1 milyardan fazla jeton üzerinde eğitildi ve bu da önceki Qwen sürümlerine göre 10 kat daha fazla çok dilli veriyi temsil ediyor.
Performans, güçlü çok dilli kıyaslamalarla %87-88 MMLU doğruluğunda seyrediyor. Model, Asya, Avrupa ve diğer pazarlarda C-Eval ve bölgeye özgü değerlendirmelerde mükemmel performans gösteriyor. Kod üretimi %37 sıfırdan başlama oranına ulaşıyor, ancak karmaşık programlama görevleri için düşünme modu etkinleştirildiğinde önemli ölçüde iyileşiyor.
Artıları ve eksileri
- 119'dan fazla dil desteği, dil engelleri olmadan küresel dağıtıma olanak tanır
- Hibrit düşünme kontrolü, istek başına maliyet-performans dengelerini optimize eder
- 128K belirteç bağlamı kapsamlı belge analizini ele alır
- Apache 2.0 lisansı ticari değişikliğe izin veriyor
- %87 MMLU performansı, önde gelen tescilli sistemlerle rekabet ediyor
- 235B parametreleri üretim dağıtımı için çoklu GPU kurulumu gerektirir
- %37 kod üretimi temel çizgisi, uzmanlaşmış kodlama modellerini takip ediyor
- Düşünme modu seçimi uygulama mantığına karmaşıklık katıyor
- Çince dil önyargısı Çincede diğer dillere göre daha güçlü bir performans gösteriyor
- LLaMA ekosistemine kıyasla sınırlı topluluk araçları
Fiyatlandırma: Qwen3-235B, Apache 2.0 lisanslamasını ücretsiz kullanır. Tam model, niceleme türüne bağlı olarak 4-8 A100 GPU gerektirir (bulut: yaklaşık saat başına 15-30 ABD doları). Alibaba Cloud, düşünme modu için 1.000 token başına 0.002 ABD doları, standart mod için ise 1.0003 ABD doları başlangıç fiyatıyla yönetilen uç noktalar sunar.
Daha küçük Qwen3 varyantları (7B, 14B, 72B) tüketici donanımlarında çalışır. 7B modeli ise 24 GB tüketici GPU'larında çalışır.
4. LLaMA 4
Meta'nın LLaMA 4 sürümü, metin, resim ve kısa videolarda yerel çok modlu yetenekler sunar. Scout sürümü, 17 milyarı aktif olmak üzere toplam 109 milyar parametre içerirken, Maverick, özel görevler için daha geniş bir uzman havuzundan yararlanır. Her ikisi de, modaliteleri birleşik temsillere entegre eden erken birleştirme teknikleri aracılığıyla birden fazla içerik türünü işler.
Bağlam işleme yeni seviyelere ulaştı. LLaMA 4 Scout, kapsamlı belge analizi uygulamaları için 10 milyona kadar token'ı destekliyor. Standart bağlam, çoğu kullanım durumu için halihazırda yeterli olan 128 bin token'a sahip. Modeller, LLaMA 3 eğitim karışımının iki katı olan 30 trilyondan fazla token üzerinde önceden eğitildi.
Performans kıyaslamaları, LLaMA 4'ün kodlama, muhakeme ve çok dilli testlerde GPT-4o ve Gemini 2.0 Flash'tan daha iyi performans gösterdiğini göstermektedir. Meta, model ölçekleri arasında hiperparametreleri güvenilir bir şekilde ayarlamak için bir teknik olan MetaP'yi geliştirmiştir. Bu, öğrenilen parametreleri farklı konfigürasyonlara aktarırken tutarlı performans sağlar.
Artıları ve eksileri
- 10M token bağlam penceresi, tüm kod tabanlarının veya veri kümelerinin işlenmesini sağlar
- Yerel çok modlu işleme, metin, görüntü ve video girişlerini işler
- 30T token eğitimi kapsamlı bilgi kapsamı sağlar
- Uç dağıtımdan veri merkezi ölçeğine kadar birden fazla boyut çeşidi
- Kodlama ve muhakeme ölçütlerinde GPT-4o'dan daha iyi performans gösterir
- Özel ticari lisans, büyük ölçekli dağıtımlar için inceleme gerektirir
- Çok modlu füzyon, dağıtım kanallarına karmaşıklık katıyor
- 10M bağlamı, optimizasyonlarla bile önemli miktarda bellek gerektirir
- Modelin boyut farklılıkları hangi varyantın kullanılacağı konusunda kafa karışıklığına neden olur
- En yeni özellikler için dokümantasyon hala ortaya çıkıyor
Fiyatlandırma: LLaMA 4, Meta'nın özel ticari lisansını kullanır (çoğu kullanım için ücretsiz, 700 milyondan fazla kullanıcısı olan hizmetlerde kısıtlamalar vardır). Scout sürümü 2-4 H100 GPU gerektirir (bulut: yaklaşık 10-20 ABD doları/saat). Maverick ise 4-8 H100 GPU gerektirir (yaklaşık 20-40 ABD doları/saat). Meta, platformu üzerinden ücret sınırlamalarıyla ücretsiz API erişimi sağlar.
Daha küçük LLaMA varyantları tüketici donanımlarında çalışır. 8B modeli ise 16 GB GPU'larda çalışır. Kurumsal dağıtımlar, Meta ile doğrudan lisanslama konusunda anlaşabilir.
5. Mixtral-8x22B
Mistral AI'nın Mixtral-8x22B modeli, eşdeğer yoğun modellere kıyasla %75 hesaplama tasarrufu sağlıyor. Uzman karışımı tasarımı, toplam 141 milyar parametreye sahip sekiz adet 22 milyar parametreli uzman içeriyor, ancak çıkarım sırasında yalnızca 39 milyarı etkinleşiyor. Bu seyrek etkinleştirme, yoğun 70B modellerinden daha hızlı çalışırken üstün performans sağlıyor.
Model, gelişmiş uygulama geliştirme için yerel fonksiyon çağrılarını destekler. Doğal dil arayüzlerini, özel entegrasyon katmanları olmadan doğrudan API'lere ve yazılım sistemlerine bağlayabilirsiniz. 64,000 jetonluk bağlam penceresi, genişletilmiş konuşmaları ve kapsamlı belge analizlerini yönetir.
Çok dilli performans, İngilizce, Fransızca, İtalyanca, Almanca ve İspanyolca'da öne çıkıyor. Mistral, özellikle Avrupa dilleri üzerine eğitim almış ve bu da daha geniş ancak daha yüzeysel dil kapsamına sahip modellerden daha güçlü bir performans elde etmiştir. Matematiksel muhakeme, GSM8K'da %90.8'e ulaşırken, kodlama, HumanEval ve MBPP kıyaslamalarında güçlü sonuçlar elde etmiştir.
Artıları ve eksileri
- Yoğun modellere kıyasla %75'lik hesaplama azaltımı altyapı maliyetlerini düşürüyor
- Yerel işlev çağrısı API entegrasyonunu basitleştirir
- Çok dilli uygulamalar için güçlü Avrupa dil desteği
- %90.8 GSM8K doğruluğu sağlam matematiksel akıl yürütme sağlar
- Apache 2.0 lisansı sınırsız ticari kullanıma izin verir
- 128K+ pencere sunan rakiplerinden daha kısa 64K bağlam
- Avrupa dillerine odaklanma, Asya dillerinde daha zayıf performans anlamına geliyor
- 39B aktif parametre, karmaşık muhakeme görevlerindeki yeteneği sınırlayabilir
- Uzman yönlendirme mantığı dağıtım karmaşıklığını artırır
- LLaMA ekosistemine kıyasla daha küçük bir topluluk
Fiyatlandırma: Mixtral-8x22B, Apache 2.0 lisansı altında ücretsiz çalışır. Üretim için 2-4 adet A100 GPU gerektirir (bulut: yaklaşık saat başına 10-15 ABD doları). Mistral, girdi için milyon token başına 2 ABD doları, çıktı için ise milyon token başına 6 ABD doları karşılığında yönetilen API erişimi sunar. Kendi kendine barındırma, ilk donanım yatırımından sonra token başına maliyetleri ortadan kaldırır.
Niceliksel versiyonlar, kabul edilebilir bir performans düşüşüyle tek bir A100 üzerinde çalışır. Modelin verimliliği, yüksek hacimli üretim iş yükleri için uygun maliyetli olmasını sağlar.
Mixtral-8x22B'yi ziyaret edin →
Hangi Modeli Seçmelisiniz?
Donanımınız anında seçenekleri belirler. GPT-OSS-120B, tek 80 GB GPU'lara uyar ve halihazırda A100 altyapısı kullanıyorsanız erişilebilir hale getirir. DeepSeek-R1'in damıtılmış varyantları kaynak kısıtlamalarını ele alır; 7B modeli, güçlü bir mantıkla tüketici donanımlarında çalışır.
Çok dillilik gereksinimleri, geniş dil kapsamı için Qwen3-235B'yi veya özellikle Avrupa dilleri için Mixtral-8x22B'yi işaret ediyor. 128K belirteçlerin ötesinde çok modlu yeteneklere veya genişletilmiş bağlam pencerelerine ihtiyaç duyduğunuzda LLaMA 4 mantıklıdır.
Maliyet bilincine sahip dağıtımlar, üretim iş yükleri için Mixtral-8x22B'yi tercih eder. %75'lik işlem tasarrufu, ölçeklendiğinde hızla artar. Araştırma ve geliştirme, özellikle karar mantığını doğrulamanız gerektiğinde, DeepSeek-R1'in şeffaf mantığından faydalanır.
Beş modelin tamamı izin verici lisanslar altında çalışır. Tekrarlayan API maliyetleri yoktur. Tedarikçi bağımlılıkları yoktur. Dağıtımı, veri gizliliğini ve model değişikliklerini siz kontrol edersiniz. Açık kaynaklı yapay zeka ortamı, kapalı sistemlerle aynı seviyeye ulaşmıştır. Bu araçlar, kurumsal kısıtlamalar olmadan kurumsal yetenekler sunar.
SSS
Bu açık kaynaklı LLM'leri çalıştırmak için hangi donanıma ihtiyacım var?
Minimum gereksinimler modele göre değişir. GPT-OSS-120B, tek bir 80 GB GPU (A100 veya H100) gerektirir. DeepSeek-R1'in tam sürümü 8 adet A100 gerektirir, ancak saflaştırılmış versiyonlar tüketici RTX 4090'larda çalışır. Qwen3-235B ve LLaMA 4, niceleme türüne bağlı olarak 2-8 GPU gerektirir. Mixtral-8x22B, 2-4 adet A100'de verimli bir şekilde çalışır. Bulut dağıtımı, model boyutuna bağlı olarak saat başına 3-40 ABD doları tutarındadır.
Bu modeller GPT-4 veya Claude performansına ulaşabilir mi?
Evet, belirli ölçütlerde. DeepSeek-R1, %97 MATH-500 doğruluğu ile muhakeme görevlerinde OpenAI o1 ile eşleşiyor. LLaMA 4, kodlama ölçütlerinde GPT-4o'yu geride bırakıyor. GPT-OSS-120B, tescilli sistemlerle karşılaştırılabilir şekilde %90 MMLU doğruluğuna ulaşıyor. Ancak, kapalı kaynaklı modeller yaratıcı yazarlık veya incelikli konuşma gibi özel alanlarda mükemmellik sağlayabilir.
Hangi model birden fazla dili en iyi şekilde yönetir?
Qwen3-235B, rakiplerinden 10 kat daha fazla çok dilli eğitim verisiyle 119'dan fazla dili destekler. Asya dilleri kıyaslamalarında ve kültürel bilgi testlerinde mükemmel performans gösterir. Mixtral-8x22B, özel eğitimle Avrupa dillerinde (Fransızca, Almanca, İspanyolca, İtalyanca) lider konumdadır. Diğer modeller çeşitli çok dilli destek sunar, ancak öncelikli olarak İngilizce için optimize edilmiştir.
Donanımın ötesinde kullanım maliyetleri var mı?
Apache 2.0 veya MIT lisansları altında kendi kendine barındırılan dağıtımlar için tekrarlayan ücret yoktur. LLaMA 4, çoğu kullanım için ücretsiz olan özel bir ticari lisans kullanır (700 milyondan fazla kullanıcısı olan hizmetler için kısıtlamalar geçerlidir). Bulut barındırma maliyetleri sağlayıcıya ve örnek türüne göre değişir. Mistral gibi sağlayıcılardan yönetilen API erişimi, milyon giriş belirteci başına 2 ABD dolarından başlar.
Uzman karışımı ile yoğun modeller arasındaki fark nedir?
Uzman karışımı mimariler, girdi başına yalnızca bir parametre alt kümesini etkinleştirerek, kapasiteden ödün vermeden verimlilik sağlar. GPT-OSS-120B, belirteç başına 117 milyar parametrenin 5.1 milyarını kullanır. Yoğun modeller, her girdi için tüm parametreleri etkinleştirir. MoE modelleri, benzer ölçeklerde yoğun model performansını yakalarken veya aşarken %70-75 işlem tasarrufu sağlar.













