Connect with us

Allen AI’nin Tülu 3’ü DeepSeek’in Beklenmedik Rakibi Oldu

Yapay Zekâ

Allen AI’nin Tülu 3’ü DeepSeek’in Beklenmedik Rakibi Oldu

mm

Manşetler devam ediyor. DeepSeek’in modelleri benchmark’leri zorluyor, yeni standartlar belirliyor ve çok fazla gürültü çıkarmaya devam ediyor. Ancak AI araştırma sahnesinde ilginç bir şey oldu ve buna dikkat etmek gerekiyor.

Allen AI sessizce yeni Tülu 3 model ailesini çıkardı ve 405B parametreli versiyonu sadece DeepSeek ile yarışmıyor, aynı zamanda ana benchmark’lerde onu geçiyor veya ona eşit geliyor.

Bunu perspektife koyarak bakalım.

405B Tülu 3 modeli, DeepSeek V3 gibi üst düzey performans gösteren modellerle çeşitli görevlerde yarışıyor. Matematik problemleri, kodlama zorlukları ve kesin talimatları takip etme gibi alanlarda benzer veya üstün performans görüyoruz. Ve tüm bunları tamamen açık bir yaklaşım ile gerçekleştiriyorlar.

Eğitim pipeline’ını, kodu ve bu olanağı sağlayan yeni pekiştirme öğrenimi yöntemleri olan Doğrulanabilir Ödüllerle Peşteşirme Öğrenimi (RLVR) dahil her şeyi yayınladılar.

Son birkaç haftadaki gelişmeler, üst düzey AI geliştirmenin nasıl gerçekleştiği konusunda gerçekten bir değişiklik yaratıyor. Tamamen açık kaynaklı bir model en iyi kapalı modellerle eşleşebiliyorsa, daha önce özel kurumsal duvarların arkasında kilitli olan olanaklar ortaya çıkıyor.

Teknik Mücadele

Tülu 3’ü öne çıkaran nedir? Bu, geleneksel yaklaşımların ötesine geçen benzersiz dört aşamalı bir eğitim sürecine dayanmaktadır.

Allen AI’nin bu modeli nasıl inşa ettiğine bir göz atalım:

1. Aşama: Stratejik Veri Seçimi

Ekibin modèle kalitesinin veri kalitesiyle başladığı bilincindeydi. WildChat ve Open Assistant gibi kurulmuş veri setlerini özel olarak üretilen içeriklerle birleştirdiler. Ancak burada önemli bir fikir var: sadece verileri birleştirmekle kalmadılar, matematiksel akıl yürütme ve kodlama becerileri gibi belirli beceriler için hedeflenen veri setleri oluşturdular.

2. Aşama: Daha İyi Yanıtlar Oluşturma

İkinci aşamada, Allen AI modeline belirli beceriler öğretmeye odaklandı. Farklı eğitim veri setleri oluşturdular – bazıları matematik için, diğerleri kodlama için ve genel görevler için daha fazlası. Bu kombinasyonları tekrar tekrar test ederek, modelin nerede başarılı olduğunu ve nerede çalışması gerektiğini kesin olarak görebildiler. Bu yinelemeli süreç, Tülu 3’ün her alanda gerçekleştirebileceği şeyin gerçek potansiyelini ortaya çıkardı.

3. Aşama: Karşılaştırmalardan Öğrenme

Burada Allen AI yaratıcı oldu. Tülu 3’ün yanıtlarını anında diğer üst düzey modellerle karşılaştıran bir sistem inşa ettiler. Ancak AI’de kalıcı bir sorunu da çözdüler – modellerin sadece uzunluk için uzun yanıtlar yazma eğilimini. Uzunluk Normalize Edilmiş Doğrudan Tercih Optimizasyonu (DPO) kullanarak, model kaliteyi nicelikten daha önemli olarak öğrendi. Sonuç? Hem kesin hem de amaçlı yanıtlar.

AI modelleri tercihlerden öğrenirken (hangi yanıt daha iyi, A mı B mi?), bir şekilde can sıkıcı bir önyargı geliştirme eğilimindeler: Longer yanıtların her zaman daha iyi olduğunu düşünmeye başlarlar. Bu, daha iyi görünmek için daha fazla şey söylemeye çalışıyor gibi görünüyor.

Uzunluk normalize edilmiş DPO, modelin tercihlerden öğrenme şeklini ayarlayarak bunu düzeltir. Sadece hangi yanıtın tercih edildiğine bakmak yerine, her yanıtın uzunluğunu da dikkate alır. Yanıtları kelime kalitesine göre değil, toplam etkisine göre değerlendirmek gibi düşünülebilir.

Neden bu önemli? Çünkü Tülu 3’ün kesin ve verimli olmasını öğretmeye yardımcı oluyor. Yanıtları gereksiz kelimelerle doldurmak yerine, gerçekten gerekli olan uzunlukta değer sunmayı öğreniyor.

Bu, doğal bir şekilde iletişim kuran AI inşa etmek için çok önemli. En iyi insan uzmanları, ne zaman kısa ne zaman uzun olacağını bilirler – ve bu tam olarak uzunluk normalize edilmiş DPO’nun modeli öğrettiği şey.

4. Aşama: RLVR İnovasyonu

Bu, dikkat çekmeyi hak eden teknik bir độtülmüş. RLVR, subjektif ödül modellerini somut doğrulama ile değiştirir.

Çoğu AI modeli, esasen iyi bir yanıtın ne olduğu hakkında eğitimli tahminler olan karmaşık bir ödül sistemi aracılığıyla öğrenir. Ancak Allen AI, RLVR ile farklı bir yol izledi.

Şu anda AI modellerini nasıl eğittiğimize bir düşünün. Genellikle bir yanıtın iyi olup olmadığını değerlendirmek için diğer AI modellerine (ödül modelleri olarak adlandırılır) ihtiyacımız vardır. Bu subjektiftir, karmaşıktır ve souvent tutarlı değildir. Bazı yanıtlar iyi görünüyor olabilir ancak kaçan küçük hatalar içerebilir.

RLVR bu yaklaşımı başaşağı çevirir. Subjektif yargılara güvenmek yerine somut, doğrulanabilir sonuçları kullanır. Model bir matematik problemine çalıştığında, gri bir alan yoktur – cevap ya doğru ya da yanlıştır. Kod yazdığında, bu kod ya doğru çalışır ya da çalışmaz.

Şimdi ilginç kısma geliyoruz:

  • Model anında, ikili geri bildirim alır: doğru cevaplar için 10 puan, yanlış cevaplar için 0 puan
  • Kısmi kredi veya bulanık değerlendirme için yer yoktur
  • Öğrenme odaklanır ve kesin olur
  • Model, inandırıcı ancak yanlış yanıtlardan ziyade doğruluğu önceliklendirmeyi öğrenir

RLVR Eğitim (Allen AI)

Sonuçlar? Tülu 3, doğruluk mattered en çok görevlerde önemli gelişmeler gösterdi. Matematiksel akıl yürütme (GSM8K benchmark) ve kodlama zorluklarındaki performansı đáng kể bir şekilde arttı. Hatta talimatları takip etme yeteneği daha da kesin hale geldi çünkü model somut doğruluğu yaklaşık yanıtlardan daha önemli olarak öğrendi.

Bu özellikle heyecan verici çünkü açık kaynaklı AI için oyunu değiştiriyor. Önceki yaklaşımlar genellikle teknik görevlerde kapalı modellerin doğruluğunu eşleştiremediler. RLVR, doğru eğitim yaklaşımıyla açık kaynaklı modellerin aynı düzeyde güvenilirlik elde edebileceğini gösteriyor.

Rakamlara Bir Bakış

405B parametreli Tülu 3 versiyonu, alanda üst düzey modellerle doğrudan yarışıyor. Nerede réussıyor ve bu açık kaynaklı AI için ne anlama geliyor, buna bakalım.

Matematik

Tülu 3, karmaşık matematiksel akıl yürütmede excels. GSM8K ve MATH gibi benchmark’lerde DeepSeek’in performansını eşleştiriyor. Model, çok adımlı problemleri ele alıyor ve güçlü matematiksel akıl yürütme yetenekleri sergiliyor.

Kodlama

Kodlama sonuçları da aynı derecede etkileyici. RLVR eğitimi sayesinde, Tülu 3 sorunları etkili bir şekilde çözen kodlar yazıyor. Gücü, kodlama talimatlarını anlamak ve işlevsel çözümler üretmektedir.

Kesin Talimat Takibi

Modelin talimatları takip etme yeteneği de öne çıkıyor. Çoğu modelin yaklaşık veya genel talimatları takip ettiği yerde, Tülu 3 talimatları kesin olarak takip etme yeteneği sergiliyor.

AI Geliştirme Siyah Kutusunu Açmak

Allen AI, sadece güçlü bir modeli değil, aynı zamanda tüm geliştirme sürecini yayınladı.

Eğitim sürecinin her yönü belgelendi ve erişilebilir. Dört aşamalı yaklaşımdan veri hazırlama yöntemlerine ve RLVR uygulamasına kadar – tüm süreç açık ve incelemek veya yeniden üretmek için kullanılabilir. Bu şeffaflık, yüksek performanslı AI geliştirme için yeni bir standart belirliyor.

Geliştiriciler kapsamlı kaynaklar alıyorlar:

  • Tam eğitim pipeline’ları
  • Veri işleme araçları
  • Değerlendirme çerçeveleri
  • Uygulama özellikleri

Bu, takımların:

  • Eğitim süreçlerini değiştirmesine
  • Yöntemleri özel ihtiyaçlar için uyarlamasına
  • Kanılı yaklaşımlar üzerine inşa etmesine
  • Özel uygulamalar oluşturmasına

Bu, alan genelinde inovasyonu hızlandırıyor. Araştırmacılar, doğrulanmış yöntemler üzerine inşa edebilirken, geliştiriciler sıfırdan başlamak yerine geliştirmelere odaklanabilir.

Açık Kaynaklı Mükemmelliğin Yükselişi

Tülu 3’ün başarısı, açık AI geliştirme için büyük bir an. Açık kaynaklı modeller private alternatiflerle eşleşip veya onları geçerse, bu endüstriyi temelinden değiştirir. Dünya çapındaki araştırma ekipleri, kanıtlanmış yöntemlere erişir ve çalışmalarını hızlandırır, yeni inovasyonları tetikler. Özel AI laboratuvarları ya şeffaflığı artırmak ya da teknik sınırları daha da ileriye taşımak zorunda kalacak.

İleriye bakıldığında, Tülu 3’ün doğrulanabilir ödüller ve çok aşamalı eğitimdeki atılımları, neler gelebileceğinin işaretçisidir. Ekipler bu temeller üzerine inşa edebilir ve performansı daha da yükseltebilir. Kod mevcut, yöntemler belgelenmiş ve yeni bir AI geliştirme dalgası başlamıştır. Geliştiriciler ve araştırmacılar için, bu yöntemleri deneyerek ve geliştirerek bir heyecan verici bölüm başlamaktadır.

Tülu 3 Hakkında Sıkça Sorulan Sorular (SSS)

Tülu 3 nedir ve ana özellikleri nelerdir?

Tülu 3, Allen AI tarafından geliştirilen açık kaynaklı bir LLM ailesidir. Llama 3.1 mimarisine dayanır ve çeşitli boyutlarda (8B, 70B ve 405B parametre) gelir. Tülu 3, bilgi, akıl yürütme, matematik, kodlama, talimatları takip etme ve güvenlik gibi çeşitli görevlerde iyileştirilmiş performans için tasarlanmıştır.

Tülu 3’ün eğitim süreci nedir ve hangi veriler kullanılır?

Tülu 3’ün eğitimi birkaç önemli aşama içerir. İlk olarak, ekip, matematiksel akıl yürütme ve kodlama becerileri gibi belirli beceriler için hedeflenmiş veri setleri de dahil olmak üzere çeşitli veri setlerini birleştirir. İkinci olarak, talimatları takip etme, matematik ve kodlama veri setleri karışımında gözetimli fine-tuning (SFT) yapılır. Daha sonra, insan ve LLM geri bildirimi ile oluşturulan tercih verileri kullanılarak doğrudan tercih optimizasyonu (DPO) uygulanır. Son olarak, görevlerin doğruluğu ölçülebilir olduğunda, Doğrulanabilir Ödüllerle Peşteşirme Öğrenimi (RLVR) kullanılır. Tülu 3, her aşama için hedeflenmiş veri setleri kullanır, bunlar arasında kişilik odaklı talimatlar, matematik ve kodlama verileri bulunur.

Tülu 3 güvenlik yaklaşımı nedir ve hangi metriklere göre değerlendirilir?

Güvenlik, Tülu 3’ün geliştirilmesinin temel bir bileşenidir ve eğitim süreci boyunca ele alınır. Güvenlik için özel bir veri seti, SFT sırasında kullanılır ve bu, diğer görev odaklı verilerden büyük ölçüde farklıdır.

RLVR nedir?

RLVR, modelin somut bir ödülü optimize etmesini sağlayan bir tekniktir, örneğin bir cevabın doğruluğu. Bu, geleneksel RLHF’nin ödül modelini kullanmasından farklıdır.

Alex McFarland yapay zeka muhabiri ve yazarıdır ve yapay zekadaki son gelişmeleri araştırıyor. Birçok yapay zeka başlangıç şirketi ve dünya çapındaki yayınlarda işbirliği yaptı.