AGI
Inflection-2.5: GPT-4 ve Gemini’ye Rakip Güçlü LLM
Inflection AI büyük dil modelleri (LLM’ler) alanında Inflection-2.5’i duyurarak dalgalar yaratıyor. Bu model, OpenAI’nin GPT-4 ve Google’ın Gemini gibi dünyanın önde gelen LLM’leriyle rekabet ediyor.
Inflection AI’nin hızlı yükselişi, endüstri devleri Microsoft, NVIDIA ve著名 yatırımcılar Reid Hoffman, Bill Gates ve Eric Schmidt’ın liderliğindeki 1,3 milyar dolarlık yatırım turu tarafından daha da hızlandırıldı. Bu önemli yatırım, şirketin toplam fonlarını 1,525 milyar dolara çıkardı.
CoreWeave ve NVIDIA ile işbirliği içinde Inflection AI, dünyanın en büyük AI kümesini oluşturuyor. Bu küme, 22.000 NVIDIA H100 Tensor Core GPU’sinden oluşuyor. Bu devasa hesaplama gücü, yeni nesil büyük ölçekli AI modellerinin eğitimi ve dağıtımı için destek sağlayacak ve Inflection AI’nin kişisel AI alanında neler möglich olduğunu sınırları zorlayacak.
Şirketin öncü çalışması already dikkate değer sonuçlar verdi. Inflection AI kümesi, şu anda 3.500’den fazla NVIDIA H100 Tensor Core GPU’sine sahip ve açık kaynaklı MLPerf benchmark’unda state-of-the-art performans gösteriyor. CoreWeave ve NVIDIA ile ortak bir sunumda, küme, büyük dil modelleri için referans eğitim görevini sadece 11 dakikada tamamladı ve bu benchmark’ta en hızlı küme olarak konumunu sağlamlaştırdı.
Bu başarı, Inflection AI’nin kendi büyük dil modeli Inflection-1’in duyurulmasının ardından geldi. Inflection-1, kendi hesap sınıfında en iyi model olarak kabul ediliyor. GPT-3.5, LLaMA, Chinchilla ve PaLM-540B gibi endüstri devlerini çeşitli benchmark’lerde geride bırakıyor. Inflection-1, kullanıcıların Inflection AI’nin kişisel AI’si Pi ile basit ve doğal bir şekilde etkileşime girmesine, hızlı, ilgili ve yardımcı bilgiler ve öneriler almasına olanak tanır.
Inflection AI’nin şeffaflık ve tekrarlanabilirliğe olan bağlılığı, çeşitli benchmark’lerde Inflection-1’in değerlendirme ve performansını detaylandıran bir teknik not ile kanıtlanıyor. Not, Inflection-1’in aynı hesap sınıfındaki modelleri, yani PaLM-540B’nin FLOPs’una (nokta işlemlerine) kadar eğitim gören modelleri geride bıraktığını gösteriyor.
Inflection-1’in başarısı ve şirketin hesap altyapısının hızlı ölçeklenmesi, önemli yatırım turu tarafından desteklenerek Inflection AI’nin herkes için kişisel AI yaratma misyonuna olan güçlü bağlılığını vurguluyor. Inflection-1’in Pi’ye entegre edilmesi ile kullanıcılar artık kişisel AI’nin gücünü deneyimleyebilir, empatik kişiliğinden, yararlılığından ve güvenlik standartlarından yararlanabilir.
Inflection-2.5
Inflection-2.5 artık Pi’nin tüm kullanıcıları için web (pi.ai), iOS, Android ve yeni bir masaüstü uygulaması dahil olmak üzere çeşitli platformlarda kullanılabilir. Bu entegrasyon, Inflection AI’nin herkes için kişisel AI yaratma misyonunda önemli bir kilometre taşıdır ve ham yetenekle birlikte empatik kişilik ve güvenlik standartlarını bir araya getirir.
Performansdaki Devrim Inflection AI’nin önceki modeli Inflection-1, yaklaşık olarak GPT-4’ün eğitim FLOPs’ının %4’ünü kullanıyordu ve çeşitli IQ odaklı görevlerde GPT-4’e göre ortalama %72’lik bir performans gösteriyordu. Inflection-2.5 ile Inflection AI, Pi’nin entelektüel yeteneklerinde önemli bir artış sağladı, özellikle kodlama ve matematik alanlarına odaklandı.
Modelin endüstri benchmark’lerindeki performansı, özellikle STEM alanlarında, yeteneklerini sergiliyor ve çeşitli görevlerde GPT-4’ün ortalama performansının %94’üne ulaşıyor. Bu önemli başarı, Inflection AI’nin teknoloji sınırını zorlarken kullanıcı deneyimi ve güvenliğe odaklanmaya devam ettiğini kanıtlıyor.
Kodlama ve Matematik Üstünlüğü Inflection-2.5, kodlama ve matematik alanlarında parlıyor ve BIG-Bench-Hard’da Inflection-1’e göre %10’dan fazla bir iyileşme gösteriyor. MBPP+ ve HumanEval+ gibi iki kodlama benchmark’ünde Inflection-1’e göre büyük iyileştirmeler göstererek kodlama alanında güçlü bir konumda olduğunu kanıtlıyor.
MBPP+ benchmark’ünde Inflection-2.5, öncülüne göre önemli bir performans farkı gösteriyor ve DeepSeek Coder tarafından bildirilen GPT-4’ün performans seviyesine ulaşıyor. Benzer şekilde, HumanEval+ benchmark’ünde Inflection-2.5, önemli bir ilerleme gösteriyor ve Inflection-1’in performansını aşarak EvalPlus liderlik tablosunda GPT-4’ün seviyesine yaklaşıyor.
Endüstri Benchmark’lerinde Üstünlük
Inflection-2.5, MMLU benchmark’ünde ve uzman seviyesindeki zorluğuyla bilinen GPQA Diamond benchmark’ünde önemli iyileştirmeler göstererek endüstri benchmark’lerinde öne çıkıyor. Modelin bu benchmark’lerdeki performansı, geniş bir görev yelpazesini, liseden profesyonellere kadar olan sorunları ele alabilme yeteneğini vurguluyor.
STEM Sınavlarında Mükemmellik Modelin yetenekleri, özellikle STEM sınavlarında, Macar Matematik sınavı ve Fizik GRE’de öne çıkıyor. Macar Matematik sınavında Inflection-2.5, verilen birkaç örnek ve biçimlendirmeyi kullanarak matematiksel yeteneklerini sergiliyor ve tekrarlanabilirliği kolaylaştırıyor.
Fizik GRE’de, bir fizik giriş sınavında, Inflection-2.5, maj@8’de (8’de çoğunluk oyu) insan sınavçıların %85’lik dilimine ulaşıyor ve fizik problem çözme alanında güçlü bir rakip olduğunu kanıtlıyor. Ayrıca, maj@32’de (32’de çoğunluk oyu) en yüksek puana yaklaşarak karmaşık fizik sorunlarını önemli bir doğrulukla çözebiliyor.
Kullanıcı Deneyimi İyileştirmesi Inflection-2.5, yalnızca ham yetenek sunmakla kalmaz, aynı zamanda Pi’nin empatik kişiliği ve güvenlik standartlarını korur ve kullanıcı deneyiminin zenginleştirilmesini sağlar. Güncel olayları tartışmaktan yerel önerilere, sınavlara çalışmaktan kodlamaya ve hatta günlük sohbetlere kadar, Pi ve Inflection-2.5, çeşitli konularda değerlendirmeler sunar.
Inflection-2.5’in güçlü yetenekleri, kullanıcıların Pi ile daha geniş bir konu yelpazesi üzerinde etkileşime girmesine olanak tanır. Modelin karmaşık görevleri ele alma yeteneği, empatik kişiliği ve gerçek zamanlı web arama yetenekleri, kullanıcıların yüksek kaliteli, güncel bilgi ve rehberlik almasını sağlar.
Kullanıcı Benimsenmesi ve Etkileşimi Inflection-2.5’in Pi’ye entegrasyonunun etkisi, kullanıcı duygusu, etkileşim ve tutma oranlarında already görülüyor. Inflection AI, organik kullanıcı büyümesinde önemli bir hızlanma yaşadı ve bir milyondan fazla günlük ve altı milyondan fazla aylık aktif kullanıcı, Pi ile dört milyardan fazla mesaj paylaşıyor.
Pi ile yapılan sohbetlerin ortalama süresi 33 dakika, ve her gün yapılan sohbetlerin %10’u bir saatten fazla sürüyor. Ayrıca, bir haftada Pi ile etkileşime giren kişilerin yaklaşık %60’ı bir hafta sonra geri dönüyor ve bu, sektördeki önde gelen rakiplerden daha yüksek bir aylık tutma oranı gösteriyor.
Teknik Detaylar ve Benchmark Şeffaflığı
Inflection AI, şeffaflık ve tekrarlanabilirliğe olan bağlılığını sürdürerek, çeşitli endüstri benchmark’lerinde Inflection-2.5’in performansını ve teknik sonuçlarını detaylı bir şekilde sunuyor.
Örneğin, düzeltilmiş MT-Bench veri kümesinde, Inflection-2.5, diğer benchmark’lerdeki beklentilerle uyumlu bir performans gösteriyor. Bu veri kümesi, orijinal veri kümesinin yanlış referans çözümlerini ve hatalı varsayımlarını ele alıyor.
Inflection AI, ayrıca Inflection-2.5’i HellaSwag ve ARC-C gibi ortak sentido ve bilim benchmark’lerinde değerlendirdi ve bu benchmark’lerde güçlü bir performans sergiledi.
Önemli olan, sunulan değerlendirmelerin Pi’yi güçlendiren modeli temsil etmesidir, ancak kullanıcı deneyimi, web aramasının etkisi (benchmark’lerde kullanılmıyor), birkaç örnek verme yapısı ve diğer üretim tarafındaki farklılıklar nedeniyle slightly farklı olabilir.
Sonuç
Inflection-2.5, büyük dil modelleri alanında önemli bir adım atıyor ve GPT-4 ve Gemini gibi endüstri liderleriyle rekabet ediyor, ancak yalnızca onların hesap kaynaklarının bir kısmını kullanıyor. Çeşitli benchmark’lerde, özellikle STEM alanlarında, kodlama ve matematikte gösterdiği güçlü performansla, AI peyzajında önemli bir rakip olarak konumlanıyor.
Inflection-2.5’in Pi’ye entegrasyonu, ham yetenekle birlikte empatik kişilik ve güvenlik standartlarını bir araya getirerek zenginleştirilmiş bir kullanıcı deneyimi vaat ediyor. Inflection AI, LLM’lerde neler möglich olduğunu sınırları zorlarken, AI topluluğu bu öncü şirketin next dalgası inovasyon ve atılımlarını bekliyor.














