Connect with us

Yapay Zekâ

Gemini 3.1 Pro Kayıt Düzeyinde Mantıksal Kazançlar Sağlıyor

mm

Google, 19 Şubat’ta amiral gemisi AI modelinin bir güncellemesi olan Gemini 3.1 Pro‘yu yayınladı. Bu güncelleme, mantıksal performansını daha než ikiye katlarken, fiyatlandırmasını önceki sürümle aynı şekilde tutuyor.

En dikkat çekici sayı: ARC-AGI-2’de, modellerin tamamen yeni mantık kalıplarını çözebilme yeteneklerini test eden bir benchmark’ta, Gemini 3.1 Pro %77,1 puan alıyor. Gemini 3 Pro %31,1 puan almıştı. Bu %46’lık puan artışı, herhangi bir ön cephe model ailesindeki en büyük tek nesil mantıksal kazançtır.

Model, Google’un tüketici ve geliştirici platformlarındaki tüm kullanıcılar için hemen kullanılabilir hale geliyor. Gemini uygulamasını kullanan AI Pro ve AI Ultra planlarındaki kullanıcılar, daha yüksek kullanım limitleriyle erişime sahip olacaklar, geliştiriciler ise Gemini API’sini AI Studio, Vertex AI, Gemini CLI, Antigravity ve Android Studio’da 3.1 Pro’ya erişebilecekler. NotebookLM de Pro ve Ultra aboneleri için yükseltme kazanıyor.

Fiyat, 200.000 tokenin altındaki promt’lar için milyon token başına 2$ olarak kalıyor, daha uzun bağlamlar için ise 4$’a çıkıyor. Çıkış maliyeti milyon token başına 12$ olarak belirleniyor. Zaten Gemini 3 Pro’yu API aracılığıyla kullananlar için yükseltme ücretsiz olacak.

Tüm Alanlarda Benchmark Performansı

Model kartı, Gemini 3.1 Pro’nun 18 takip edilen benchmark’ın 12’sinde ilk sırada yer aldığını gösteriyor. ARC-AGI-2’nin ötesinde, öne çıkanlar arasında %94,3’lük GPQA Diamond, bir lisansüstü bilim mantık testi ve 2.887 Elo’luk LiveCodeBench Pro, tüm ön cephe modelleri için en yüksek puan olan rekabetçi programlama bulunuyor.

İnsanlığın Son Sınavı – akademik disiplinler boyunca uzmanlardan topladığı sorulardan oluşan bir benchmark – 3.1 Pro %44,4’e ulaşıyor, Gemini 3 Pro’nun %37,5’inden ve GPT-5.2’nin %34,5’inden daha yüksek bir puan elde ediyor. Çok dilli MMLU benchmark’u %92,6, 128.000 token’de uzun bağlam doğruluğu %84,9 olarak kalıyor.

Model, 1 milyon token girdi bağlam penceresini korur ve 64.000 output tokeni üretebilir, bu da tüm kodu tek bir oturumda tüketmek ve önemli kod blokları üretmek zorunda olan AI kod oluşturma araçlarının özelliklerini eşleştirir.

3.1 Pro’nun lider olmadığı yerler de dikkat çekici. SWE-Bench Verified’de, gerçek dünya yazılım mühendisliği görevlerini test eden bir benchmark’ta, %80,6 puan alıyor – Anthropic’in Claude Opus 4.6’nın %80,8’inden sadece biraz geride. Aradaki fark marjinal, ancak Anthropic’in pratik kodlama görevlerinde, kurumsal benimsemeyi sürdüren dar bir avantajı koruduğunu gösteriyor.

Dinamik Düşünme Değişiklikleri

Gemini 3.1 Pro, her promt’un karmaşıklığına bağlı olarak uyguladığı iç mantık miktarını ayarlayan dinamik düşünme kullanır. Basit sorular hızlı cevaplar alır. Karmaşık çok adımlı problemler, model yanıtını üretmeden önce daha derin işleme zincirlerini tetikler.

Geliştiriciler, API’deki thinking_level parametresini kullanarak bu davranışı kontrol edebilir, iç mantığın maksimum derinliğini ayarlayabilir. Bu, mantık modellerindeki bir gerilimi ele alır: uzatılmış düşünme, zor problemlerde doğruluğu geliştirir ancak basit sorgular için gecikme ve maliyet ekler. Dinamik düşünme, bu ticaretin otomatikleştirilmesini dener.

Özellik, endüstrinin daha geniş bir değişimini yansıtıyor. OpenAI’nin o-serisi modelleri, zincir düşünme mantığını seçilebilir bir mod olarak tanıttı. Anthropic’in Claude’u, genişletilmiş düşünmeyi seçmeli bir özellik olarak kullanıyor. Google’un, değişken şiddette varsayılan olarak bunu yapma yaklaşımı, většelerin modelin ne kadar düşünmesi gerektiğine karar vermesini tercih ettiğini iddia ediyor.

Rekabet Alanı Daralıyor

Gemini 3.1 Pro, benchmark liderliğinin el değiştirdiği bir pazarda ortaya çıkıyor. Google’un Gemini 3’ü, OpenAI’de “kod kırmızı”ya neden oldu ve bu da bir aydan kısa sürede GPT-5.2’yi üretti. Anthropic, Claude güncellemelerini hızlanan bir tempoda yayınladı. Her bir sürüm, modeller arasındaki açığı daraltıyor ve platformlar arasındaki seçimi, ham yetenek yerine ekosistem ve fiyatlandırma bağımlı hale getiriyor.

Google’un avantajı dağıtımda kalıyor. Gemini 3.1 Pro, yüz milyonlarca insanın kullandığı ürünlerin içine doğrudan entegre ediliyor: Gmail, Docs, Search ve Kişisel Zeka özellikleri, modeli kullanıcıların kişisel verilerine bağlıyor. Model ayrıca Gemini Enterprise ve Gemini CLI‘yi güçlendiriyor, geliştiricilere ve işletmelere zaten kullandıkları araçlar aracılığıyla erişim sağlıyor.

Geliştiriciler için ön cephe modelleri arasında seçim yapmak, fiyatlandırma kararını kolaylaştırdı. Milyon token başına 2$’lık fiyatla, Gemini 3.1 Pro, benzer yetenek için OpenAI ve Anthropic’in amiral gemisi fiyatlandırmasını geçersiz kıldı. 3 Pro’dan ücretsiz yükseltme, mevcut kullanıcılar için herhangi bir göç sürtünmesini ortadan kaldırıyor.

Mantıksal kazançlar, planlama, çok adımlı görevleri yürütme ve araçları otomatik olarak kullanan ajantik uygulamalar için en çok önem taşıyor. ARC-AGI-2 özellikle, ajanların eğitim verilerinin kapsamadığı sorunlarla karşılaştıklarında ihtiyaç duydukları türden yeni kalıp tanıma yeteneklerini test ediyor. %77,1 puan alan bir model, %31,1 puan alan bir modelden çok daha güvenilir bir şekilde tanımlamaya karşı geliyor.

Bu benchmark kazançlarının, gerçek dünya iyileştirmelerine dönüştürülüp dönüştürülemeyeceği, Google’un önümüzdeki haftalarda cevaplayacağı soru olacak. Benchmark’lar, belirli yetenekleri kontrol edilen koşullar altında yakalar; gerçek kullanıcı deneyimi, insanların modellere attıkları görevlerin öngörülemez aralığı boyunca nasıl performans gösterdiğine bağlıdır. ARC-AGI-2’deki atılım, 3.1 Pro’nun daha öncekinden daha iyi şekilde yeniliklerle başa çıktığını gösteriyor. Kullanıcıların bu yetenekle ne yapacakları, sayıların önemli olup olmadığını belirleyecek.

Alex McFarland yapay zeka muhabiri ve yazarıdır ve yapay zekadaki son gelişmeleri araştırıyor. Birçok yapay zeka başlangıç şirketi ve dünya çapındaki yayınlarda işbirliği yaptı.