Düşünce Liderleri
LLM’lerin Matematikte Başarısızlığı ve Bu Sorunu Çözme Yöntemi
Matematik, her zaman AI modelleri için önemli bir zorluk oluşturmuştur. Matematiği掌握 etmek, karmaşık akıl yürütme becerileri gerektirir ve AI için bu görev basit değildir. Bu, matematiğin profesyonellik, kişisel ve akademik başarı için önemini düşünüldüğünde büyük bir sorun yaratır.
Şaşırtıcı yeteneklerine rağmen, büyük dil modelleri (LLM’ler) genellikle geometri gibi karmaşık matematiksel görevlerle başa çıkmakta zorlanırlar, bu görevler gelişmiş akıl yürütme becerileri gerektirir. Bu, bizi kritik bir soruya getirir: Bir AI modelinin matematiksel yeteneklerinin ne kadarı gerçek akıl yürütmeden, ne kadarı ise yalnızca eğitim verilerinin hatırlanmasından kaynaklanmaktadır?
Apple’ın yakın tarihli bulguları gösteriyor ki, ilkokul matematik söz problemasına odaklandıklarında bile, en gelişmiş modeller tamamen “akıl yürütme” ile hareket etmemektedir.
Bu konuyu bir adım öteye taşıyarak, MathGPT.ai’nin Ar-Ge ekibi, cebir’den kalkülüs düzeyindeki matematiğe kadar birçok alanda LLM’lerin geliştirilmesi gereken konuları ortaya koydu.
Bu veriler, problem bağlamı ve dilin farklı LLM’ler, včetně OpenAI’nin son o1-önizleme ve o1-küçük modelleri üzerindeki model performansını nasıl etkilediğini araştırdı. Bulgular, endişe verici bir eğilim ortaya koydu: doğruluk, sorunların orijinal eğitim verilerindeki sorulardan sapmasıyla birlikte tutarlı bir şekilde azaldı ve daha zorlu matematiksel standartlarda performans keskin bir şekilde düştü.
Hatırlama vs. Akıl Yürütme İkilemi
Araştırma üç ana faktöre odaklandı:
- İlkokul matematikten daha zorlu matematiksel standartları kullanmak
- Test sorununa çok yakın bir “1-shot prompt”ı keşfetmek
- Bir problem için “n” deneme için “en iyisi” stratejisini uygulamak – esasen istatistiksel anormallikleri ortadan kaldırmak için bir tür çoğunluk oylaması.
Sonuçlar hem ilgi çekici hem de endişe vericiydi. Problem varyasyonlarının sınırları zorlandı ve matematiksel denklemler daha karmaşık hale geldikçe AI modelinin performansında tutarlı bir düşüş görüldü.
MATH Veri Seti Zorluğu
Zorlu lise düzeyindeki sorunları içeren MATH veri seti kullanıldı. Bu, 8.500 dilbilimsel olarak çeşitli ilkokul düzeyindeki sorunları içeren Grade School Math 8K veri setinin aksine, cebir öncesi ile sayı teorisi arasında değişen zorluk seviyelerinde model performansını incelemek için MathGPT.ai’ye olanak sağladı.
Test sırasında, sayısal değerler ve final cevaplar değişmeden kaldı, ancak sorunların dili, değişkenleri ve bağlamı değiştirildi. Örneğin, bir “köpek yürüyüşü” senaryosu “bulaşık makinesi” problemine dönüştürülebilirdi. Bu yöntem, MATH veri setinin artan karmaşıklığını hafifletmeye yardımcı olurken, aynı zamanda modellerin akıl yürütme yeteneklerini zorlamayı sürdürdü.
Açık Sonuçlar
Sonuçlar çarpıcıydı. Hatta en gelişmiş modeller, eğitim verilerinde muhtemelen karşılaştıkları sorun varyasyonlarıyla karşılaştıklarında mücadele etti. Örneğin, o1-küçük modelin doğruluğu orijinal sorularda %93.66’dan en zorlu varyasyonda %88.54’e düştü. o1-önizleme modeli benzer bir düşüş yaşadı, %91.22’den %82.93’e düştü – bu, dayanıklılıklarındaki kritik boşlukları vurgulamak için yeterli bir düşüş.
Bu bulgular, Apple’ın daha önceki araştırmalarıyla uyumlu olarak, AI’nin matematiksel akıl yürütme sınırlarının, sorunlar daha karmaşık hale geldikçe ve daha derin bir anlayış gerektirdikçe daha belirgin hale geldiğini gösteriyor.
İleriye Doğru Yol
LLM akıl yürütme sınırlarını sürekli olarak zorlarken, hem muhteşem potansiyellerini hem de mevcut sınırlarını tanımak çok önemlidir. Yeni araştırmalar, desen tanıma ötesine geçerek daha güçlü ve genel problem çözme becerileri elde edebilen AI modelleri geliştirmeye devam etme ihtiyacını vurgulamaktadır.
Bu, özellikle yükseköğretimde AI’nin sınıfta bir öğretim yardımcı olarak daha çok kullanılması ve okulların matematik derslerine hazırlıksız olan öğrenciler arasında yüksek başarısızlık oranlarına tanık olmasıyla kritik bir zamanda gerçekleşiyor.
AI’de insan benzeri bilişsel yeteneklere veya genel zekaya ulaşmak, yalnızca teknolojik ilerlemeleri değil, aynı zamanda hatırlama ile gerçek akıl yürütme arasındaki boşluğu köprülemek için nasıl bir yol izleneceğini anlamayı da gerektirir.
Bu yolda başarılı olursak, milyonlarca öğrencinin ve hatta profesyonelin hayatlarını tamamen yeni bir yol haritasına koyabileceğimize eminim.










