Terhubung dengan kami

Pemimpin Pikiran

Kegagalan LLM dalam Matematika dan Cara Menyelesaikannya

mm

Matematika selalu menjadi tantangan yang signifikan bagi model AI. Menguasai matematika membutuhkan keterampilan penalaran yang kompleks, dan bagi AI, tugas ini sama sekali tidak mudah. ​​Hal itu menimbulkan masalah besar mengingat pentingnya kemahiran matematika untuk kesuksesan profesional, pribadi, dan akademis.

Meskipun kemampuannya luar biasa, model bahasa besar (LLM) sering kali berjuang dengan tugas matematika yang rumit, seperti geometri, yang menuntut keterampilan penalaran tingkat lanjut. Hal ini membawa kita pada pertanyaan kritis: seberapa besar kemampuan matematika model AI berasal dari penalaran asli dibandingkan dengan sekadar mengingat data pelatihan?

Temuan terbaru dari Apple menunjukkan bahwa bahkan ketika difokuskan pada soal cerita matematika sekolah dasar, model yang paling canggih pun tidak sepenuhnya didorong oleh “penalaran.”

Dengan melangkah lebih jauh, tim R&D di MathGPT.ai memberikan pandangan baru pada bidang matematika tingkat aljabar hingga kalkulus yang memerlukan peningkatan paling besar.

Data ini meneliti bagaimana variasi dalam konteks masalah dan bahasa memengaruhi performa model di berbagai LLM, termasuk model o1-preview dan o1-mini terbaru OpenAI. Temuan tersebut mengungkap tren yang mengkhawatirkan: akurasi terus menurun saat masalah menyimpang dari pertanyaan asli yang tersedia dalam data pelatihan LLM, dengan performa menurun tajam pada tolok ukur matematika yang lebih menantang di atas tingkat matematika sekolah dasar. 

Dilema Mengingat Kembali vs. Penalaran

Investigasi ini difokuskan pada tiga faktor utama:

  1. Menggunakan tolok ukur matematika yang lebih menantang daripada matematika sekolah dasar
  2. Menjelajahi “1-shot prompt” dengan kedekatan ekstrem dengan masalah pengujian
  3. Menerapkan strategi “terbaik dari n” untuk n kali percobaan pada masalah yang sama – yang secara efektif merupakan pemungutan suara mayoritas untuk menghilangkan anomali statistik, pada waktu inferensi. 

Hasilnya menarik sekaligus mengkhawatirkan. Batasan variasi masalah pun terdorong, yang menunjukkan penurunan konsisten dalam kinerja model AI seiring dengan meningkatnya kompleksitas persamaan matematika.

Tantangan Dataset MATEMATIKA

Dataset MATEMATIKA digunakan, yang dikenal karena soal-soal tingkat sekolah menengah yang menantang, berbeda dengan kumpulan data Grade School Math 8K, yang berisi 8,500 soal tingkat dasar yang beragam secara linguistik. Kumpulan data MATH menyajikan soal-soal tingkat sekolah menengah yang lebih menantang untuk menguji kinerja model di berbagai tingkat kesulitan, dari pra-aljabar hingga teori bilangan. Pilihan ini memungkinkan MathGPT.ai untuk menguji kinerja model dengan lebih baik di berbagai tingkat kesulitan.

Dalam pengujian, meskipun nilai numerik dan jawaban akhir tetap tidak berubah, kami memvariasikan bahasa, variabel, dan konteks masalah. Misalnya, skenario "jalan-jalan dengan anjing" dapat diubah menjadi masalah "mesin pencuci piring". Metode ini membantu mengurangi meningkatnya kompleksitas kumpulan data MATH sekaligus tetap menantang kemampuan penalaran model.

Mengungkapkan Hasil

Hasilnya sangat mengejutkan. Bahkan model yang paling canggih pun kesulitan saat menghadapi variasi masalah yang mungkin mereka temui dalam data pelatihan. Misalnya, akurasi model o1-mini turun dari 93.66% pada pertanyaan asli menjadi 88.54% pada variasi yang paling menantang. Model o1-preview mengalami penurunan serupa, turun dari 91.22% menjadi 82.93% — — penurunan yang cukup tajam untuk menyoroti kesenjangan kritis dalam ketahanannya.

Temuan ini selaras dengan dan dibangun di atas penelitian Apple sebelumnya, yang menunjukkan bahwa keterbatasan dalam penalaran matematika AI menjadi lebih jelas saat masalah tumbuh lebih kompleks dan memerlukan pemahaman yang lebih mendalam daripada pengenalan pola.

Jalan ke Depan

Saat kita terus mendorong batas-batas penalaran LLM, penting untuk mengenali potensi luar biasa dan keterbatasannya saat ini. Penelitian baru menggarisbawahi perlunya inovasi berkelanjutan dalam mengembangkan model AI yang mampu bergerak melampaui pengenalan pola untuk mencapai keterampilan pemecahan masalah yang lebih kuat dan dapat digeneralisasi.

Hal ini terjadi pada saat yang kritis, terutama dalam pendidikan tinggi, di mana AI digunakan lebih luas sebagai alat bantu instruktur di kelas sementara sekolah terus melihat angka kegagalan yang tinggi di kalangan siswa matematika yang tidak siap mengikuti kursus.

Mencapai kemampuan kognitif seperti manusia atau kecerdasan umum dalam AI tidak hanya menuntut kemajuan teknologi tetapi juga pemahaman mendalam tentang cara menjembatani kesenjangan antara ingatan dan penalaran sebenarnya. 

Jika kita berhasil di jalur ini, saya yakin kita dapat mengubah kehidupan jutaan pelajar dan bahkan profesional untuk menempatkan kehidupan mereka pada lintasan yang benar-benar baru.

Peter adalah Ketua MathGPT.ai, ia juga seorang wirausahawan teknologi dan mentor berpengalaman, yang berdedikasi untuk mengembangkan solusi berdampak yang meningkatkan kehidupan. Setelah meraih gelar sarjana dari Stanford pada tahun 1992, ia menghabiskan 30 tahun mendirikan dan mendukung usaha di bidang game, IoT, perangkat lunak, AI, dan inovasi iklim.

Sebagai pendiri YouWeb Incubator, ia telah membimbing perusahaan rintisan dengan pendanaan dan bimbingan langsung, serta meraih kesuksesan yang luar biasa. Peter juga menjabat di dewan direksi The Tech, GotIt!, dan GotIt! AI, menjadi penasihat Institute of Carbon Management di UCLA, dan memimpin Dharma Karma Foundation.