Pemimpin pemikiran

Kegagalan LLM dalam Matematika dan Bagaimana Mengatasi Hal Ini

Published December 5, 2024

Updated April 27, 2026

Peter Relan, Chairman of MathGPT.ai

Matematika selalu menimbulkan tantangan besar bagi model AI. Menguasai matematika memerlukan keterampilan penalaran yang kompleks, dan bagi AI, tugas ini tidaklah sederhana. Hal ini menciptakan masalah besar mengingat pentingnya kemampuan matematika untuk kesuksesan profesional, pribadi, dan akademis.

Meskipun memiliki kemampuan luar biasa, model bahasa besar (LLM) sering berjuang dengan tugas matematika kompleks, seperti geometri, yang memerlukan keterampilan penalaran lanjutan. Ini membawa kita pada pertanyaan kritis: seberapa besar kemampuan matematika model AI berasal dari penalaran yang sebenarnya vs. sekadar mengingat data pelatihan?

Temuan terbaru dari Apple menunjukkan bahwa bahkan ketika fokus pada soal matematika sekolah dasar, model yang paling canggih tidak sepenuhnya didorong oleh “penalaran”.

Mengambil langkah lebih jauh, tim R&D di MathGPT.ai membeberkan cahaya baru pada area aljabar hingga kalkulus tingkat matematika yang memerlukan perbaikan terbesar.

Data ini menjelajahi bagaimana variasi konteks dan bahasa mempengaruhi kinerja model di seluruh LLM yang berbeda, termasuk model o1-preview dan o1-mini terbaru dari OpenAI. Temuan tersebut mengungkapkan tren yang mengkhawatirkan: akurasi konsisten menurun ketika soal menyimpang dari pertanyaan asli yang tersedia dalam data pelatihan LLM, dengan kinerja menurun tajam pada benchmark matematika yang lebih menantang di atas tingkat matematika sekolah dasar.

Masalah Penalaran vs Mengingat

Penyelidikan ini fokus pada tiga faktor kunci:

Menggunakan benchmark matematika yang lebih menantang daripada matematika sekolah dasar
Mengexplorasi “1-shot prompt” dengan kesamaan ekstrem dengan soal tes
Mengimplementasikan strategi “terbaik dari n” untuk n upaya pada soal yang sama – efektif suara mayoritas untuk menghilangkan anomali statistik, pada waktu inferensi.

Hasilnya menarik dan mengkhawatirkan. Batas variasi soal ditekan, yang menunjukkan penurunan konsisten dalam kinerja model AI ketika persamaan matematika menjadi lebih kompleks.

Tantangan Dataset MATH

Dataset MATH diterapkan, dikenal karena soal-soal sekolah menengah yang menantang, berbeda dengan dataset Matematika Sekolah Dasar 8K, yang berisi 8.500 soal linguistik yang beragam tingkat dasar. Dataset MATH menyajikan soal-soal sekolah menengah yang lebih menantang untuk memeriksa kinerja model di seluruh tingkat kesulitan yang berbeda, dari pra-aljabar hingga teori bilangan. Pilihan ini memungkinkan MathGPT.ai untuk lebih memeriksa kinerja model di seluruh tingkat kesulitan yang berbeda.

Dalam pengujian, sementara nilai numerik dan jawaban akhir tetap tidak berubah, kita bervariasi bahasa, variabel, dan konteks soal. Misalnya, skenario “anjing berjalan” mungkin diubah menjadi soal “mesin cuci piring”. Metode ini membantu mengurangi kompleksitas dataset MATH sambil tetap menantang kemampuan penalaran model.

Hasil Mengungkap

Hasilnya mengejutkan. Bahkan model yang paling canggih berjuang ketika dihadapkan pada variasi soal yang mungkin mereka temui dalam data pelatihan. Misalnya, akurasi model o1-mini turun dari 93,66% pada pertanyaan asli menjadi 88,54% pada variasi paling menantang. Model o1-preview mengalami penurunan serupa, turun dari 91,22% menjadi 82,93% – penurunan yang cukup tajam untuk menyoroti celah kritis dalam ketahanan mereka.

Temuan ini sejalan dengan dan membangun pada penelitian sebelumnya dari Apple, menunjukkan bahwa keterbatasan penalaran matematika AI menjadi lebih jelas ketika soal menjadi lebih kompleks dan memerlukan pemahaman yang lebih dalam daripada pengenalan pola.

Jalan Menuju Masa Depan

Ketika kita terus mendorong batas penalaran LLM, sangat penting untuk mengakui potensi luar biasa dan keterbatasan saat ini. Penelitian baru menekankan kebutuhan akan inovasi terus-menerus dalam mengembangkan model AI yang mampu bergerak melampaui pengenalan pola untuk mencapai keterampilan pemecahan masalah yang lebih kuat dan lebih umum.

Hal ini terjadi pada saat kritis, terutama di pendidikan tinggi, di mana AI digunakan lebih banyak sebagai alat bantu instruktur di kelas sementara juga sekolah melihat tingkat kegagalan yang tinggi di antara siswa matematika yang tidak siap untuk kursus.

Mencapai kemampuan kognitif seperti manusia atau kecerdasan umum dalam AI menuntut tidak hanya kemajuan teknologi tetapi juga pemahaman yang halus tentang bagaimana menjembatani kesenjangan antara mengingat dan penalaran yang sebenarnya.

Jika kita berhasil di jalur ini, saya yakin kita dapat mengubah kehidupan jutaan siswa dan bahkan profesional untuk meletakkan kehidupan mereka pada trajektori yang sama sekali baru.

Unite.AI

Kegagalan LLM dalam Matematika dan Bagaimana Mengatasi Hal Ini

Masalah Penalaran vs Mengingat

Tantangan Dataset MATH

Hasil Mengungkap

Jalan Menuju Masa Depan

You may like