قادة الفكر
فشل نماذج LLM في الرياضيات وكيفية حلها
لقد شكلت الرياضيات دائمًا تحديًا كبيرًا للنماذج الذكية. يتطلب التمكن من الرياضيات مهاراتreasoning معقدة، وهذا الأمر ليس بسيطًا بالنسبة للنماذج الذكية. وهذا يخلق مشكلة كبيرة بالنظر إلى أهمية الكفاءة الرياضية للنجاح المهني والشخصي والأكاديمي.
على الرغم من قدراتها الرائعة، غالبًا ما تجد نماذج اللغة الكبيرة (LLMs) صعوبة في المهام الرياضية المعقدة، مثل الهندسة، التي تتطلب مهاراتreasoning متقدمة. وهذا يأتي بنا إلى السؤال الحاسم: كم من قدرة نموذج الذكاء الاصطناعي على الرياضيات يأتي منreasoning حقيقي مقابل مجرد استدعاء بيانات التدريب؟
أظهرت النتائج الحديثة من Apple أن حتى عندما يركز على مشكلات الكلمات الرياضية في المدرسة الابتدائية، فإن أكثر النماذج المتقدمة لا يتم تشغيلها بشكل كامل بواسطة “reasoning”.
إذا أخذنا هذا إلى الخطوة التالية، فإن فريق البحث والتطوير في MathGPT.ai ألقى光ًا جديدًا على مجالات الجبر وحتى مستوى التفاضل والتكامل التي تتطلب أكثر تحسنًا.
تم استكشاف هذه البيانات لتحديد كيف تؤثر الاختلافات في سياق المشكلة واللغة على أداء النموذج عبر نماذج LLM المختلفة، بما في ذلك أحدث نماذج OpenAI o1-preview و o1-mini. وكشفت النتائج عن اتجاه مخيف: انخفضت الدقة باستمرار مع انحراف المشكلات عن الأسئلة الأصلية المتاحة في بيانات التدريب للنماذج LLM، مع انخفاض الأداء بشكل حاد على معايير رياضية أكثر تحديًا أعلى مستوى الرياضيات في المدرسة الابتدائية.
مأزق الاستدعاء مقابل Reasoning
ركز التحقيق على ثلاثة عوامل رئيسية:
- استخدام معايير رياضية أكثر تحديًا من الرياضيات في المدرسة الابتدائية
- استكشاف “1-shot prompt” مع قرب شديد من مشكلة الاختبار
- تطبيق استراتيجية “أفضل من n” لمحاولات n لمشكلة واحدة – بشكل فعال تصويت الأغلبية لإlimination الشوائب الإحصائية، في وقت الاستدلال.
كانت النتائج مثيرة للاهتمام ومقلقة. تم دفع حدود تباين المشكلة، مما أظهر انخفاضًا مستمرًا في أداء نموذج الذكاء الاصطناعي مع زيادة تعقيد المعادلات الرياضية.
تحدي مجموعة بيانات MATH
تم نشر مجموعة بيانات MATH، المعروفة بمشكلات المدرسة الثانوية الصعبة، على عكس مجموعة بيانات Grade School Math 8K، التي تحتوي على 8,500 مشكلة لغوية متنوعة على مستوى المدرسة الابتدائية. تقدم مجموعة بيانات MATH مشكلات أكثر تحديًا على مستوى المدرسة الثانوية لاختبار أداء النموذج عبر مستويات صعوبة مختلفة، من قبل الجبر إلى نظرية الأعداد. سمح هذا الاختيار ل MathGPT.ai بتحسين أداء النموذج عبر مستويات صعوبة مختلفة.
في الاختبار، بينما ظلت القيم العددية والإجابات النهائية غير متغيرة، قمنا بتغيير اللغة والمتغيرات والسياق للمشكلات. على سبيل المثال، قد يتم تحويل سيناريو “كلب سير” إلى مشكلة “غسالة أطباق”. ساعدت هذه الطريقة على التغلب على تعقيد مجموعة بيانات MATH مع تحدي قدراتreasoning للنماذج.
نتائج مدهشة
كانت النتائج مثيرة. حتى النماذج الأكثر تقدمًا عانت عندما واجهت تنوعًا في المشكلات التي قد واجهوها في بيانات التدريب. على سبيل المثال، انخفضت دقة نموذج o1-mini من 93.66٪ على الأسئلة الأصلية إلى 88.54٪ على أكثر التباين تحديًا. واجه نموذج o1-preview انخفاضًا مشابهًا، حيث انخفض من 91.22٪ إلى 82.93٪ – انخفاض حاد بما فيه الكفاية لتحديد الفجوات الحاسمة في متانتهم.
تتماشى هذه النتائج مع البحث السابق من Apple، مما يدل على أن القيود فيreasoning الرياضي للذكاء الاصطناعي تصبح أكثر وضوحًا مع زيادة تعقيد المشكلات وتطلب فهمًا أعمق بدلاً من التعرف على الأنماط.
الطريق إلى الأمام
مع استمرارنا في دفع حدودreasoning LLM، من المهم الاعتراف بكل من إمكانياتها الرائعة وقيودها الحالية. يسلط البحث الجديد الضوء على الحاجة إلى استمرار الابتكار في تطوير نماذج الذكاء الاصطناعي القادرة على التحرك بعيدًا عن التعرف على الأنماط لتحقيق مهارات حل المشكلات الأكثر متانة وعمومية.
يأتي هذا في وقت حرج، خاصة في التعليم العالي، حيث يتم استخدام الذكاء الاصطناعي بشكل أكبر كمساعد للمعلم في الفصل الدراسي، بينما تستمر المدارس في رؤية معدلات فشل عالية بين طلاب الرياضيات الذين ليسوا مستعدين للدورات.
تحقيق القدرات المعرفية البشرية أو الذكاء العام في الذكاء الاصطناعي يتطلب ليس فقط التطورات التكنولوجية ولكن أيضًا فهمًا دقيقًا لطريقة جسر الفجوة بين الاستدعاء وreasoning الحقيقي.
إذا نجحنا في هذا المسار، أنا واثق من أننا يمكن أن نغير حياة ملايين الطلاب والمحترفين لوضع حياتهم على مسار جديد تمامًا.










