الذكاء الاصطناعي
واثقون من الخطأ: لماذا تكون أنظمة الذكاء الاصطناعي الأكثر ذكاء هي الأسوأ في تصحيح نفسها

يعتقد العديد في مجتمع الذكاء الاصطناعي أن الثورة التالية الكبرى ستكون عصر الذكاء الاصطناعي الذي يمكن أن يتحسن بنفسه بدون تدخل بشري. والargument هو: كلما نمت النماذج أكثر قدرة، سوف تتعلم في النهاية ليس فقط من البيانات، ولكن من نفسها. كل تكرار سوف يراجع السابق. الأخطاء سوف يتم تحديدها، تصحيحها، وإزالتها. مع مرور الوقت، يمكن أن يؤدي هذا التراكم من التحسينات إلى انفجار في الذكاء حيث يبدأ الذكاء الاصطناعي في بناء الذكاء الاصطناعي. هذا الرؤية هي أساس 대부분 من الإثارة حول الذكاء الاصطناعي التكراري، والوكلاء المستقلين، وانفجار الذكاء المتوقع لمدة طويلة. في مركز هذه الرؤية تقع القدرة على أنظمة الذكاء الاصطناعي لتصحيح أخطائها بشكل موثوق. ومع ذلك، بدون تصحيح ذاتي قوي، لا يمكن تحقيق التحسين الذاتي. النظام الذي لا يمكنه التعرف على أنه مخطئ لا يمكن أن يتعلم بشكل معنوي من مخرجاته الخاصة، بغض النظر عن مدى قوته الظاهرة.
كان الافتراض السائد هو أن التصحيح الذاتي سوف يظهر بشكل طبيعي مع نمو النماذج أكثر قدرة. هذا الاعتقاد يبدو直觉يا. بعد كل شيء، النماذج الأقوى تعرف أكثر، وتعقل بشكل أفضل، وتؤدي بشكل جيد عبر المهام. ومع ذلك، البحث الحديث يكشف عن نتائج غير متوقعة أن النماذج الأكثر تقدمًا غالبًا ما تعاني في تصحيح أخطائها الخاصة، بينما النماذج الأضعف تؤدي بشكل أفضل في التصحيح الذاتي. هذا الظاهرة، المعروفة باسم مفارقة الدقة والتصحيح، تجبرنا على إعادة التفكير ليس فقط في كيفية عمل أنظمة الذكاء الاصطناعي، ولكن في مدى استعدادنا الحقيقي للذكاء الاصطناعي الذي يمكن أن يتحسن بنفسه.
فهم الذكاء الاصطناعي الذي يمكن أن يتحسن بنفسه
الذكاء الاصطناعي الذي يمكن أن يتحسن بنفسه يشير إلى نظام ذكاء اصطناعي يمكن أن يحدد أخطاءه الخاصة، ويتعلم منها، ويراجع سلوكه بشكل متكرر. على عكس النماذج التقليدية، التي تعتمد فقط على بيانات التدريب التي يتم تحضيرها بواسطة البشر، الذكاء الاصطناعي الذي يمكن أن يتحسن بنفسه سوف يقيّم مخرجاته الخاصة بشكل فعال ويتكيف مع مرور الوقت. في النظرية، هذا يخلق دورة من التغذية الراجعة حيث كل دورة من دورات التعلم تbuilt على السابقة، مما يؤدي إلى ما يوصف غالبًا باسم انفجار في الذكاء.
ولكن تحقيق هذا الهدف هو بعيد المنال. التحسين الذاتي يتطلب أكثر من القوة الحاسوبية الخام أو مجموعات بيانات أكبر. يتطلب ذلك تقييمًا ذاتيًا موثوقًا، بما في ذلك القدرة على كشف الأخطاء، وتحديد مصادرها، وإنتاج حلول محسنة. بدون هذه القدرات، لا يمكن للنموذج التمييز بين مسار التفكير الصحيح ومسار معيب. التكرار على الحل الخاطئ، بغض النظر عن السرعة، يعزز فقط الأخطاء بدلاً من تحسين الأداء.
مفارقة الدقة والتصحيح
يتم عادة معاملة التصحيح الذاتي على أنه قدرة واحدة، ولكن في الواقع يجمع بين عدة قدرات منفصلة يجب أن تؤخذ في الاعتبار بشكل منفصل. على الأقل، يمكننا فصلها إلى ثلاثة قدرات يمكن قياسها: كشف الأخطاء، وتحديد مصدر الخطأ، وتصحيح الخطأ. كشف الأخطاء يسأل عما إذا كان النموذج يمكن أن يتعرف على أن مخرجاته غير صحيحة. تحديد مصدر الخطأ يركز على تحديد مكان حدوث الخطأ. تصحيح الخطأ يشير إلى القدرة على إنتاج حل محسّن.
من خلال قياس هذه القدرات بشكل منفصل، يكشف الباحثون عن رؤى importante حول قيود الأنظمة الحالية. يظهر أن النماذج تختلف على نطاق واسع عبر هذه القدرات. بعض النماذج جيدة في كشف الأخطاء ولكن سيئة في تصحيحها. أخرى لا تعترف بمخاطر الأخطاء ولكنها لا تزال تصلحها من خلال محاولات متكررة. أكثر من ذلك، هذه الرؤى تكشف أن التحسين في مجال واحد لا يضمن تحسينًا في مجالات أخرى.
فرضية عمق الخطأ
تثير هذه المفارقة سؤالاً واضحًا: لماذا تعمل النماذج الأضعف بشكل أفضل في التصحيح الذاتي من النماذج الأقوى؟ يجد الباحثون إجابة هذه من خلال فحص نوع الأخطاء التي يرتكبها النماذج. لقد وجدوا أن النماذج الأقوى ترتكب أخطاء أقل، ولكن الأخطاء التي ترتكبها تكون “أعمق” وأكثر مقاومة للتصحيح. ngược، النماذج الأضعف ترتكب أخطاء “أقل عمق” يمكن تصحيحها بسهولة خلال المرور الثاني.
لماذا لا يضمن كشف الأخطاء تصحيحها
واحدة من أكثر النتائج إثارة للدهشة في البحث هي أن كشف الأخطاء لا يرتبط بالقدرة على تصحيح الأخطاء. النموذج قد يحدد بشكل صحيح أن إجابته خاطئة ولا يزال يفشل في تصحيحها. نموذج آخر قد يحدد أخطاءه بشكل ضعيف ولكنه يتحسن من خلال محاولات متكررة. يوفر Claude-3-Haiku المثال الأكثر درامية. كان كشف Claude لأخطاءه هو 10.1%، وهو أدنى بين جميع النماذج التي تم اختبارها. على الرغم من هذا الكشف الضعيف، حقق أعلى معدل تصحيح داخلي بنسبة 29.1%. بالمقارنة، كان كشف GPT-3.5 لأخطاءه 81.5% ولكنه صحح فقط 26.8%.
التكرار يساعد، ولكن ليس بنفس القدر
أظهر البحث أيضًا أن التكرار غالبًا ما يحسن النتائج، ولكن ليس جميع النماذج تستفيد بنفس القدر. النماذج الأضعف تستفيد بشكل كبير من جولات متكررة من إعادة التفكير لأن كل تكرار يمنحها فرصة أخرى لتصحيح مشاكلها السطحية. النماذج الأقوى تظهر مكاسب صغيرة من التكرار. أخطاؤهم لا تُحل بسهولة من خلال التكرار. بدون توجيه خارجي، المحاولات الإضافية غالبًا ما تنتج نفس المنطق المعيب بطرق مختلفة. هذه الرؤية تشير إلى أن تقنيات التحسين الذاتي ليست فعالة بشكل عالمي. نجاحها يعتمد على طبيعة الأخطاء التي يتم ارتكابها، وليس فقط على ذكاء النموذج.
ما يعنيه هذا للتصميم الأنظمة الذكاء الاصطناعي
تحمل هذه الرؤى آثارًا عملية. أولاً، يجب أن نوقف افتراضنا أن الدقة الأعلى تعني تصحيحًا ذاتيًا أفضل. الأنظمة التي تعتمد على التحسين الذاتي المستقل يجب أن تُختبر بشكل صريح على سلوك التصحيح، وليس فقط الأداء النهائي. ثانيًا، قد تحتاج النماذج المختلفة إلى استراتيجيات تدخل مختلفة. النماذج الأضعف قد تستفيد من التحقق البسيط والتكرار. النماذج الأقوى قد تحتاج إلى توجيه خارجي، أو التحقق المنظم، أو فحص أدوات لمواجهة أخطاء المنطق العميق. ثالثًا، أنابيب التصحيح الذاتي يجب أن تكون على دراية بالخطأ. فهم ما إذا كان المهم يحتوي على أخطاء سطحية أو عميقة يمكن أن يخبرنا عما إذا كان التصحيح الذاتي سوف يعمل على الإطلاق. وأخيرًا، يجب أن تفصل معايير التقييم بين كشف الأخطاء، وتحديد مصدرها، وتصحيحها. معاملتها كقيمة واحدة تخفي نقاط الضعف الحاسمة التي تهم في التطبيقات الواقعية.
النقطة الأساسية
يعتمد الذكاء الاصطناعي الذي يمكن أن يتحسن بنفسه ليس فقط على إنتاج إجابات صحيحة، ولكن على القدرة على التعرف على الإجابات الخاطئة، وتشخيصها، وتصحيحها. تكشف مفارقة الدقة والتصحيح أن النماذج الأقوى ليست تلقائيًا أفضل في هذه المهمة. كلما أصبحت النماذج أكثر قدرة، أصبحت أخطاؤها أعمق، وأصعب في الكشف، وأكثر مقاومة للتصحيح الذاتي. هذا يعني أن التقدم في مجال توسيع النماذج وحده لا يكفي. إذا كنا نريد أنظمة ذكاء اصطناعي يمكن أن تتعلم حقًا من أخطائها الخاصة، يجب أن يُعالج التصحيح الذاتي كقدرة منفصلة، ويُقاس بشكل صريح، ويتدرب، ويدعم.












