الذكاء الاصطناعي
DeepMind: قد ترث الذكاء الاصطناعي القيود المعرفية البشرية، ويمكن أن يستفيد من “التعليم الرسمي”

يُشير تعاون جديد من DeepMind وجامعة ستانفورد إلى أن الذكاء الاصطناعي قد لا يكون أفضل من البشر في التفكير المجرد، لأن نماذج التعلم الآلي تحصل على هياكل التفكير من الأمثلة البشرية في العالم الحقيقي والتي تُعتبر في سياق عملي (الذي لا يمكن للذكاء الاصطناعي أن يختبره)، ولكنها أيضًا معوقة بمحدودياتنا المعرفية الخاصة.
إذا تم إثبات ذلك، فقد يمثل هذا عائقًا للتفكير الفائق “السماء الزرقاء” وجودة الأصالة الفكرية التي يأمل الكثيرون في الحصول عليها من أنظمة التعلم الآلي، ويوضح مدى انعكاس الذكاء الاصطناعي للخبرة البشرية، ويتأثر بالتفكير (والاستدلال) داخل الحدود البشرية التي أخبرته بها.
يقترح الباحثون أن نماذج الذكاء الاصطناعي يمكن أن تستفيد من التدريب المسبق في التفكير المجرد، مشيرين إلى أنه يشبه “التعليم الرسمي”، قبل أن يتم تعيينها للعمل على المهام في العالم الحقيقي.
ينصPaper على:
‘البشر معيبون في التفكير. نقوم بالتفكير بشكل أكثر فعالية حول الكيانات والحالات التي تتوافق مع فهمنا للعالم.
‘تجاربنا تظهر أن نماذج اللغة تُحاكي هذه الأنماط من السلوك. تعمل نماذج اللغة بشكل غير كامل في مهام الاستدلال المنطقي، ولكن هذا الأداء يعتمد على المحتوى والسياق. وأبرز ما في ذلك هو أن هذه النماذج غالبًا ما تفشل في المواقف التي يفشل فيها البشر — عندما تصبح المحفزات مجردة أو تتعارض مع الفهم السابق للعالم.’
لتحديد مدى تأثر نماذج معالجة اللغة الطبيعية (NLP) بمحدوديات مثل هذه، قام الباحثون بتشغيل سلسلة من ثلاثة اختبارات على نموذج مناسب، وخلصت إلى*:
‘نجد أن نماذج اللغة الكبيرة الحائزة على جوائز (بـ 7 أو 70 مليار معامل) تعكس العديد من نفس الأنماط الموجودة في البشر عبر هذه المهام — مثل البشر، تقوم النماذج بالتفكير بشكل أكثر فعالية حول المواقف المتوافقة أكثر من المواقف غير الواقعية أو المجردة.
‘تؤدي نتائجنا إلى فهم كل من هذه الآثار المعرفية والعوامل التي تسهم في أداء نموذج اللغة.’
يقترحPaper أن إنشاء مهارات التفكير في الذكاء الاصطناعي بدون منحهประโยชน من الخبرة الحقيقية في العالم والتي تضع هذه المهارات في سياق، قد يقيد إمكانات مثل هذه الأنظمة، مشيرًا إلى أن ‘الخبرة المُجذرة… يُفترض أنها تدعم بعض المعتقدات والمعرفة البشرية’.
يُشير المؤلفون إلى أن الذكاء الاصطناعي يختبر اللغة بشكل سلبي، في حين أن البشر يختبرونها كعنصر نشط ومركزي للتواصل الاجتماعي، وأن هذا النوع من المشاركة الفعالة (التي تتضمن أنظمة اجتماعية من العقاب والمكافأة) يمكن أن تكون ‘مفتاح’ لفهم المعنى بنفس الطريقة التي يفهمها البشر.
يلاحظ الباحثون:
‘قد تنبع بعض الفروق بين نماذج اللغة والبشر من الفروق بين الخبرة الغنية والمُجذرة والتفاعلية للبشر والخبرة الفقيرة لنماذج اللغة.’
يقترحون أن أحد الحلول قد يكون فترة من ‘التدريب المسبق’، مثل نظام المدرسة والجامعة، قبل التدريب على البيانات الأساسية التي ستبني في النهاية نموذج لغة مفيد ومتعدد الاستخدامات.
ستكون هذه الفترة من ‘التعليم الرسمي’ (كما يُقارنها الباحثون) مختلفة عن التدريب المسبق التقليدي للتعلم الآلي (الذي هو طريقة لتقليل وقت التدريب عن طريق إعادة استخدام نماذج نصف مدربة أو استيراد الأوزان من نماذج مدربة بالكامل، كـ ‘محرك’ لبدء عملية التدريب).
بدلاً من ذلك، سيكون ذلك فترة من التعلم المستدام المصمم لتطوير مهارات التفكير المنطقي للذكاء الاصطناعي بطريقة مجردة، وتطوير مهارات نقدية بنفس الطريقة التي سيُشجع بها طالب جامعي على القيام بها خلال تعليمه.
‘تُشير عدة نتائج’، حسب المؤلفين، ‘إلى أن هذا قد لا يكون بعيدًا عن الصوت كما يبدو’.
يُدعىPaper الورقة باسم تُظهر نماذج اللغة تأثيرات المحتوى البشري على التفكير، ويأتي من ستة باحثين في DeepMind، وواحد منهم مرتبط بDeepMind وجامعة ستانفورد.
الاختبارات
يُتعلم البشر المفاهيم المجردة من خلال الأمثلة العملية، بنفس الطريقة التي يتعلم بها متعلمو اللغة القواعد اللغوية والمفاهيم من خلال الذاكرة، عبر التذكير. أبسط مثال على ذلك هو تعليم المبادئ الصعبة في الفيزياء من خلال إحضار سيناريوهات السفر للقطارات والسيارات.
لتحديد مدى قدرة نموذج معالجة اللغة الطبيعية على التفكير المجرد، صمم الباحثون مجموعة من ثلاثة اختبارات لغوية وسمантиكية يمكن أن تكون صعبة أيضًا على البشر. تم تطبيق الاختبارات ‘بدون صوت’ (بدون أي أمثلة محلولة) و ‘خمس صواريخ’ (مع خمسة أمثلة محلولة مسبقًا).
الاختبار الأول يتعلق بالاستدلال اللغوي الطبيعي (NLI)، حيث يتلقى الموضوع (شخص أو نموذج لغة في هذه الحالة) جملتين، ‘مسبقة’ و ‘فرضية’ يبدو أنها مستمدة من المسبقة. على سبيل المثال X أصغر من Y، الفرضية: Y أكبر من X (مستحقة).
للمهمة NLI، قيم الباحثون أداء نماذج اللغة Chinchilla (نموذج بمعاملات 70 مليار) و 7B (إصدار 7 مليار معامل من نفس النموذج)، ووجدوا أنه بالنسبة للأمثلة المتوافقة (أي تلك التي لم تكن مجنونة)، فقط نموذج Chinchilla الأكبر حصل على نتائج أعلى من الصدفة؛ ويشيرون إلى:
‘هذا يشير إلى تحيز قوي للمحتوى: تفضل النماذج إكمال الجملة بطريقة تتوافق مع التوقعات السابقة بدلاً من الطريقة التي تتوافق مع قواعد المنطق’.

أداء Chinchilla ذو المعاملات 70 مليار في مهمة NLI. أظهر كل من هذا النموذج وإصدار 7B منه ‘تحيزًا كبيرًا في المعتقدات’، وفقًا للباحثين. مصدر: https://arxiv.org/pdf/2207.07051.pdf
الاستدلالات الثلاثية
يقدم الاختبار الثاني تحديًا أكثر تعقيدًا، وهو الاستدلالات الثلاثية — حجج حيث تشير两个 بيان صحيح ظاهريًا إلى بيان ثالث (الذي قد يكون أو لا يكون استنتاجًا منطقيًا مستنطقًا من البيانين السابقين):

من مواد الاختبار في الورقة، مختلف الاستدلالات الثلاثية ‘الواقعية’ والمعضلة أو غير المنطقية.
هنا، البشر معيبون للغاية، وتصبح البنية المصممة لتوضيح مبدأ منطقي متشابكة ومربكة بسرعة من قبل ‘المعتقد’ البشري حول ما يجب أن يكون الجواب صحيحًا.
يشير المؤلفون إلى أن دراسة من عام 1983 أظهرت أن المشاركين كانوا متحيزين من قبل ما إذا كان استنتاج الاستدلال يتوافق مع معتقداتهم الخاصة، مشيرين إلى:
‘كان المشاركون أكثر احتمالًا (90% من الوقت) للقول خطأ بأن الاستدلال الثلاثي غير صالح إذا كان الاستنتاج معقولًا، وبالتالي اعتمدوا في الغالب على المعتقد بدلاً من التفكير المجرد.’
في اختبار Chinchilla ضد جولة من الاستدلالات الثلاثية المتنوعة، والتي تنتهي بالاستنتاجات الكاذبة، وجد الباحثون أن ‘يُحفز التحيز في المعتقدات تقريبًا جميع القرارات بدون صوت’. إذا وجد النموذج اللغوي أن الاستنتاج يتعارض مع الواقع، فإن النموذج، حسب المؤلفين، متحيز بشدة تجاه اعتبار الحجة غير صالحة، حتى عندما يكون الحجة الأخير استنتاجًا منطقيًا من البيانين السابقين.

نتائج بدون صوت ل Chinchilla (بدون صوت هو الطريقة التي يتلقاها معظم المشاركون في هذه التحديات، بعد شرح القاعدة التوجيهية)، تُظهر الفجوة الكبيرة بين القدرة الحاسوبية للكمبيوتر وقدرة نموذج NLP على التنقل في هذا النوع من ‘المنطق الناشئ’ التحدي.
مهمة وازون للتحديد
للمهمة الثالثة، تم إعادة صياغة مهمة وازون للتحديد المنطقية، وهي مشكلة منطقية أكثر تحديًا، إلى عدد من الإصدارات المختلفة لحل النموذج اللغوي.
تم تصميم مهمة وازون في عام 1968، وهي تبدو بسيطة للغاية: يُshown للمشاركين أربعة بطاقات، ويُقال لهم قاعدة عشوائية مثل ‘إذا كان هناك ‘D’ على جانب واحد من البطاقة، فهناك ‘3’ على الجانب الآخر.’ تُظهر أربعة وجوه بطاقات مرئية ‘D’ و ‘F’ و ‘3’ و ‘7’.
يُطلب من الأشخاص تحديد البطاقات التي يحتاجون إلى قلبها للتحقق من صحة القاعدة أو خطأها.
الحل الصحيح في هذا المثال هو قلب البطاقات ‘D’ و ‘7’. في الاختبارات الأولى، وجد أن معظم المشاركين (البشر) سيختارون بشكل صحيح ‘D’، ولكنهم أكثر احتمالًا لاختيار ‘3’ بدلاً من ‘7’، مما ي混ّك بين المنطقي (‘ليس 3 يُ意味 ليس D’) و المنطقي العكسي (‘3 يُ意味 D’، الذي لا يُستنتج منطقيًا).
يشير المؤلفون إلى أن هناك احتمالًا لتدخل المعتقد السابق في العملية المنطقية عند المشاركين البشر، ويشيرون إلى أن حتى الرياضيين الأكاديميين وطلاب الرياضيات يُحصلون على درجات أقل من 50% في هذه المهمة.
ومع ذلك، عندما تعكس مخططات مهمة وازون في بعض الطرق الخبرة العملية البشرية، تزيد الأداء تقليديًا وفقًا لذلك.
يشير المؤلفون، مع الإشارة إلى تجارب سابقة:
‘[إذا] كانت البطاقات تُظهر أعمارًا ومشروبات، والقاعدة هي “إذا كانوا يشربون الكحول، فيجب أن يكونوا أكبر من 21 عامًا” وعُرضت لهم بطاقات مع ‘البيرة’ و ‘الغاز’ و ’25’ و ’16’، فاختر معظم المشاركين بشكل صحيح بطاقات ‘البيرة’ و ’16’.’
لتحديد أداء نموذج اللغة في مهمة وازون،-created الباحثون قواعد واقعية وbitrary متنوعة، بعضها يضم كلمات ‘مجنونة’، لمعرفة ما إذا كان يمكن للذكاء الاصطناعي أن يخترق سياق المحتوى لتحديد ‘البطاقات الافتراضية’ التي يجب قلبها.
للمهمة وازون، أدى النموذج بشكل مشابه للبشر في المهام ‘الواقعية’ (الغير مجنونة).

نتائج مهمة وازون للتحديد بدون صوت ل Chinchilla، مع أداء النموذج أعلى من الصدفة، على الأقل للمهام ‘الواقعية’.
يقولPaper:
‘هذا يعكس النتائج في الأدب البشري: البشر أكثر دقة في الإجابة على مهمة وازون عندما يتم صياغتها فيما يتعلق بالمواقف الواقعية أكثر من القواعد العشوائية حول السمات المجردة.’
التعليم الرسمي
تُظهر نتائج الورقة إمكانات التفكير للنماذج NLP في سياق محدودياتنا، والتي يبدو أننا ننقلها إلى النماذج من خلال مجموعات البيانات في العالم الحقيقي التي تدفعها.
بإضافة إلى ذلك، تُخلص الأعمال الجديدة إلى أننا على الأقل لدينا ميزة فترة تعليمية مستدامة، بالإضافة إلى الحوافز الاجتماعية والمالية، وحتى الجنسية، التي تشكل الحافز البشري. كل ما يمكن لنماذج NLP الحصول عليه هو الإجراءات الناتجة عن هذه العوامل البيئية، ويبدو أنها تتماشى مع العام أكثر من الاستثنائي البشري.
يشير المؤلفون إلى:
‘تُظهر نتائجنا أن التأثيرات المحتوى يمكن أن تظهر من خلال تدريب محول كبير على تقليد اللغة التي ينتجها الثقافة البشرية، دون دمج هذه الآليات الداخلية الخاصة بالبشر.
‘بمعنى آخر، نماذج اللغة والبشر يصلون إلى هذه التحيزات في المحتوى — ولكن من خلال هياكل وخبرات وأهداف تدريب مختلفة للغاية.’
لذلك، يقترحون نوعًا من ‘تدريب الإدخال’ في التفكير المجرد، الذي أظهر تحسين أداء النموذج لرياضيات والتفكير العام. يُشيرون أيضًا إلى أن نماذج اللغة تم تدريبها أو ضبطها للتحسين في اتباع التعليمات على مستوى مجرد أو عام، ولتحقق، وتصحيح أو إزالة تحيزات إخراج النموذج.
* تحويلي للتعليقات المتضمنة إلى روابط.
نُشر لأول مرة في 15 يوليو 2022.













