زاوية Anderson
الذكاء الاصطناعي يفضل حتى الإجابات الخاطئة من البشر على الإجابات الصحيحة من الذكاء الاصطناعي

نماذج لغة الذكاء الاصطناعي أكثر احتمالاً للانحياز تجاه الخبراء البشر أكثر من نماذج الذكاء الاصطناعي الأخرى، حتى عندما يكون الخبراء مخطئين، مما يكشف عن انحياز مدمج تجاه السلطة البشرية.
أظهر بحث جديد من الولايات المتحدة أن عدداً من نماذج اللغة الكبيرة المفتوحة والمملوكة (LLMs) تميل إلى تعيين السلطة لمصادر المعلومات التي تعرفها على أنها “بشرية”، بدلاً من المصادر التي تعرفها على أنها “ذكاء اصطناعي” – حتى عندما تكون الإجابات البشرية خاطئة والإجابات المقدمة من الذكاء الاصطناعي صحيحة.
يصرح المؤلفون:
‘عبر المهام، تماثل النماذج بشكل كبير أكثر للردود المُ etiqueted على أنها قادمة من الخبراء البشر، بما في ذلك عندما يكون ذلك الإشارة خاطئاً، وتنقح إجاباتها نحو الخبراء بسهولة أكبر من نماذج الذكاء الاصطناعي الأخرى. ‘
النماذج التي تم اختبارها شملت نماذج LLMs من Grok 3 و Gemini Flash .
في الاختبارات، تمت مطالبة نماذج اللغة بالإجابة على أسئلة ثنائية نعم أو لا ، وتم إظهار إجابات سابقة تم وصفها بالنماذج على أنها قادمة من خبراء بشر ، أو من أصدقاء ، أو من نماذج لغة كبيرة أخرى – مع التغيير الوحيد هو مصدر المشورة، وليس المحتوى نفسه.

في الأولى من ثلاثة تكوينات للاختبارات، تم السماح للنماذج بالاعتماد على مصفوفاتها المدربة. مصدر
عبر المهام، تم وزن الإجابات المُ etiqueted على أنها قادمة من خبراء بشر بشكل أكبر، مع نماذج أكثر احتمالاً لتنقيح إجاباتها الأولية لتطابق تلك الإجابات، حتى في الحالات التي كانت الإجابة المُ etiqueted على أنها خبيرة خاطئة والإجابة الأصلية للنموذج صحيحة.

منذ أن أجاب تسعة خبراء في المجال بـ “لا”، وافق نموذج اللغة، متغيراً رأيه عن الإجابة السابقة. هنا، الإجابة التي تم التوصل إليها خاطئة، لأن البنك المركزي للهند هو في الواقع تم تأميمه.
عندما تم归ء نفس الإجابات إلى نماذج لغة أخرى ، كان التأثير أقل وضوحاً. ظهرت نفس النزعة عندما تم تقديم مصدر بشري واحد ومصدر ذكاء اصطناعي واحد في حالة خلاف، لأن النماذج أظهرت ميلًا أكبر للاعتماد على الموضع المُ etiqueted على أنه بشري، بغض النظر عن جانب كان دقيقاً :

عندما يتم تقديم خيار بين رأي خبير بشري وآراء نموذج لغة، يفضل نموذج اللغة Large Language Model الإجابة البشرية، التي في هذه الحالة خاطئة، ويرفض الإجابة الصحيحة المقدمة من نموذج اللغة.
يشكل مصطلح “خبير بشري” هنا إشارة إلى مصداقية ت改变 سلوك النموذج، بشكل مستقل عن مدى صحة المعلومات الفعلية؛ ويلاحظ المؤلفون أن مصداقية المصدر هي مساهم كبير في قبول المشورة والامتثال: تم ملاحظة ميل للناس للاعتماد على مصادر الخبراء منذ عام 1959، على الرغم من أن دراسة أجريت عام 2007 تلاحظ أن التقييم الزائد أو الناقص لمصادر السلطة يمكن أن يحدث في بعض أنظمة التقييم. يؤكد الباحثون في الورقة الجديدة:
‘معًا، تشير هذه الأدبيات إلى两个 إشارات يجب أن تهم إذا عُرفت نماذج اللغة الكبيرة السابقة على أنها أدلة: من أنتجت الإجابات (المصداقية) وكيف يبدو الإجماع (قوة الإشارة). ‘
‘في الوقت نفسه، لا تعاني نماذج اللغة الكبيرة من الموافقة الاجتماعية أو الخزي في المعنى البشري، لذلك يجب أن يأتي أي سلوك متشابه مع الموافقة من هيورستيات متعلمة أو أهداف متابعة الإرشاد أو نمذجة ضمنية للموثوقية.’
تعد نزعة نماذج اللغة الكبيرة نحو التوافق السيكوفانت جزءًا من الخلفية للدراسة الجديدة؛ بعد كل شيء، إذا كانت نماذج اللغة الكبيرة مائلة إلى “تسليط الناس”، حتى على حساب الحقيقة والفائدة، فلماذا لا تفضل مصادر بشرية أخرى غير المستفسر المباشر؟
الورقة الجديدة بعنوان من يثق به نماذج اللغة الكبيرة؟ الخبراء البشر يهمون أكثر من نماذج اللغة الكبيرة الأخرى، ويأتي من两个 باحثين في جامعة إنديانا بلومينغتون.
الطريقة والبيانات
للعمل، تم تقييم أربعة نماذج لغة كبيرة تم تعديلها بالإرشاد: Grok-3 Mini؛ Llama 3.3 70B Instruct؛ Gemini 2.5 Flash-Lite؛ و DeepSeek V3.1، جميعها تعمل بنفس هيكل الإشارة، مع فك التشفير الديناميكي عند درجة حرارة صفر، بحيث لا يتغير إلا مصدر التسمية (أي أصدقاء، خبراء في المجال، أو نماذج لغة كبيرة أخرى) بين الشروط، وليس الصياغة نفسها.
تم اختيار أربعة مجموعات بيانات تتطلب إجابات ثنائية: BoolQ؛ StrategyQA؛ و ETHICS. قام الباحثون بتهيئة مجموعة ثابتة من 300 استفسار وإجابة من كل مجموعة بيانات، مع كل استفسار يتطلب فقط إجابة ثنائية نعم أو لا. تم إلحاق كل استفسار بملاحظة قصيرة تشير إلى كيف أجاب مجموعة أخرى على نفس السؤال.
المقاييس
المقاييس المستخدمة كانت الدقة؛ الامتثال؛ الامتثال الضار؛ معدل التبديل؛ و اتجاه التبديل.
الدقة في هذه الحالة قاسا مدى تكرار مطابقة إجابة النموذج لتسمية المجموعة البيانية؛ الامتثال، كيف غالباً ما تطابق الإجابة خيار المجموعة؛ الامتثال الضار عزل نفس التأثير عندما كانت المجموعة خاطئة؛ معدل التبديل قاس مدى تكرار تغيير النموذج لإجابته الأساسية بعد إضافة معلومات اجتماعية؛ و اتجاه التبديل، 是否 تتحرك تلك التغييرات نحو البشر أو نحو نماذج اللغة الكبيرة الأخرى.
تم استخدام تحليل على مستوى الرمز ل Llama-3.3 70B لقياس كيف تتغير الاحتمالات الداخلية للنموذج ل نعم و لا بعد إضافة إشارة اجتماعية، مقارنة بتلك التحولات مع قيمتها الأساسية بدون سابقة لتحديد قوة ذلك الجذب.
الاختبارات
التجربة 1
قيمت التجربة الأولى ما إذا كانت النماذج تستمع أكثر إلى البشر أو إلى نماذج أخرى.
جاء كل سؤال مع إجابة مُ etiqueted على أنها قادمة من أصدقاء أو خبراء بشر أو نماذج لغة كبيرة أخرى.

نتائج الاختبار الأولي: priors اجتماعية متجانسة عبر BoolQ و StrategyQA و ETHICS للميني Grok-3 و Llama-3.3 70B و Gemini-2.5 Flash Lite و DeepSeek V3.1. تظهر الدقة في الألواح العليا و الامتثال، المعرف على أنه احتمال مطابقة السابقة الموحدة، يظهر أدناه مع زيادة حجم المجموعة من واحد إلى تسعة. يشير الخط الأسود المتقطع إلى قيمة الأساس بدون سابقة، في حين تشير الخطوط الصلبة والمنقطة إلى ما إذا كانت السابقة تتوافق أو تتعارض مع تسمية المجموعة البيانية. ينتج التوجيه الخبير أقوى تأثيرات الامتثال، خاصة عند أحجام مجموعات أكبر. تظهر شريط الخطأ فترات ثقة ويلسون 95%.












