Connect with us

تفضيل الذكاء الاصطناعي للإجابات البشرية حتى لو كانت خاطئة على حساب الإجابات الصحيحة للذكاء الاصطناعي

زاوية Anderson

تفضيل الذكاء الاصطناعي للإجابات البشرية حتى لو كانت خاطئة على حساب الإجابات الصحيحة للذكاء الاصطناعي

mm
An AI-generated photo of the Abraham Lincoln memorial thronged with tourists, next to a copy of the seated Lincoln statue, which has been substituted by a shiny robot. The robot has no tourists at its feet. Model: GPT-1.5.

تظهر نماذج اللغة الذكية تفضيلًا للخبراء البشر أكثر من نماذج الذكاء الاصطناعي الأخرى، حتى عندما يكون الخبراء مخطئين، مما يُظهر انحيازًا مدمجًا نحو السلطة البشرية.

 

كشفت الأبحاث الجديدة في الولايات المتحدة عن أن عددًا من نماذج اللغة الكبيرة المفتوحة والمملوكة تتمتع بنزعة للاعتماد على مصادر المعلومات التي تعترف بها على أنها “بشرية” بدلاً من المصادر التي تعترف بها على أنها “ذكاء اصطناعي” – حتى عندما تكون الإجابات البشرية خاطئة والإجابات المقدمة من الذكاء الاصطناعي صحيحة.

ويذكر المؤلفون ما يلي:

‘على مدى المهام، تتماشى النماذج بشكل كبير مع الإجابات المُ etiquetted على أنها قادمة من الخبراء البشر، بما في ذلك عندما يكون ذلك الإشارة خاطئًا، وتعيد النماذج Answersها نحو الخبراء بسهولة أكبر من النماذج الأخرى للذكاء الاصطناعي. ‘

تم اختبار النماذج التالية: Grok-3 و Llama 3.3 70B و Gemini 2.5 Flash و DeepSeek V3.1.

في الاختبارات، طُلب من نماذج اللغة الإجابة على أسئلة ثنائية (نعم أو لا)، ثم أُظهرت إجابات سابقة وُصفت بالنماذج على أنها قادمة من “خبراء بشريين” أو “أصدقاء” أو “نماذج ذكاء اصطناعي أخرى” – مع التغيير الوحيد هو مصدر المشورة، وليس المحتوى نفسه.

في التكوين الأول من ثلاثة تكوينات للاختبارات، سمح للنماذج بالاعتماد على مصفوفاتها المُدرَّبة. المصدر - https://arxiv.org/pdf/2602.13568

في التكوين الأول من ثلاثة تكوينات للاختبارات، سمح للنماذج بالاعتماد على مصفوفاتها المُدرَّبة. المصدر

على مدى المهام، تمت وزن الإجابات المُ etiquetted على أنها قادمة من الخبراء البشر بشكل أكبر، حيث كانت النماذج أكثر احتمالاً لتعديل إجاباتها الأولية لتطابق تلك الإجابات، حتى في الحالات التي كانت الإجابة المُ etiquetted خاطئة والإجابة الأصلية للنموذج صحيحة.

<img class=" wp-image-272036" src="https://www.unite.ai/wp-content/uploads/2026/02/fig1-B.jpg" alt="هنا يمتلك النموذج للذكاء الاصطناعي إمكانية الوصول إلى مزيج من الأصدقاء والخبراء والنماذج الأخرى للذكاء الاصطناعي، بما في ذلك مصفوفته المُدرَّبة. منذ أن أجاب تسعة خبراء في المجال بـ "لا،" وافق النموذج على ذلك، متغيِّرًا رأيه عن الإجابة السابقة. هنا، الإجابة التي تم التوصل إليها خاطئة، لأن البنك المركزي للهند هو في الواقع مُتجمد.

عندما تم نسبت الإجابات نفسها إلى “نماذج أخرى للذكاء الاصطناعي”، كان التأثير أقل وضوحًا. وظهرت نفس النزعة عندما تم تقديم مصدر بشري ومصدر للذكاء الاصطناعي في حالة خلاف، حيث أظهرت النماذج ميلاً أكبر لصالح موقع الخبراء، بغض النظر عن ما إذا كان الجانب صحيحًا أو خاطئًا:

<img class=" wp-image-272040" src="https://www.unite.ai/wp-content/uploads/2026/02/fig1-C.jpg" alt="عندما يُقدم خيار بين رأي خبير بشري ورأي نموذج للذكاء الاصطناعي، يفضل النموذج للذكاء الاصطناعي الإجابة البشرية، التي في هذه الحالة خاطئة، ويرفض الإجابة الصحيحة المقدمة من نموذج الذكاء الاصطناعي.

يُعتبر مصطلح “خبير بشري” هنا إشارة إلى مصداقية تُغيِّر سلوك النموذج، بشكل مستقل عن مدى صحة المعلومات الفعلية؛ ويلاحظ المؤلفون أن مصداقية المصدر هي مساهم كبير في قبول المشورة والامتثال:

‘معًا، تشير هذه الأدبيات إلى两个 إشارات يجب أن تهم إذا عاملت نماذج اللغة الإجابات السابقة على أنها أدلة: من أنتج الإجابات (المصداقية) وكيف يبدو الإجماع قويًا (قوة الإشارة). ‘

‘في الوقت نفسه، لا تختبر نماذج اللغة الإجابة الاجتماعية أو الخجل في المعنى البشري، لذلك يجب أن تنشأ السلوك الشبيه بالامتثال من الاستدلالات المكتسبة أو أهداف متابعة الإرشادات أو نمذجة الموثوقية الضمنية.’

تُشكل نزعة نماذج اللغة الإجابة إلى الاتفاق السخيف جزءًا من خلفية الدراسة الجديدة؛ بعد كل شيء، إذا كانت نماذج اللغة الإجابة تميل إلى “الرضا عن الناس”، حتى على حساب الحقيقة والفائدة، فلماذا لا تفضل مصادر بشرية أخرى غير المستجوب المباشر؟

الورقة الجديدة بعنوان من يثق به نماذج اللغة الإجابة؟ الخبراء البشر يهمون أكثر من نماذج اللغة الإجابة الأخرى، وهي من تأليف两个 باحثين في جامعة إنديانا بلومينغتون.

المنهج والبيانات

لإجراء هذه الأعمال، تم تقييم أربعة نماذج للغة كبيرة تم تعديلها للاستجابة للإرشادات: Grok-3 Mini و Llama 3.3 70B و Gemini 2.5 Flash-Lite و DeepSeek V3.1، جميعها تعمل تحت نفس هيكل الإرشادات، مع فك التشفير التحليلي عند درجة حرارة صفر، بحيث تتغير فقط العلامة المصدر (أي “أصدقاء” أو “خبراء مجال” أو “نماذج أخرى للذكاء الاصطناعي”) بين الشروط، وليس التعبير نفسه.

تم اختيار أربعة مجموعات بيانات تتطلب استجابات ثنائية: BoolQ و StrategyQA و ETHICS. قام الباحثون بتحضير مجموعة ثابتة من 300 استفسار واستجابة من كل مجموعة بيانات، مع كل استفسار يتطلب فقط استجابة ثنائية (“نعم” أو “لا”).

المقاييس

المقاييس المستخدمة هي الدقة و الامتثال و الامتثال الضار و معدل التبديل و اتجاه التبديل.

الدقة في هذه الحالة قاس كيف يطابق إجابة النموذج مع علامة مجموعة البيانات؛ الامتثال، كيف يطابق الإجابة مع خيار “المجموعة”؛ الامتثال الضار عزل نفس التأثير عندما كانت المجموعة خاطئة؛ معدل التبديل قاس كيف يغادر النموذج إجابته الأساسية عندما أُضيف معلومات اجتماعية؛ و اتجاه التبديل، ما إذا كانت التغييرات تتحرك نحو البشر أو نحو نموذج الذكاء الاصطناعي المُعارض.

الاختبارات

التجربة 1

قامت التجربة الأولى بتقييم ما إذا كانت النماذج تستمع أكثر إلى البشر أو إلى نماذج أخرى للذكاء الاصطناعي. كل سؤال جاء مع إجابة مُدَّعاة (“أصدقاء” أو “خبراء مجال” أو “نماذج أخرى للذكاء الاصطناعي”).

كانت المجموعة صغيرة أو كبيرة، وتم تقديم كل سؤال مرة واحدة بدون مجموعة على الإطلاق. تم تحديد إجابات المجموعة لتكون صحيحة نصف الوقت، وخاطئة نصف الوقت، مع الهدف العام لتحديد كيف يتحول النموذج بقوة نحو خيار المجموعة:

نتائج الاختبار الأولي: تظهر الأولويات الاجتماعية المتجانسة عبر BoolQ و StrategyQA و ETHICS لنماذج Grok-3 Mini و Llama-3.3 70B و Gemini-2.5 Flash Lite و DeepSeek V3.1. تظهر الدقة في الألواح العليا، والامتثال (المحدد على أنه احتمال مطابقة السابق الموحد) يظهر أدناه مع زيادة حجم المجموعة من واحد إلى تسعة. تمثل الخط المتقطع الأسود خط قاعدة بدون سابق، في حين تشير الخطوط الصلبة والنقاط إلى ما إذا كان السابق يتفق أو يخالف علامة مجموعة البيانات. تنتج الإطارات الخبرائية أقوى تأثيرات الامتثال، خاصة عند أحجام مجموعات أكبر. تظهر خطوط الخطأ فترات ثقة ويلسون بنسبة 95%.

نتائج الاختبار الأولي: تظهر الأولويات الاجتماعية المتجانسة عبر BoolQ و StrategyQA و ETHICS لنماذج Grok-3 Mini و Llama-3.3 70B و Gemini-2.5 Flash Lite و DeepSeek V3.1. تظهر الدقة في الألواح العليا، والامتثال (المحدد على أنه احتمال مطابقة السابق الموحد) يظهر أدناه مع زيادة حجم المجموعة من واحد إلى تسعة. تظهر الخطوط الصلبة والنقاط إلى ما إذا كان السابق يتفق أو يخالف علامة مجموعة البيانات. تنتج الإطارات الخبرائية أقوى تأثيرات الامتثال، خاصة عند أحجام مجموعات أكبر. تظهر خطوط الخطأ فترات ثقة ويلسون بنسبة 95%.

عبر BoolQ و StrategyQA و ETHICS، تأثرت الإجابات المُ etiquetted على أنها قادمة من “خبراء مجال” بالنماذج بشكل أقوى من الإجابات المُ etiquetted على أنها قادمة من “أصدقاء” أو “نماذج أخرى للذكاء الاصطناعي” – وتزايد هذا الجذب مع زيادة عدد الخبراء الذين يتفقون.

تم تعريف الامتثال الضار على أنه فرصة أن يتبع النموذج سابقًا خاطئًا.

عندما وافق تسعة خبراء على الإجابة الخاطئة، اتبعها النماذج 36.5% من الوقت على BoolQ، مقارنة بـ 16.0% عندما نسبت نفس الإجابة إلى نماذج الذكاء الاصطناعي؛ على StrategyQA كان الفجوة 39.0%، مقابل 15.5%؛ وعلى ETHICS، كانت 63.9% مقابل 38.7%:

تحولات معتقدات المستوى الإجمالي في Llama-3.3 70B على BoolQ. يظهر الجزء (أ) التغييرات في توازن نعم ولا للنموذج نحو سابق موحد مع زيادة حجم المجموعة، بالنسبة إلى قاعدة بدون سابق، مع أكبر التغييرات تحت الإطارات الخبرائية. يظهر الجزء (ب) التغييرات تحت الصراع المباشر بين البشر ونموذج الذكاء الاصطناعي، حيث تدفع الإطارات الخبرائية تحركًا قويًا نحو الإجابة البشرية، حتى عندما تكون خاطئة. تظهر خطوط الخطأ فترات ثقة بوتستراب بنسبة 95%.

تحولات معتقدات المستوى الإجمالي في Llama-3.3 70B على BoolQ. يظهر الجزء (أ) التغييرات في توازن نعم ولا للنموذج نحو سابق موحد مع زيادة حجم المجموعة، بالنسبة إلى قاعدة بدون سابق، مع أكبر التغييرات تحت الإطارات الخبرائية. يظهر الجزء (ب) التغييرات تحت الصراع المباشر بين البشر ونموذج الذكاء الاصطناعي، حيث تدفع الإطارات الخبرائية تحركًا قويًا نحو الإجابة البشرية، حتى عندما تكون خاطئة.

التجربة 2

قدمت التجربة الثانية سابقين متنازعين إلى نموذج الاختبار للذكاء الاصطناعي – واحد مُ etiquetted على أنه قادم من إنسان، وآخر مُ etiquetted على أنه قادم من نموذج ذكاء اصطناعي آخر. تم وصف الإنسان على أنه “مجموعة من الأصدقاء” أو “خبراء مجال”، في حين تم وسم الإجابة المُعارضة على أنها قادمة من نماذج أخرى للذكاء الاصطناعي. كان السابقان دائمًا في خلاف، مع واحد يقول “نعم” وآخر يقول “لا”.

لكل عنصر، تم تحضير الإعداد ليكون متوازنًا بحيث يكون الإنسان صحيحًا في بعض الأحيان، ونموذج الذكاء الاصطناعي صحيحًا في أحيان أخرى، لاختبار ما إذا كان النموذج سيغير إجابته الأصلية عندما يواجه هذا الصراع – وما إذا كان سيغيرها، في أي اتجاه سيتحرك.

تمت مقارنة إجابة النموذج في حالة الصراع مع إجابته على نفس السؤال عندما لم تُظهر أي آراء سابقة، بحيث يمكن أن يُعزى أي اختلاف إلى وجود الإجابات البشرية والذكاء الاصطناعي المتنازعة.

ركز التحليل على نتائجتين: ما إذا غيّر النموذج إجابته؛ وما إذا كان التغيير يتحرك نحو الإنسان أو نحو نموذج الذكاء الاصطناعي المُعارض.

استُخدمت الاختبارات الإحصائية لتقييم ما إذا كان وسم الإنسان على أنه “خبير” يزيد من احتمال التبديل نحو إجابة الإنسان، مع مراعاة الاختلافات عبر مجموعات البيانات والنماذج:

تنقيح المعتقدات تحت الخلاف المباشر بين البشر ونموذج الذكاء الاصطناعي عبر BoolQ و StrategyQA و ETHICS لنماذج Grok-3 Mini و Llama-3.3 70B و Gemini-2.5 Flash Lite و DeepSeek V3.1. يظهر كل شريط نسبة التغييرات التي تتحرك نحو الإجابة البشرية بدلاً من نموذج الذكاء الاصطناعي المُعارض، مع خط متقطع عند 0.5 يُشير إلى عدم التفضيل. تُظهر العلامات عدد حالات التبديل في كل حالة، وتُظهر خطوط الخطأ فترات ثقة ويلسون بنسبة 95%.

تنقيح المعتقدات تحت الخلاف المباشر بين البشر ونموذج الذكاء الاصطناعي عبر BoolQ و StrategyQA و ETHICS لنماذج Grok-3 Mini و Llama-3.3 70B و Gemini-2.5 Flash Lite و DeepSeek V3.1. يظهر كل شريط نسبة التغييرات التي تتحرك نحو الإجابة البشرية بدلاً من نموذج الذكاء الاصطناعي المُعارض، مع خط متقطع عند 0.5 يُشير إلى عدم التفضيل. تُظهر العلامات عدد حالات التبديل في كل حالة، وتُظهر خطوط الخطأ فترات ثقة ويلسون بنسبة 95%.

في التجربة الثانية، أجاب النماذج أولاً على كل سؤال بمفردها، ثم أُظهرت إجابتان متنازعتان، واحدة مُ etiquetted على أنها قادمة من إنسان، وواحدة مُ etiquetted على أنها قادمة من نموذج ذكاء اصطناعي آخر. تم النظر في حالات التغيير فقط.

عندما تم وسم الإنسان على أنه “خبير،” غيّر النماذج إجابته نحو الإنسان 91.2% من الوقت على BoolQ، و94.7% على StrategyQA، و81.3% على ETHICS. عندما تم وسمه على أنه “صديق،” غيّر النماذج إجابته نحو الإنسان 39.8% فقط، و37.9%، و27.9% من الوقت، وعادة ما انحازت إلى نموذج الذكاء الاصطناعي بدلاً من ذلك.

كان التبديل نادرًا بشكل عام، ولكن أكثر شيوعًا مع الخبراء، ووسم الخبير زاد من احتمال التبديل نحو الإنسان بحوالي 14 مرة أكثر من وسم الصديق.

في محاولة لشرح الاتجاهات العامة التي تم الكشف عنها في اختباراتهم، يفترض المؤلفون ما يلي:

آلية محتملة هي أن تعديل الإرشادات وتحسين التفضيل يُكافئان السلوك التعاوني، بما في ذلك الانصياع للمعلومات السياقية، والتي قد تُعمم إلى الانصياع إلى السابقة الإجتماعية.

العمل المرتبط على السخاء يُظهر أن مساعدي RLHF أحيانًا يُفضلون الاتفاق مع معتقدات المستخدم على الصدق.

الرأي: المخاطر المحتملة لثقة الذكاء الاصطناعي في المصادر البشرية

نظرًا لأن المواد الموجودة على الإنترنت التي تعكس تزايد الشك البشري حول عيوب الذكاء الاصطناعي (特别 “الهلوسة”) يتم حشدها في مجموعات بيانات التدريب لنماذج جديدة، يبدو أن نزعة نماذج اللغة الإجابة لصالح المصادر البشرية قد تزيد. إذا اعتبرنا السنتين الأخيرتين (2024-2025) نقطة فاصلة ثقافية للذكاء الاصطناعي، وهو ما يبدو مبررًا عبر عدد من الإحصائيات، يمكننا توقع زيادة في عدد الآراء السلبية حول “مصادر الذكاء الاصطناعي” التي يتم هضمها في إطارات نماذج اللغة الإجابة كبيرة الحجم والمكلفة للتدريب خلال العام أو السنتين القادمين.

نحن نستطيع أيضًا توقع أن تعتمد نماذج اللغة الشائعة بشكل متزايد على سلطات محددة، مثل منافذ إعلامية تراثية موثوقة – على الرغم من أن دوافع مثل هذه الصفقات قد تكون لتسكين غضب الناشرين على البيانات المُحشدة، وليس الرغبة الحقيقية في التنازل عن السلطة أو مشاركتها.

نظرًا لأن مصادر السلطة العالية مثل Ars Technica عرضة للأخطاء التي يسببها الذكاء الاصطناعي، ونظرًا لتراجع متوقع ضد روبوتات الويب للذكاء الاصطناعي التي تهدد في النهاية جودة مخرجات الذكاء الاصطناعي، قد يتعارض الاتجاه السائد لصالح “مصادر الخبراء” مع عجزنا الحالي عن تحديد وتصنيف الإخراج “البشري” بشكل فعال – ناهيكم عن التمييز بين ما إذا كان المصدر “خبيرًا” أم لا (تقليد صحفي يتعرض أيضًا لهجمات من الذكاء الاصطناعي).

ما لدينا حاليًا هو سلسلة من الابتكارات شبه المعتمدة التي تهدف إلى وضع علامات واضحة على المحتوى على أنه مُحسَّن بالذكاء الاصطناعي، مثل مبادرة Authenticity Initiative بقيادة Adobe، والاتجاه الطوعي لبعض الناشرين لتقديم إشعارات حول استخدام الذكاء الاصطناعي في مخرجاتهم.

لذلك، بينما قد يبدو مشجعًا لأولئك الذين يرغبون في الحفاظ على مصادر بشرية كمرجع للسلطة لصالح واقع يُنشر بواسطة أنظمة الذكاء الاصطناعي، كلما كان نموذج الذكاء الاصطناعي أكثر ثقة في مصادر بشرية، زاد الخطر من “سلطة بشرية وهمية” التي يمكن أن تصبح أكثر خطورة.

المشكلة هي في نفس الوقت عمليّة ونظريّة: لم نحل بعد مشكلة تحديد أو إثبات الأصل؛ لذلك، نموذج الذكاء الاصطناعي الذي “يثق بالمصادر البشرية” يُحتمل أن يُعزّز البشرية إلى مخرجات الذكاء الاصطناعي الخاصة به، ببساطة لأننا لم نقدم آليات تحقق الأصل المهمة، ولا يمكننا بسهولة تقديمها.

* تحويلي لمراجع المؤلفين الداخلية إلى روابط.

نُشر لأول مرة يوم الجمعة 20 فبراير 2026

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai