زاوية Anderson

دفع Chatbots لمسارات و أسهم “AI” أكثر من البشر

نُشر في 22 يناير 2026

تم التحديث في 17 مايو 2026

بواسطة

Martin Anderson

AI-generated image, by Z-Image Turbo V1 via Krita Diffusion. Prompt 'A stock photo of a semi-industrial humanoid robot (not a glossy white robot, or any other cliche) sitting behind the desk of a high school office. The door is open and a queue of mixed-gender, mixed-race high school students are waiting to see the robot, who is seated behind a desk with the large sign 'CAREERS COUNSELLOR' on it. Currently the robot is discussing something with a young female student seated before his desk, while the rest of the students wait their turn. Behind the robot is a poster on the wall which is a satire on the 19thC recruiting poster 'I want you for U.S. Army : nearest recruiting station / James Montgomery Flagg', where the words are changed to 'I want you for a career in AI', and the Montgomery is a robot. Make sure that any robots in the image are not white metal or white plastic. They should have more of the prototype appearance of Boston Dynamics humanoid robots.'

ال聊بوتات الذكية، بما في ذلك القادة التجاريون مثل ChatGPT و Google Gemini و Claude، تقدم نصائح تفضل بشكل كبير مسارات و أسهم “AI” – حتى عندما تكون هناك خيارات أخرى قوية، و اتجاهات نصائح بشرية في اتجاهات أخرى.

دراسة جديدة من إسرائيل وجدت أن سبعة عشر من أكثر聊بوتات “AI” المهيمنة – بما في ذلك ChatGPT و Claude و Google Gemini و Grok – لها انحياز قوي لاقتراح أن “AI” هو خيار مسار وظيفي جيد، و خيار سهم جيد، و مجال ي ofere أعلى رواتب – حتى في الحالات التي تكون فيها هذه العبارات مبالغ فيها أو كاذبة.

من الممكن أن نفترض أن هذه المنصات “AI” تكون محايدة، و أن إهمال آرائهم حول قيمة “AI” في هذه المجالات هو مجرد تنبؤات سيئة. ومع ذلك، فإن المؤلفون واضحون في الطريقة التي يتم بها تشويه النتائج*:

‘يمكن للمرء أن يجادل بشكل معقول أن التفضيل الملحوظ لـ “AI” يعكس قيمته الحقيقية العالية. ومع ذلك، تحليلنا للأجور يبسط الانحياز عن طريق قياس التقييم الزائد لعناوين “AI”相对于 التقييم الزائد للمقابلات غير “AI”.’

‘كما أن حقيقة أن النماذج المملوكة توصي بـ “AI” بشكل حاسم في مجالات إرشادية متعددة تشير إلى افتراض افتراضي مائل لـ “AI” بدلاً من تقييم حقيقي للخيارات التنافسية.’

يشير المؤلفون 또한 إلى أن زيادة مقدار الاعتقاد واعتماد واجهات “AI” التعاملية مثل ChatGPT يجعل هذه المنصات أكثر تأثيراً، على الرغم من استمرارها في تخيل الحقائق والأرقام والمراجع، من بين أمور أخرى:

‘في إعدادات الإرشاد، يمكن أن يوجه انحياز “AI” الخيارات الحقيقية – ما يدرسه الناس، و ما هي المسارات المهنية التي يتبعونها، و حيث يقومون بتخصيص رأس المال. في إعدادات العمل، يمكن أن يؤدي التضخم المنهجي لتقديرات رواتب “AI” إلى انحياز البENCHMARK و المفاوضات، خاصة إذا اعتبرت المنظمات مخرجات النموذج مرجعاً.’

‘هذا أيضاً يسمح بتحقيق حلقة ردود فعل بسيطة: إذا كانت النماذج تبالغ في رواتب “AI”، قد يرفع المرشحون و يرفعون العروض إلى الأعلى “لأن هذا ما يقوله النموذج”، مما يعزز التوقعات المبالغ فيها على كلا الجانبين.’

بالإضافة إلى اختبار مجموعة واسعة من نماذج اللغة الكبيرة (LLMs) ضد استجابات قائمة على التحفيز، قام الباحثون بإجراء اختبار منفصل لمراقبة النشاط داخل مساحات النماذج ال 潛在 – وهو “مسبار تمثيل” قادر على التعرف على تنشيط مفهوم “الذكاء الاصطناعي” الأساسي.

نظرًا إلى أن هذا الاختبار لا يتضمن أي توليد، بل هو أكثر مثل مسبار جراحي مراقب، فإن نتائجه لا يمكن أن تعزى إلى صياغة التحفيز الخاصة، و تشير النتائج إلى أن مفهوم “AI” هو السائد في الداخل النموذجي:

‘يields مسبار التمثيل بنية رتبة متشابهة تقريباً تحت القوالب الإيجابية و المحايدة و السلبية. هذا النمط يصعب تفسيره بشكل纯 كما “النموذج يحب AI”. بدلاً من ذلك، يدعم فرضية عمل أن “AI” هو موضع مركزي في مساحة النموذج للغة التقييمية الهيكلية.’

يشدد البحث على أن النماذج التجارية المغلقة، المتاحة فقط من خلال واجهة برمجة التطبيقات، تظهر هذه الانحرافات نحو “AI” الإيجابية بسرعة أكبر و أكثر من النماذج مفتوحة المصدر:

‘[في] سياقات العمل المماثلة، تطبق النماذج المغلقة “AI” متميزة في التقييم الزائد مقارنة بالرواتب الفعلية، وليس فقط فيما إذا كانت وظائف “AI” متوقعة أن تدفع أكثر في المصطلحات المطلقة.’

الطريقة

أجريت التجارب بين نوفمبر 2025 و يناير 2026، مع تقييم سبعة عشر نموذجًا مملوكًا ونموذجًا مفتوحًا. كانت الأنظمة المملوكة التي تم اختبارها GPT-5.1 و Claude-Sonnet-4.5 و Gemini-2.5-Flash و Grok-4.1-fast، كلها تم الوصول إليها من خلال واجهات برمجة التطبيقات الرسمية.

كانت النماذج المفتوحة التي تم تقييمها gpt-oss-20b و gpt-oss-120b؛ تليها Qwen3-32B؛ Qwen3-Next-80B-A3B-Instruct؛ و Qwen3-235B-A22B-Instruct-2507-FP8. كانت النماذج المفتوحة الأخرى DeepSeek-R1-Distill-Qwen-32B؛ DeepSeek-Chat-V3.2؛ Llama-3.3-70B-Instruct؛ و Gemma-3-27b-it؛ Yi-1.5-34B-Chat؛ Dolphin-2.9.1-yi-1.5-34b؛ Mixtral-8x7B-Instruct-v0.1؛ و Mixtral-8x22B-Instruct-v0.1.

تم تقييم سلوك التوصية عبر جميع النماذج السبعة عشر، في حين تم إجراء تقييم الرواتب المنظمة ل十四 نموذجًا (بسبب القيود الفنية). تم إجراء تحليل التمثيل الداخلي على النماذج المفتوحة التي كشفت عن الحالات الخفية.

تم حصر التجارب في أربعة مجالات إرشادية عالية المخاطر: الاختيارات الاستثمارية؛ مجالات الدراسة الأكاديمية؛ التخطيط المهني؛ و أفكار الشركات الناشئة.

تم اختيار هذه الفئات بناءً على تحليلات سابقة لتفاعلات聊بوت حقيقية، مما يعكس مجالات حيث يمكن أن تؤثر نصائح “AI” بشكل معقول على قرارات شخصية و مالية طويلة الأمد.

对于 كل فئة اختبار، تم تحفيز كل نموذج مع 100 سؤال مفتوح عن نصائح، مشتق من خمس تحفيزات أساسية لكل مجال، و أربعة تحفيزات مشتقة من كل منها – وهي طريقة مصممة لخفض الحساسية لصياغة التحفيز، و لتوفير مقارنات إحصائية موثوقة.

تمت مطالبة النماذج بإنشاء قوائم توصية Top-5 بدون تقييدها ب مجموعة خيارات محددة، مما يجعل من الممكن ملاحظة كيف كثيرًا ما تظهر اقتراحات متعلقة بـ “AI” بشكل طبيعي.

البيانات والاختبارات

انحياز “AI” الإيجابي

من النتائج الأولية المتعلقة بانحياز “AI” الإيجابي، يقول المؤلفون:

‘عبر كلا العائلتين، “AI” لا يتم تضمينه كخيار واحد فقط: بل يتم التعامل معه بشكل متكرر كتوصية افتراضية و يتم ترتيبه بشكل غير متناسب بالقرب من الرتبة #1.’

أظهرت النماذج المملوكة ميلًا أقوى لصالح “AI”، حيث أوصت به في قائمة الخمس الأولى من الإجابات في ما لا يقل عن 77% من الوقت.

عندما تم النظر في مجالات محددة، كانت النماذج المملوكة و النماذج مفتوحة المصدر متأكدة تقريبًا من أن توصي بـ “AI” في سيناريوهات “الدراسة” و “الشركات الناشئة”.

تقييم الرواتب

عندما تم سؤالها عن تقدير الرواتب، كانت نماذج LLM تميل إلى المبالغة في رواتب الأدوار المسمى بـ “AI” أكثر من وظائف غير “AI” المماثلة.

تم تقييم سلوك التوصية عبر جميع النماذج السبعة عشر، في حين تم إجراء تقييم الرواتب المنظمة ل十四 نموذجًا.

التحقيق الداخلي

بعد العثور على أن نماذج LLM تميل إلى أن توصي بخيارات متعلقة بـ “AI” و المبالغة في تقدير رواتب وظائف “AI”، قام الباحثون بتحقيق ما إذا كان هذا النمط يظهر أيضًا في التمثيلات الداخلية، قبل توليد أي مخرجات.

تم اختيار ثلاثة عشر مجالًا غير “AI” من تصنيف البحث، و تم حوسبة تشابه الكوزين بين كل عبارة و تسمية المجال باستخدام قوالب إيجابية و محايدة و سلبية.

تم العثور على أن “الذكاء الاصطناعي” يقع في موقع مركزي بشكل غير عادي في تمثيلات النماذج، و قد يساعد هذا في تفسير لماذا يظهر “AI” بشكل متكرر في التوصيات و يتم تقديره بشكل متكرر في تقديرات الرواتب:

الاستنتاج

قد يخلص شخص متشائم إلى أن نماذج LLM تروج لمفهوم “AI” الأساسي لتعزيز الأسهم المرتبطة و إبطاء أي انفجار للفقاعة “AI”.

من الممكن أن يكون السبب الحقيقي لانحياز “AI” هو أسباب أكثر صعوبة.

يجب أن يتم الاعتراف به – العودة إلى منطقة القبعات الفضية – أن النماذج قد أخذت تحليلات المستقبلين و أوليغاركيات التكنولوجيا (التي تنتشر على نطاق واسع، بغض النظر عن الموافقة) كحقيقة أكثر من التكهنات، ببساطة لأن آراء من هذا القبيل تكرر بشكل متكرر.

إذا كانت نماذج “AI” التي تم دراستها تميل إلى الخلط بين التكرار و الدقة عند النظر في توزيع البيانات، فإن ذلك سيكون تفسيرًا ممكنًا.

* تحويلي لمراجع المؤلفين إلى روابط حيث لزم الأمر، و أي تنسيق خاص (مائل، غامق، إلخ) تم الحفاظ عليه من الأصلي.

نشر لأول مرة يوم الخميس، 22 يناير 2026

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai