الذكاء الاصطناعي

عيوب أمازون ميكانيكي ترك قد تهدد أنظمة توليد اللغة الطبيعية

Published September 16, 2021

Updated April 28, 2026

Martin Anderson

دراسة جديدة من جامعة ماساتشوستس أمهرست قد وضعت معلمي اللغة الإنجليزية ضد العمال في أمازون ميكانيكي ترك في تقييم مخرجات أنظمة توليد اللغة الطبيعية (NLG)، وخلصت إلى أن المعايير المريحة واللعب على المهام المتميزة بين عمال AMT يمكن أن تعيق تطوير هذا القطاع.

تأتي هذه التقارير إلى عدد من الاستنتاجات القاسية بشأن مدى تأثير外징 المهام المفتوحة لتقييم NLG على نطاق واسع وبتكلفة منخفضة قد يؤدي إلى نتائج وألغوريتمات دون المستوى في هذا القطاع.

قام الباحثون أيضًا بتجميع قائمة من 45 ورقة حول توليد النص المفتوح حيث استخدمت الأبحاث خدمة AMT، ووجدوا أن “الغالبية العظمى” فشلت في الإبلاغ عن التفاصيل الحيوية حول استخدام خدمة أمازون، مما يجعل من الصعب إعادة إنتاج نتائج الأوراق.

عملية Sweat-Shop

توجه التقرير بالانتقاد إلى كل من طبيعة عمل أمازون ميكانيكي ترك و المشاريع الأكاديمية (المحدودة بالموارد المالية) التي تمنح AMT المزيد من المصداقية من خلال استخدامها (وإسنادها) كمورد بحث صحيح ومستمر. يشير المؤلفون إلى:

‘في حين أن AMT هو حل مريح وميسور التكلفة، نلاحظ أن التباين الكبير بين العمال وضبط سيئ والtasks شديدة التحدي يمكن أن يؤدي إلى استخلاص استنتاجات علمية خاطئة من قبل الباحثين (على سبيل المثال، أن النص المكتوب من قبل الإنسان هو “أسوأ” من GPT-2)).’

يتهم التقرير اللعبة بدلاً من اللاعبين، حيث يلاحظ الباحثون:

‘العاملون في الحشود غالبًا ما يتم دفع أجرهم بشكل منخفض مقابل عملهم، مما يضر بجودة البحث، وأهم من ذلك، قدرة هؤلاء العاملين على كسب عيش لائق.’

الورقة، بعنوان أخطار استخدام Mechanical Turk لتقييم توليد النص المفتوح، توصلت أيضًا إلى أن “مقييمين خبيرين” مثل معلمي اللغة وخبراء اللغويات يجب أن يستخدموا لتقييم المحتوى الاصطناعي المفتوح NLG، حتى لو كانت AMT أرخص.

مهام الاختبار

في مقارنة أداء AMT مع قراء خبير أقل تقييدًا بالزمن، أنفق الباحثون 144 دولارًا على خدمات AMT المستخدمة في اختبارات المقارنة (على الرغم من أن المزيد من الأموال تم إنفاقها على نتائج “غير قابلة للاستخدام” – انظر أدناه)، مما يتطلب من “التركين” العشوائيين تقييم واحد من 200 نص، مقسمة بين المحتوى النصي الذي تم إنشاؤه بواسطة الإنسان والمحتوى النصي الذي تم توليده بشكل اصطناعي.

تكلف تعيين معلمي اللغة المحترفين للقيام بنفس العمل 187.50 دولارًا، وتأكيد أدائهم الأفضل (مقارنة بعاملات AMT) من خلال توظيف مقاولين من Upwork لإعادة إنشاء المهام بتكلفة إضافية قدرها 262.50 دولارًا.

تكون كل مهمة من أربعة معايير تقييمية: قواعد (‘ما مدى صحة النص القواعدية للقصة؟’); الاتساق (‘ما مدى ملاءمة الجمل في القصة؟’); المحبوبية (‘ما مدى استمتاعك بالقصة؟’); والملاءمة (‘ما مدى ملاءمة القصة للتحفيز؟’).

توليد النصوص

为了获取 NLG المواد للاختبارات، استخدم الباحثون مجموعة بيانات Facebook AI Research 2018 توليد القصة الهرمية dataset، التي تتكون من 303,358 قصة لغة إنجليزية تم إنشاؤها بواسطة المستخدمين في subreddit شائع جدًا (15 مليون+ مستخدم) r/writingprompts، حيث يتم زرع قصص المشتركين بواسطة جمل تحفيزية فردية بطريقة مماثلة للممارسات الحالية في توليد الصور من النص – وبالطبع في أنظمة توليد اللغة الطبيعية المفتوحة systems.

تم اختيار 200 تحفيز من مجموعة البيانات بشكل عشوائي وتم تمريرها عبر نموذج GPT-2 متوسط الحجم باستخدام مكتبة Hugging-Face Transformers library. وبالتالي تم الحصول على مجموعتين من النتائج من نفس التحفيزات: المقالات التحريرية المكتوبة بواسطة الإنسان من مستخدمي Reddit، والنصوص التي تم توليدها بواسطة GPT-2.

为了 منع نفس عمال AMT من الحكم على نفس القصة عدة مرات، تم طلب ثلاثة أحكام للعاملين في AMT لكل مثال. جنبًا إلى جنب مع التجارب المتعلقة بقدرات اللغة الإنجليزية للعاملين (انظر نهاية المقال) ورفض النتائج من عمال الجهود المنخفضة (انظر ‘زمن قصير’ أدناه)، هذا زاد الإنفاق الإجمالي على AMT إلى حوالي 1,500 دولار أمريكي.

为了 خلق ساحة لعب عادلة، تم إجراء جميع الاختبارات في أيام الأسبوع بين 11:00 صباحًا و 11:30 صباحًا بالتوقيت 太平洋.

النتائج والاستنتاجات

تغطي الدراسة الشاملة الكثير من الأرض، ولكن النقاط الرئيسية هي كما يلي:

زمن قصير

وجدت الورقة أن متوسط زمن المهمة المعلن رسميًا من قبل أمازون يبلغ 360 ثانية انخفض إلى زمن عمل فعلي يبلغ 22 ثانية، وزمن عمل متوسط يبلغ فقط 13 ثانية – ربع الوقت الذي استغقه أسرع معلم لغة في تكرار المهمة.

من اليوم الثاني من الدراسة: قضاء العاملين الفردية (باللون البرتقالي) وقتًا أقل في تقييم كل مهمة مقارنةً بمعلمي اللغة الأفضل دفعًا، والمتعاقدين مع Upwork الأفضل دفعًا. مصدر: https://arxiv.org/pdf/2109.06835.pdf

منذ أن لا تفرض AMT أي حد لعدد مهام الحكمة البشرية (HITs) التي يمكن للعامل الفردي اتخاذها، ظهر “اللاعبون الكبار” في AMT، مع سمعة ربحية لاستكمال عدد كبير من المهام في كل تجربة. من أجل تعويض الحكم المقبول من نفس العامل، قاس الباحثون الوقت بين مهام HITs المتميزة، مقارنةً بالوقت البدء والنهاية لكل HIT. بهذه الطريقة، أصبح النقص بين WorkTimeInSeconds المعلن من قبل AMT والزمن الفعلي المستهلك في المهمة واضحًا.

منذ أن لا يمكن إنجاز مثل هذا العمل في هذه الأطر الزمنية القصيرة، كان على الباحثين تعويض ذلك:

‘من المستحيل قراءة قصة بطول الفقرة بعناية وتقييم جميع الخواص الأربعة في وقت قصير مثل 13 ثانية، نقيس تأثير متوسط التقييمات عند تصفية العمال الذين يقضون وقتًا قصيرًا جدًا لكل HIT… على سبيل المثال، نزيل الأحكام من العمال الذين ي قضون وقتًا أقل من 40 ثانية (وهو معيار منخفض)، ونجد أن حوالي 42٪ من تقييماتنا يتم تصفيتها (تتراوح من 20٪ إلى 72٪ عبر جميع التجارب).’

تجادل الورقة بأن التبليغ الخاطئ للزمن الفعلي للعمل في AMT هو “قضية رئيسية” غالبًا ما يغفل عنها الباحثون الذين يستخدمون الخدمات.

توجيه اليد ضروري

تشير النتائج أيضًا إلى أن عمال AMT لا يستطيعون تمييز النص المكتوب من قبل الإنسان والنص المكتوب بواسطة آلة، إلا إذا رأوا كلا النصين جنبًا إلى جنب، مما سيكون بمثابة خرق سيناريو التقييم النموذجي (حيث يجب على القارئ أن يكون قادرًا على إصدار حكم بناءً على نموذج واحد من النص، “حقيقي” أو مولد اصطناعيًا).

قبول غير رسمي للنصوص الاصطناعية منخفضة الجودة

قيم عمال AMT بشكل متسق النصوص الاصطناعية منخفضة الجودة التي تم إنشاؤها بواسطة GPT على قدم المساواة مع النصوص عالية الجودة والمتماسكة المكتوبة بواسطة الإنسان، على عكس معلمي اللغة الإنجليزية، الذين كانوا قادرين بسهولة على التمييز بين الفرق في الجودة.

لا وقت للتحضير، لا سياق

الدخول إلى الحالة الذهنية الصحيحة لمثل هذه المهمة المجردة مثل تقييم الصحة لا يأتي بشكل طبيعي؛ احتاج معلمو اللغة الإنجليزية إلى 20 مهمة لتحضير حساسياتهم للبيئة التقييمية، بينما عمال AMT عادة ما لا يحصلون على “زمن للتوجيه” على الإطلاق، مما يقلل من جودة مدخلاتهم.

اللعب بالنظام

يؤكد التقرير على أن الوقت الإجمالي الذي يقضيه عمال AMT في المهام الفردية يزداد بسبب العمال الذين يقبلون مهام متعددة في نفس الوقت، ويتحركون من خلال المهام في علامات تبويب مختلفة في متصفحاتهم، بدلاً من التركيز على مهمة واحدة لمدة المهام المسجلة.

بلد المنشأ مهم

تلاحظ الورقة أن إعدادات AMT الافتراضية لا تفرق بين العمال حسب بلد المنشأ، وتشير إلى أبحاث سابقة تشير إلى أن عمال AMT يستخدمون VPNs للعمل حول القيود الجغرافية، مما يسمح للناطقين غير الأصليين بالتمثيل كمتحدثين أصليين (في نظام يعتبر، ربما ببساطة، لغة العامل مع موقعه الجغرافي حسب IP).

وبالتالي، أعاد الباحثون تشغيل اختبارات التقييم على AMT مع مرشحات تحد من المشاركين المحتملين إلى غير بلدان الناطقة باللغة الإنجليزية، ووجدوا أن ‘العاملين من بلدان غير ناطقة باللغة الإنجليزية يقيمون الاتساق والملاءمة والقواعد… أقل من العمال المتأهلين بنفس القدر من بلدان ناطقة باللغة الإنجليزية’.

يخلص التقرير إلى:

‘يجب استخدام مقييمين خبيرين مثل اللغويين أو معلمي اللغة كلما كان ذلك ممكنًا لأنهم تم تدريبهم بالفعل على تقييم النص المكتوب، وأنه ليس أكثر تكلفة بكثير…’

نشر في 16 سبتمبر 2021 – تم التحديث في 18 ديسمبر 2021: أضيف علامات