الذكاء الاصطناعي

سيرة مرشح للوظيفة لا يمكن إزالة الجنس منها بفعالية، يجد باحثو الذكاء الاصطناعي

mm

وجد باحثون من جامعة نيويورك أن حتى نماذج معالجة اللغة الطبيعية (NLP) بسيطة للغاية قادرة على تحديد جنس مرشح للوظيفة من سيرة ذاتية “مُحَرَّرة من الجنس” – حتى في الحالات التي يتم فيها استخدام طرق التعلم الآلي لإزالة جميع المؤشرات الجنسية من الوثيقة.

بعد دراسة شملت معالجة 348,000 سيرة ذاتية متطابقة جيدًا بين الذكور والإناث، يخلص الباحثون إلى:

‘[هناك] كمية كبيرة من المعلومات الجنسية في السير الذاتية. حتى بعد محاولات كبيرة لإخفاء الجنس من السير الذاتية، يمكن لنموذج Tf-Idf البسيط تعلم التمييز بين [الجنسين]. هذا يثبت تجريبيًا المخاوف حول نماذج التعلم التي تتعلم التمييز الجنساني وتعزيز التحيز في بيانات التدريب فيما بعد.’

يتمثل الاكتشاف في أهميته ليس لأن من الممكن إخفاء الجنس بشكل واقعي خلال عملية الفحص والمقابلة (التي من الواضح أنها ليست كذلك)، ولكن لأن الوصول إلى تلك المرحلة قد يتضمن تقييمًا قائمًا على الذكاء الاصطناعي من السيرة الذاتية بدون وجود بشر في الحلقة – وقد حصلت أنظمة الموارد البشرية القائمة على الذكاء الاصطناعي على سمعة سيئة لتحيز الجنس في السنوات الأخيرة.

تُظهر نتائج دراسة الباحثين كيفية مقاومة الجنس للمحاولات لإخفائه:

Results from the NYU paper. Source: https://arxiv.org/pdf/2112.08910.pdf

Results from the NYU paper. Source: https://arxiv.org/pdf/2112.08910.pdf

تستخدم النتائج المذكورة أعلاه مقياس 0-1 مساحة تحت منحنى 특性 الاستقبال (AUROC)، حيث يمثل “1” يقينًا بنسبة 100٪ في تحديد الجنس. تغطي الجدول مجموعة من ثماني تجارب.

حتى في أسوأ النتائج الأداء (التجارب #7 و #8)، حيث تم حظر سيرة ذاتية من المعلومات التي تحدد الجنس إلى الحد الذي لا يمكن استخدامه، لا يزال نموذج NLP بسيط مثل Word2Vec قادرًا على تحديد الجنس بدقة تقترب من 70٪.

يعلق الباحثون:

‘في سياق التوظيف الخوارزمي، تشير هذه النتائج إلى أن ما لم تكن بيانات التدريب خالية تمامًا من التحيز، فإن حتى نماذج NLP البسيطة ستتعلم التمييز الجنساني من السير الذاتية، وتعزيز التحيز فيما بعد.’

يشير المؤلفون إلى أنه لا توجد حلول قائمة على الذكاء الاصطناعي شرعية ل “إزالة الجنس” من السير الذاتية في خط أنابيب توظيف عملي، وأن تقنيات التعلم الآلي التي تفرض معاملة عادلة بشكل فعال هي نهج أفضل لمشكلة التحيز الجنساني في سوق العمل.

في مصطلحات الذكاء الاصطناعي، يعادل هذا “التمييز الإيجابي”، حيث يتم قبول السير الذاتية التي تكشف عن الجنس كحتمية، ولكن يتم تطبيق إعادة التصنيف بشكل نشط كإجراء مساواتي. تم اقتراح نهج من هذا القبيل بواسطة LinkedIn في عام 2019، وباحثون من ألمانيا وإيطاليا وإسبانيا في عام 2018.

المقالة، التي تحمل عنوان اللغة الجنسية في السير الذاتية وأثرها على التحيز الخوارزمي في التوظيف، كتبها براسانا باراسوراما، من قسم التكنولوجيا والعمليات والإحصاء في كلية ستيرن للأعمال بجامعة نيويورك، و جواو سيدوك، أستاذ مساعد للتكنولوجيا والعمليات والإحصاء في ستيرن.

التحيز الجنساني في التوظيف

يشدد المؤلفون على حجم التحيز الجنساني في إجراءات التوظيف الذي يصبح حرفيًا منظّمًا، مع استخدام مديري الموارد البشرية عمليات غربلة متقدمة وخوارزمية ومدفوعة بالتعلم الآلي – والتي تصل إلى رفض مدفوع بالذكاء الاصطناعي بناءً على الجنس.

يشير المؤلفون إلى حالة خوارزمية التوظيف في أmazon التي تم الكشف عنها في عام 2018 لرفض المرشحات الإناث بطريقة روتينية لأنها تعلمت أن الرجال أكثر احتمالاً للتوظيف

‘تعلم النموذج من خلال بيانات التوظيف التاريخية أن الرجال أكثر احتمالاً للتوظيف، وبالتالي قيم سير الذاتية للرجال أعلى من سير الذاتية للنساء. ‘

‘على الرغم من أن جنس المرشح لم يكن مدرجًا بشكل صريح في النموذج، إلا أنه تعلم التمييز بين سير الذاتية للرجال والنساء بناءً على المعلومات الجنسية في السير الذاتية – على سبيل المثال، كان الرجال أكثر احتمالاً لاستخدام كلمات مثل “executed” و “captured”.’

علاوة على ذلك، وجدت أبحاث عام 2011 أن إعلانات الوظائف التي تسعى بشكل ضمني إلى الرجال تجذبهم بشكل صريح، وتكفئ النساء عن التقدم لوظيفة المنصب. وعدت مخططات البيانات الكبيرة بترسيخ هذه الممارسات في الأنظمة الآلية، إذا لم يتم معالجة هذه الحالة بشكل فعال.

بيانات

قام الباحثون في جامعة نيويورك بتدريب سلسلة من النماذج لتصنيف الجنس باستخدام نمذجة تنبؤية. كما سعوا إلى تحديد مدى قدرة النماذج على التنبؤ بالجنس على قيد الحياة بعد إزالة كميات أكبر وأكبر من المعلومات التي قد تكشف عن الجنس، مع محاولة الحفاظ على المحتوى ذي الصلة بالطلب.

تم سحب مجموعة البيانات من مجموعة من سير ذاتية المرشحين من ثماني شركات تقنية أمريكية، مع كل سيرة ذاتية مصحوبة بتفاصيل الاسم والجنس وسنوات الخبرة و领域 الخبرة أو الدراسة، ووظيفة المنصب التي تم إرسال السيرة الذاتية من أجلها.

为了 استخراج معلومات سياقية أعمق من هذه البيانات على شكل تمثيل متجه، قام المؤلفون بتدريب نموذج Word2Vec. ثم تم تحويله إلى رموز وتصفية، و最終 تحول إلى تمثيل متضمّن واحد لكل سيرة ذاتية.

تم مطابقة العينات الذكورية والأنثوية 1-1، وتم الحصول على مجموعة فرعية من خلال مطابقة أفضل المرشحين الذكور والإناث بشكل موضوعي، مع هامش خطأ يصل إلى 2 سنة، من حيث الخبرة في مجالهم. وبالتالي، تتكون مجموعة البيانات من 174,000 سيرة ذاتية للرجال و 174,000 سيرة ذاتية للنساء.

الهيكل والمكتبات

تم استخدام ثلاثة نماذج لل任务 التصنيفي: Term Frequency-Inverse Document Frequency (TF-IDF) + Logistic، Word Embeddings + Logistic، و Longformer.

يقدم النموذج الأول قاعدة أساسية من كلمات الحقيبة التي تفرق الجنس بناءً على الاختلافات اللغوية. تم استخدام النهج الثاني مع نظام التضمين الكلمة خارج الصندوق، ومع تضمين كلمات غير متحيزة جنسياً.

تم تقسيم البيانات إلى 80/10/10 بين التدريب والتقويم والاختبار،

كما هو موضح في النتائج المعروضة أعلاه، كانت المكتبة القائمة على Transformer Longformer، والتي هي أكثر تطوراً من النهوج السابقة، قريبة من تحقيق قدرة على الكشف عن الجنس من الوثائق التي تم حظرها بشكل فعال من المعرفات الجنسية المعروفة.

شملت التجارب التي أجريت دراسات إزالة البيانات، حيث تم إزالة كمية متزايدة من المعلومات التي تكشف عن الجنس من السير الذاتية، وتم اختبار النماذج ضد هذه الوثائق الأكثر صمتاً.

تشمل المعلومات التي تم إزالتها الهوايات (معيار مستمد من تعريف ويكيبيديا ل “الهوايات”)، وأرقام تعريف LinkedIn، وروابط URL التي قد تكشف عن الجنس. بالإضافة إلى ذلك، تم إزالة مصطلحات مثل “fraternity” و “waitress” و “salesman” من هذه الإصدارات الأقل كثافة.

نتائج إضافية

بالإضافة إلى النتائج المذكورة أعلاه، وجد باحثو جامعة نيويورك أن تضمين الكلمات غير متحيزة جنسياً لم يقلل من قدرة النماذج على التنبؤ بالجنس. في المقال، يشير المؤلفون إلى مدى انتشار الجنس في اللغة المكتوبة، مشيرين إلى أن هذه الآليات والمعرفات ليست مفهومة جيدًا بعد.

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai