رطم السيرة الذاتية للمتقدمين للوظيفة مستحيلة بشكل فعال للتخلص من الجنس ، وجد باحثو الذكاء الاصطناعي - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

وجد باحثو الذكاء الاصطناعي أن السير الذاتية للمتقدمين للوظيفة مستحيلة بشكل فعال للتخلص من الجنس

mm
تحديث on

وجد باحثون من جامعة نيويورك أنه حتى نماذج معالجة اللغات الطبيعية (NLP) البسيطة جدًا قادرة تمامًا على تحديد جنس المتقدم للوظيفة من السيرة الذاتية "المجردة من الجنس" - حتى في الحالات التي تم فيها استخدام أساليب التعلم الآلي لإزالة جنس المتقدم للوظيفة. جميع المؤشرات الجنسانية من الوثيقة.

بعد دراسة تضمنت معالجة 348,000 سيرة ذاتية متطابقة بين الذكور والإناث ، خلص الباحثون إلى:

[هناك قدر كبير من المعلومات الجنسانية في السير الذاتية. حتى بعد المحاولات الكبيرة لإخفاء الجندر من السير الذاتية ، يمكن لنموذج Tf-Idf البسيط أن يتعلم التمييز بين [الجنسين]. هذا يثبت بشكل تجريبي المخاوف المتعلقة بنماذج تعلم التمييز بين الجنسين ونشر التحيز في بيانات التدريب في نهاية المطاف.

هذا الاكتشاف له أهمية ليس لأنه من الممكن بشكل واقعي إخفاء الجنس أثناء عملية الفرز والمقابلة (وهو ليس كذلك بوضوح) ، ولكن بدلاً من ذلك لأن مجرد الوصول إلى هذه المرحلة قد ينطوي على نقد قائم على الذكاء الاصطناعي للسيرة الذاتية بدون وجود بشر في the-loop - و HR AI اكتسبت سمعة مشوهة للتحيز الجنساني في السنوات الأخيرة.

تظهر نتائج دراسة الباحثين مدى مرونة الجنس في محاولات التشويش:

النتائج من ورقة جامعة نيويورك. المصدر: https://arxiv.org/pdf/2112.08910.pdf

النتائج من ورقة جامعة نيويورك. المصدر: https://arxiv.org/pdf/2112.08910.pdf

النتائج أعلاه تستخدم 0-1 منطقة تحت خاصية تشغيل جهاز الاستقبال (أوروك) ، حيث يمثل الرقم "1" يقينًا بنسبة 100٪ لتحديد نوع الجنس. يغطي الجدول مجموعة من ثماني تجارب.

حتى في أسوأ النتائج أداءً (التجربتان رقم 7 و 8) ، حيث تم تجريد السيرة الذاتية بشدة من معلومات تحديد الجنس بحيث لا يمكن استخدامها ، نموذج بسيط في البرمجة اللغوية العصبية مثل Word2Old لا تزال قادرة على تحديد نوع الجنس بدقة تقترب من 70 ٪.

يعلق الباحثون:

ضمن سياق التوظيف الخوارزمي ، تشير هذه النتائج إلى أنه ما لم تكن بيانات التدريب غير متحيزة تمامًا ، ستتعلم حتى نماذج البرمجة اللغوية العصبية البسيطة التمييز بين الجنسين من السير الذاتية ، ونشر التحيز في اتجاه مجرى النهر.

يشير المؤلفون إلى أنه لا يوجد حل شرعي قائم على الذكاء الاصطناعي لاستئناف "إلغاء النوع الاجتماعي" في مسار توظيف عملي ، وأن تقنيات التعلم الآلي التي تفرض بشكل فعال معاملة عادلة هي نهج أفضل لمشكلة التحيز الجنساني في سوق العمل.

في مصطلحات الذكاء الاصطناعي ، هذا يعادل "التمييز الإيجابي" ، حيث يتم قبول السير الذاتية التي تكشف عن نوع الجنس على أنها حتمية ، ولكن يتم تطبيق إعادة الترتيب بشكل نشط كإجراء للمساواة. تم اقتراح نهج من هذا النوع بواسطة LinkedIn في عام 2019 ، وباحثون من ألمانيا وإيطاليا وإسبانيا في القرن الرابع الميلادي.

ورقة بعنوان اللغة الجنسانية في السير الذاتية وانعكاساتها على التحيز الحسابي في التوظيف، وكتبه براسانا باراسوراما ، من قسم التكنولوجيا والعمليات والإحصاء في كلية ستيرن للأعمال بجامعة نيويورك ، وجواو سيدوك ، الأستاذ المساعد للتكنولوجيا والعمليات والإحصاء في ستيرن.

التحيز الجنساني في التوظيف

يؤكد المؤلفون على النطاق الذي يصبح فيه التحيز الجنساني في إجراءات التوظيف منظمًا حرفيًا ، حيث يستخدم مديرو الموارد البشرية عمليات "فحص" خوارزمية متقدمة تعتمد على التعلم الآلي والتي ترقى إلى الرفض القائم على الذكاء الاصطناعي على أساس الجنس.

يستشهد المؤلفون بحالة خوارزمية التوظيف في أمازون التي كانت كذلك كشف في عام 2018 رفضت المرشحات بطريقة روتينية لأنها علمت أنه تاريخيًا ، كان الرجال أكثر عرضة لتوظيفهم

لقد تعلم النموذج من خلال بيانات التوظيف التاريخية أن الرجال كانوا أكثر عرضة لتوظيفهم ، وبالتالي فإن السير الذاتية للذكور مصنفة أعلى من السير الذاتية للإناث.

"على الرغم من عدم تضمين جنس المرشح بشكل صريح في النموذج ، فقد تعلم التمييز بين السير الذاتية للذكور والإناث بناءً على المعلومات الجنسانية في السير الذاتية - على سبيل المثال ، كان الرجال أكثر احتمالًا لاستخدام كلمات مثل" تم التنفيذ "و" تم التقاطها ".

بالإضافة إلى ذلك ، وجد بحث من عام 2011 أن إعلانات الوظائف التي تبحث ضمنيًا عن الرجال صراحة جذبهم، وكذلك عدم تشجيع النساء على التقدم للوظيفة. تعد مخططات الرقمنة والبيانات الضخمة بتكريس هذه الممارسات في الأنظمة الآلية ، إذا لم يتم علاج المتلازمة بشكل فعال.

البيانات

قام باحثو جامعة نيويورك بتدريب سلسلة من النماذج لتصنيف النوع باستخدام النمذجة التنبؤية. بالإضافة إلى ذلك ، سعوا إلى تحديد مدى قدرة النماذج على التنبؤ بالجنس على البقاء على قيد الحياة بعد إزالة كميات أكبر وأكبر من المعلومات التي يُحتمل أن تكشف عن نوع الجنس ، مع محاولة الحفاظ على المحتوى ذي الصلة بالتطبيق.

تم استخلاص مجموعة البيانات من مجموعة السير الذاتية للمتقدمين من ثماني شركات تكنولوجيا معلومات مقرها الولايات المتحدة ، مع كل سيرة ذاتية مصحوبة بتفاصيل الاسم والجنس وسنوات الخبرة ومجال الخبرة أو الدراسة والوظيفة المستهدفة التي تم إرسال السيرة الذاتية من أجلها .

لاستخراج معلومات سياقية أعمق من هذه البيانات في شكل تمثيل متجه ، قام المؤلفون بتدريب نموذج Word2Vec. تم بعد ذلك تحليل ذلك إلى رموز مميزة وتصفيتها ، وفي النهاية تم حلها في تمثيل واحد مضمن لكل سيرة ذاتية.

تمت مطابقة عينات الذكور والإناث مع 1-1 ، وتم الحصول على مجموعة فرعية من خلال الجمع بين أفضل المرشحين المناسبين للوظيفة من الذكور والإناث ، مع هامش خطأ لمدة عامين ، من حيث الخبرة في مجالهم. وهكذا تتكون مجموعة البيانات من 2 سيرة ذاتية للذكور و 174,000 أنثى.

العمارة والمكتبات

كانت النماذج الثلاثة المستخدمة لمهمة التصنيف هي مصطلح تردد معكوس المستند (قوة العمل-جيش الدفاع الإسرائيلي) + سوقيو Word Embeddings + Logistic و منذ فترة طويلة.

يقدم النموذج الأول مجموعة من الكلمات الأساسية التي تميز بين الجنسين على أساس الاختلافات المعجمية. تم استخدام الطريقة الثانية مع نظام حفلات الزفاف الجاهزة ومع حفلات الزفاف المتحيزة جنسانياً.

تم تقسيم البيانات 80/10/10 بين التدريب والتقييم والاختبار ،

كما رأينا في النتائج المعروضة أعلاه ، كانت مكتبة Longformer القائمة على المحولات ، والتي كانت أكثر تعقيدًا بشكل ملحوظ من الأساليب السابقة ، قادرة تقريبًا على مساواة السيرة الذاتية "غير المحمية" تمامًا من حيث قدرتها على اكتشاف الجنس من المستندات التي تم تجريدها فعليًا من معرّفات الجنس المعروفة.

تضمنت التجارب التي تم إجراؤها دراسات استئصال البيانات ، حيث تمت إزالة كمية متزايدة من المعلومات التي تكشف عن النوع من السير الذاتية ، وتم اختبار النماذج مقابل هذه المستندات الأكثر صمتًا.

تضمنت المعلومات التي تمت إزالتها الهوايات (معايير مشتقة من تعريف ويكيبيديا لـ "الهوايات") ومعرفات LinkedIn وعناوين URL التي قد تكشف عن الجنس. بالإضافة إلى ذلك ، تم تجريد مصطلحات مثل "الأخوة" و "النادلة" و "البائع" في هذه الإصدارات القليلة.

نتائج إضافية

بالإضافة إلى النتائج التي تمت مناقشتها أعلاه ، وجد باحثو جامعة نيويورك أن حفلات الزفاف غير المنحرفة لم تقلل من قدرة النماذج على التنبؤ بالجنس. في الورقة ، ألمح المؤلفون إلى مدى تغلغل الجنس في اللغة المكتوبة ، مشيرين إلى أن هذه الآليات والدلالات لم يتم فهمها جيدًا بعد.