Artificial Intelligence

एआई शोधकर्ताओं ने पाया कि नौकरी आवेदक के बायोडाटा में लिंग-निर्धारण प्रभावी रूप से असंभव है

Updated on दिसम्बर 9/2022

न्यूयॉर्क विश्वविद्यालय के शोधकर्ताओं ने पाया है कि बहुत ही सरल प्राकृतिक भाषा प्रसंस्करण (एनएलपी) मॉडल भी 'लिंग-धारीदार' बायोडाटा से नौकरी आवेदक के लिंग का निर्धारण करने में काफी सक्षम हैं - यहां तक कि उन मामलों में भी जहां हटाने के लिए मशीन सीखने के तरीकों का उपयोग किया गया है दस्तावेज़ से सभी लिंग संकेतक।

एक अध्ययन के बाद जिसमें 348,000 मेल खाने वाले पुरुष/महिला बायोडाटा का प्रसंस्करण शामिल था, शोधकर्ताओं ने निष्कर्ष निकाला:

'[वहां] बायोडाटा में बड़ी मात्रा में लिंग आधारित जानकारी होती है। बायोडाटा से लिंग को अस्पष्ट करने के महत्वपूर्ण प्रयासों के बाद भी, एक सरल टीएफ-आईडीएफ मॉडल [लिंग] के बीच भेदभाव करना सीख सकता है। यह अनुभवजन्य रूप से लैंगिक भेदभाव करने और प्रशिक्षण डेटा डाउनस्ट्रीम में पूर्वाग्रह फैलाने वाले मॉडलों के बारे में चिंताओं को मान्य करता है।'

इस निष्कर्ष का महत्व इसलिए नहीं है कि स्क्रीनिंग और साक्षात्कार प्रक्रिया के दौरान लिंग छिपाना वास्तविक रूप से संभव है (जो कि स्पष्ट रूप से नहीं है), बल्कि इसलिए कि उस स्तर तक पहुंचने से ही बायोडाटा की एआई-आधारित आलोचना शामिल हो सकती है जिसमें कोई इंसान नहीं होगा। द-लूप - और एचआर एआई ने हाल के वर्षों में लैंगिक पूर्वाग्रह के लिए बदनाम प्रतिष्ठा हासिल की है।

शोधकर्ताओं के अध्ययन के नतीजे दर्शाते हैं कि अस्पष्टता के प्रयासों के प्रति लिंग कितना लचीला है:

NYU पेपर से परिणाम. स्रोत: https://arxiv.org/pdf/2112.08910.pdf

उपरोक्त निष्कर्ष 0-1 का उपयोग करते हैं रिसीवर परिचालन विशेषता के अंतर्गत क्षेत्र (ऑरोक) मीट्रिक, जहां '1' लिंग पहचान की 100% निश्चितता का प्रतिनिधित्व करता है। तालिका में आठ प्रयोगों की एक श्रृंखला शामिल है।

यहां तक कि सबसे खराब प्रदर्शन करने वाले परिणामों (प्रयोग #7 और #8) में भी, जहां एक बायोडाटा में लिंग-पहचान संबंधी जानकारी इतनी बुरी तरह से छीन ली गई है कि वह उपयोग योग्य नहीं है, एक सरल एनएलपी मॉडल जैसे कि वर्ड2पुराना अभी भी 70% तक सटीक लिंग पहचान करने में सक्षम है।

शोधकर्ता टिप्पणी करते हैं:

'एल्गोरिदमिक हायरिंग संदर्भ में, इन परिणामों का अर्थ यह है कि जब तक प्रशिक्षण डेटा पूरी तरह से निष्पक्ष नहीं होता, तब तक सरल एनएलपी मॉडल भी बायोडाटा से लिंग भेदभाव करना सीखेंगे, और पूर्वाग्रह को बढ़ावा देंगे।'

लेखकों का मानना है कि व्यावहारिक भर्ती पाइपलाइन में 'डी-जेंडरिंग' रिज्यूमे के लिए कोई वैध एआई-आधारित समाधान नहीं है, और मशीन लर्निंग तकनीक जो सक्रिय रूप से निष्पक्ष उपचार को लागू करती है, कार्य बाजार में लिंग पूर्वाग्रह की समस्या के लिए एक बेहतर दृष्टिकोण है।

एआई के संदर्भ में, यह 'सकारात्मक भेदभाव' के बराबर है, जहां लिंग-प्रकटीकरण रिज्यूमे को अपरिहार्य के रूप में स्वीकार किया जाता है, लेकिन पुन: रैंकिंग को एक समतावादी उपाय के रूप में सक्रिय रूप से लागू किया जाता है। इस प्रकृति के दृष्टिकोण प्रस्तावित किए गए हैं लिंक्डइन द्वारा 2019 में, और जर्मन, इटली और स्पेन के शोधकर्ता 2018 में.

RSI काग़ज़ शीर्षक है बायोडाटा में लिंग आधारित भाषा और नियुक्ति में एल्गोरिथम पूर्वाग्रह के लिए इसके निहितार्थ, और एनवाईयू स्टर्न बिजनेस स्कूल में प्रौद्योगिकी, संचालन और सांख्यिकी विभाग से प्रसन्ना परसुरामा और स्टर्न में प्रौद्योगिकी, संचालन और सांख्यिकी के सहायक प्रोफेसर जोआओ सेडोक द्वारा लिखा गया है।

नियुक्ति में लिंग भेद

लेखक उस पैमाने पर जोर देते हैं जिस पर भर्ती प्रक्रियाओं में लिंग पूर्वाग्रह वस्तुतः व्यवस्थित होता जा रहा है, मानव संसाधन प्रबंधक उन्नत एल्गोरिथम और मशीन लर्निंग-संचालित 'स्क्रीनिंग' प्रक्रियाओं का उपयोग कर रहे हैं जो लिंग के आधार पर एआई-सक्षम अस्वीकृति की ओर ले जाते हैं।

लेखक अमेज़ॅन में एक नियुक्ति एल्गोरिदम के मामले का हवाला देते हैं प्रकट 2018 में महिला उम्मीदवारों को रटे-रटाए तरीके से खारिज कर दिया गया क्योंकि यह पता चला था कि ऐतिहासिक रूप से, पुरुषों को काम पर रखने की अधिक संभावना थी

'मॉडल ने ऐतिहासिक नियुक्ति डेटा के माध्यम से सीखा था कि पुरुषों को काम पर रखने की अधिक संभावना थी, और इसलिए पुरुष बायोडाटा को महिला बायोडाटा की तुलना में अधिक रेटिंग दी गई।

'हालांकि मॉडल में उम्मीदवार के लिंग को स्पष्ट रूप से शामिल नहीं किया गया था, लेकिन इसने बायोडाटा में लिंग संबंधी जानकारी के आधार पर पुरुष और महिला के बीच भेदभाव करना सीखा - उदाहरण के लिए, पुरुषों द्वारा "निष्पादित" और "कब्जा कर लिया गया" जैसे शब्दों का उपयोग करने की अधिक संभावना थी।'

इसके अतिरिक्त, 2011 के शोध में पाया गया कि नौकरी के विज्ञापन जो परोक्ष रूप से पुरुषों की तलाश करते हैं उन्हें स्पष्ट रूप से आकर्षित करें, और इसी तरह महिलाओं को इस पद के लिए आवेदन करने से हतोत्साहित करता है। यदि सिंड्रोम का सक्रिय रूप से निवारण नहीं किया जाता है, तो डिजिटलीकरण और बड़े डेटा स्कीमा इन प्रथाओं को स्वचालित प्रणालियों में और अधिक स्थापित करने का वादा करते हैं।

जानकारी

NYU शोधकर्ताओं ने पूर्वानुमानित मॉडलिंग का उपयोग करके लिंग को वर्गीकृत करने के लिए मॉडलों की एक श्रृंखला को प्रशिक्षित किया। उन्होंने अतिरिक्त रूप से यह स्थापित करने की कोशिश की कि लिंग की भविष्यवाणी करने की मॉडल की क्षमता एप्लिकेशन के लिए प्रासंगिक सामग्री को संरक्षित करने का प्रयास करते हुए संभावित लिंग-प्रकटीकरण जानकारी की अधिक से अधिक मात्रा को हटाने से कितनी अच्छी तरह बच सकती है।

डेटासेट आठ अमेरिकी-आधारित आईटी कंपनियों के आवेदकों के बायोडाटा से तैयार किया गया था, प्रत्येक बायोडाटा के साथ नाम, लिंग, अनुभव के वर्ष, विशेषज्ञता या अध्ययन का क्षेत्र और लक्ष्य नौकरी पोस्टिंग जिसके लिए बायोडाटा भेजा गया था, का विवरण था। .

वेक्टर प्रतिनिधित्व के रूप में इस डेटा से गहरी प्रासंगिक जानकारी निकालने के लिए, लेखकों ने एक Word2Vec मॉडल को प्रशिक्षित किया। फिर इसे टोकन में पार्स किया गया और फ़िल्टर किया गया, अंततः प्रत्येक बायोडाटा के लिए एक एम्बेडेड प्रतिनिधित्व में हल किया गया।

पुरुष और महिला नमूनों का 1-1 से मिलान किया गया, और उनके क्षेत्र में अनुभव के संदर्भ में, 2 साल की त्रुटि के मार्जिन के साथ, सर्वोत्तम उद्देश्यपूर्ण नौकरी-उपयुक्त पुरुष और महिला उम्मीदवारों की जोड़ी बनाकर एक उपसमूह प्राप्त किया गया। इस प्रकार डेटासेट में 174,000 पुरुष और 174,000 महिलाओं के बायोडाटा शामिल हैं।

वास्तुकला और पुस्तकालय

वर्गीकरण कार्य के लिए उपयोग किए गए तीन मॉडल थे टर्म फ़्रीक्वेंसी-इनवर्स दस्तावेज़ फ़्रीक्वेंसी (TF-आईडीएफ) + तार्किक, वर्ड एंबेडिंग्स + लॉजिस्टिक, और दीर्घसूत्री.

पहला मॉडल एक बैग-ऑफ-वर्ड बेसलाइन प्रदान करता है जो शाब्दिक अंतर के आधार पर लिंग का भेदभाव करता है। दूसरे दृष्टिकोण को ऑफ-द-शेल्फ शब्द एम्बेडिंग सिस्टम और दोनों के साथ नियोजित किया गया था लिंग-विकृत शब्द एम्बेडिंग.

प्रशिक्षण, मूल्यांकन और परीक्षण के बीच डेटा को 80/10/10 में विभाजित किया गया था,

जैसा कि ऊपर प्रदर्शित परिणामों में देखा गया है, ट्रांसफॉर्मर-आधारित लॉन्गफॉर्मर लाइब्रेरी, जो पहले के तरीकों की तुलना में काफी अधिक परिष्कृत है, सक्रिय रूप से छीन लिए गए दस्तावेजों से लिंग का पता लगाने की अपनी क्षमता के मामले में पूरी तरह से 'असुरक्षित' बायोडाटा के बराबर होने में सक्षम थी। ज्ञात लिंग पहचानकर्ता.

किए गए प्रयोगों में डेटा-एब्लेशन अध्ययन शामिल थे, जहां बायोडाटा से लिंग-प्रकटीकरण जानकारी की बढ़ती मात्रा को हटा दिया गया था, और मॉडलों को इन अधिक मौन दस्तावेजों के खिलाफ परीक्षण किया गया था।

हटाई गई जानकारी में शौक (विकिपीडिया की 'शौक' की परिभाषा से प्राप्त एक मानदंड), लिंक्डइन आईडी और यूआरएल शामिल हैं जो लिंग का खुलासा कर सकते हैं। इसके अतिरिक्त, इन विरल संस्करणों में 'बिरादरी', 'वेट्रेस' और 'सेल्समैन' जैसे शब्द हटा दिए गए।

अतिरिक्त परिणाम

ऊपर चर्चा किए गए परिणामों के अलावा, एनवाईयू शोधकर्ताओं ने पाया कि विवादास्पद शब्द एम्बेडिंग ने लिंग की भविष्यवाणी करने के लिए मॉडल की क्षमता को कम नहीं किया है। पेपर में, लेखक इस बात का संकेत देते हैं कि किस हद तक लिंग लिखित भाषा में व्याप्त है, यह देखते हुए कि इन तंत्रों और संकेतकों को अभी तक अच्छी तरह से समझा नहीं गया है।