քոթուկ Աշխատանքի դիմողների ռեզյումեները փաստացի անհնար է գենդերից հեռացնել, գտնում են AI հետազոտողները - Unite.AI
Միացեք մեզ

Արհեստական ​​բանականություն

AI հետազոտողները գտնում են, որ աշխատանքի դիմողների ռեզյումեները փաստացի անհնար է գենդերազրկել

mm
Թարմացվել է on

Նյու Յորքի համալսարանի հետազոտողները պարզել են, որ բնական լեզվի մշակման (NLP) նույնիսկ շատ պարզ մոդելները բավականին ունակ են որոշել աշխատանքի դիմողի սեռը «սեռից զուրկ» ռեզյումեից, նույնիսկ այն դեպքերում, երբ մեքենայական ուսուցման մեթոդները օգտագործվել են հեռացնելու համար: փաստաթղթից բոլոր գենդերային ցուցանիշները:

Հետազոտությունից հետո, որը ներառում էր 348,000 լավ համընկնող արական/իգական ռեզյումեների մշակում, հետազոտողները եզրակացնում են.

«[Կա] ռեզյումեներում զգալի քանակությամբ գենդերային տեղեկատվություն: Նույնիսկ ռեզյումեներից սեռը շփոթեցնելու զգալի փորձերից հետո, պարզ Tf-Idf մոդելը կարող է սովորել տարբերակել [գենդերների] միջև: Սա էմպիրիկորեն հաստատում է մտահոգությունները մոդելների վերաբերյալ, որոնք սովորում են գենդերային խտրականություն և կողմնակալություն տարածել վերապատրաստման տվյալների ներքևում:

Գտածոն նշանակություն ունի ոչ այն պատճառով, որ իրատեսորեն հնարավոր է թաքցնել սեռը ցուցադրման և հարցազրույցի ընթացքում (ինչն ակնհայտորեն այդպես չէ), այլ այն պատճառով, որ հենց այդ փուլին հասնելը կարող է ներառել AI-ի վրա հիմնված ռեզյումեի քննադատություն՝ առանց մարդկանց: the-loop – և HR AI-ն վերջին տարիներին ձեռք է բերել գենդերային կողմնակալության վատ համբավ:

Հետազոտողների ուսումնասիրության արդյունքները ցույց են տալիս, թե որքան դիմացկուն է սեռը խաբեության փորձերին.

NYU թերթի արդյունքները. Աղբյուր՝ https://arxiv.org/pdf/2112.08910.pdf

NYU թերթի արդյունքները. Աղբյուր՝ https://arxiv.org/pdf/2112.08910.pdf

Վերոնշյալ բացահայտումները օգտագործում են 0-1 Ընդունիչի տակ գտնվող տարածքի գործառնական բնութագիրը (AUROC) մետրիկ, որտեղ «1»-ը ներկայացնում է գենդերային նույնականացման 100% որոշակիություն: Աղյուսակը ներառում է ութ փորձերի շարք:

Նույնիսկ ամենավատ արդյունքների դեպքում (փորձեր #7 և #8), որտեղ ռեզյումեն այնքան խստորեն զրկված է գենդերային նույնականացնող տեղեկություններից, որ դրանք օգտագործելի չեն, պարզ NLP մոդելը, ինչպիսին է. Word2Vec դեռևս ի վիճակի է ճշգրիտ գենդերային նույնականացման՝ մոտ 70%:

Հետազոտողները մեկնաբանում են.

«Ալգորիթմական աշխատանքի ընդունման համատեքստում այս արդյունքները ենթադրում են, որ եթե վերապատրաստման տվյալները կատարյալ անաչառ չեն, նույնիսկ պարզ NLP մոդելները կսովորեն տարբերակել սեռը ռեզյումեներից և տարածել կողմնակալություն ներքևում»:

Հեղինակները ենթադրում են, որ չկա օրինական AI-ի վրա հիմնված լուծում «ապագենդերային» ռեզյումեների համար աշխատանքի ընդունման գործնական խողովակաշարում, և որ մեքենայական ուսուցման մեթոդները, որոնք ակտիվորեն կիրառում են արդար վերաբերմունքը, ավելի լավ մոտեցում են աշխատանքի շուկայում գենդերային կողմնակալության խնդրին:

AI-ի առումով սա համարժեք է «դրական խտրականության», որտեղ գենդերային բացահայտման ռեզյումեներն ընդունվում են որպես անխուսափելի, բայց վերադասավորումն ակտիվորեն կիրառվում է որպես հավասարության միջոց: Առաջարկվել են նման բնույթի մոտեցումներ LinkedIn-ի կողմից 2019 թվականին և հետազոտողներ Գերմանիայից, Իտալիայից և Իսպանիայից ի 2018.

The թուղթ վերնագրված է Գենդերային լեզուն ռեզյումեներում և դրա հետևանքները աշխատանքի ընդունելու ալգորիթմական կողմնակալության համար, և գրված է Պրասաննա Պարասուրամայի կողմից՝ NYU Stern Business School-ի տեխնոլոգիայի, գործառնությունների և վիճակագրության բաժնից, և Ժոաո Սեդոկը՝ Stern-ի տեխնոլոգիայի, գործառնությունների և վիճակագրության ասիստենտ:

Գենդերային կողմնակալություն աշխատանքի ընդունելու հարցում

Հեղինակները շեշտում են այն մասշտաբը, որով աշխատանքի ընդունման ընթացակարգերում գենդերային կողմնակալությունը դառնում է բառացիորեն համակարգված, երբ HR մենեջերները օգտագործում են առաջադեմ ալգորիթմական և մեքենայական ուսուցման վրա հիմնված «սկրինինգ» գործընթացներ, որոնք հավասար են AI-ի կողմից սեռի հիման վրա մերժմանը:

Հեղինակները մեջբերում են Amazon-ում աշխատանքի ընդունման ալգորիթմի դեպքը, որը եղել է ցույց 2018 թվականին կին թեկնածուներին բացահայտ կերպով մերժել է, քանի որ իմացել է, որ պատմականորեն տղամարդիկ ավելի հավանական է աշխատանքի ընդունվել

«Մոդելը աշխատանքի ընդունման պատմական տվյալների միջոցով իմացել էր, որ տղամարդիկ ավելի հավանական է աշխատանքի ընդունվելու, և, հետևաբար, տղամարդկանց ռեզյումեներն ավելի բարձր են գնահատել, քան կանանց ռեզյումեները:

«Թեև թեկնածուի սեռը հստակորեն ներառված չէր մոդելում, այն սովորեց տարբերակել տղամարդու և իգական սեռի ռեզյումեները՝ հիմնվելով ռեզյումեներում առկա գենդերային տեղեկատվության վրա. օրինակ, տղամարդիկ ավելի հավանական էին օգտագործել այնպիսի բառեր, ինչպիսիք են «մահապատժի ենթարկված» և «գերված»:

Բացի այդ, 2011 թվականի հետազոտությունը պարզել է, որ աշխատանքի գովազդները, որոնք անուղղակիորեն փնտրում են տղամարդիկ բացահայտորեն գրավել նրանց, ինչպես նաև խրախուսել կանանց դիմել այդ պաշտոնի համար: Թվայնացումը և մեծ տվյալների սխեմաները խոստանում են այս պրակտիկան ավելի ամրագրել ավտոմատացված համակարգերում, եթե սինդրոմը ակտիվորեն չվերացվի:

Ամսաթիվ

NYU-ի հետազոտողները վերապատրաստել են մի շարք մոդելներ սեռը դասակարգելու համար՝ օգտագործելով կանխատեսող մոդելավորում: Նրանք նաև փորձեցին պարզել, թե որքանով է մոդելների սեռը կանխատեսելու կարողությունը կարող է գոյատևել ավելի ու ավելի մեծ քանակությամբ պոտենցիալ գենդերային տեղեկատվության հեռացումից՝ միաժամանակ փորձելով պահպանել հավելվածին համապատասխան բովանդակությունը:

Տվյալների հավաքածուն կազմվել է ԱՄՆ-ում գործող ութ ՏՏ ընկերությունների դիմորդների ռեզյումեներից, որոնցից յուրաքանչյուրի ռեզյումեն ուղեկցվում է անվանման, սեռի, տարիների փորձի, մասնագիտության կամ ուսումնասիրության ոլորտների և նպատակային աշխատանքի հրապարակման մասին, որի համար ռեզյումեն ուղարկվել է: .

Այս տվյալներից ավելի խորը համատեքստային տեղեկատվություն հանելու համար վեկտորային ներկայացման տեսքով, հեղինակները վարժեցրել են Word2Vec մոդելը: Այնուհետև սա վերլուծվեց նշանների և զտվեց, վերջապես լուծվեց յուրաքանչյուր ռեզյումեի համար մեկ ներկառուցված ներկայացման մեջ:

Տղամարդկանց և իգական սեռի նմուշները համընկել են 1-1 հաշվով, և ենթաբազմությունը ստացվել է՝ զուգավորելով օբյեկտիվորեն աշխատանքին համապատասխան լավագույն արական և իգական սեռի թեկնածուներին՝ 2 տարվա սխալի սահմանով՝ իրենց ոլորտում փորձի առումով: Այսպիսով, տվյալների բազան բաղկացած է 174,000 արական և 174,000 իգական ռեզյումեներից:

Ճարտարապետություն և գրադարաններ

Դասակարգման առաջադրանքի համար օգտագործված երեք մոդելներն էին Ժամկետային հաճախականություն-Հակադարձ փաստաթղթի հաճախականություն (TF-IDF) + Լոգիստիկ, Word Embeddings + Logistic, and Longformer.

Առաջին մոդելն առաջարկում է բառերի փաթեթ, որը տարբերակում է սեռը՝ հիմնվելով բառապաշարի տարբերությունների վրա: Երկրորդ մոտեցումը կիրառվել է ինչպես վաճառվող բառերի ներդրման համակարգով, այնպես էլ գենդերային կողմնակալ բառերի ներկառուցումներ.

Տվյալները բաժանվել են 80/10/10 ուսուցման, գնահատման և թեստավորման միջև,

Ինչպես երևում է վերևում ցուցադրված արդյունքներից, տրանսֆորմատորի վրա հիմնված Longformer գրադարանը, որը զգալիորեն ավելի բարդ է, քան նախկին մոտեցումները, գրեթե կարողացել է հավասարեցնել բոլորովին «անպաշտպան» ռեզյումեն՝ սեռը հայտնաբերելու ունակության տեսանկյունից, որոնք ակտիվորեն զրկված էին փաստաթղթերից: հայտնի գենդերային նույնացուցիչներ.

Կատարված փորձերը ներառում էին տվյալների աբլյացիայի ուսումնասիրություններ, որտեղ գենդերային բացահայտող տեղեկատվության աճող քանակությունը հանվել է ռեզյումեներից, և մոդելները փորձարկվել են այս ավելի լռակյաց փաստաթղթերի դեմ:

Հեռացված տեղեկատվությունը ներառում էր հոբբիներ (չափանիշ, որը բխում է Վիքիպեդիայի «հոբբիների» սահմանումից), LinkedIn ID-ներ և URL-ներ, որոնք կարող են բացահայտել սեռը: Բացի այդ, «եղբայրություն», «մատուցողուհի» և «վաճառող» տերմինները հանվել են այս սակավ տարբերակներում:

Լրացուցիչ արդյունքներ

Ի լրումն վերը քննարկված արդյունքների, NYU-ի հետազոտողները պարզել են, որ շեղված բառերի ներդրումը չի նվազեցնում սեռը կանխատեսելու մոդելների կարողությունը: Հեղինակները հոդվածում ակնարկում են, թե որքանով է սեռը ներթափանցում գրավոր լեզվով, նշելով, որ այդ մեխանիզմներն ու նշանակիչները դեռ լավ ընկալված չեն: