stubbur Ferilskrár umsækjenda eru í raun ómögulegar að afgreina kyn, AI vísindamenn finna - Unite.AI
Tengja við okkur

Artificial Intelligence

Ferilskrár umsækjenda eru í raun ómögulegar að afgreina kyn, AI vísindamenn finna

mm
Uppfært on

Vísindamenn frá New York háskóla hafa komist að því að jafnvel mjög einföld náttúruleg tungumálavinnsla (NLP) líkön eru mjög fær um að ákvarða kyn umsækjanda út frá „kynstriptri“ ferilskrá – jafnvel í þeim tilvikum þar sem vélanámsaðferðir hafa verið notaðar til að fjarlægja allar kynjavísar úr skjalinu.

Í framhaldi af rannsókn sem fól í sér vinnslu á 348,000 vel samsvöruðum ferilskrám karla og kvenna, álykta rannsakendur:

„[Það] er umtalsvert magn af kynbundnum upplýsingum í ferilskrám. Jafnvel eftir verulegar tilraunir til að hylja kyn úr ferilskrá, getur einfalt Tf-Idf líkan lært að greina á milli [kynja]. Þetta staðfestir með reynslu áhyggjum af líkönum sem læra að mismuna kyni og breiða út hlutdrægni í þjálfunargögnum niðurstreymis.'

Niðurstaðan hefur ekki þýðingu vegna þess að það er raunhæft mögulegt að fela kyn í skimunar- og viðtalsferlinu (sem hún er greinilega ekki), heldur frekar vegna þess að það að komast á það stig getur falið í sér gervigreindargagnrýni á ferilskrána án manneskju. the-loop – og HR AI hefur öðlast gott orðspor fyrir kynjahlutdrægni á undanförnum árum.

Niðurstöður úr rannsókn rannsakenda sýna fram á hversu seigur kynið er gagnvart tilraunum til þokunar:

Niðurstöður úr NYU blaðinu. Heimild: https://arxiv.org/pdf/2112.08910.pdf

Niðurstöður úr NYU blaðinu. Heimild: https://arxiv.org/pdf/2112.08910.pdf

Niðurstöðurnar hér að ofan nota 0-1 Svæði undir rekstrareinkenni móttakara (AUROC) mæligildi, þar sem '1' táknar 100% vissu um kynjagreiningu. Taflan nær yfir átta tilraunir.

Jafnvel í verstu niðurstöðunum (tilraunir #7 og #8), þar sem ferilskrá hefur verið svipt svo alvarlega kyngreinandi upplýsingum að þær eru ónothæfar, er einfalt NLP líkan eins og Word2Vec er enn fær um nákvæma kyngreiningu sem nálgast 70%.

Rannsakendur segja:

"Innan reiknirit ráðningar samhengi, þessar niðurstöður gefa til kynna að nema þjálfun gögn séu fullkomlega hlutlaus, jafnvel einföld NLP líkön munu læra að greina kyn frá ferilskrám, og breiða út hlutdrægni niðurstreymis."

Höfundarnir gefa í skyn að engin lögmæt gervigreindarlausn sé til fyrir „af-kynja“ ferilskrár í raunhæfri ráðningarleiðsögn og að vélanámsaðferðir sem framfylgja virkri sanngirni meðhöndlunar séu betri nálgun á vandamáli kynjahlutdrægni á vinnumarkaði.

Í gervigreindum skilmálum jafngildir þetta „jákvæðri mismunun“, þar sem kynvísandi ferilskrár eru samþykktar sem óumflýjanlegar, en endurröðun er virk beitt sem jafnréttisráðstöfun. Lagðar hafa verið fram aðferðir af þessu tagi af LinkedIn árið 2019, og vísindamenn frá Þýskalandi, Ítalíu og Spáni í 2018.

The pappír er titill Kynbundið tungumál í ferilskrám og afleiðingar þess fyrir reikniritmismun í ráðningum, og er skrifað af Prasanna Parasurama, frá tækni-, rekstrar- og tölfræðideild NYU Stern Business School, og João Sedoc, lektor í tækni, rekstri og tölfræði við Stern.

Kynjahlutdrægni í ráðningum

Höfundarnir leggja áherslu á þann mælikvarða sem kynjahlutdrægni í ráðningarferlum er að verða bókstaflega kerfisbundin, þar sem starfsmannastjórar nota háþróaða reiknirit og vélanámsdrifið „skimun“ ferli sem jafngildir gervigreindum höfnun byggða á kyni.

Höfundarnir vitna í dæmi um ráðningaralgrím hjá Amazon sem var ljós árið 2018 til að hafa hafnað kvenkyns umsækjendum af óþökkum vegna þess að það hafði komist að því að sögulega séð voru karlar líklegri til að vera ráðnir

„Módelið hafði lært með sögulegum ráðningargögnum að karlar væru líklegri til að vera ráðnir, og því metið ferilskrár karla hærra en ferilskrár kvenna.

„Þrátt fyrir að kyn umsækjanda hafi ekki verið tekið beinlínis með í líkaninu, lærði það að greina á milli karlkyns og kvenkyns ferilskráa út frá kynbundnum upplýsingum í ferilskránni – til dæmis voru karlar líklegri til að nota orð eins og „afprúður“ og „fangaður“.

Auk þess komu rannsóknir frá 2011 í ljós að atvinnuauglýsingar sem óbeint leita að karlmönnum laða þá sérstaklega að, og að sama skapi letja konur frá því að sækja um embættið. Stafræn kerfi og stór gagnakerfi lofa að festa þessar venjur enn frekar í sjálfvirk kerfi, ef ekki er tekið virkan bót á heilkenninu.

Gögn

Rannsakendur NYU þjálfuðu röð líkana til að flokka kyn með því að nota forspárlíkön. Þeir reyndu að auki að komast að því hversu vel getu líkananna til að spá fyrir um kyn gæti lifað af því að fjarlægja meira og meira magn af mögulega kynuppljósandi upplýsingum, á meðan reynt var að varðveita efni sem tengist forritinu.

Gagnapakkningin var unnin úr hópi umsækjenda ferilskráa frá átta bandarískum upplýsingatæknifyrirtækjum, þar sem hverri ferilskrá fylgdu upplýsingar um nafn, kyn, ára reynslu, sérfræðisvið eða nám og markstarfslýsinguna sem ferilskráin var send fyrir. .

Til að draga dýpri samhengisupplýsingar úr þessum gögnum í formi vektorframsetningar, þjálfuðu höfundarnir Word2Vec líkan. Þetta var síðan flokkað í tákn og síað, að lokum leyst upp í eina innbyggða framsetningu fyrir hverja ferilskrá.

Karlar og kvenkyns úrtak voru pöruð 1-1, og hlutmengi fengin með því að para saman bestu hlutlægu starfshæfu karl- og kvenkyns umsækjendur, með 2 ára skekkjumörk, miðað við reynslu á sínu sviði. Þannig samanstendur gagnasafnið af 174,000 ferilskrám karla og 174,000 kvenna.

Arkitektúr og bókasöfn

Módelin þrjú sem notuð voru fyrir flokkunarverkefnið voru Term Frequency-Inverse Document Frequency (TF-IDF) + Logistic, Word Embeddings + Logistic, og Longformer.

Fyrsta líkanið býður upp á poka af orðum grunnlínu sem mismunar kyni á grundvelli orðasafnsmuns. Önnur aðferðin var notuð bæði með orðainnfellingarkerfi sem er ekki í hillunni og með kynbundin orðaskipting.

Gögnunum var skipt 80/10/10 á milli þjálfunar, mats og prófunar,

Eins og sést á niðurstöðunum sem sýndar eru hér að ofan, gat spenni-undirstaða Longformer bókasafnið, einkum flóknara en fyrri aðferðir, næstum jafnað algjörlega „óvarið“ ferilskrá hvað varðar getu þess til að greina kyn úr skjölum sem höfðu verið svipt af virkum hætti. þekkt kynauðkenni.

Tilraunirnar sem gerðar voru innihéldu gagnaeyðingarrannsóknir, þar sem sífellt meira magn af kynupplýsingum var fjarlægt úr ferilskránum og líkönin prófuð gegn þessum þögulli skjölum.

Upplýsingar sem voru fjarlægðar voru meðal annars áhugamál (viðmið sem er dregið af skilgreiningu Wikipedia á „áhugamálum“), LinkedIn auðkenni og vefslóðir sem gætu leitt í ljós kyn. Að auki voru hugtök eins og „bræðralag“, „þjónn“ og „sölumaður“ fjarlægð í þessum fádæma útgáfum.

Viðbótarniðurstöður

Til viðbótar við niðurstöðurnar sem ræddar eru hér að ofan komust vísindamenn NYU að því að hlutdræg orðainnfelling minnkaði ekki getu líkananna til að spá fyrir um kyn. Í greininni gefa höfundar í skyn að hve miklu leyti kyn gegnsýrir ritað mál, og taka fram að þessi kerfi og merkingar eru enn ekki vel skilin.