Îstîxbaratê ya sûnî

Lêkolînerên AI-ê Dibînin

Demê on December 9, 2022

Lekolînwanên ji Zanîngeha New Yorkê dîtin ku tewra modelên Pêvajoya Zimanê Xwezayî (NLP) yên pir sade jî dikarin cinsê serlêderê kar ji rezûmayek 'ji zayendî veqetandî' diyar bikin - tewra di rewşên ku rêbazên fêrbûna makîneyê ji bo jêbirinê hatine bikar anîn. hemî nîşaneyên zayendî ji belgeyê.

Li dû lêkolînek ku tev li pêvajokirina 348,000 rezûmayên mêr / mê yên baş lihevhatî bûn, lêkolîner encam didin:

'[Di resume de] hejmareke girîng a agahdariya zayendî heye. Tewra piştî hewildanên girîng ji bo venegerandina zayendê ji nûvekirinê, modelek Tf-Idf ya sade dikare fêrî cûdakirina [zayendên] bike. Ev yek bi awayekî ampîrîk fikarên der barê modelên ku fêrî cudakirina zayendê û belavkirina alîgiriyê di daneyên perwerdehiyê yên jêrzemînê de dibin rast dike.'

Girîngiya vedîtinê ne ji ber ku bi rastî gengaz e ku meriv zayenda xwe di dema prosesa pêşandan û hevpeyivînê de veşêre (ku ew eşkere ne wusa ye), lê ji ber ku tenê gihîştina wê qonaxê dibe ku rexneyek bingehîn a AI-ê li ser resume-yê bêyî mirov-di- veşêre. the-loop - û HR AI di van salên dawî de ji bo alîgiriya zayendî navûdengek xirab bi dest xistiye.

Encamên ji lêkolîna lêkolîneran destnîşan dikin ka zayenda civakî çiqasî berxwedêr e li hember hewildanên nepenîtiyê:

Encamên ji kaxeza NYU. Çavkanî: https://arxiv.org/pdf/2112.08910.pdf

Encamên li jor 0-1 bikar tînin Qada Di bin Taybetmendiya Xebatê ya Receiver de (AUROC) metrîk, ku '1' piştrastiyek 100% ya nasnameya zayendî nîşan dide. Tablo ji heşt ceribandinan pêk tê.

Tewra di encamên herî xirab de jî (ceribandinên #7 û #8), li cihê ku rezûmeyek ew qas ji agahdariya nasandina zayendê ew qas ku nayê bikar anîn de hatî qut kirin, modelek NLP-ya hêsan a mîna Word2Vec hîn jî karibe nasnameyek rast a zayendî ya ku ji %70 nêzîk dibe.

Lêkolîner şîrove dikin:

"Di çarçoveya kirêkirina algorîtmîkî de, ev encam tê vê wateyê ku heya ku daneyên perwerdehiyê bi tevahî bêalî nebin, tewra modelên NLP yên sade jî dê fêr bibin ku zayenda ji nûvekirinê veqetînin, û bertengiya jêrîn belav bikin."

Nivîskar destnîşan dikin ku çareseriyek rewa ya bingehîn a AI-ê ji bo ji nû ve 'jihevdexistinê' di lûleyek kirêkirinê ya pratîkî de tune, û ku teknîkên fêrbûna makîneyê ku bi aktîvî muameleya dadperwerane bicîh dikin, nêzîkatiyek çêtir in ji bo pirsgirêka nelirêtiya zayendî ya li bazara kar.

Di warê AI-ê de, ev yek bi 'cudakariya erênî' re ye, ku li wir resume-yên eşkerekirina zayendê wekî neçarî têne pejirandin, lê ji nû ve rêzkirin bi rengek çalak wekî pîvanek wekhevî tê sepandin. Nêzîkatiyên bi vî rengî hatine pêşniyarkirin ji hêla LinkedIn di sala 2019 de, û lêkolînerên ji Almanya, Îtalya û Spanya li 2018.

Ew kaxez sernavkirî ye Di Resumes de Zimanê Zayendî û Encamên Wê Ji Bo Biasiya Algorîtmîkî ya Di Kirêkirinê de, û ji hêla Prasanna Parasurama ve, ji beşa Teknolojî, Operasyonên û Statîstîkan li Dibistana Karsaziya NYU Stern, û João Sedoc, Alîkarê Profesorê Teknolojî, Operasyonên û Statîstîkan li Stern, hatî nivîsandin.

Biasiya Zayendî di Kirêkirinê de

Nivîskar balê dikişînin ser pîvana ku di prosedurên kirêdariyê de birêkûpêkiya zayendî bi rastî bi pergal dibe, digel ku rêveberên HR pêvajoyên 'paşvegirtinê' yên algorîtmîkî yên pêşkeftî û fêrbûna makîneyê bikar tînin ku li gorî zayendê redkirina AI-çalakkirî ye.

Nivîskar doza algorîtmayek kirêkirinê li Amazon-ê vedibêjin eşkere di sala 2018'an de namzetên jin bi rengekî rêzdar red kiribûn ji ber ku hîn bûbûn ku di dîrokê de îhtîmal e ku mêr bêtir werin kar kirin.

"Model bi daneyên kirêdariyê yên dîrokî fêr bû ku mêr bêtir bi kar têne girtin, û ji ber vê yekê resûmayên mêr ji rezûmayên jinan bilindtir nirxand.

"Tevî ku zayenda namzedê bi eşkereyî di modelê de nehatibe kirin jî, ew fêr bû ku li gorî agahdariya zayendî ya di rezûmeyan de cudahiyê bixe navbera rezûmenên nêr û mê de - mînakî, mêr pirtir peyvên wekî "îdamkirin" û "girtin" bikar tînin.'

Wekî din, lêkolînek ji 2011-an dît ku reklamên kar ên ku bi nepenî li mêran digerin eşkere wan dikişîne, û bi heman awayî jinan ji serîlêdana postê dûr dixe. Dijîtalkirin û şemayên daneya mezin soz didin ku heke sendrom bi rengek çalak neyê sererast kirin dê van pratîkan di pergalên otomatîkî de bêtir binav bikin.

Jimare

Lekolînwanên NYU rêzek modelan perwerde kirin da ku zayendî bi karanîna modela pêşbînîker dabeş bikin. Wekî din, wan hewil da ku destnîşan bikin ka kapasîteya modelan a pêşbînkirina zayendê çiqasî baş dikare ji rakirina rêjeyên mezin û mezintir ên agahdariya potansiyel-aşkerekirina zayendê rizgar bike, di heman demê de hewl didin ku naveroka têkildar bi serîlêdanê biparêzin.

Danegeh ji laşê rezûmayên serlêder ji heşt pargîdaniyên IT-yê yên bingeh-DY-yê hatî kişandin, digel her resumeyekê hûrguliyên nav, zayend, sal ezmûn, qada pisporî an xwendinê, û posta kar a mebesta ku jê re rezûme hatiye şandin, pê re ye. .

Ji bo ku ji van daneyan di forma nûneriya vektorê de agahdariya kûrtirîn derxînin, nivîskaran modelek Word2Vec perwerde kirin. Dûv re ev di nav tokenan de hate pars kirin û fîlter kirin, di dawiyê de ji bo her rezûmeyê di yek nûnertiyek vegirtî de hate çareser kirin.

Nimûneyên nêr û mê 1-1 li hev hatin, û binecivînek bi berhevkirina namzedên mêr û jin ên herî baş ên objektîf ên kar, bi 2 sal xeletiya xeletiyê, di warê ezmûna di warê xwe de, hate bidestxistin. Bi vî rengî danehev ji 174,000 rezûmeyên mêr û 174,000 jin pêk tê.

Mîmarî û Pirtûkxane

Sê modelên ku ji bo peywira dabeşkirinê hatine bikar anîn ev bûn Frequency Term-Frequency Document Inverse (TF-IDF+ Lojîstîk, Peyv Embeddings + Lojîstîk, û Longformer.

Modela yekem rêzek bingehîn a çenteyê peyvan pêşkêşî dike ku zayendê li ser bingeha cûdahiyên ferhengî cuda dike. Nêzîkatiya duyemîn hem bi pergalek veguheztina peyvan a ji-heftê re, hem jî bi kar dihat bicîkirina peyvên zayendperest.

Daneyên 80/10/10 di navbera perwerde, nirxandin û ceribandinê de hate dabeş kirin,

Wekî ku di encamên ku li jor hatine xuyang kirin de, pirtûkxaneya Longformer-based transformer, bi taybetî ji nêzîkatiyên berê sofîstîketir, hema hema dikaribû resumeyek bi tevahî 'neparastî' di warê kapasîteya wê ya tesbîtkirina zayenda ji belgeyên ku bi rengekî çalak ji wan hatî derxistin re wekhev bike. nasnameyên zayendî yên naskirî.

Tecrûbeyên ku hatine kirin lêkolînên dane-ablationê hene, ku tê de hejmareke zêde ya agahdariya eşkerekirina zayendê ji resumeyan hate derxistin, û modelên ku li dijî van belgeyên bêtir nerazî hatine ceribandin.

Agahiyên jêbirin hobî (pîvanek ji pênaseya 'hobî' ya Wîkîpediya'yê hatiye wergirtin), Nasnameyên LinkedIn, û URLên ku dibe ku zayendê diyar bikin hene. Wekî din, di van guhertoyên sparser de peyvên wekî 'biratî', 'garsoner', û 'firotanê' hatin derxistin.

Encamên Additional

Ji bilî encamên ku li jor hatine nîqaş kirin, lêkolînerên NYU dîtin ku bicîhkirina peyvan a nerast kapasîteya modelan a pêşbînkirina zayendê kêm nake. Di gotarê de, nivîskaran amaje dikin ku cins çiqasî di zimanê nivîskî de derbas dibe û destnîşan dikin ku ev mekanîzma û nîşanker hîna baş nehatine fêm kirin.