Хиймэл оюун

Ажил горилогчийн анкетыг хүйсээр ялгах боломжгүй гэж AI судлаачид тогтоожээ.

шинэчлэгдсэн on Арванхоёрдугаар сар 9, 2022

Нью-Йоркийн их сургуулийн судлаачид маш энгийн Байгалийн хэл боловсруулах (NLP) загварууд ч гэсэн "хүйсийг нь хассан" анкетаас ажил горилогчийн хүйсийг тодорхойлох чадвартай болохыг тогтоожээ. баримт бичгийн бүх хүйсийн үзүүлэлтүүд.

348,000 эрэгтэй/эмэгтэйн анкетыг сайтар боловсруулсан судалгааны үр дүнд судлаачид дараах дүгнэлтэд хүрсэн байна.

'[Энд] анкетуудад жендэрийн талаарх ихээхэн хэмжээний мэдээлэл байдаг. Анкетаас жендэрийг нуун дарагдуулах томоохон оролдлогуудын дараа ч энгийн Tf-Idf загвар нь [хүйсийг] ялгаж сурах боломжтой. Энэ нь хүйсийг ялгаварлан гадуурхаж сурсан загвар өмсөгчдийн талаарх санаа зовнилыг эмпирик байдлаар баталгаажуулж, сургалтын доод талын мэдээлэлд өрөөсгөл хандлагыг түгээх болно.'

Шинжилгээ, ярилцлагын явцад хүйсийг нуух нь бодитой байж болох тул (энэ нь тийм биш нь ойлгомжтой) биш, харин зүгээр л энэ шатанд ороход хүний оролцоогүйгээр анкетийг хиймэл оюун ухаанд суурилсан шүүмжлэлд хамрагдах боломжтой учраас энэ дүгнэлт чухал ач холбогдолтой юм. the-loop – болон HR AI нь сүүлийн жилүүдэд хүйсийн ялгаварлан гадуурхсан нэр хүндийг олж авсан.

Эрдэмтдийн судалгааны үр дүнгээс харахад жендэр нь төөрөгдүүлэх оролдлогод хэр тэсвэртэй болохыг харуулж байна.

NYU баримт бичгийн үр дүн. Эх сурвалж: https://arxiv.org/pdf/2112.08910.pdf

Дээрх илэрцүүд нь 0-1-ийг ашигладаг Хүлээн авагчийн доорх талбайн үйл ажиллагааны онцлог (AUROC) хэмжигдэхүүн, '1' нь хүйсийг тодорхойлох 100% баталгааг илэрхийлдэг. Хүснэгтэд найман туршилтыг багтаасан болно.

Хамгийн муу үр дүнтэй (туршилт № 7 ба 8) ч анкет нь хүйсийг тодорхойлох мэдээллээс ихээхэн хасагдсан тул ашиглах боломжгүй бол NLP-ийн энгийн загвар. Word2Vec 70%-д ойртож буй хүйсийг үнэн зөв тодорхойлох чадвартай хэвээр байна.

Судлаачид дараах тайлбарыг өгч байна.

"Ажилд авах алгоритмын хүрээнд эдгээр үр дүн нь сургалтын өгөгдөл нь туйлын шударга бус байхаас нааш энгийн NLP загварууд ч гэсэн анкетаас хүйсийг ялгаж сурна гэсэн үг юм."

Зохиогчид "хүйсийг нь ялгах"-ыг сэргээхэд хиймэл оюун ухаанд суурилсан хууль ёсны шийдэл байдаггүй бөгөөд шударга харилцааг идэвхтэй хэрэгжүүлдэг машин сургалтын техник нь хөдөлмөрийн зах зээл дэх хүйсийн ялгавартай байдлын асуудалд илүү сайн ханддаг гэж үзэж байна.

AI-ийн хувьд энэ нь "эерэг ялгаварлан гадуурхалт"-тай дүйцэхүйц бөгөөд жендэрийг илчилсэн анкетыг зайлшгүй гэж хүлээн зөвшөөрдөг боловч дахин эрэмбэлэхийг тэгшитгэх арга хэмжээ болгон идэвхтэй ашигладаг. Энэ төрлийн арга барилыг санал болгосон LinkedIn-ээр 2019 онд Герман, Итали, Испанийн судлаачид 2018 нь.

The цаасан гэсэн гарчигтай Анкет дахь хүйсийн хэллэг ба түүний ажилд авахдаа алгоритмын гажуудалд үзүүлэх нөлөө, NYU Stern Business School-ийн Технологи, үйл ажиллагаа, статистикийн тэнхимийн Прасанна Парасурама болон Стерн дэх Технологи, үйл ажиллагаа, статистикийн туслах профессор Жоао Седок нар бичсэн.

Ажилд авахдаа хүйсийн ялгаа

Зохиогчид ажилд авах журамд жендэрийн өрөөсгөл хандлагыг шууд утгаараа системчилж, хүний нөөцийн менежерүүд дэвшилтэт алгоритмын болон машин сургалтад тулгуурласан "шалгах" процессуудыг ашигладаг бөгөөд энэ нь жендэрт суурилсан хиймэл оюун ухаанаас татгалзахад хүргэдэг болохыг онцолж байна.

Зохиогчид Amazon дахь ажилд авах алгоритмын жишээг иш татав илчлэгдсэн 2018 онд эрэгтэйчүүдийг ажилд авах магадлал өндөр байсныг мэдсэн учраас эмэгтэй нэр дэвшигчдээс татгалзсан.

"Загвар өмсөгч нь ажилд авсан түүхэн мэдээллээс харахад эрэгтэйчүүд ажилд орох магадлал өндөр байдаг тул эрэгтэй хүний анкетыг эмэгтэй хүний анкетаас өндөр үнэлдэг байсан.

"Хэдийгээр нэр дэвшигчийн хүйсийг загварт тодорхой тусгаагүй ч намтар дахь хүйсийн мэдээлэлд үндэслэн эрэгтэй, эмэгтэй анкетыг ялгаж сурсан - жишээлбэл, эрчүүд "цаазлагдсан", "барьсан" гэх мэт үгсийг илүү их ашигладаг байсан.'

Нэмж дурдахад 2011 оны судалгаагаар эрэгтэйчүүдийг далд хэлбэрээр хайж буй ажлын зар сурталчилгааг олж мэдсэн тэднийг илт татах, мөн түүнчлэн эмэгтэйчүүдийг албан тушаалд өргөдөл гаргахаас татгалз. Хэрэв синдромыг идэвхтэй арилгахгүй бол дижиталчлал болон том өгөгдлийн схемүүд нь эдгээр туршлагыг автоматжуулсан системд цаашид нэвтрүүлэхээ амлаж байна.

Өгөгдөл

NYU-ийн судлаачид урьдчилан таамаглах загварчлалыг ашиглан хүйсийг ангилах хэд хэдэн загварыг сургасан. Түүнчлэн, загвар өмсөгчдийн жендэрийг урьдчилан таамаглах чадвар нь жендэрийг илчлэх боломжтой мэдээллийг устгахад хэр зэрэг сайн байж болохыг тогтоохыг хичээсэн бөгөөд энэ нь програмд хамаарах агуулгыг хадгалахыг оролдсон.

Мэдээллийн багцыг АНУ-д төвтэй найман мэдээллийн технологийн компанийн өргөдөл гаргагчийн анкетаас авсан бөгөөд анкет тус бүрд нэр, хүйс, ажилласан жил, мэргэшсэн мэргэжил, суралцсан чиглэл, анкет илгээсэн зорилтот ажлын зарын дэлгэрэнгүй мэдээллийг агуулсан болно. .

Энэхүү өгөгдлөөс вектор дүрслэл хэлбэрээр илүү гүнзгий контекст мэдээллийг гаргаж авахын тулд зохиогчид Word2Vec загварыг сургасан. Дараа нь үүнийг жетон болгон задлан шүүж, эцэст нь анкет бүрийн нэг агуулагдсан дүрслэл болгон шийдэв.

Эрэгтэй, эмэгтэй дээжийг 1-1-ээр тааруулж, тухайн салбарт ажилласан туршлагын хувьд 2 жилийн алдааны зөрүүтэй, хамгийн сайн бодитой ажилд тохирсон эрэгтэй, эмэгтэй нэр дэвшигчдийг хослуулах замаар дэд олонлогийг олж авсан. Тиймээс өгөгдлийн багц нь 174,000 эрэгтэй, 174,000 эмэгтэй анкетаас бүрддэг.

Архитектур ба номын сан

Ангиллын даалгаварт ашигласан гурван загвар нь нэр томьёоны давтамж-урвуу баримт бичгийн давтамж (TF-IDF) + логистикийн, Word Embeddings + Logistic, болон Урт наслагч.

Эхний загвар нь үг хэллэгийн ялгаан дээр үндэслэн хүйсийг ялгаварласан үгийн багцыг санал болгодог. Хоёрдахь аргыг бэлэн үг оруулах систем болон хамт ашигласан хүйсээр ялгаварлан гадуурхсан үг оруулах.

Мэдээллийг сургалт, үнэлгээ, туршилтын хооронд 80/10/10 хуваасан.

Дээр үзүүлсэн үр дүнгээс харахад трансформаторт суурилсан Longformer номын сан нь өмнөх аргуудаас илүү боловсронгуй болсон нь идэвхтэйгээр хасагдсан баримт бичгүүдээс хүйсийг илрүүлэх чадвараараа "хамгаалалтгүй" анкеттай бараг тэнцэх боломжтой болсон. мэдэгдэж байгаа хүйсийн тодорхойлогч.

Гүйцэтгэсэн туршилтууд нь анкетаас жендэрийг илчилсэн мэдээллийг хассан өгөгдөл-абляцийн судалгааг багтаасан бөгөөд эдгээр илүү нам гүм баримт бичгүүдийн эсрэг туршиж үзсэн загварууд юм.

Хассан мэдээлэлд хобби (Википедиагийн "хобби" гэсэн тодорхойлолтоос авсан шалгуур), LinkedIn ID болон хүйсийг илтгэж болох URL-ууд багтсан. Нэмж дурдахад эдгээр сийрэг хувилбаруудад "ахан дүүс", "зөөгч", "худалдагч" гэх мэт нэр томъёог хассан.

Нэмэлт үр дүн

Дээр дурдсан үр дүнгээс гадна Нью-Йоркийн их сургуулийн судлаачид үг хэллэгийг бүдгэрүүлсэн нь загвар өмсөгчдийн хүйсийг урьдчилан таамаглах чадварыг бууруулаагүй болохыг тогтоожээ. Уг нийтлэлд зохиолчид жендэр нь бичгийн хэлэнд хэр зэрэг нэвтэрч байгааг дурдаж, эдгээр механизм, тэмдэглэгээг хараахан сайн ойлгоогүй байгааг тэмдэглэжээ.

Дараа хүртэл

Utilidata, NVIDIA Smart Grid Chip дээр хамтран ажиллана

Бүү саад бол

NLP загварууд рекурсив нэр үг хэллэгийг ойлгоход бэрхшээлтэй байдаг

Мартин Андерсон

Машин сургалт, хиймэл оюун ухаан, том өгөгдлийн талаар зохиолч.
Хувийн сайт: martinanderson.ai
Холбоо барих: [имэйлээр хамгаалагдсан]
Twitter: @manders_ai

Unite.AI

Ажил горилогчийн анкетыг хүйсээр ялгах боломжгүй гэж AI судлаачид тогтоожээ.

Хиймэл оюун