onderhoude

Nitin Madnani, Senior Navorsingswetenskaplike by ETS – Onderhoudreeks

Opgedateer on Desember 9, 2022

Nitin Madnan is 'n senior navorsingswetenskaplike by die Natuurlike Taalverwerking (NLP) navorsingsgroep by die Opvoedkundige toetsdiens (ETS). ETS is in 1947 gestig en is die wêreld se grootste private nie-winsgewende opvoedkundige toets- en assesseringsorganisasie.

Kan jy begin deur te verduidelik wat die missie van ETS is?

ETS se missie is om kwaliteit en gelykheid in onderwys vir alle leerders wêreldwyd te bevorder. Hierdie missie lê ten grondslag aan ons produkte, dienste, navorsing en ontwikkelingspogings met die doel om leer te bevorder, onderwys, professionele ontwikkeling te ondersteun en kennis en vaardighede vir almal te meet.

Ons glo dat enigiemand, enige plek 'n verskil in hul lewens kan maak deur leer en ETS se werk oor navorsing, assessering, meting en beleid kan 'n belangrike rol speel om daardie leer moontlik te maak.

Wat is dit aan NLP wat jou so passievol het?

Alle menslike tale is so pragtig kompleks en morsig. Hulle laat ons toe om 'n reeks emosies in ons spraak en selfs in ons skryfwerk uit te druk en hulle ontwikkel mettertyd. Aan die ander kant is 'n rekenaar so deterministies en klinies in die verwerking van sy insette. Natural Language Processing (NLP) is 'n gebied van kunsmatige intelligensie wat probeer om hierdie uiters nie-menslike toestel die pragtige kompleksiteite van menslike taal te laat verstaan deur tegnieke van Rekenaarwetenskap, Linguistiek en Statistiek te kombineer. Hoe kon jy dit nie fassinerend vind nie?

ETS NLP en spraakwetenskaplikes het onlangs RSMTool ontwikkel. Kan jy met ons deel wat die RSMTool doen?

Soos ons die afgelope paar jaar gesien het, kan alle masjienleermodelle potensieel bevooroordeelde gedrag toon, ongeag die veld waarin dit toegepas word, en onderwys is geen uitsondering nie. Die outomatiese graderingstelsels wat gebruik word om tellings of grade aan studente se toespraak of opstelle in toetse of in klaskamers toe te ken, gebruik dikwels masjienleermodelle. Daarom is dit absoluut moontlik vir sulke stelsels om bevooroordeeld op te tree. Sulke vooroordeel kan ernstige gevolge hê, veral as die tellings van sulke stelsels gebruik word om besluite met 'n hoë inset te neem.

RSMTool is 'n oopbron-instrument wat my kollega Anastassia Loukina (voorheen Gewilde op Unite.AI) en ek het by ETS ontwikkel om te help verseker dat enige sistematiese, skadelike vooroordele in outomatiese graderingstelsels so vroeg as moontlik geïdentifiseer word, hopelik selfs voordat die stelsels in die werklike wêreld ontplooi word. RSMTool is ontwerp om 'n omvattende evaluering van AI-punte-enjins te verskaf, insluitend nie net standaard-metrieke van voorspellingsakkuraatheid nie, maar ook maatstawwe van modelbillikheid, en statistieke gebaseer op toetsteorie, wat ontwikkelaars van sulke enjins help om moontlike vooroordele of ander probleme in hul stelsels te identifiseer.

Waar kom die naam RSMTool vandaan?

In die opvoedkundige assesseringsveld word daar dikwels na iemand wat 'n telling aan 'n opstel toeken (of "beoordeel") as 'n "beoordelaar" verwys. Daar is menslike beoordelaars sowel as outomatiese beoordelaars. RSMTool – kort vir Rater Scoring Modeling Tool – is ontwerp om te help bou (en evalueer) die puntemodelle wat deur outomatiese beoordelaars gebruik word.

Hoe kan hierdie hulpmiddel ontwikkelaars help om moontlike vooroordeel of ander probleme in hul KI-tellingenjins te identifiseer?

In die afgelope vyf dekades het opvoedkundige metingswetenskaplikes – insluitend baie van ons kollegas by ETS – waardevolle navorsing gedoen oor wat outomatiese (en menslike) telling regverdig maak. As deel van hierdie navorsing het hulle baie statistiese en psigometriese ontledings ontwikkel vir die berekening van aanwysers van sistematiese vooroordeel. Aangesien die psigometriese en NLP-gemeenskappe egter selde interaksie het, is daar min geleentheid vir kruisbestuiwing van idees. Die gevolg is dat NLP-navorsers en -ontwikkelaars wat werklike outomatiese puntestelsels bou – veral individuele navorsers en dié in klein maatskappye – nie maklike toegang het tot die psigometriese ontledings wat hulle behoort te gebruik om hul stelsels vir vooroordeel na te gaan nie. RSMTool poog om hierdie probleem op te los deur 'n groot, diverse stel psigometriese ontledings in 'n enkele, maklik-om-te-gebruik Python-pakket te verskaf wat maklik deur enige NLP-navorser by hul navorsings- of operasionele pyplyn geïnkorporeer kan word.

In 'n tipiese gebruiksgeval sal 'n navorser 'n lêer of 'n dataraam met die numeriese stelseltellings, goudstandaard (menslike) tellings en metadata verskaf, indien van toepassing. RSMTool verwerk hierdie data en genereer 'n HTML-verslag wat 'n omvattende evaluering bevat, insluitend beskrywende statistieke sowel as verskeie maatstawwe van stelselprestasie en regverdigheid onder andere. 'n Voorbeeld RSMTool-verslag kan gevind word by https://bit.ly/fair-tool. RSMTool kan werk met tradisionele kenmerkgedrewe masjienleermodelle (bv. uit die scikit-learn-biblioteek) en met diepleermodelle. Alhoewel die primêre uitset van RSMTool die HTML-verslag is wat dit makliker maak om te deel, genereer dit ook tabelvormige datalêers (in CSV-, TSV- of XLSX-formate) as intermediêre uitsette vir meer gevorderde gebruikers. Ten slotte, om dinge uiters aanpasbaar te hou, implementeer RSMTool elke afdeling van sy verslag as 'n Jupyter-notaboek sodat die gebruikers nie net kan kies watter afdelings relevant is vir hul spesifieke puntemodelle nie, hulle kan ook maklik pasgemaakte ontledings implementeer en by die verslag insluit met baie min werk.

Daar is baie onlangse studies op outomatiese telling wat RSMTool gebruik het om hul voorgestelde telling modelle te evalueer.

Wat is die algemene tipes vooroordeel wat outomatiese puntestelsels kan beïnvloed?

Die mees algemene tipe vooroordeel wat 'n geoutomatiseerde puntestelsel affekteer, is differensiële subgroepprestasie, dit wil sê wanneer die outomatiese stelsel verskillend presteer vir verskillende bevolkingssubgroepe. Byvoorbeeld, 'n bevooroordeelde puntestelsel kan sistematies laer tellings lewer vir opstelle geskryf deur byvoorbeeld swart vroue in vergelyking met dié vir wit mans, selfs al is daar dalk geen sistematiese verskille in die werklike skryfvaardighede wat deur daardie twee subgroepe in hul opstelle, wat 'n mens betref.

ETS het 'n ryk geskiedenis van navorsing oor regverdigheid vir outomatiese tellingenjins. Ons het byvoorbeeld kyk na of e-rater® – ons KI outomatiese telling-enjin – enige differensiële prestasie toon vir subgroepe wat deur etnisiteit, geslag en land gedefinieer word (hulle het 'n paar klein verskille gevind wat deur daaropvolgende beleidsveranderinge aangespreek is). Studies het ook kyk na of e-rater® antwoorde geskryf deur GRE®-toetsafnemers met leergestremdhede en/of ADHD gemiddeld sistematies anders behandel (dit doen dit nie). Mees onlangs, a tydige studie kyk of 'n outomatiese stelsel vir die telling van praatvaardigheid enige sistematiese vooroordeel toon teenoor toetsafnemers wat verplig was om gesigmaskers te dra teenoor diegene wat nie gesigmaskers gedra het nie (dit het nie). RSMTool bevat verskeie psigometriese ontledings wat poog om differensiële subgroepprestasie te kwantifiseer oor subgroepe wat die gebruiker oor hul eie data kan definieer.

ETS het gekies om die RSMTool oopbron te maak, kan jy die redenasie en belangrikheid hieragter verduidelik?

Ja, RSMTool is beskikbaar op GitHub met 'n Apache 2.0-lisensie. Ons glo dat dit belangrik is dat so 'n instrument oopbron en nie-eiendomsreg is sodat die gemeenskap (a) die bronkode van die reeds beskikbare ontledings kan oudit om te verseker dat hulle voldoen aan billikheidstandaarde en (b) nuwe ontledings kan bydra. soos die standaard ontwikkel en verander. Ons wil dit ook vir NLP-navorsers en -ontwikkelaars maklik maak om RSMTool in hul werk te gebruik en om ons te help om dit beter te maak. Die maak van RSMTool oopbron is 'n duidelike voorbeeld van ETS se volgehoue verbintenis tot die verantwoordelike gebruik van KI in die onderwys.

Wat is sommige van die lesse wat jy geleer het uit die ontwikkeling en instandhouding van RSMTool?

Oor die afgelope vyf jaar wat ek en Anastassia RSMTool ontwikkel en onderhou het – met die hulp van baie ETS-kollegas en nie-ETS GitHub-bydraers – het ons twee oorkoepelende lesse geleer. Die eerste is dat verskillende gebruikers verskillende behoeftes het en 'n enkel-grootte-pas-almal-benadering sal nie werk vir kruisdissiplinêre sagteware soos RSMTool nie. Die tweede les wat ons geleer het, was dat om dit meer waarskynlik te maak dat oopbronsagteware aangeneem word, jy regtig die ekstra myl moet loop om dit so robuust moontlik te maak.

In ons ampstermyn as RSMTool-onderhouers, het ons baie soorte gebruikers van RSMTool geïdentifiseer. Sommige van hulle is "kraggebruikers" (bv. NLP-navorsers en -ontwikkelaars) wat spesifieke RSMTool-funksionaliteit wil kies en kies om by hul eie masjienleerpyplyn in te plug terwyl hulle ook ander Python-pakkette gebruik. Om sulke gebruikers tevrede te stel, het ons uiteindelik 'n redelik omvattende API geskep om verskeie voor- en naverwerkingsfunksies bloot te stel, sowel as pasgemaakte statistieke vervat in RSMTool. Nog 'n groep gebruikers is wat ons "minimaliste" noem: data-ontleders en -ingenieurs wat dalk nie die statistiese of programmeringsagtergrond het om met die API te kommunikeer nie en eerder 'n out-of-the-box pyplyn verkies. Om sulke gebruikers tevrede te stel, het ons opdragreëlnutsgoed geskep wat byvoorbeeld maklik in wrapper-dopskrifte geroep kan word. Ons het ook gevind dat minimalistiese gebruikers dikwels huiwerig is om deur die (weliswaar groot) lys van RSMTool-konfigurasie-opsies te lees. Daarom het ons 'n interaktiewe konfigurasiegenerator met outovoltooiing gebou wat sulke gebruikers kan help om konfigurasielêers op grond van hul spesifieke behoeftes te skep.

Om aan die behoeftes van al ons gebruikersgroepe te voldoen, moes ons praktyke aanneem wat ons geglo het nodig was om RSMTool robuust te maak. Wat bedoel ons met robuuste sagteware? Om robuust te wees, moet enige stuk sagteware aan die volgende kriteria voldoen: die impak van enige kodeverandering op die akkuraatheid en werkverrigting daarvan kan gemeet word (goed getoets), die dokumentasie daarvan is altyd op datum (goed gedokumenteer), en die sagteware (saam met sy afhanklikhede) is maklik installeerbaar deur gebruikers. Vir RSMTool het ons verskeie oopbronhulpmiddels en -dienste gebruik om dit aan ons definisie te laat voldoen. Ons het 'n omvattende toetsreeks (>90% kode dekking) wat ons outomaties laat loop deur deurlopende integrasie vir enige en alle veranderinge wat aan die kode ingedien word. Ons handhaaf uitgebreide dokumentasie (insluitend verskeie werklike tutoriale) en enige nuwe funksionaliteit wat vir RSMTool voorgestel word moet sluit 'n dokumentasiekomponent in wat ook as deel van die kodehersiening hersien word. Ten slotte stel ons RSMTool vry as pakkette wat maklik geïnstalleer kan word (via óf pip of conda) en alle afhanklikhede wat nodig is, word ook outomaties geïnstalleer.

Wat hoop ETS om te bereik deur die RSMTool vry te stel?

Die onderwyssektor het die afgelope paar jaar een van die belangrikste uitbreidings van KI gesien, met outomatiese telling van teks en spraak wat 'n toenemend algemene toepassing van NLP geword het. ETS is lank reeds 'n leier op die gebied van outomatiese puntetelling en is sedert sy ontstaan daartoe verbind om billike produkte en assesserings te bou wat ontwerp is om leerders wêreldwyd te dien. Deur RSMTool vry te stel, ontwikkel in noue samewerking tussen NLP-wetenskaplikes en psigometrici, wil ETS sy voorspraak vir die verantwoordelike gebruik van KI in die onderwys op 'n baie tasbare manier voortsit; spesifiek, ons wil dit duidelik maak dat wanneer KI-navorsers dink oor die "prestasie" van 'n geoutomatiseerde puntestelsel, hulle nie net die standaardmaatstawwe van voorspellingsakkuraatheid (bv. Pearson se korrelasie) moet oorweeg nie, maar ook dié van modelbillikheid. Meer in die breë wil ons ook graag hê dat RSMTool as voorbeeld dien van maniere waarop NLP-navorsers en psigometrici kan en behoort saam te werk.

Is daar enigiets anders wat jy oor die RSMTool wil deel?

Ons wil lesers aanmoedig om ons te help om RSMTool te verbeter! Hulle hoef nie 'n psigometris of 'n NLP-kenner te wees om by te dra nie. Ons het baie oop kwessies wat verband hou met dokumentasie en Python-programmering wat perfek sal wees vir enige beginner tot intermediêre Python-programmeerder. Ons nooi ook bydraes na SKLL (Scikit-Learn Laboratory), – nog 'n ETS-oopbronpakket vir doeltreffend uitvoer van gebruikerkonfigureerbare, bondelmasjienleer-eksperimente – wat onderliggend deur RSMTool gebruik word.

Verwante onderwerpe:ETS onderhoud

Biden Presidensie sal na verwagting KI en Quantum R&D 'n prioriteit hou

Moenie mis nie

Britse regering kyk na KI om moontlike newe-effekte van Covid-entstowwe te evalueer

Antoine Tardif

'n Stigtersvennoot van unite.AI & 'n lid van die Forbes Tegnologieraad, Antoine is 'n futuris wat passievol is oor die toekoms van KI en robotika.

Hy is ook die stigter van Sekuriteite.io, 'n webwerf wat fokus op belegging in ontwrigtende tegnologie.

Verenig.AI

Nitin Madnani, Senior Navorsingswetenskaplike by ETS – Onderhoudreeks

onderhoude

Nitin Madnani, Senior Navorsingswetenskaplike by ETS – Onderhoudreeks

INHOUDSOPGAWE

Onlangse plasings

Verenig.AI

Nitin Madnani, Senior Navorsingswetenskaplike by ETS – Onderhoudreeks

INHOUDSOPGAWE

Jy mag dalk

Onlangse plasings