Artificiell intelligens

Nitin Madnani, Senior Research Scientist på ETS – Intervju-serie

Published November 9, 2020

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Nitin Madnani är en senior forskningsvetenskapsman med den naturliga språkbehandlingsforskargruppen (NLP) på Educational Testing Service (ETS). ETS grundades 1947 och är världens största privata icke-vinstdrivande utbildningsbedömningsorganisation.

Kan du börja med att förklara vad ETS uppdrag är?

ETS uppdrag är att främja kvalitet och jämlikhet i utbildning för alla lärande över hela världen. Detta uppdrag ligger till grund för våra produkter, tjänster, forskning och utvecklingsinsatser i syfte att främja lärande, stödja utbildning, professionell utveckling och mäta kunskap och färdigheter för alla.

Vi tror att vem som helst, var som helst kan göra en skillnad i sitt liv genom lärande och ETS arbete med forskning, bedömning, mätning och politik kan spela en viktig roll för att göra det lärandet möjligt.

Vad är det med NLP som gör dig så passionerad?

Alla mänskliga språk är så vackert komplexa och röriga. De tillåter oss att uttrycka en rad känslor i vår tal och till och med i vår skrift och de utvecklas över tiden. Å andra sidan är en dator så deterministisk och klinisk i bearbetning av sina indata. Naturlig språkbehandling (NLP) är ett område inom artificiell intelligens som försöker göra denna överväldigande icke-mänskliga enhet förstå de vackra komplexiteterna i mänskligt språk genom att kombinera tekniker från datavetenskap, lingvistik och statistik. Hur kan du inte hitta detta fascinerande?

ETS NLP- och talvetenskapsmän har nyligen utvecklat RSMTool. Kan du berätta för oss vad RSMTool gör?

Som vi har sett under de senaste åren kan alla maskinlärningsmodeller potentiellt uppvisa partiskt beteende oavsett det område de tillämpas på, utbildning inget undantag. De automatiserade betygsättnings-system som används för att tilldela poäng eller betyg till elevers tal eller uppsatser i tester eller i klassrummen använder ofta maskinlärningsmodeller. Därför är det absolut möjligt för sådana system att bete sig partiskt. Sådan partiskhet kan ha allvarliga konsekvenser, särskilt om poängen från sådana system används för att fatta viktiga beslut.

RSMTool är ett öppen källkodsverktyg som min kollega Anastassia Loukina (tidigare presenterad på Unite.AI) och jag utvecklat på ETS för att hjälpa till att säkerställa att eventuella systematiska, skadliga partiskheter i automatiserade betygsättnings-system identifieras så tidigt som möjligt, helst innan systemen distribueras i den verkliga världen. RSMTool är utformat för att ge en omfattande utvärdering av AI-betygssystem, inklusive inte bara standardmått för förutsägelseexakthet, utan också mått för modellrättvisa och mått baserade på testteori, som hjälper utvecklare av sådana motorer att identifiera eventuella partiskheter eller andra problem i sina system.

<strong.Var kommer namnet RSMTool ifrån?

Inom utbildningsbedömningsområdet kallas någon som tilldelar ett betyg till (eller “betygsätter”) en uppsats ofta för en “betygssättare”. Det finns mänskliga betygssättare och automatiserade betygssättare. RSMTool – förkortning för Rater Scoring Modeling Tool – är utformat för att hjälpa till att bygga (och utvärdera) betygssättningsmodellerna som används av automatiserade betygssättare.

Hur kan detta verktyg hjälpa utvecklare att identifiera eventuell partiskhet eller andra problem i sina AI-betygssystem?

Under de senaste fem decennierna har utbildningsmätningsforskare – inklusive många av våra kollegor på ETS – genomfört värdefull forskning om vad som gör automatiserad betygssättning rättvis. Som en del av denna forskning har de utvecklat många statistiska och psykometriska analyser för att beräkna indikatorer för systematisk partiskhet. Men eftersom de psykometriska och NLP-samfunden sällan interagerar, finns det lite möjlighet för idéer att korsbefrukta. Följden är att NLP-forskare och utvecklare som bygger faktiska automatiserade betygsättnings-system – särskilt enskilda forskare och de i små företag – inte har lätt tillgång till de psykometriska analyser de borde använda för att kontrollera sina system för partiskhet. RSMTool försöker lösa detta problem genom att tillhandahålla en stor, diversifierad uppsättning psykometriska analyser i ett enda, lättanvänt Python-paket som kan enkelt införlivas av någon NLP-forskare i sin forskning eller driftspipeline.

I ett typiskt användningsfall skulle en forskare tillhandahålla en fil eller en dataframe med numeriska systembetyg, guldstandard (mänskliga) betyg och metadata, om tillämpligt. RSMTool bearbetar dessa data och genererar en HTML-rapport som innehåller en omfattande utvärdering, inklusive beskrivande statistik samt flera mått för systemprestanda och rättvisa bland annat. En exempelrapport från RSMTool kan hittas på https://bit.ly/fair-tool. RSMTool kan fungera med traditionella funktionbaserade maskinlärningsmodeller (t.ex. från scikit-learn-biblioteket) och med djupinlärningsmodeller. Även om den primära utdata från RSMTool är HTML-rapporten som underlättar delning, genererar den också tabellformiga datafiler (i CSV-, TSV- eller XLSX-format) som mellanliggande utdata för mer avancerade användare. Slutligen, för att göra saker extremt anpassningsbara, implementerar RSMTool varje avsnitt av sin rapport som en Jupyter-anteckningsbok så att användarna inte bara kan välja vilka avsnitt som är relevanta för deras specifika betygssystem, utan också enkelt kan implementera anpassade analyser och inkludera dem i rapporten med mycket lite arbete.

Det finns många nya studier om automatiserad betygssättning som har använt RSMTool för att utvärdera sina föreslagna betygssystem.

Vilka är de vanligaste typerna av partiskhet som kan påverka automatiserade betygsättnings-system?

Den vanligaste typen av partiskhet som påverkar ett automatiserat betygsättnings-system är differential undergruppsprestanda, dvs. när det automatiserade systemet presterar olika för olika undergrupper av befolkningen. Till exempel kunde ett partiskt betygsättnings-system producera systematiskt lägre betyg för uppsatser skrivna av, till exempel, svarta kvinnor jämfört med dem för vita män, även om det inte finns några systematiska skillnader i de faktiska skrivfärdigheterna som visas av dessa två undergrupper i sina uppsatser, såsom en människa betraktar det.

ETS har en rik historia av att genomföra forskning om rättvisa för automatiserad betygssättning. Till exempel har vi tittat på om e-rater® – vår AI-automatiserade betygssättningsmotor – uppvisar någon differential prestanda för undergrupper definierade av etnicitet, kön och land (de fann några mindre skillnader som åtgärdades av efterföljande policyförändringar). Studier har också tittat på om e-rater® behandlar svar skrivna av GRE®-testtagare med inlärningssvårigheter och/eller ADHD systematiskt annorlunda i genomsnitt (det gör det inte). Mest nyligen undersöker en aktuell studie om ett automatiserat system för betygssättning av talförmåga uppvisar någon systematisk partiskhet mot testtagare som tvingades att bära ansiktsmasker jämfört med dem som inte bar ansiktsmasker (det gör det inte). RSMTool innehåller flera psykometriska analyser som försöker kvantifiera differential undergruppsprestanda över undergrupper som användaren kan definiera över sina egna data.

Varför valde ETS att göra RSMTool öppen källkod?

Ja, RSMTool är tillgänglig på GitHub med en Apache 2.0-licens. Vi tror att det är viktigt att ett sådant verktyg är öppen källkod och icke-proprietary så att samhället kan (a) granska källkoden för de redan tillgängliga analyserna för att säkerställa deras överensstämmelse med rättvisestandarder och (b) bidra med nya analyser när standarden utvecklas och förändras. Vi vill också göra det enkelt för NLP-forskare och utvecklare att använda RSMTool i sitt arbete och att hjälpa oss att förbättra det. Att göra RSMTool öppen källkod är ett tydligt exempel på ETS fortsatta åtagande för ansvarsfull användning av AI i utbildning.

Vilka är några av de lärdomar du lärde dig av att utveckla och underhålla RSMTool?

Under de senaste fem åren som Anastassia och jag har utvecklat och underhållit RSMTool – med hjälp av många ETS-kollegor och icke-ETS-GitHub-bidragsgivare – har vi lärt oss två övergripande lärdomar. Den första är att olika användare har olika behov och att ha ett en-storlek-passar-alla-tillvägagångssätt kommer inte att fungera för tvärvetenskaplig programvara som RSMTool. Den andra lärdomen vi lärde oss var att för att göra det mer sannolikt att öppen källkodsprogramvara antas, måste man verkligen gå den extra milen för att göra den så robust som möjligt.

Under vår tid som RSMTool-underhållare har vi identifierat många typer av användare av RSMTool. Vissa av dem är “power users” (t.ex. NLP-forskare och utvecklare) som vill välja och vraka specifik RSMTool-funktionalitet för att införliva den i sin egen maskinlärningspipeline medan de också använder andra Python-paket. För att tillfredsställa sådana användare skapade vi en ganska omfattande API för att exponera olika för- och efterbearbetningsfunktioner samt anpassade mått som ingår i RSMTool. En annan grupp av användare är vad vi kallar “minimalister”: dataanalytiker och ingenjörer som kan sakna den statistiska eller programmeringsbakgrund som krävs för att interagera med API:t och föredrar en färdig pipeline istället. För att tillfredsställa sådana användare har vi skapat kommandoradsverktyg som enkelt kan anropas i wrapper-skript, till exempel. Vi har också funnit att minimalist-användare ofta är ovilliga att läsa igenom den (medgivande stora) listan över RSMTool-konfigurationsalternativ. Därför byggde vi en interaktiv konfigurationsgenerator med autokomplettering som kan hjälpa sådana användare att skapa konfigurationsfiler baserat på deras specifika behov.

För att möta behoven för alla våra användargrupper har vi varit tvungna att anta metoder som vi trodde var nödvändiga för att göra RSMTool robust. Vad menar vi med robust programvara? För att vara robust måste en bit programvara uppfylla följande kriterier: effekten av varje kodändring på dess noggrannhet och prestanda kan mätas (vältestad), dess dokumentation är alltid uppdaterad (väl dokumenterad) och programvaran (tillsammans med dess beroenden) är lätt att installera för användare. För RSMTool har vi utnyttjat flera öppen källkodsverktyg och -tjänster för att göra det möjligt för RSMTool att uppfylla våra definitioner. Vi har en omfattande testsvit (> 90 % kodtäckning) som vi automatiskt kör via kontinuerlig integrering för alla ändringar som skickas till koden. Vi underhåller omfattande dokumentation (inklusive flera verkliga tutorials) och all ny funktionalitet som föreslås för RSMTool måste innehålla en dokumentationskomponent som också granskas som en del av kodgranskningen. Slutligen släpper vi RSMTool som paket som kan installeras enkelt (via antingen pip eller conda) och alla beroenden som behövs installeras automatiskt.

Vad hoppas ETS att uppnå genom att släppa RSMTool?

Utbildningssektorn har sett en av de mest betydande expansionerna av AI under de senaste åren, med automatiserad betygssättning av text och tal som blir en alltmer vanlig tillämpning av NLP. ETS har länge varit ledande inom området automatiserad betygssättning och har sedan dess tillkomst varit engagerat i att bygga rättvisa produkter och bedömningar som är utformade för att tjäna lärande över hela världen. Genom att släppa RSMTool, utvecklat i nära samarbete mellan NLP-forskare och psykometriker, vill ETS fortsätta att främja ansvarsfull användning av AI i utbildning på ett mycket påtagligt sätt; specifikt vill vi göra det tydligt att när AI-forskare tänker på “prestanda” hos ett automatiserat betygsättnings-system, bör de inte bara överväga standardmått för förutsägelseexakthet (t.ex. Pearsons korrelation), utan också mått för modellrättvisa. Mer allmänt vill vi också att RSMTool ska fungera som ett exempel på hur NLP-forskare och psykometriker kan och bör samarbeta.

Finns det något annat du vill dela om RSMTool?

Vi vill uppmuntra läsarna att hjälpa oss att förbättra RSMTool! De behöver inte vara en psykometriker eller en NLP-expert för att bidra. Vi har många öppna problem som rör dokumentation och Python-programmering som vore perfekta för någon som är nybörjare till intermediär Python-programmerare. Vi inbjuder också bidrag till SKLL (Scikit-Learn Laboratory), – ett annat ETS-öppen källkods-paket för att köra användarkonfigurerad, batchad maskinlärningsexperiment – som används underliggande av RSMTool.

Unite.AI

Nitin Madnani, Senior Research Scientist på ETS – Intervju-serie

You may like