Umělá inteligence
Nitin Madnani, Senior Research Scientist at ETS – Interview Series

Nitin Madnani je Senior Research Scientist ve skupině pro zpracování přirozeného jazyka (NLP) v Educational Testing Service (ETS). ETS byla založena v roce 1947 a je největší soukromou neziskovou organizací pro testování a hodnocení ve vzdělávání.
Můžete začít vysvětlením, co je mise ETS?
Mise ETS je pokročit v kvalitě a rovnosti ve vzdělávání pro všechny učitele po celém světě. Tato mise je základem našich produktů, služeb, výzkumu a vývojových aktivit s cílem podporovat učení, vzdělávání, profesní rozvoj a měření znalostí a dovedností pro každého.
Věříme, že kdokoli, kdekoli může udělat rozdíl ve svém životě prostřednictvím učení a práce ETS na výzkumu, hodnocení, měření a politice může sehrát důležitou roli v tom, aby toto učení bylo možné.
Co je to na NLP, co vás tak vášnivě zajímá?
Všechny lidské jazyky jsou tak krásně složité a zmatené. Umožňují nám vyjádřit širokou škálu emocí v naší řeči a dokonce i v našem psaní a vyvíjejí se s časem. Na druhé straně je počítač tak deterministický a klinický při zpracování svých vstupů. Zpracování přirozeného jazyka (NLP) je oblastí umělé inteligence, která se snaží udělat tento zcela nelidský přístroj pochopit krásné složitosti lidského jazyka kombinací technik z počítačové vědy, lingvistiky a statistiky. Jak byste mohli najít toto fascinující?
Vědci ETS NLP a řeči nedávno vyvinuli RSMTool. Můžete sdílet s námi, co dělá RSMTool?
Jak jsme viděli v posledních letech, všechny modely strojového učení mohou potenciálně vykazovat zkreslené chování, bez ohledu na oblast, ve které se aplikují, vzdělávání není výjimkou. Automatizované systémy hodnocení používané k přiřazování bodů nebo stupňů studentům v testech nebo ve třídách často používají modely strojového učení. Proto je absolutně možné, aby takové systémy vykazovaly zkreslené chování. Takové zkreslení může mít vážné důsledky, zejména pokud se body z takových systémů používají k přijímání důležitých rozhodnutí.
RSMTool je open-source nástroj, který můj kolega Anastassia Loukina (předtím uvedený na Unite.AI) a já vyvinuli v ETS, aby pomohl zajistit, že jakékoli systematické, škodlivé zkreslení v automatizovaných systémech hodnocení jsou identifikovány co nejdříve, doufáme, že dokonce i předtím, než budou systémy nasazeny v reálném světě. RSMTool je navržen tak, aby poskytl komplexní hodnocení AI hodnocení včetně nejen standardních metrik předpovědi přesnosti, ale také měřítek modelu spravedlnosti a metrik založených na testovací teorii, což pomáhá vývojářům těchto motorů identifikovat možné zkreslení nebo jiné problémy ve svých systémech.
Odkud pochází název RSMTool?
V oblasti vzdělávacího hodnocení je někdo, kdo přiřazuje bod k (nebo “ohodnotí”) esej, často označován jako “hodnotitel”. Existují lidský hodnotitelé i automatizovaní hodnotitelé. RSMTool – zkratka pro Rater Scoring Modeling Tool – je navržen tak, aby pomohl sestavit (a vyhodnotit) hodnocení modelů používaných automatizovanými hodnotiteli.
Jak může tento nástroj pomoci vývojářům identifikovat možné zkreslení nebo jiné problémy v jejich AI hodnocení?
V posledních pěti desetiletích provedli vědci v oblasti vzdělávacího měření – včetně mnoha našich kolegů z ETS – cenný výzkum o tom, co dělá automatizované (a lidské) hodnocení spravedlivým. V rámci tohoto výzkumu vyvinuli mnoho statistických a psychometrických analýz pro výpočet ukazatelů systematického zkreslení. Nicméně, protože psychometrická a NLP komunity vzácně interagují, je málo příležitostí pro výměnu nápadů. Následkem je, že NLP výzkumníci a vývojáři, kteří staví skutečné automatizované systémy hodnocení – zejména jednotliví výzkumníci a ti ve malých společnostech – nemají snadný přístup k psychometrickým analýzám, které by měli používat ke kontrole svých systémů na zkreslení. RSMTool se snaží vyřešit tento problém tím, že poskytuje velký, rozmanitý soubor psychometrických analýz v jednoduchém, snadno použitelném Python balíčku, který může být snadno začleněn jakýmkoli NLP výzkumníkem do své výzkumné nebo provozní pipeline.
V typickém použití by výzkumník poskytl jako vstup soubor nebo datový rámec s numerickými systémy bodů, zlatým standardem (lidskými) body a metadata, pokud jsou relevantní. RSMTool zpracuje tato data a vygeneruje HTML zprávu obsahující komplexní hodnocení včetně deskriptivních statistik a také několika měřítek systému výkonu a spravedlnosti. Ukázka RSMTool zprávy lze nalézt na https://bit.ly/fair-tool. RSMTool může pracovat s tradičními funkcemi řízenými modely strojového učení (například z knihovny scikit-learn) a s hlubokými učícími se modely. Ačkoli primární výstup RSMTool je HTML zpráva, která usnadňuje sdílení, také generuje tabulková data soubory (ve formátech CSV, TSV nebo XLSX) jako mezilehlé výstupy pro pokročilé uživatele. Nakonec, aby se věci udržely extrémně přizpůsobitelné, RSMTool implementuje každou sekci své zprávy jako Jupyter notebook, aby uživatelé mohli nejen vybrat, které sekce jsou relevantní pro jejich konkrétní hodnocení modelů, ale také snadno implementovat vlastní analýzy a zahrnout je do zprávy s velmi malou prací.
Existuje mnoho nedávných studií o automatizovaném hodnocení, které použily RSMTool k vyhodnocení svých navrhovaných hodnocení modelů.
Jaké jsou běžné typy zkreslení, které mohou ovlivnit automatizované systémy hodnocení?
Nejběžnějším typem zkreslení, které ovlivňuje automatizovaný systém hodnocení, je diferenciální podskupinový výkon, tj. když automatizovaný systém vykazuje odlišné výsledky pro různé podskupiny populace. Například zkreslený systém hodnocení by mohl produkovat systematicky nižší body pro eseje napsané, například, černými ženami ve srovnání s bílými muži, ačkoli nemusí existovat žádné systematické rozdíly ve skutečných psacích dovednostech zobrazených těmito dvěma podskupinami ve svých esejích, pokud jde o člověka.
ETS má bohatou historii výzkumu na spravedlnost automatizovaných systémů hodnocení. Například jsme zjistili, zda e-rater® – náš AI automatizovaný systém hodnocení – vykazuje nějaké diferenciální výkony pro podskupiny definované etnicitou, pohlavím a zemí (zjistili jsme一些 malé rozdíly, které byly řešeny následnými změnami politiky). Studie také zjistily, zda e-rater® zachází s odpověďmi napsanými GRE® testovanými s poruchami učení a/nebo ADHD systematicky odlišně v průměru (nedělá). Nejnovější včasná studie zkoumá, zda automatizovaný systém pro hodnocení mluvené dovednosti vykazuje nějaké systematické zkreslení vůči testovaným, kteří museli nosit roušky, ve srovnání s těmi, kteří nenosili roušky (nedělá). RSMTool obsahuje několik psychometrických analýz, které se snaží kvantifikovat diferenciální podskupinový výkon nad podskupinami, které uživatel může definovat nad svými vlastními daty.
ETS zvolila udělat RSMTool open-source, můžete vysvětlit důvody a důležitost za touto volbou?
Ano, RSMTool je k dispozici na GitHub s licencí Apache 2.0. Věříme, že je důležité, aby takový nástroj byl open-source a nezávislý, aby komunita mohla (a) zkontrolovat zdroj kódu již dostupných analýz, aby zajistila jejich soulad se standardy spravedlnosti a (b) přispět novými analýzami, jakmile se standardy vyvinou a změní. Chceme také usnadnit NLP výzkumníkům a vývojářům použití RSMTool ve své práci a pomoci nám vylepšit jej. Učinění RSMTool open-source je jasným příkladem pokračujícího závazku ETS k odpovědnému použití AI ve vzdělávání.
Jaké jsou některé lekce, které jste se naučili z vývoje a údržby RSMTool?
Za posledních pět let, kdy Anastassia a já vyvinuli a udržovali RSMTool – s pomocí mnoha kolegů z ETS a ne-ETS přispěvatelů na GitHub – jsme se naučili dvě hlavní lekce. První je, že různé uživatelé mají různé potřeby a mít jeden velikost-pro-všechny přístupy nebude fungovat pro mezioborový software jako RSMTool. Druhá lekce, kterou jsme se naučili, je, že aby se zvýšila šance, že open-source software bude přijat, musíte opravdu jít nad rámec, aby byl co nejrobustnější.
Během našeho působení jako správci RSMTool jsme identifikovali mnoho typů uživatelů RSMTool. Některé z nich jsou “power uživatelé” (například NLP výzkumníci a vývojáři), kteří chtějí vybrat a zvolit konkrétní RSMTool funkčnost, aby ji zapojili do své vlastní strojového učení pipeline, zatímco také používají jiné Python balíčky. Abychom uspokojili takové uživatele, vytvořili jsme poměrně komplexní API, aby vystavili různé před- a dopočítací funkce a také vlastní metriky obsažené v RSMTool. Další skupina uživatelů jsou ti, které nazýváme “minimalisté”: datové analytici a inženýři, kteří mohou postrádat statistický nebo programovací background, aby interagovali s API, a preferují hotový pipeline. Abychom uspokojili takové uživatele, vytvořili jsme nástroje pro příkazový řádek, které lze snadno volat ve wrapper shell skriptech, například. Zjistili jsme také, že minimalističtí uživatelé jsou často neochotní číst prostřednictvím (admitně velké) seznamu RSMTool konfiguračních možností. Proto jsme vytvořili interaktivní konfigurační generátor s autodoplňováním, který může pomoci takovým uživatelům vytvořit konfigurační soubory na základě jejich konkrétních potřeb.
Abychom uspokojili potřeby všech našich uživatelských skupin, museli jsme přijmout postupy, které jsme věřili, že jsou nezbytné k tomu, aby RSMTool byl robustní. Co míníme robustním softwarem? Aby software byl robustní, musí splňovat následující kritéria: dopad jakéhokoli kódu na jeho přesnost a výkon lze měřit (dobře otestován), jeho dokumentace je vždy aktuální (dobře zdokumentován) a software (spolu se svými závislostmi) je snadno instalovatelný uživateli. Pro RSMTool jsme využili několik open-source nástrojů a služeb, aby RSMTool splňoval naše definice. Máme komplexní testovací sadu (>90% pokrytí kódu), kterou automaticky spouštíme prostřednictvím kontinuální integrace pro všechny změny odeslané do kódu. Udržujeme rozsáhlou dokumentaci (včetně několika reálných tutoriálů) a jakékoli nové funkcionality navrhované pro RSMTool musí zahrnovat dokumentační komponent, která je také přezkoumána jako součást kódu. Nakonec vydáváme RSMTool jako balíčky, které lze snadno nainstalovat (buď prostřednictvím pip nebo conda) a všechny závislosti potřebné jsou také automaticky nainstalovány.
Co ETS doufá, že dosáhne vydáním RSMTool?
Vzdělávací sektor zažil jeden z nejvýznamnějších rozšíření AI v posledních letech s automatizovaným hodnocením textu a řeči, které se stává stále častějším uplatněním NLP. ETS byla dlouho lídrem v oblasti automatizovaného hodnocení a od svého založení se zavázala budovat spravedlivé produkty a hodnocení, které jsou navrženy tak, aby sloužily studentům po celém světě. Vydáním RSMTool, vyvinutého v úzké spolupráci mezi NLP vědci a psychometry, ETS chce pokračovat ve svém úsilí o odpovědné použití AI ve vzdělávání velmi konkrétním způsobem; konkrétně chceme zdůraznit, že když AI výzkumníci myslí na “výkon” automatizovaného systému hodnocení, měli by zvažovat nejen standardní metriky předpovědi přesnosti (například Pearsonovu korelaci), ale také metriky modelu spravedlnosti. Širší, bychom také rádi, aby RSMTool sloužil jako příklad toho, jak NLP výzkumníci a psychometři mohou a měli pracovat вместе.
Je něco jiného, co byste rádi sdíleli o RSMTool?
Chceme povzbudit čtenáře, aby nám pomohli vylepšit RSMTool! Nemusí být psychometrický nebo NLP odborník, aby přispěli. Máme mnoho otevřených problémů souvisejících s dokumentací a Python programováním, které by byly ideální pro každého začínajícího až středně pokročilého Python programátora. Také zveme příspěvky do SKLL (Scikit-Learn Laboratory) – dalšího ETS open-source balíčku pro efektivní spouštění uživatelsky konfigurovatelných, dávkových strojových učení experimentů – který je používán podkladně RSMTool.












