Interviews

Nitin Madnani, chercheur scientifique principal à l'ETS – Série d'entrevues

Le kit de préparation mis à jour on 9 décembre 2022

Nitin Madnan est chercheur scientifique principal au sein du groupe de recherche sur le traitement du langage naturel (NLP) du Service de test éducatif (ETS). ETS a été fondée en 1947 et est la plus grande organisation privée à but non lucratif de test et d'évaluation en éducation au monde.

Pourriez-vous commencer par expliquer quelle est la mission d'ETS ?

La mission d'ETS est de faire progresser la qualité et l'équité dans l'éducation pour tous les apprenants du monde entier. Cette mission sous-tend nos produits, nos services, nos efforts de recherche et de développement dans le but de promouvoir l'apprentissage, de soutenir l'éducation, le développement professionnel et de mesurer les connaissances et les compétences, pour tous.

Nous croyons que n'importe qui, n'importe où, peut faire une différence dans sa vie grâce à l'apprentissage et le travail d'ETS sur la recherche, l'évaluation, la mesure et la politique peut jouer un rôle important pour rendre cet apprentissage possible.

Qu'est-ce qui vous passionne tant dans la PNL ?

Toutes les langues humaines sont si merveilleusement complexes et désordonnées. Ils nous permettent d'exprimer une gamme d'émotions dans notre discours et même dans notre écriture et ils évoluent avec le temps. D'un autre côté, un ordinateur est tellement déterministe et clinique dans le traitement de ses entrées. Le traitement du langage naturel (NLP) est un domaine de l'intelligence artificielle qui tente de faire comprendre à cet appareil suprêmement non humain les belles complexités du langage humain en combinant des techniques de l'informatique, de la linguistique et des statistiques. Comment ne pas trouver cela fascinant ?

ETS NLP et les scientifiques de la parole ont récemment développé RSMTool. Pourriez-vous partager avec nous ce que fait le RSMTool ?

Comme nous l'avons vu ces dernières années, tous les modèles d'apprentissage automatique peuvent potentiellement présenter un comportement biaisé quel que soit le domaine dans lequel ils sont appliqués, l'éducation ne faisant pas exception. Les systèmes de notation automatisés utilisés pour attribuer des scores ou des notes aux discours ou aux essais des étudiants lors de tests ou en classe utilisent souvent des modèles d'apprentissage automatique. Il est donc tout à fait possible que de tels systèmes se comportent de manière biaisée. De tels biais peuvent avoir de graves conséquences, surtout si les scores de ces systèmes sont utilisés pour prendre des décisions à enjeux élevés.

Outil RSM est un outil open-source que mon collègue Anastassia Loukina (précédemment en vedette sur Unite.AI) et j'ai développé chez ETS pour aider à garantir que tout biais systématique et nuisible dans les systèmes de notation automatisés soit identifié le plus tôt possible, espérons-le avant même que les systèmes ne soient déployés dans le monde réel. RSMTool est conçu pour fournir une évaluation complète des moteurs de notation de l'IA, y compris non seulement des métriques standard de précision des prédictions, mais également des mesures de l'équité du modèle et des métriques basées sur la théorie des tests, aidant les développeurs de ces moteurs à identifier les biais possibles ou d'autres problèmes dans leurs systèmes.

D'où vient le nom RSMTool ?

Dans le domaine de l'évaluation pédagogique, une personne qui attribue une note à (ou « évalue ») un essai est souvent appelée « évaluateur ». Il existe des évaluateurs humains ainsi que des évaluateurs automatisés. RSMTool - abréviation de Rater Scoring Modeling Tool - est conçu pour aider à construire (et évaluer) les modèles de notation utilisés par les évaluateurs automatisés.

Comment cet outil peut-il aider les développeurs à identifier d'éventuels biais ou autres problèmes dans leurs moteurs de notation IA ?

Au cours des cinq dernières décennies, les scientifiques de la mesure de l'éducation - y compris nombre de nos collègues d'ETS - ont mené des recherches précieuses sur ce qui rend la notation automatisée (et humaine) équitable. Dans le cadre de cette recherche, ils ont développé de nombreuses analyses statistiques et psychométriques pour calculer des indicateurs de biais systématiques. Cependant, étant donné que les communautés psychométriques et PNL interagissent rarement, il y a peu de possibilités de pollinisation croisée des idées. Le résultat est que les chercheurs et développeurs de la PNL qui construisent de véritables systèmes de notation automatisés - en particulier les chercheurs individuels et ceux des petites entreprises - n'ont pas facilement accès aux analyses psychométriques qu'ils devraient utiliser pour vérifier les biais de leurs systèmes. RSMTool tente de résoudre ce problème en fournissant un ensemble vaste et diversifié d'analyses psychométriques dans un package Python unique et facile à utiliser qui peut être facilement intégré par tout chercheur en PNL dans sa recherche ou son pipeline opérationnel.

Dans un cas d'utilisation typique, un chercheur fournirait en entrée un fichier ou un bloc de données avec les scores du système numérique, les scores de référence (humains) et les métadonnées, le cas échéant. RSMTool traite ces données et génère un rapport HTML contenant une évaluation complète comprenant des statistiques descriptives ainsi que de multiples mesures de la performance et de l'équité du système, entre autres. Un exemple de rapport RSMTool est disponible sur https://bit.ly/fair-tool. RSMTool peut fonctionner avec des modèles d'apprentissage automatique traditionnels basés sur les fonctionnalités (par exemple, à partir de la bibliothèque scikit-learn) et avec des modèles d'apprentissage en profondeur. Bien que la sortie principale de RSMTool soit le rapport HTML qui facilite le partage, il génère également des fichiers de données tabulaires (aux formats CSV, TSV ou XLSX) comme sorties intermédiaires pour les utilisateurs plus avancés. Enfin, pour que les choses restent extrêmement personnalisables, RSMTool implémente chaque section de son rapport sous forme de bloc-notes Jupyter afin que les utilisateurs puissent non seulement choisir les sections pertinentes pour leurs modèles de notation spécifiques, mais aussi facilement implémenter des analyses personnalisées et les inclure dans le rapport. avec très peu de travail.

Il y a de nombreuses récent études sur la notation automatisée qui ont utilisé RSMTool pour évaluer leurs modèles de notation proposés.

Quels sont les types de biais courants qui peuvent avoir un impact sur les systèmes de notation automatisés ?

Le type de biais le plus courant affectant un système de notation automatisé est la performance différentielle des sous-groupes, c'est-à-dire lorsque le système automatisé fonctionne différemment pour différents sous-groupes de population. Par exemple, un système de notation biaisé pourrait produire des scores systématiquement inférieurs pour les essais rédigés par, par exemple, des femmes noires par rapport à ceux des hommes blancs, même s'il peut n'y avoir aucune différence systématique dans les compétences réelles en écriture affichées par ces deux sous-groupes dans leurs essais, en ce qui concerne un être humain.

ETS a une riche histoire de recherche sur l'équité pour les moteurs de notation automatisés. Par exemple, nous avons regardé si e-rater® - notre moteur de notation automatisé par IA - présente des performances différentielles pour les sous-groupes définis par l'origine ethnique, le sexe et le pays (ils ont trouvé quelques différences mineures qui ont été corrigées par des changements de politique ultérieurs). Des études ont aussi regardé si e-rater® traite les réponses écrites par les candidats au test GRE® ayant des troubles d'apprentissage et/ou un TDAH systématiquement différemment en moyenne (ce n'est pas le cas). Plus récemment, un étude opportune examine si un système automatisé de notation de la compétence orale présente un biais systématique envers les candidats qui devaient porter des masques faciaux par rapport à ceux qui ne portaient pas de masques faciaux (ce n'est pas le cas). RSMTool contient plusieurs analyses psychométriques qui tentent de quantifier les performances différentielles des sous-groupes sur des sous-groupes que l'utilisateur peut définir sur ses propres données.

ETS a choisi de rendre le RSMTool open-source, pouvez-vous expliquer le raisonnement et l'importance derrière cela ?

Oui, RSMTool est disponible sur GitHub avec une licence Apache 2.0. Nous pensons qu'il est important qu'un tel outil soit open source et non propriétaire afin que la communauté puisse (a) auditer le code source des analyses déjà disponibles pour s'assurer de leur conformité aux normes d'équité et (b) apporter de nouvelles analyses à mesure que la norme évolue et change. Nous voulons également faciliter l'utilisation de RSMTool par les chercheurs et les développeurs en PNL dans leur travail et nous aider à l'améliorer. Rendre RSMTool open-source est un exemple clair de l'engagement continu d'ETS envers l'utilisation responsable de l'IA dans l'éducation.

Quelles sont certaines des leçons que vous avez tirées du développement et de la maintenance de RSMTool ?

Au cours des cinq dernières années où Anastassia et moi avons développé et maintenu RSMTool - avec l'aide de nombreux collègues d'ETS et de contributeurs non-ETS de GitHub - nous avons appris deux leçons primordiales. La première étant que différents utilisateurs ont des besoins différents et qu'une approche unique ne fonctionnera pas pour un logiciel interdisciplinaire comme RSMTool. La deuxième leçon que nous avons apprise est que pour rendre plus probable l'adoption d'un logiciel open source, vous devez vraiment faire un effort supplémentaire pour le rendre aussi robuste que possible.

Au cours de notre mandat en tant que mainteneurs de RSMTool, nous avons identifié de nombreux types d'utilisateurs de RSMTool. Certains d'entre eux sont des "utilisateurs expérimentés" (par exemple, des chercheurs et développeurs NLP) qui souhaitent choisir des fonctionnalités RSMTool spécifiques à connecter à leur propre pipeline d'apprentissage automatique tout en utilisant d'autres packages Python. Pour satisfaire ces utilisateurs, nous avons fini par créer une API assez complète pour exposer diverses fonctions de pré- et post-traitement ainsi que des métriques personnalisées contenues dans RSMTool. Un autre groupe d'utilisateurs est ce que nous appelons les « minimalistes » : les analystes de données et les ingénieurs qui peuvent manquer de connaissances statistiques ou de programmation pour interagir avec l'API et préfèrent plutôt un pipeline prêt à l'emploi. Pour satisfaire ces utilisateurs, nous avons créé des outils de ligne de commande qui peuvent facilement être appelés dans des scripts shell wrapper, par exemple. Nous avons également constaté que les utilisateurs minimalistes sont souvent réticents à lire la liste (certes longue) des options de configuration de RSMTool. Par conséquent, nous avons construit un générateur de configuration interactif avec auto-complétion qui peut aider ces utilisateurs à créer des fichiers de configuration en fonction de leurs besoins spécifiques.

Afin de répondre aux besoins de tous nos groupes d'utilisateurs, nous avons dû adopter des pratiques que nous estimions nécessaires pour rendre RSMTool robuste. Qu'entend-on par logiciel robuste ? Pour être robuste, tout logiciel doit répondre aux critères suivants : l'impact de tout changement de code sur sa précision et ses performances peut être mesuré (bien testé), sa documentation est toujours à jour (bien documentée) et le logiciel (ainsi que ses dépendances) est facilement installable par les utilisateurs. Pour RSMTool, nous avons tiré parti de plusieurs outils et services open source pour le faire correspondre à notre définition. Nous avons une suite de tests complète (> 90 % de couverture de code) que nous exécutons automatiquement via une intégration continue pour toutes les modifications soumises au code. Nous maintenons une documentation complète (y compris plusieurs didacticiels réels) et toute nouvelle fonctionnalité proposée pour RSMTool must inclure un composant de documentation qui est également examiné dans le cadre de l'examen du code. Enfin, nous publions RSMTool sous forme de packages qui peuvent être facilement installés (via pip ou conda) et toutes les dépendances nécessaires sont également installées automatiquement.

Qu'est-ce qu'ETS espère réaliser en publiant le RSMTool ?

Le secteur de l'éducation a connu l'une des expansions les plus importantes de l'IA au cours des dernières années, la notation automatisée du texte et de la parole devenant une application de plus en plus courante de la PNL. ETS est depuis longtemps un leader dans le domaine de la notation automatisée et, depuis sa création, s'est engagé à créer des produits et des évaluations équitables conçus pour servir les apprenants du monde entier. En publiant RSMTool, développé en étroite collaboration entre des scientifiques du PNL et des psychométriciens, ETS veut poursuivre son plaidoyer pour une utilisation responsable de l'IA dans l'éducation de manière très tangible ; Plus précisément, nous voulons préciser que lorsque les chercheurs en IA réfléchissent à la « performance » d'un système de notation automatisé, ils doivent tenir compte non seulement des mesures standard de précision des prédictions (par exemple, la corrélation de Pearson), mais également de l'équité du modèle. Plus largement, nous aimerions également que RSMTool serve d'exemple de la manière dont les chercheurs en PNL et les psychométriciens peuvent et doivent travailler ensemble.

Y a-t-il autre chose que vous aimeriez partager à propos du RSMTool ?

Nous voulons encourager les lecteurs à nous aider à améliorer RSMTool ! Ils n'ont pas besoin d'être un psychométricien ou un expert en PNL pour contribuer. Nous avons de nombreux problèmes ouverts liés à la documentation et à la programmation Python qui seraient parfaits pour tout programmeur Python débutant à intermédiaire. Nous invitons également les contributions à SKLL (Laboratoire Scikit-Learn), - un autre package open source ETS pour exécuter efficacement des expériences d'apprentissage automatique par lots configurables par l'utilisateur - qui est utilisé de manière sous-jacente par RSMTool.

Rubriques connexes:STE Interview

La présidence de Biden devrait faire de l'IA et de la R&D quantique une priorité

Ne manquez pas

Le gouvernement britannique se tourne vers l'IA pour évaluer les effets secondaires possibles des vaccins Covid

Antoine Tardif

Partenaire fondateur d'unite.AI et membre du Conseil technologique de Forbes, Antoine est un futuriste qui est passionné par l'avenir de l'IA et de la robotique.

Il est également le fondateur de Titres.io, un site Web axé sur l'investissement dans les technologies de rupture.

Unite.AI

Nitin Madnani, chercheur scientifique principal à l'ETS – Série d'entrevues

Interviews

Nitin Madnani, chercheur scientifique principal à l'ETS – Série d'entrevues

Table des matières

Derniers Articles

Unite.AI

Nitin Madnani, chercheur scientifique principal à l'ETS – Série d'entrevues

Table des matières

Tu peux aimer

Derniers Articles