Intelligence Artificielle
L'avenir de la notation de la parole - Leaders d'opinion

Partout dans le monde, le nombre d'apprenants de l'anglais continue d'augmenter. Les établissements d'enseignement et les employeurs doivent être en mesure d'évaluer les compétences en anglais des apprenants en langues, en particulier leur capacité à parler, car la langue parlée reste l'une des compétences linguistiques les plus essentielles. Le défi, tant pour les développeurs d'évaluations que pour les utilisateurs finaux, est de trouver un moyen de le faire qui soit précis, rapide et financièrement viable. Dans le cadre de ce défi, la notation de ces évaluations s'accompagne de son propre ensemble de facteurs, en particulier lorsque l'on considère les différents domaines (parole, écriture, etc.) sur lesquels on est testé. Alors que la demande de compétences en anglais à travers le monde ne devrait qu'augmenter, à quoi devrait ressembler l'avenir de la notation vocale pour répondre à ces besoins ?
La réponse à cette question se trouve en partie dans l'évolution de la notation de la parole à ce jour. L'évaluation des réponses orales construites a toujours été effectuée à l'aide d'évaluateurs humains. Cependant, ce processus a tendance à être coûteux et lent, et présente des défis supplémentaires, notamment l'évolutivité et diverses lacunes des évaluateurs humains eux-mêmes (par exemple, la subjectivité ou les préjugés des évaluateurs). Comme discuté dans notre livre Évaluation automatisée de la parole : utilisation des technologies langagières pour évaluer la parole spontanée, afin de relever ces défis, un nombre croissant d'évaluations utilisent désormais la technologie de notation vocale automatisée comme seule source de notation ou en combinaison avec des évaluateurs humains. Avant de déployer des moteurs de notation automatisés, cependant, leurs performances doivent être soigneusement évaluées, en particulier en ce qui concerne la fiabilité, la validité (le système mesure-t-il ce qu'il est censé mesurer ?) et l'équité (c'est-à -dire que le système ne doit pas introduire de biais liés à sous-groupes de population tels que le sexe ou la langue maternelle).
Depuis 2006, le moteur de notation vocale d'ETS, SpeechRater®, est opérationnel dans l'évaluation TOEFL® Practice Online (TPO) (utilisée par les candidats potentiels pour se préparer à l'évaluation TOEFL iBT®), et depuis 2019, SpeechRater est également utilisé. , ainsi que des évaluateurs humains, pour la notation de la section orale de l'évaluation TOEFL iBT®. Le moteur évalue un large éventail de compétences orales pour le discours spontané non natif, y compris la prononciation et la fluidité, l'étendue du vocabulaire et la grammaire, ainsi que les capacités orales de niveau supérieur liées à la cohérence et à la progression des idées. Ces fonctionnalités sont calculées à l’aide d’algorithmes de traitement du langage naturel (NLP) et de traitement de la parole. Un modèle statistique est ensuite appliqué à ces fonctionnalités afin d'attribuer un score final à la réponse d'un candidat.
Bien que ce modèle soit formé sur des données précédemment observées notées par des évaluateurs humains, il est également examiné par des experts en contenu pour maximiser sa validité. Si une réponse s'avère non évaluable en raison de la qualité audio ou d'autres problèmes, le moteur peut la signaler pour un examen plus approfondi afin d'éviter de générer un score potentiellement non fiable ou non valide. Les évaluateurs humains sont toujours impliqués dans la notation des réponses orales dans l'évaluation orale TOEFL iBT à enjeux élevés.
Étant donné que les évaluateurs humains et SpeechRater sont actuellement utilisés ensemble pour noter les réponses des candidats aux évaluations orales à enjeux élevés, les deux jouent un rôle dans ce que peut être l'avenir de la notation de la maîtrise de l'anglais. Les évaluateurs humains ont la capacité de comprendre le contenu et l'organisation du discours d'une réponse orale de manière approfondie. En revanche, les moteurs de notation vocale automatisés peuvent mesurer plus précisément certains aspects détaillés de la parole, tels que la fluidité ou la prononciation, présentent une cohérence parfaite dans le temps, peuvent réduire le temps et le coût de la notation globale et sont plus facilement adaptés pour prendre en charge de grands volumes de tests. Lorsque les évaluateurs humains et les systèmes de notation vocale automatisés sont combinés, le système résultant peut bénéficier des points forts de chaque approche de notation.
Afin de faire évoluer en permanence les moteurs de notation vocale automatisés, la recherche et le développement doivent se concentrer, entre autres, sur les aspects suivants :
- Construire des systèmes de reconnaissance vocale automatique avec une plus grande précision : étant donné que la plupart des fonctionnalités d'un système de notation vocale reposent directement ou indirectement sur ce composant du système qui convertit la parole du candidat en une transcription textuelle, une reconnaissance vocale automatique très précise est essentielle pour obtenir des fonctionnalités valides ;
- Exploration de nouvelles façons de combiner les scores humains et automatisés : afin de tirer pleinement parti des atouts respectifs des scores des évaluateurs humains et des scores des moteurs automatisés, d'autres façons de combiner ces preuves doivent être explorées ;
- Prise en compte des anomalies dans les réponses, à la fois techniques et comportementales : des filtres performants capables de signaler ces réponses et de les exclure de la notation automatisée sont nécessaires pour aider à garantir la validité et la fiabilité des scores d'évaluation obtenus ;
- Évaluation de la parole spontanée ou conversationnelle qui se produit le plus souvent dans la vie de tous les jours : bien que la notation automatisée de ce discours interactif soit un objectif important, ces éléments présentent de nombreux défis de notation, y compris l'évaluation et la notation globales ;
- Explorer les technologies d'apprentissage profond pour la notation vocale automatisée : ce paradigme relativement récent de l'apprentissage automatique a produit des augmentations substantielles des performances sur de nombreuses tâches d'intelligence artificielle (IA) ces dernières années (par exemple, la reconnaissance automatique de la parole, la reconnaissance d'images), et il est donc probable que la notation peut également bénéficier de l’utilisation de cette technologie. Cependant, étant donné que la plupart de ces systèmes peuvent être considérés comme des approches de « boîte noire », il sera important de prêter attention à l’interprétabilité du score obtenu afin de maintenir un certain niveau de transparence.
Pour s'adapter à une population d'apprenants de langue anglaise croissante et changeante, les systèmes de notation vocale de nouvelle génération doivent étendre l'automatisation et la gamme de ce qu'ils sont capables de mesurer, permettant la cohérence et l'évolutivité. Cela ne veut pas dire que l'élément humain sera supprimé, en particulier pour les évaluations à enjeux élevés. Les évaluateurs humains resteront probablement essentiels pour capturer certains aspects du discours qui resteront difficiles à évaluer avec précision par des systèmes de notation automatisés pendant un certain temps encore, y compris les aspects détaillés du contenu parlé et du discours. L'utilisation isolée de systèmes de notation vocale automatisés pour les évaluations consécutives risque également de ne pas identifier les réponses problématiques des candidats, par exemple les réponses hors sujet ou plagiées, et, par conséquent, peuvent entraîner une validité et une fiabilité réduites. L'utilisation combinée d'évaluateurs humains et de systèmes de notation automatisés peut être le meilleur moyen de noter la parole dans les évaluations à enjeux élevés dans un avenir prévisible, en particulier si la parole spontanée ou conversationnelle est évaluée.
Rédigé par : Keelan Evanini, directeur de la recherche sur la parole, STE & Klaus Zechner, chercheur scientifique principal, Discours, STE
ETS travaille avec des établissements d'enseignement, des entreprises et des gouvernements pour mener des recherches et développer des programmes d'évaluation qui fournissent des informations significatives sur lesquelles ils peuvent compter pour évaluer les personnes et les programmes. ETS développe, administre et note plus de 50 millions de tests par an dans plus de 180 pays sur plus de 9,000 XNUMX sites dans le monde. Nous concevons nos évaluations avec des connaissances de pointe, des recherches rigoureuses et un engagement sans compromis envers la qualité afin que nous puissions aider les communautés éducatives et professionnelles à prendre des décisions éclairées. Pour en savoir plus visitez ETS.











