Connect with us

L’avenir de la notation des discours – Les leaders d’opinion

Intelligence artificielle

L’avenir de la notation des discours – Les leaders d’opinion

mm mm

À travers le monde, le nombre d’apprenants de la langue anglaise continue d’augmenter. Les établissements d’enseignement et les employeurs doivent être en mesure d’évaluer la maîtrise de l’anglais des apprenants de langues – en particulier, leur capacité à s’exprimer, puisque la langue parlée reste l’une des compétences linguistiques les plus essentielles. Le défi, pour les concepteurs d’évaluations et les utilisateurs finals, est de trouver un moyen de le faire de manière précise, rapide et financièrement viable. Dans le cadre de ce défi, la notation de ces évaluations comporte son propre ensemble de facteurs, en particulier lorsqu’on considère les différentes zones (discours, écriture, etc.) sur lesquelles on est testé. Avec la demande de compétences en anglais à travers le globe qui ne devrait qu’augmenter, à quoi ressemblera l’avenir de la notation des discours pour répondre à ces besoins ?

La réponse à cette question, en partie, se trouve dans l’évolution de la notation des discours à ce jour. La notation des réponses parlées construites a historiquement été effectuée à l’aide de notateurs humains. Ce processus, cependant, tend à être coûteux et lent, et comporte des défis supplémentaires, notamment la scalabilité et les limites des notateurs humains eux-mêmes (par exemple, la subjectivité ou les préjugés des notateurs). Comme discuté dans notre livre Automated Speaking Assessment: Using Language Technologies to Score Spontaneous Speech, afin de relever ces défis, un nombre croissant d’évaluations utilisent maintenant la technologie de notation automatique des discours comme seule source de notation ou en combinaison avec des notateurs humains. Avant de déployer les moteurs de notation automatisés, cependant, leur performance doit être soigneusement évaluée, en particulier en ce qui concerne la fiabilité des scores, la validité (le système mesure-t-il ce qu’il est censé mesurer ?) et l’équité (c’est-à-dire que le système ne doit pas introduire de biais lié à des sous-groupes de population tels que le sexe ou la langue maternelle).

Depuis 2006, le moteur de notation des discours d’ETS, SpeechRater®, a été opérationnalisé dans l’évaluation en ligne de pratique TOEFL® (TPO) (utilisée par les futurs candidats pour se préparer à l’évaluation TOEFL iBT®), et depuis 2019, SpeechRater a également été utilisé, ainsi que des notateurs humains, pour la notation de la section de discours de l’évaluation TOEFL iBT®. Le moteur évalue un large éventail de compétences en discours pour les discours spontanés non natifs, y compris la prononciation et la fluidité, la gamme de vocabulaire et la grammaire, ainsi que des compétences en discours de niveau supérieur liées à la cohérence et à la progression des idées. Ces fonctionnalités sont calculées à l’aide de techniques de traitement automatique des langues (NLP) et d’algorithmes de traitement de la parole. Un modèle statistique est ensuite appliqué à ces fonctionnalités pour attribuer une note finale à la réponse d’un candidat.

Alors que ce modèle est formé à partir de données précédemment observées notées par des notateurs humains, il est également examiné par des experts en contenu pour maximiser sa validité. Si une réponse est jugée non notifiable en raison de la qualité audio ou d’autres problèmes, le moteur peut la signaler pour un examen plus approfondi afin d’éviter de générer une note potentiellement peu fiable ou non valide. Les notateurs humains sont toujours impliqués dans la notation des réponses parlées dans l’évaluation de discours TOEFL iBT à haute stake.

Alors que les notateurs humains et SpeechRater sont actuellement utilisés ensemble pour noter les réponses des candidats dans les évaluations de discours à haute stake, les deux jouent un rôle dans ce que peut être l’avenir de la notation de la maîtrise de la langue anglaise. Les notateurs humains ont la capacité de comprendre le contenu et l’organisation du discours d’une réponse parlée de manière approfondie. En revanche, les moteurs de notation automatique des discours peuvent mesurer de manière plus précise certains aspects détaillés du discours, tels que la fluidité ou la prononciation, présentent une constance parfaite dans le temps, peuvent réduire le temps et le coût de notation globaux et sont plus facilement adaptés pour supporter de grands volumes de tests. Lorsque les notateurs humains et les systèmes de notation automatique des discours sont combinés, le système résultant peut bénéficier des forces de chaque approche de notation.

Afin de faire évoluer continuellement les moteurs de notation automatique des discours, la recherche et le développement doivent se concentrer sur les aspects suivants, entre autres :

  • Construire des systèmes de reconnaissance automatique de la parole avec une plus grande précision : Puisque la plupart des fonctionnalités d’un système de notation des discours dépendent directement ou indirectement de ce composant du système qui convertit la parole du candidat en transcription textuelle, une reconnaissance automatique de la parole hautement précise est essentielle pour obtenir des fonctionnalités valides ;
  • Explorer de nouvelles façons de combiner les notes humaines et automatisées : Afin de tirer pleinement parti des forces respectives des notes des notateurs humains et des notes des moteurs automatisés, de nouvelles façons de combiner ces preuves doivent être explorées ;
  • Compter les anomalies dans les réponses, à la fois techniques et comportementales : Des filtres haute performance capables de signaler ces réponses et de les exclure de la notation automatisée sont nécessaires pour aider à garantir la validité et la fiabilité des notes d’évaluation résultantes ;
  • Évaluation du discours spontané ou conversationnel qui se produit le plus souvent dans la vie quotidienne : Bien que la notation automatisée d’un tel discours interactif soit un objectif important, ces éléments présentent de nombreux défis de notation, notamment l’évaluation globale et la notation ;
  • Explorer les technologies d’apprentissage profond pour la notation automatisée des discours : Ce paradigme relativement récent dans l’apprentissage automatique a produit des augmentations de performance substantielles sur de nombreuses tâches d’intelligence artificielle (IA) ces dernières années (par exemple, reconnaissance automatique de la parole, reconnaissance d’images), et il est donc probable que la notation automatisée puisse également bénéficier de l’utilisation de cette technologie. Cependant, puisque la plupart de ces systèmes peuvent être considérés comme des approches « boîte noire », l’attention portée à l’interprétabilité du score résultant sera importante pour maintenir un certain niveau de transparence.

Pour répondre à une population d’apprenants de la langue anglaise en constante évolution, les systèmes de notation des discours de prochaine génération doivent élargir l’automatisation et la gamme de ce qu’ils sont en mesure de mesurer, permettant ainsi la constance et la scalabilité. Cela ne signifie pas que l’élément humain sera supprimé, en particulier pour les évaluations à haute stake. Les notateurs humains seront probablement toujours essentiels pour capturer certains aspects du discours qui seront difficiles à évaluer avec précision par les systèmes de notation automatisés pour un certain temps à venir, notamment les aspects détaillés du contenu parlé et de l’organisation du discours. L’utilisation de systèmes de notation automatisés des discours en isolation pour les évaluations à conséquences importantes comporte également le risque de ne pas identifier les réponses problématiques des candidats – par exemple, les réponses qui sont hors sujet ou plagiées, et, en conséquence, peuvent entraîner une validité et une fiabilité réduites. L’utilisation à la fois de notateurs humains et de systèmes de notation automatisés en combinaison peut être la meilleure façon de noter le discours dans les évaluations à haute stake pour un avenir prévisible, en particulier si le discours spontané ou conversationnel est évalué.

Rédigé par : Keelan Evanini, Directeur de la recherche sur le discours, ETS & Klaus Zechner, Scientifique principal de recherche, Discours, ETS

ETS travaille avec des établissements d’enseignement, des entreprises et des gouvernements pour mener des recherches et développer des programmes d’évaluation qui fournissent des informations significatives dont ils peuvent se fier pour évaluer les personnes et les programmes. ETS développe, administre et note plus de 50 millions de tests par an dans plus de 180 pays et dans plus de 9 000 lieux à travers le monde. Nous concevons nos évaluations avec une perspicacité de pointe dans l’industrie, des recherches rigoureuses et un engagement inébranlable en faveur de la qualité afin de pouvoir aider les communautés éducatives et professionnelles à prendre des décisions éclairées. Pour en savoir plus, visitez ETS.

Directeur de la recherche sur le discours dans la recherche et le développement chez Educational Testing Service (ETS).

Managing Senior Research Scientist, Speech, in Research and Development at Educational Testing Service
(ETS).