Suivez nous sur

L'avenir de la notation de la parole - Leaders d'opinion

Intelligence Artificielle

L'avenir de la notation de la parole - Leaders d'opinion

mm mm

Partout dans le monde, le nombre d'apprenants de l'anglais continue d'augmenter. Les Ă©tablissements d'enseignement et les employeurs doivent ĂŞtre en mesure d'Ă©valuer les compĂ©tences en anglais des apprenants en langues, en particulier leur capacitĂ© Ă  parler, car la langue parlĂ©e reste l'une des compĂ©tences linguistiques les plus essentielles. Le dĂ©fi, tant pour les dĂ©veloppeurs d'Ă©valuations que pour les utilisateurs finaux, est de trouver un moyen de le faire qui soit prĂ©cis, rapide et financièrement viable. Dans le cadre de ce dĂ©fi, la notation de ces Ă©valuations s'accompagne de son propre ensemble de facteurs, en particulier lorsque l'on considère les diffĂ©rents domaines (parole, Ă©criture, etc.) sur lesquels on est testĂ©. Alors que la demande de compĂ©tences en anglais Ă  travers le monde ne devrait qu'augmenter, Ă  quoi devrait ressembler l'avenir de la notation vocale pour rĂ©pondre Ă  ces besoins ?

La rĂ©ponse Ă  cette question se trouve en partie dans l'Ă©volution de la notation de la parole Ă  ce jour. L'Ă©valuation des rĂ©ponses orales construites a toujours Ă©tĂ© effectuĂ©e Ă  l'aide d'Ă©valuateurs humains. Cependant, ce processus a tendance Ă  ĂŞtre coĂ»teux et lent, et prĂ©sente des dĂ©fis supplĂ©mentaires, notamment l'Ă©volutivitĂ© et diverses lacunes des Ă©valuateurs humains eux-mĂŞmes (par exemple, la subjectivitĂ© ou les prĂ©jugĂ©s des Ă©valuateurs). Comme discutĂ© dans notre livre Évaluation automatisĂ©e de la parole : utilisation des technologies langagières pour Ă©valuer la parole spontanĂ©e, afin de relever ces dĂ©fis, un nombre croissant d'Ă©valuations utilisent dĂ©sormais la technologie de notation vocale automatisĂ©e comme seule source de notation ou en combinaison avec des Ă©valuateurs humains. Avant de dĂ©ployer des moteurs de notation automatisĂ©s, cependant, leurs performances doivent ĂŞtre soigneusement Ă©valuĂ©es, en particulier en ce qui concerne la fiabilitĂ©, la validitĂ© (le système mesure-t-il ce qu'il est censĂ© mesurer ?) et l'Ă©quitĂ© (c'est-Ă -dire que le système ne doit pas introduire de biais liĂ©s Ă  sous-groupes de population tels que le sexe ou la langue maternelle).

Depuis 2006, le moteur de notation vocale d'ETS, SpeechRater®, est opérationnel dans l'évaluation TOEFL® Practice Online (TPO) (utilisée par les candidats potentiels pour se préparer à l'évaluation TOEFL iBT®), et depuis 2019, SpeechRater est également utilisé. , ainsi que des évaluateurs humains, pour la notation de la section orale de l'évaluation TOEFL iBT®. Le moteur évalue un large éventail de compétences orales pour le discours spontané non natif, y compris la prononciation et la fluidité, l'étendue du vocabulaire et la grammaire, ainsi que les capacités orales de niveau supérieur liées à la cohérence et à la progression des idées. Ces fonctionnalités sont calculées à l’aide d’algorithmes de traitement du langage naturel (NLP) et de traitement de la parole. Un modèle statistique est ensuite appliqué à ces fonctionnalités afin d'attribuer un score final à la réponse d'un candidat.

Bien que ce modèle soit formé sur des données précédemment observées notées par des évaluateurs humains, il est également examiné par des experts en contenu pour maximiser sa validité. Si une réponse s'avère non évaluable en raison de la qualité audio ou d'autres problèmes, le moteur peut la signaler pour un examen plus approfondi afin d'éviter de générer un score potentiellement non fiable ou non valide. Les évaluateurs humains sont toujours impliqués dans la notation des réponses orales dans l'évaluation orale TOEFL iBT à enjeux élevés.

Étant donné que les évaluateurs humains et SpeechRater sont actuellement utilisés ensemble pour noter les réponses des candidats aux évaluations orales à enjeux élevés, les deux jouent un rôle dans ce que peut être l'avenir de la notation de la maîtrise de l'anglais. Les évaluateurs humains ont la capacité de comprendre le contenu et l'organisation du discours d'une réponse orale de manière approfondie. En revanche, les moteurs de notation vocale automatisés peuvent mesurer plus précisément certains aspects détaillés de la parole, tels que la fluidité ou la prononciation, présentent une cohérence parfaite dans le temps, peuvent réduire le temps et le coût de la notation globale et sont plus facilement adaptés pour prendre en charge de grands volumes de tests. Lorsque les évaluateurs humains et les systèmes de notation vocale automatisés sont combinés, le système résultant peut bénéficier des points forts de chaque approche de notation.

Afin de faire Ă©voluer en permanence les moteurs de notation vocale automatisĂ©s, la recherche et le dĂ©veloppement doivent se concentrer, entre autres, sur les aspects suivants :

  • Construire des systèmes de reconnaissance vocale automatique avec une plus grande prĂ©cision : Ă©tant donnĂ© que la plupart des fonctionnalitĂ©s d'un système de notation vocale reposent directement ou indirectement sur ce composant du système qui convertit la parole du candidat en une transcription textuelle, une reconnaissance vocale automatique très prĂ©cise est essentielle pour obtenir des fonctionnalitĂ©s valides ;
  • Exploration de nouvelles façons de combiner les scores humains et automatisĂ©s : afin de tirer pleinement parti des atouts respectifs des scores des Ă©valuateurs humains et des scores des moteurs automatisĂ©s, d'autres façons de combiner ces preuves doivent ĂŞtre explorĂ©es ;
  • Prise en compte des anomalies dans les rĂ©ponses, Ă  la fois techniques et comportementales : des filtres performants capables de signaler ces rĂ©ponses et de les exclure de la notation automatisĂ©e sont nĂ©cessaires pour aider Ă  garantir la validitĂ© et la fiabilitĂ© des scores d'Ă©valuation obtenus ;
  • Évaluation de la parole spontanĂ©e ou conversationnelle qui se produit le plus souvent dans la vie de tous les jours : bien que la notation automatisĂ©e de ce discours interactif soit un objectif important, ces Ă©lĂ©ments prĂ©sentent de nombreux dĂ©fis de notation, y compris l'Ă©valuation et la notation globales ;
  • Explorer les technologies d'apprentissage profond pour la notation vocale automatisĂ©e : ce paradigme relativement rĂ©cent de l'apprentissage automatique a produit des augmentations substantielles des performances sur de nombreuses tâches d'intelligence artificielle (IA) ces dernières annĂ©es (par exemple, la reconnaissance automatique de la parole, la reconnaissance d'images), et il est donc probable que la notation peut Ă©galement bĂ©nĂ©ficier de l’utilisation de cette technologie. Cependant, Ă©tant donnĂ© que la plupart de ces systèmes peuvent ĂŞtre considĂ©rĂ©s comme des approches de « boĂ®te noire », il sera important de prĂŞter attention Ă  l’interprĂ©tabilitĂ© du score obtenu afin de maintenir un certain niveau de transparence.

Pour s'adapter à une population d'apprenants de langue anglaise croissante et changeante, les systèmes de notation vocale de nouvelle génération doivent étendre l'automatisation et la gamme de ce qu'ils sont capables de mesurer, permettant la cohérence et l'évolutivité. Cela ne veut pas dire que l'élément humain sera supprimé, en particulier pour les évaluations à enjeux élevés. Les évaluateurs humains resteront probablement essentiels pour capturer certains aspects du discours qui resteront difficiles à évaluer avec précision par des systèmes de notation automatisés pendant un certain temps encore, y compris les aspects détaillés du contenu parlé et du discours. L'utilisation isolée de systèmes de notation vocale automatisés pour les évaluations consécutives risque également de ne pas identifier les réponses problématiques des candidats, par exemple les réponses hors sujet ou plagiées, et, par conséquent, peuvent entraîner une validité et une fiabilité réduites. L'utilisation combinée d'évaluateurs humains et de systèmes de notation automatisés peut être le meilleur moyen de noter la parole dans les évaluations à enjeux élevés dans un avenir prévisible, en particulier si la parole spontanée ou conversationnelle est évaluée.

RĂ©digĂ© par : Keelan Evanini, directeur de la recherche sur la parole, STE & Klaus Zechner, chercheur scientifique principal, Discours, STE

ETS travaille avec des établissements d'enseignement, des entreprises et des gouvernements pour mener des recherches et développer des programmes d'évaluation qui fournissent des informations significatives sur lesquelles ils peuvent compter pour évaluer les personnes et les programmes. ETS développe, administre et note plus de 50 millions de tests par an dans plus de 180 pays sur plus de 9,000 XNUMX sites dans le monde. Nous concevons nos évaluations avec des connaissances de pointe, des recherches rigoureuses et un engagement sans compromis envers la qualité afin que nous puissions aider les communautés éducatives et professionnelles à prendre des décisions éclairées. Pour en savoir plus visitez ETS.

Directeur de Speech Research en Recherche et Développement chez Service de test éducatif (ETS).

Directeur de recherche principal, discours, en recherche et développement chez Service de test éducatif
(ETS).