Inteligencia artificial
El Futuro de la Evaluación del Habla – Líderes de Opinión

En todo el mundo, el número de estudiantes de inglés como lengua extranjera sigue aumentando. Las instituciones educativas y los empleadores necesitan poder evaluar el nivel de inglés de los estudiantes de lengua – en particular, su capacidad para hablar, ya que el lenguaje hablado sigue siendo una de las habilidades lingüísticas más esenciales. El desafío, tanto para los desarrolladores de evaluaciones como para los usuarios finales, es encontrar una forma de hacerlo que sea precisa, rápida y financieramente viable. Como parte de este desafío, la evaluación de estas pruebas conlleva su propio conjunto de factores, especialmente cuando consideramos las diferentes áreas (habla, escritura, etc.) en las que se está siendo evaluado. Con la demanda de habilidades en inglés en todo el mundo solo se espera que aumente, ¿cómo debería ser el futuro de la evaluación del habla para satisfacer estas necesidades?
La respuesta a esa pregunta, en parte, se encuentra en la evolución de la evaluación del habla hasta la fecha. La calificación de respuestas habladas construidas históricamente se ha realizado utilizando calificadores humanos. Sin embargo, este proceso tiende a ser costoso y lento, y tiene desafíos adicionales, incluyendo la escalabilidad y las limitaciones de los calificadores humanos en sí (por ejemplo, subjetividad o sesgo del calificador). Como se discute en nuestro libro Automated Speaking Assessment: Using Language Technologies to Score Spontaneous Speech, para abordar estos desafíos, un número creciente de evaluaciones ahora utilizan tecnología de evaluación automática del habla como la única fuente de calificación o en combinación con calificadores humanos. Sin embargo, antes de implementar motores de calificación automática, su rendimiento debe evaluarse exhaustivamente, particularmente en relación con la confiabilidad de la calificación, la validez (¿mide el sistema lo que se supone que debe medir?) y la equidad (es decir, el sistema no debe introducir sesgo relacionado con subgrupos de población como el género o la lengua materna).
Desde 2006, el motor de calificación del habla de ETS, SpeechRater®, ha estado operativo en la evaluación en línea de práctica TOEFL® (TPO) (utilizada por los aspirantes a la prueba para prepararse para la evaluación TOEFL iBT®), y desde 2019, SpeechRater también se ha utilizado, junto con calificadores humanos, para calificar la sección de habla de la evaluación TOEFL iBT®. El motor evalúa una amplia gama de habilidades de habla para el habla espontánea no nativa, incluyendo la pronunciación y la fluidez, el rango de vocabulario y la gramática, y habilidades de habla de nivel superior relacionadas con la coherencia y la progresión de ideas. Estas características se calculan utilizando procesamiento de lenguaje natural (NLP) y algoritmos de procesamiento del habla. Luego, se aplica un modelo estadístico a estas características para asignar una calificación final a la respuesta de un examinado.
Aunque este modelo se entrena con datos previamente observados calificados por calificadores humanos, también es revisado por expertos en contenido para maximizar su validez. Si se encuentra que una respuesta no es calificable debido a la calidad del audio u otros problemas, el motor puede marcarla para una revisión adicional para evitar generar una calificación potencialmente poco confiable o inválida. Los calificadores humanos siempre participan en la calificación de respuestas habladas en la evaluación de habla de alto riesgo TOEFL iBT.
Como los calificadores humanos y SpeechRater se utilizan actualmente juntos para calificar las respuestas de los examinados en evaluaciones de habla de alto riesgo, ambos desempeñan un papel en lo que puede ser el futuro de la calificación de la competencia en inglés. Los calificadores humanos tienen la capacidad de comprender el contenido y la organización del discurso de una respuesta hablada de manera profunda. En contraste, los motores de calificación automática del habla pueden medir con mayor precisión ciertos aspectos detallados del habla, como la fluidez o la pronunciación, exhibir una consistencia perfecta con el tiempo, reducir el tiempo y el costo de calificación en general, y son más fáciles de escalar para respaldar grandes volúmenes de pruebas. Cuando los calificadores humanos y los sistemas de calificación automática del habla se combinan, el sistema resultante puede beneficiarse de las fortalezas de cada enfoque de calificación.
Para seguir evolucionando los motores de calificación automática del habla, la investigación y el desarrollo deben centrarse en los siguientes aspectos, entre otros:
- Construir sistemas de reconocimiento automático del habla con mayor precisión: Dado que la mayoría de las características de un sistema de calificación del habla dependen directa o indirectamente de este componente del sistema que convierte el habla del examinado en una transcripción de texto, es esencial un reconocimiento automático del habla muy preciso para obtener características válidas;
- Explorar nuevas formas de combinar calificaciones humanas y automáticas: Para aprovechar al máximo las fortalezas respectivas de las calificaciones de los calificadores humanos y las calificaciones de los motores automáticos, se necesitan explorar más formas de combinar esta evidencia;
- Contar con anormalidades en las respuestas, tanto técnicas como conductuales: Se necesitan filtros de alto rendimiento capaces de marcar dichas respuestas y excluirlos de la calificación automática para ayudar a garantizar la validez y la confiabilidad de las calificaciones de la evaluación resultantes;
- Evaluación del habla espontánea o conversacional que ocurre con más frecuencia en la vida diaria: Si bien la calificación automática de este tipo de habla interactiva es un objetivo importante, estos elementos presentan numerosos desafíos de calificación, incluyendo la evaluación y la calificación en general;
- Explorar tecnologías de aprendizaje profundo para la calificación automática del habla: Este paradigma relativamente reciente dentro del aprendizaje automático ha producido aumentos sustanciales del rendimiento en muchas tareas de inteligencia artificial (IA) en los últimos años (por ejemplo, reconocimiento automático del habla, reconocimiento de imágenes), y por lo tanto es probable que la calificación automática también se beneficie del uso de esta tecnología. Sin embargo, dado que la mayoría de estos sistemas pueden considerarse enfoques de “caja negra”, se prestará atención a la interpretación de la calificación resultante para mantener algún nivel de transparencia.
Para acomodar a una población de estudiantes de inglés en crecimiento y cambio, los sistemas de calificación del habla de próxima generación deben expandir la automatización y el rango de lo que pueden medir, permitiendo la consistencia y la escalabilidad. Eso no significa que el elemento humano se eliminará, especialmente para evaluaciones de alto riesgo. Los calificadores humanos probablemente sigan siendo esenciales para capturar ciertos aspectos del habla que seguirán siendo difíciles de evaluar con precisión por los sistemas de calificación automática durante un tiempo, incluyendo los aspectos detallados del contenido hablado y el discurso. Usar sistemas de calificación automática del habla en aislamiento para evaluaciones con consecuencias también conlleva el riesgo de no identificar respuestas problemáticas de los examinados, por ejemplo, respuestas que están fuera de tema o son plagio, y, como consecuencia, pueden llevar a una validez y confiabilidad reducidas. Usar calificadores humanos y sistemas de calificación automática en combinación puede ser la mejor forma de calificar el habla en evaluaciones de alto riesgo para el futuro predecible, especialmente si se evalúa el habla espontánea o conversacional.
Escrito por: Keelan Evanini, Director de Investigación de Habla, ETS & Klaus Zechner, Científico Senior de Investigación, Habla, ETS
ETS trabaja con instituciones educativas, empresas y gobiernos para realizar investigaciones y desarrollar programas de evaluación que proporcionen información significativa que puedan confiar para evaluar a las personas y los programas. ETS desarrolla, administra y califica más de 50 millones de pruebas anualmente en más de 180 países en más de 9.000 ubicaciones en todo el mundo. Diseñamos nuestras evaluaciones con conocimientos de la industria, investigación rigurosa y un compromiso inquebrantable con la calidad para que podamos ayudar a las comunidades educativas y laborales a tomar decisiones informadas. Para obtener más información, visite ETS.













