Inteligencia artificial

Anastassia Loukina, científica de investigación senior (NLP / Speech) en ETS – Serie de entrevistas

mm

Anastassia Loukina es una científica de investigación en Educational Testing Services (ETS) donde trabaja en la puntuación automática de habla.

Sus intereses de investigación abarcan una amplia gama de temas. Ha trabajado, entre otras cosas, en dialectos griegos modernos, ritmo del habla y análisis de prosodia automatizado.

Su trabajo actual se centra en combinar herramientas y métodos de tecnologías del habla y aprendizaje automático con conocimientos de estudios sobre percepción y producción del habla para construir modelos de puntuación automática para evaluar el habla no nativa.

Es evidente que tiene un amor por los idiomas, ¿qué lo llevó a esta pasión?

Crecí hablando ruso en San Petersburgo, Rusia y recuerdo que me fascinaba cuando me presentaron por primera vez el idioma inglés: para algunas palabras, había un patrón que hacía posible “convertir” una palabra rusa en una palabra inglesa. Y luego me encontraba con una palabra donde “mi” patrón fallaba y trataba de encontrar una regla mejor, más general. En ese momento, por supuesto, no sabía nada sobre tipología lingüística o la diferencia entre cognados y préstamos, pero esto despertó mi curiosidad y deseo de aprender más idiomas. Esta pasión por identificar patrones en la forma en que la gente habla y probarlos en los datos es lo que me llevó a la fonética, el aprendizaje automático y el trabajo que estoy haciendo ahora.

Antes de su trabajo actual en Procesamiento de Lenguaje Natural (NLP), era traductor entre inglés-ruso y griego moderno-ruso. ¿Cree que su trabajo como traductor le ha dado conocimientos adicionales sobre algunas de las sutilezas y problemas asociados con el NLP?

Mi identidad principal siempre ha sido la de investigador. Es cierto que comencé mi carrera académica como estudioso del griego moderno, o más específicamente, la fonética del griego moderno. Para mi trabajo de doctorado, exploré las diferencias fonéticas entre varios dialectos del griego moderno y cómo las diferencias entre estos dialectos podrían estar relacionadas con la historia de la zona. Argumenté que algunas de las diferencias entre los dialectos podrían haber surgido como resultado del contacto lingüístico entre cada dialecto y otros idiomas hablados en la zona. Aunque ya no trabajo en griego moderno, los cambios que ocurren cuando dos idiomas entran en contacto entre sí siguen siendo el centro de mi trabajo: solo que esta vez me enfoco en lo que sucede cuando un individuo está aprendiendo un nuevo idioma y cómo la tecnología puede ayudar a hacerlo de la manera más eficiente.

En cuanto al idioma inglés, hay una multitud de acentos. ¿Cómo diseña un NLP con la capacidad de entender todos los diferentes dialectos? ¿Es simplemente una cuestión de alimentar al algoritmo de aprendizaje profundo con datos adicionales de cada tipo de acento?

Se han utilizado varios enfoques en el pasado para abordar esto. Además de construir un modelo grande que cubra todos los acentos, podrías identificar primero el acento y luego usar un modelo personalizado para ese acento, o podrías intentar varios modelos al mismo tiempo y elegir el que funcione mejor. En última instancia, para lograr un buen rendimiento en una amplia gama de acentos, necesitas datos de entrenamiento y evaluación representativos de los muchos acentos que puede encontrar un sistema.

En ETS, realizamos evaluaciones exhaustivas para asegurarnos de que las puntuaciones producidas por nuestros sistemas automatizados reflejen las diferencias en las habilidades reales que queremos medir y no estén influenciadas por las características demográficas del aprendiz, como su género, raza o país de origen.

Los niños y / o los aprendices de idiomas a menudo tienen dificultades con la pronunciación perfecta. ¿Cómo supera el problema de la pronunciación?

No hay tal cosa como una pronunciación perfecta: la forma en que hablamos está estrechamente vinculada a nuestra identidad y, como desarrolladores e investigadores, nuestro objetivo es asegurarnos de que nuestros sistemas sean justos para todos los usuarios.

Tanto los niños como los aprendices de idiomas presentan desafíos particulares para los sistemas basados en el habla. Por ejemplo, las voces de los niños no solo tienen una calidad acústica muy diferente, sino que los niños también hablan de manera diferente a los adultos y hay mucha variabilidad entre los niños. Como resultado, desarrollar un reconocimiento de habla automatizado para niños es generalmente una tarea separada que requiere una gran cantidad de datos de habla infantil.

De manera similar, aunque hay muchas similitudes entre los aprendices de idiomas del mismo origen, los aprendices pueden variar ampliamente en su uso de patrones fonéticos, gramaticales y léxicos, lo que hace que el reconocimiento de habla sea una tarea particularmente desafiante. Cuando construimos nuestros sistemas para evaluar la competencia en inglés, usamos datos de aprendices de idiomas con una amplia gama de habilidades y idiomas nativos.

En enero de 2018, publicó ‘Usando respuestas ejemplares para el entrenamiento y la evaluación de sistemas de puntuación de habla automatizados‘. ¿Cuáles son algunos de los principales avances fundamentales que se deben entender de este documento?

En este documento, examinamos cómo la calidad de los datos de entrenamiento y prueba afecta el rendimiento de los sistemas de puntuación automatizados.

Los sistemas de puntuación automatizados, como muchos otros sistemas automatizados, se entrenan con datos que han sido etiquetados por humanos. En este caso, se trata de puntuaciones asignadas por calificadores humanos. Los calificadores humanos no siempre están de acuerdo en las puntuaciones que asignan. Hay varias estrategias utilizadas en la evaluación para garantizar que la puntuación final informada al examinado siga siendo muy confiable a pesar de la variación en el acuerdo humano a nivel de pregunta individual. Sin embargo, dado que los motores de puntuación automatizados generalmente se entrenan utilizando puntuaciones a nivel de respuesta, cualquier inconsistencia en dichas puntuaciones debido a las diversas razones mencionadas anteriormente puede afectar negativamente al sistema.

Pudimos tener acceso a una gran cantidad de datos con diferentes acuerdos entre calificadores humanos y comparar el rendimiento del sistema en diferentes condiciones. Lo que encontramos es que entrenar el sistema con datos perfectos no mejora en realidad su rendimiento sobre un sistema entrenado con datos con etiquetas más ruidosas. Las etiquetas perfectas solo te dan una ventaja cuando el tamaño total del conjunto de entrenamiento es muy bajo. Por otro lado, la calidad de las etiquetas humanas tuvo un efecto enorme en la evaluación del sistema: sus estimaciones de rendimiento pueden ser hasta un 30% más altas si se evalúan en etiquetas limpias.

El mensaje clave es que si tiene mucha data y recursos para limpiar las etiquetas de oro estándar, puede ser más inteligente limpiar las etiquetas en el conjunto de evaluación en lugar de las etiquetas en el conjunto de entrenamiento. Y este hallazgo se aplica no solo a la puntuación automatizada, sino también a muchas otras áreas.

¿Puede describir algunos de sus trabajos en ETS?

Trabajo en un sistema de motor de puntuación de habla que procesa lenguaje hablado en un contexto educativo. Uno de esos sistemas es SpeechRater®, que utiliza tecnología de reconocimiento y análisis de habla avanzada para evaluar y brindar retroalimentación detallada sobre la competencia en inglés como hablante. SpeechRater es una aplicación muy madura que ha estado disponible durante más de 10 años. Construyo modelos de puntuación para diferentes aplicaciones y trabajo con otros colegas en ETS para garantizar que nuestras puntuaciones sean confiables, justas y válidas para todos los examinados. También trabajamos con otros grupos en ETS para monitorear continuamente el rendimiento del sistema.

Además de mantener y mejorar nuestros sistemas operativos, creamos prototipos de nuevos sistemas. Uno de los proyectos que me emociona mucho es RelayReader™: una aplicación diseñada para ayudar a los lectores en desarrollo a ganar fluidez y confianza. Al leer con RelayReader, un usuario alterna entre escuchar y leer en voz alta un libro. Su lectura se envía entonces a nuestros servidores para brindar retroalimentación. En términos de procesamiento de habla, el desafío principal de esta aplicación es cómo medir el aprendizaje y brindar retroalimentación confiable y útil de manera no intrusiva, sin interferir con la participación del lector en el libro.

¿Cuál es su parte favorita de trabajar con ETS?

Lo que inicialmente me atrajo a ETS es que es una organización sin fines de lucro con la misión de avanzar en la calidad de la educación para todas las personas en todo el mundo. Aunque es genial cuando la investigación conduce a un producto, aprecio tener la oportunidad de trabajar en proyectos que son más fundamentales en naturaleza pero que ayudarán en el desarrollo de productos en el futuro. También valoro el hecho de que ETS tome en serio cuestiones como la privacidad de los datos y la justicia, y que todos nuestros sistemas pasen por una evaluación muy estricta antes de ser implementados operativamente.

Pero lo que realmente hace que ETS sea un gran lugar para trabajar es su gente. Tenemos una comunidad increíble de científicos, ingenieros y desarrolladores de muchos diferentes orígenes, lo que permite muchas colaboraciones interesantes.

¿Cree que una IA podrá pasar la Prueba de Turing algún día?

Desde la década de 1950, ha habido muchas interpretaciones de cómo se debe realizar la Prueba de Turing en la práctica. Probablemente haya un acuerdo general de que la Prueba de Turing no se ha superado en un sentido filosófico, es decir, no hay un sistema de IA que piense como un ser humano. Sin embargo, esto también se ha convertido en un tema muy especializado. La mayoría de las personas no construyen sus sistemas para superar la Prueba de Turing: queremos que logren objetivos específicos.

Para algunas de estas tareas, por ejemplo, el reconocimiento de habla o la comprensión del lenguaje natural, el rendimiento humano puede considerarse el estándar de oro. Pero también hay muchas otras tareas en las que esperaríamos que un sistema automatizado haga mucho mejor que los humanos o en las que un sistema automatizado y un experto humano necesitan trabajar juntos para lograr el mejor resultado. Por ejemplo, en un contexto educativo, no queremos que un sistema de IA reemplace a un maestro: queremos que ayude a los maestros, ya sea identificando patrones en las trayectorias de aprendizaje de los estudiantes, ayudando con la calificación o encontrando los mejores materiales de enseñanza.

¿Hay algo más que le gustaría compartir sobre ETS o NLP?

Muchas personas conocen a ETS por sus evaluaciones y sistemas de puntuación automatizados. Pero hacemos mucho más que eso. Tenemos muchas capacidades, desde biometría de voz hasta aplicaciones de diálogo hablado, y siempre estamos buscando nuevas formas de integrar la tecnología en el aprendizaje. Ahora que muchos estudiantes están aprendiendo desde casa, hemos abierto algunas de nuestras capacidades de investigación al público en general.

Gracias por la entrevista y por ofrecer esta visión de los últimos avances en NLP y reconocimiento de habla. Cualquiera que desee aprender más puede visitar Educational Testing Services.

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un emprendedor serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI.

Como futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.