Connect with us

O Futuro da Avaliação de Fala – Líderes de Pensamento

Inteligência artificial

O Futuro da Avaliação de Fala – Líderes de Pensamento

mm mm

Em todo o mundo, o número de aprendizes de língua inglesa continua a aumentar. As instituições de ensino e os empregadores precisam ser capazes de avaliar a proficiência em inglês dos aprendizes de língua – em particular, sua habilidade de fala, uma vez que a linguagem falada permanece entre as habilidades linguísticas mais essenciais. O desafio, tanto para os desenvolvedores de avaliações quanto para os usuários finais, é encontrar uma maneira de fazer isso que seja precisa, rápida e financeiramente viável. Como parte desse desafio, a avaliação dessas avaliações vem com seu próprio conjunto de fatores, especialmente quando consideramos as diferentes áreas (fala, escrita, etc.) em que alguém está sendo testado. Com a demanda por habilidades em língua inglesa em todo o mundo apenas esperada para aumentar, como seria o futuro da avaliação de fala para atender a essas necessidades?

A resposta a essa pergunta, em parte, é encontrada na evolução da avaliação de fala até o presente. A avaliação de respostas faladas construídas historicamente foi feita usando avaliadores humanos. Esse processo, no entanto, tende a ser caro e lento, e tem desafios adicionais, incluindo escalabilidade e várias deficiências dos próprios avaliadores humanos (por exemplo, subjetividade ou viés do avaliador). Como discutido em nosso livro Automated Speaking Assessment: Using Language Technologies to Score Spontaneous Speech, para abordar esses desafios, um número crescente de avaliações agora utiliza tecnologia de avaliação de fala automatizada como a única fonte de avaliação ou em combinação com avaliadores humanos. Antes de implantar motores de avaliação automatizados, no entanto, seu desempenho precisa ser completamente avaliado, particularmente em relação à confiabilidade da pontuação, validade (o sistema mede o que se supõe que deva medir?) e justiça (ou seja, o sistema não deve introduzir viés relacionado a subgrupos de população, como gênero ou língua nativa).

Desde 2006, o próprio motor de avaliação de fala da ETS, SpeechRater®, foi operacionalizado na avaliação TOEFL® Practice Online (TPO) (usada por candidatos para se preparar para a avaliação TOEFL iBT®), e desde 2019, o SpeechRater também foi usado, juntamente com avaliadores humanos, para avaliar a seção de fala da avaliação TOEFL iBT®. O motor avalia uma ampla gama de proficiência em fala para fala espontânea não nativa, incluindo pronúncia e fluência, vocabulário e gramática, e habilidades de fala de nível superior relacionadas à coerência e progressão de ideias. Esses recursos são computados usando processamento de linguagem natural (NLP) e algoritmos de processamento de fala. Um modelo estatístico é então aplicado a esses recursos para atribuir uma pontuação final à resposta de um candidato.

Embora esse modelo seja treinado em dados previamente observados avaliados por avaliadores humanos, ele também é revisado por especialistas em conteúdo para maximizar sua validade. Se uma resposta for considerada não avaliável devido à qualidade do áudio ou a outros problemas, o motor pode sinalizá-la para revisão adicional para evitar gerar uma pontuação potencialmente não confiável ou inválida. Avaliadores humanos sempre estão envolvidos na avaliação de respostas faladas na avaliação de fala de alto risco TOEFL iBT.

Como os avaliadores humanos e o SpeechRater são atualmente usados juntos para avaliar as respostas dos candidatos em avaliações de fala de alto risco, ambos desempenham um papel no que o futuro da avaliação de proficiência em língua inglesa pode ser. Os avaliadores humanos têm a capacidade de entender o conteúdo e a organização do discurso de uma resposta falada de uma maneira profunda. Em contraste, os motores de avaliação de fala automatizados podem medir com mais precisão certos aspectos detalhados da fala, como fluência ou pronúncia, exibir consistência perfeita ao longo do tempo, podem reduzir o tempo e o custo geral de avaliação e são mais facilmente escaláveis para suportar grandes volumes de testes. Quando os avaliadores humanos e os sistemas de avaliação de fala automatizados são combinados, o sistema resultante pode se beneficiar das forças de cada abordagem de avaliação.

Para continuar evoluindo os motores de avaliação de fala automatizados, a pesquisa e o desenvolvimento precisam se concentrar nos seguintes aspectos, entre outros:

  • Construir sistemas de reconhecimento de fala automático com maior precisão: Como a maioria dos recursos de um sistema de avaliação de fala depende diretamente ou indiretamente desse componente do sistema que converte a fala do candidato em uma transcrição de texto, um reconhecimento de fala automático altamente preciso é essencial para obter recursos válidos;
  • Explorar novas maneiras de combinar pontuações humanas e automatizadas: Para aproveitar ao máximo as forças respectivas das pontuações dos avaliadores humanos e das pontuações dos motores automatizados, mais maneiras de combinar essas evidências precisam ser exploradas;
  • Contabilizar anormalidades nas respostas, tanto técnicas quanto comportamentais: Filtros de alto desempenho capazes de sinalizar essas respostas e excluí-las da avaliação automatizada são necessários para ajudar a garantir a validade e a confiabilidade das pontuações de avaliação resultantes;
  • Avaliar fala espontânea ou conversacional que ocorre com mais frequência na vida diária: Embora a avaliação automatizada de fala interativa seja um objetivo importante, esses itens apresentam numerosos desafios de avaliação, incluindo avaliação e pontuação gerais;
  • Explorar tecnologias de aprendizado profundo para avaliação de fala automatizada: Esse paradigma relativamente recente dentro do aprendizado de máquina produziu aumentos significativos de desempenho em muitas tarefas de inteligência artificial (IA) nos últimos anos (por exemplo, reconhecimento de fala automático, reconhecimento de imagens), e, portanto, é provável que a avaliação automatizada também se beneficie do uso dessa tecnologia. No entanto, como a maioria desses sistemas pode ser considerada uma abordagem “caixa preta”, a atenção à interpretabilidade da pontuação resultante será importante para manter algum nível de transparência.

Para acomodar uma população de aprendizes de língua inglesa em crescimento e mudança, os sistemas de avaliação de fala de próxima geração devem expandir a automação e a gama do que são capazes de medir, permitindo consistência e escalabilidade. Isso não significa que o elemento humano será removido, especialmente para avaliações de alto risco. Os avaliadores humanos provavelmente permanecerão essenciais para capturar certos aspectos da fala que permanecerão difíceis de avaliar com precisão por sistemas de avaliação automatizados por um tempo. Usar sistemas de avaliação de fala automatizados em isolamento para avaliações consequenciais também corre o risco de não identificar respostas problemáticas dos candidatos — por exemplo, respostas que estão fora do tópico ou plagiadas — e, como consequência, pode levar a uma validade e confiabilidade reduzidas. Usar avaliadores humanos e sistemas de avaliação automatizados em combinação pode ser a melhor maneira de avaliar fala em avaliações de alto risco para o futuro previsível, especialmente se fala espontânea ou conversacional for avaliada.

Escrito por: Keelan Evanini, Diretor de Pesquisa de Fala, ETS & Klaus Zechner, Cientista Sênior de Pesquisa, Fala, ETS

A ETS trabalha com instituições de ensino, empresas e governos para conduzir pesquisas e desenvolver programas de avaliação que forneçam informações significativas que possam ser contadas para avaliar pessoas e programas. A ETS desenvolve, administra e pontua mais de 50 milhões de testes anualmente em mais de 180 países em mais de 9.000 locais em todo o mundo. Nós projetamos nossas avaliações com insights de liderança de indústria, pesquisa rigorosa e um compromisso inabalável com a qualidade para que possamos ajudar as comunidades de educação e local de trabalho a tomar decisões informadas. Para saber mais, visite ETS.

Diretor de Pesquisa de Fala em Pesquisa e Desenvolvimento no Educational Testing Service (ETS).

Managing Senior Research Scientist, Speech, in Research and Development at Educational Testing Service
(ETS).