Inteligência artificial
Anastassia Loukina, Cientista Sênior de Pesquisa (NLP/Speech) na ETS – Série de Entrevistas

Anastassia Loukina é uma cientista de pesquisa na Educational Testing Services (ETS), onde trabalha no desenvolvimento de sistemas de avaliação automática de fala.
Seus interesses de pesquisa abrangem uma ampla gama de tópicos. Ela trabalhou, entre outras coisas, em dialetos gregos modernos, ritmo da fala e análise automática de prosódia.
Seu trabalho atual se concentra em combinar ferramentas e métodos de tecnologias de fala e aprendizado de máquina com insights de estudos sobre percepção e produção de fala para construir modelos de avaliação automática para avaliar a fala de não-nativos.
Você claramente tem um amor por línguas, o que o introduziu a essa paixão?
Eu cresci falando russo em São Petersburgo, Rússia, e me lembro de ter sido fascinada quando fui introduzida à língua inglesa: para algumas palavras, havia um padrão que tornava possível “converter” uma palavra russa em uma palavra inglesa. E então eu encontrava uma palavra onde “meu” padrão falhava e tentava criar uma regra melhor, mais geral. Naquela época, é claro, eu não sabia nada sobre tipologia linguística ou a diferença entre cognatos e empréstimos, mas isso alimentou minha curiosidade e desejo de aprender mais línguas. Essa paixão por identificar padrões em como as pessoas falam e testá-los nos dados é o que me levou à fonética, ao aprendizado de máquina e ao trabalho que estou fazendo agora.
Antes de seu trabalho atual em Processamento de Língua Natural (NLP), você era tradutora entre inglês-russo e grego moderno-russo. Você acredita que seu trabalho como tradutora tenha lhe dado insights adicionais sobre algumas das nuances e problemas associados ao NLP?
Minha identidade primária sempre foi a de uma pesquisadora. É verdade que eu comecei minha carreira acadêmica como uma estudiosa do grego moderno, ou mais especificamente, da fonética do grego moderno. Para meu trabalho de doutorado, explorei as diferenças fonéticas entre vários dialetos do grego moderno e como as diferenças entre esses dialetos poderiam ser ligadas à história da área. Eu argumentei que algumas das diferenças entre os dialetos poderiam ter surgido como resultado do contato linguístico entre cada dialeto e outras línguas faladas na área. Embora eu não trabalhe mais com o grego moderno, as mudanças que ocorrem quando duas línguas entram em contato uma com a outra ainda estão no centro do meu trabalho: apenas que desta vez eu me concentro no que acontece quando um indivíduo está aprendendo uma nova língua e como a tecnologia pode ajudar a fazer isso de forma mais eficiente.
Quando se trata da língua inglesa, há uma miríade de sotaques. Como você projeta um NLP com a capacidade de entender todos os diferentes dialetos? É um assunto simples de alimentar o algoritmo de aprendizado profundo com dados adicionais de cada tipo de sotaque?
Há várias abordagens que foram usadas no passado para abordar isso. Além de construir um grande modelo que cubra todos os sotaques, você poderia primeiro identificar o sotaque e então usar um modelo personalizado para esse sotaque, ou você pode tentar vários modelos ao mesmo tempo e escolher o que funciona melhor. Em última análise, para alcançar um bom desempenho em uma ampla gama de sotaques, você precisa de dados de treinamento e avaliação representativos dos muitos sotaques que um sistema pode encontrar.
Na ETS, realizamos avaliações abrangentes para garantir que as pontuações produzidas por nossos sistemas automatizados reflitam as diferenças nas habilidades reais que queremos medir e não sejam influenciadas pelas características demográficas do aluno, como gênero, raça ou país de origem.
Crianças e/ou aprendizes de língua requentemente têm dificuldade com a pronúncia perfeita. Como você supera o problema da pronúncia?
Não há tal coisa como pronúncia perfeita: a forma como falamos está intimamente ligada à nossa identidade e, como desenvolvedores e pesquisadores, nosso objetivo é garantir que nossos sistemas sejam justos para todos os usuários.
Tanto os aprendizes de língua quanto as crianças apresentam desafios particulares para os sistemas baseados em fala. Por exemplo, as vozes das crianças não apenas têm uma qualidade acústica muito diferente, mas as crianças também falam de forma diferente dos adultos e há muita variabilidade entre as crianças. Como resultado, desenvolver um reconhecimento automático de fala para crianças é geralmente uma tarefa separada que exige uma grande quantidade de dados de fala infantil.
Da mesma forma, embora haja muitas semelhanças entre os aprendizes de língua do mesmo background, os aprendizes podem variar amplamente em seu uso de padrões fonéticos, gramaticais e lexicais, tornando o reconhecimento de fala uma tarefa particularmente desafiadora. Ao construir nossos sistemas para avaliar a proficiência em inglês, usamos dados de aprendizes de língua com uma ampla gama de habilidades e línguas nativas.
Em janeiro de 2018, você publicou ‘Usando respostas exemplares para treinar e avaliar sistemas de avaliação automática de fala‘. Quais são alguns dos principais avanços fundamentais que devem ser entendidos a partir desse artigo?
Nesse artigo, examinamos como a qualidade dos dados de treinamento e teste afeta o desempenho dos sistemas de avaliação automática.
Os sistemas de avaliação automática, como muitos outros sistemas automatizados, são treinados com dados que foram rotulados por humanos. Nesse caso, são pontuações atribuídas por avaliadores humanos. Os avaliadores humanos nem sempre concordam nas pontuações que atribuem. Há várias estratégias usadas na avaliação para garantir que a pontuação final relatada ao aluno permaneça altamente confiável, apesar da variabilidade na concordância humana no nível da pergunta individual. No entanto, como os motores de avaliação automática são geralmente treinados usando pontuações de nível de resposta, quaisquer inconsistências nessas pontuações devido à variedade de razões acima podem afetar negativamente o sistema.
Nós tivemos acesso a uma grande quantidade de dados com diferentes níveis de concordância entre os avaliadores humanos e comparar o desempenho do sistema sob diferentes condições. O que encontramos é que treinar o sistema com dados perfeitos não melhora realmente seu desempenho sobre um sistema treinado com dados com rótulos mais barulhentos. Rótulos perfeitos só dão a você uma vantagem quando o tamanho total do conjunto de treinamento é muito baixo. Por outro lado, a qualidade dos rótulos humanos teve um efeito enorme na avaliação do sistema: suas estimativas de desempenho podem ser até 30% maiores se você avaliar em rótulos limpos.
A mensagem a ser tirada é que, se você tiver muitos dados e recursos para limpar os rótulos de ouro, pode ser mais inteligente limpar os rótulos no conjunto de avaliação em vez de limpar os rótulos no conjunto de treinamento. E essa descoberta se aplica não apenas à avaliação automática, mas a muitas outras áreas também.
Pode descrever algum de seu trabalho na ETS?
Eu trabalho em um sistema de avaliação de fala que processa linguagem falada em um contexto educacional. Um desses sistemas é o SpeechRater®, que usa tecnologia de reconhecimento e análise de fala avançada para avaliar e fornecer feedback detalhado sobre a proficiência em fala em inglês. O SpeechRater é uma aplicação muito madura que existe há mais de 10 anos. Eu construo modelos de avaliação para diferentes aplicações e trabalho com outros colegas em toda a ETS para garantir que nossas pontuações sejam confiáveis, justas e válidas para todos os alunos. Também trabalhamos com outros grupos na ETS para monitorar continuamente o desempenho do sistema.
Além de manter e melhorar nossos sistemas operacionais, também criamos protótipos de novos sistemas. Um dos projetos que estou muito animada é o RelayReader™: uma aplicação projetada para ajudar leitores em desenvolvimento a ganhar fluência e confiança. Ao ler com o RelayReader, um usuário alterna entre ouvir e ler em voz alta um livro. Sua leitura é então enviada a nossos servidores para fornecer feedback. Em termos de processamento de fala, o principal desafio dessa aplicação é como medir o aprendizado e fornecer feedback ação e confiável de forma não intrusiva, sem interferir no envolvimento do leitor com o livro.
O que é sua parte favorita de trabalhar com a ETS?
O que me atraiu inicialmente à ETS é que é uma organização sem fins lucrativos com a missão de avançar a qualidade da educação para todas as pessoas em todo o mundo. Embora seja ótimo quando a pesquisa leva a um produto, eu aprecio ter a oportunidade de trabalhar em projetos que são mais fundamentais, mas que ajudarão no desenvolvimento de produtos no futuro. Eu também valorizo o fato de a ETS levar questões como privacidade de dados e justiça muito a sério e todos os nossos sistemas passam por uma avaliação muito rigorosa antes de serem implantados operacionalmente.
Mas o que realmente torna a ETS um ótimo lugar para trabalhar é seu pessoal. Temos uma comunidade incrível de cientistas, engenheiros e desenvolvedores de muitas origens diferentes, o que permite muitas colaborações interessantes.
Você acredita que um IA será capaz de passar no Teste de Turing?
Desde a década de 1950, há muitas interpretações de como o teste de Turing deve ser feito na prática. Provavelmente há um consenso geral de que o teste de Turing ainda não foi passado em um sentido filosófico de que não há nenhum sistema de IA que pense como um humano. No entanto, isso também se tornou um assunto muito específico. A maioria das pessoas não constrói seus sistemas para passar no teste de Turing – queremos que eles atinjam metas específicas.
Para algumas dessas tarefas, por exemplo, reconhecimento de fala ou compreensão de língua natural, o desempenho humano pode ser considerado o padrão de ouro. Mas também há muitas outras tarefas em que esperamos que um sistema automatizado faça muito melhor do que os humanos ou em que um sistema automatizado e um especialista humano precisam trabalhar juntos para alcançar o melhor resultado. Por exemplo, em um contexto educacional, não queremos que um sistema de IA substitua um professor: queremos que ele ajude os professores, seja identificando padrões em trajectórias de aprendizado de alunos, ajudando com a correção ou encontrando os melhores materiais de ensino.
Há algo mais que você gostaria de compartilhar sobre a ETS ou NLP?
Muitas pessoas conhecem a ETS por suas avaliações e sistemas de avaliação automática. Mas fazemos muito mais do que isso. Temos muitas capacidades, desde biometria de voz até aplicações de diálogo falado, e estamos sempre procurando novas maneiras de integrar tecnologia ao aprendizado. Agora que muitos alunos estão aprendendo em casa, abrimos várias de nossas capacidades de pesquisa ao público em geral.
Obrigada pela entrevista e por oferecer essa visão sobre os últimos avanços em NLP e reconhecimento de fala. Qualquer pessoa que deseje saber mais pode visitar Educational Testing Services.












