Connect with us

Nitin Madnani, Cientista de Pesquisa Sênior na ETS – Série de Entrevistas

Inteligência artificial

Nitin Madnani, Cientista de Pesquisa Sênior na ETS – Série de Entrevistas

mm

Nitin Madnan é um Cientista de Pesquisa Sênior com o grupo de pesquisa de Processamento de Linguagem Natural (NLP) no Educational Testing Service (ETS). A ETS foi fundada em 1947 e é a maior organização privada sem fins lucrativos de testes e avaliações educacionais do mundo.

Poderia começar explicando qual é a missão da ETS?

A missão da ETS é avançar a qualidade e a equidade na educação para todos os aprendizes em todo o mundo. Essa missão subjaz a nossos produtos, serviços, pesquisas e esforços de desenvolvimento com o objetivo de promover o aprendizado, apoiar a educação, o desenvolvimento profissional e medir o conhecimento e as habilidades para todos.

Acreditamos que qualquer pessoa, em qualquer lugar, pode fazer uma diferença em suas vidas por meio do aprendizado e o trabalho da ETS em pesquisa, avaliação, medição e política pode desempenhar um papel importante em tornar esse aprendizado possível.

O que é sobre o NLP que o deixa tão apaixonado?

Todas as línguas humanas são tão complexas e desordenadas. Elas permitem que expressemos uma gama de emoções em nosso discurso e até mesmo em nossa escrita e evoluem com o tempo. Por outro lado, um computador é tão determinístico e clínico no processamento de suas entradas. O Processamento de Linguagem Natural (NLP) é uma área da inteligência artificial que tenta fazer com que esse dispositivo supremamente não humano entenda as belas complexidades da linguagem humana, combinando técnicas de Ciência da Computação, Linguística e Estatística. Como você não pode achar isso fascinante?

Cientistas de NLP e fala da ETS desenvolveram recentemente a RSMTool. Poderia compartilhar conosco o que a RSMTool faz?

Como vimos nos últimos anos, todos os modelos de aprendizado de máquina podem exibir comportamento tendencioso, independentemente do campo em que são aplicados, a educação não sendo exceção. Os sistemas de avaliação automatizados usados para atribuir notas ou graus a discursos ou ensaios de alunos em testes ou em salas de aula frequentemente usam modelos de aprendizado de máquina. Portanto, é absolutamente possível que tais sistemas se comportem de forma tendenciosa. Tal tendência pode ter consequências graves, especialmente se as notas de tais sistemas forem usadas para tomar decisões de alto risco.

RSMTool é uma ferramenta de código aberto que meu colega Anastassia Loukina (anteriormente apresentado no Unite.AI) e eu desenvolvemos na ETS para ajudar a garantir que qualquer tendência sistemática e prejudicial nos sistemas de avaliação automatizados seja identificada o mais cedo possível, esperançosamente até mesmo antes que os sistemas sejam implantados no mundo real. A RSMTool é projetada para fornecer uma avaliação abrangente dos motores de pontuação de IA, incluindo não apenas métricas padrão de precisão de previsão, mas também medidas de justiça do modelo e métricas baseadas na teoria dos testes, ajudando os desenvolvedores de tais motores a identificar possíveis tendências ou outros problemas em seus sistemas.

De onde vem o nome RSMTool?

No campo da avaliação educacional, alguém que atribui uma nota a (ou “avalia”) um ensaio é frequentemente referido como um “avaliador”. Há avaliadores humanos e também avaliadores automatizados. RSMTool – abreviação de Rater Scoring Modeling Tool (Ferramenta de Modelagem de Pontuação de Avaliador) – é projetada para ajudar a construir (e avaliar) os modelos de pontuação usados por avaliadores automatizados.

Como essa ferramenta pode ajudar os desenvolvedores a identificar possíveis tendências ou outros problemas em seus motores de avaliação de IA?

Nos últimos cinco décadas, cientistas de medição educacional – incluindo muitos de nossos colegas da ETS – conduziram pesquisas valiosas sobre o que torna a avaliação automatizada justa. Como parte dessa pesquisa, eles desenvolveram muitas análises estatísticas e psicométricas para calcular indicadores de tendência sistemática. No entanto, como as comunidades de NLP e psicometria raramente interagem, há pouca oportunidade para a troca de ideias. O resultado é que os pesquisadores de NLP e os desenvolvedores que constroem sistemas de avaliação automatizados reais – especialmente pesquisadores individuais e aqueles em pequenas empresas – não têm acesso fácil às análises psicométricas que devem usar para verificar seus sistemas por tendência. A RSMTool tenta resolver esse problema fornecendo um grande conjunto diversificado de análises psicométricas em um único pacote Python fácil de usar que pode ser facilmente incorporado por qualquer pesquisador de NLP em sua pesquisa ou pipeline operacional.

Em um caso de uso típico, um pesquisador forneceria como entrada um arquivo ou um quadro de dados com as notas do sistema numérico, notas-padrão (humanas) e metadados, se aplicável. A RSMTool processa esses dados e gera um relatório HTML contendo uma avaliação abrangente, incluindo estatísticas descritivas, bem como várias medidas de desempenho do sistema e justiça, entre outras. Um relatório de exemplo da RSMTool pode ser encontrado em https://bit.ly/fair-tool. A RSMTool pode funcionar com modelos de aprendizado de máquina tradicionais baseados em recursos (por exemplo, da biblioteca scikit-learn) e com modelos de aprendizado profundo. Embora a saída principal da RSMTool seja o relatório HTML que facilita o compartilhamento, ela também gera arquivos de dados tabulares (nos formatos CSV, TSV ou XLSX) como saídas intermediárias para usuários avançados. Finalmente, para manter as coisas extremamente personalizáveis, a RSMTool implementa cada seção de seu relatório como um notebook Jupyter, para que os usuários possam não apenas escolher quais seções são relevantes para seus modelos de pontuação específicos, mas também facilmente implementar análises personalizadas e incluí-las no relatório com muito pouco trabalho.

muitos estudos recentes sobre avaliação automatizada que usaram a RSMTool para avaliar seus modelos de pontuação propostos.

Quais são os tipos comuns de tendência que podem afetar os sistemas de avaliação automatizados?

O tipo mais comum de tendência que afeta um sistema de avaliação automatizado é o desempenho diferencial de subgrupos, ou seja, quando o sistema automatizado se comporta de forma diferente para diferentes subgrupos da população. Por exemplo, um sistema de avaliação tendencioso poderia produzir notas systematicamente mais baixas para ensaios escritos por, por exemplo, mulheres negras em comparação com os de homens brancos, mesmo que não haja diferenças sistemáticas nas habilidades de escrita reais exibidas por esses dois subgrupos em seus ensaios, do ponto de vista de um humano.

A ETS tem uma rica história de conduzir pesquisas sobre justiça para motores de avaliação automatizados. Por exemplo, nós examinamos se o e-rater® – nosso motor de avaliação de IA automatizado – exibe algum desempenho diferencial para subgrupos definidos por etnia, gênero e país (eles encontraram algumas diferenças menores que foram abordadas por mudanças de política subsequentes). Estudos também examinaram se o e-rater® trata respostas escritas por candidatos ao GRE® com deficiências de aprendizado e/ou TDAH de forma sistemática diferente em média (ele não o faz). Mais recentemente, um estudo oportuno examina se um sistema automatizado para avaliar a proficiência de fala exibe alguma tendência sistemática em relação a candidatos que foram obrigados a usar máscaras faciais versus aqueles que não usaram máscaras faciais (ele não o faz). A RSMTool contém várias análises psicométricas que tentam quantificar o desempenho diferencial de subgrupos sobre subgrupos que o usuário pode definir sobre seus próprios dados.

A ETS escolheu tornar a RSMTool de código aberto, poderia explicar o raciocínio e a importância por trás disso?

Sim, a RSMTool está disponível no GitHub com uma licença Apache 2.0. Acreditamos que é importante que uma ferramenta como essa seja de código aberto e não proprietária, para que a comunidade possa (a) auditar o código-fonte das análises já disponíveis para garantir seu cumprimento com os padrões de justiça e (b) contribuir com novas análises à medida que os padrões evoluem e mudam. Também queremos tornar fácil para os pesquisadores de NLP e os desenvolvedores usarem a RSMTool em seu trabalho e nos ajudar a torná-la melhor. Tornar a RSMTool de código aberto é um exemplo claro do compromisso contínuo da ETS com o uso responsável da IA na educação.

Quais são algumas das lições que você aprendeu com o desenvolvimento e manutenção da RSMTool?

Nos últimos cinco anos em que Anastassia e eu desenvolvemos e mantivemos a RSMTool – com a ajuda de muitos colegas da ETS e contribuidores não ETS do GitHub – aprendemos duas lições abrangentes. A primeira é que diferentes usuários têm diferentes necessidades e ter uma abordagem de tamanho único não funcionará para software interdisciplinar como a RSMTool. A segunda lição que aprendemos foi que, para tornar mais provável que o software de código aberto seja adotado, você realmente precisa ir além para torná-lo o mais robusto possível.

Em nosso mandato como mantenedores da RSMTool, identificamos muitos tipos de usuários da RSMTool. Alguns deles são “usuários avançados” (por exemplo, pesquisadores de NLP e desenvolvedores) que desejam escolher e selecionar funcionalidades específicas da RSMTool para integrar em sua própria pipeline de aprendizado de máquina, enquanto também usam outros pacotes Python. Para atender a esses usuários, criamos uma API abrangente para expor várias funções de pré e pós-processamento, bem como métricas personalizadas contidas na RSMTool. Outro grupo de usuários são o que chamamos de “minimalistas”: analistas de dados e engenheiros que podem não ter o conhecimento estatístico ou de programação para interagir com a API e preferem uma pipeline pronta para uso. Para atender a esses usuários, criamos ferramentas de linha de comando que podem ser facilmente chamadas em scripts de shell, por exemplo. Também descobrimos que os usuários minimalistas frequentemente relutam em ler a lista (admitidamente grande) de opções de configuração da RSMTool. Portanto, criamos um gerador de configuração interativo com autocompletar que pode ajudar esses usuários a criar arquivos de configuração com base em suas necessidades específicas.

Para atender às necessidades de todos os nossos grupos de usuários, tivemos que adotar práticas que acreditávamos serem necessárias para tornar a RSMTool robusta. O que queremos dizer com software robusto? Para ser robusto, qualquer peça de software deve atender aos seguintes critérios: o impacto de qualquer alteração de código em sua precisão e desempenho pode ser medido (bem testado), sua documentação está sempre atualizada (bem documentada) e o software (junto com suas dependências) é facilmente instalável pelos usuários. Para a RSMTool, aproveitamos várias ferramentas e serviços de código aberto para torná-la atender a nossa definição. Temos um conjunto abrangente de testes (> 90% de cobertura de código) que executamos automaticamente via integração contínua para todas as alterações enviadas ao código. Mantemos uma documentação extensa (incluindo vários tutoriais do mundo real) e qualquer nova funcionalidade proposta para a RSMTool deve incluir um componente de documentação que também é revisado como parte da revisão do código. Finalmente, lançamos a RSMTool como pacotes que podem ser facilmente instalados (via pip ou conda) e todas as dependências necessárias também são instaladas automaticamente.

O que a ETS espera alcançar ao lançar a RSMTool?

O setor de educação viu uma das expansões mais significativas de IA nos últimos anos, com a avaliação automatizada de texto e fala se tornando uma aplicação cada vez mais comum de NLP. A ETS tem sido líder no campo da avaliação automatizada e, desde sua criação, tem se comprometido a construir produtos e avaliações justas projetadas para servir aos aprendizes em todo o mundo. Ao lançar a RSMTool, desenvolvida em colaboração estreita entre cientistas de NLP e psicometria, a ETS deseja continuar sua defesa do uso responsável da IA na educação de uma maneira muito tangível; especificamente, queremos deixar claro que, quando os pesquisadores de IA pensam no “desempenho” de um sistema de avaliação automatizado, devem considerar não apenas as métricas padrão de precisão de previsão (por exemplo, correlação de Pearson), mas também as de justiça do modelo. Mais amplamente, também gostaríamos que a RSMTool sirva como um exemplo de como os pesquisadores de NLP e os psicometras podem e devem trabalhar juntos.

Há algo mais que você gostaria de compartilhar sobre a RSMTool?

Queremos encorajar os leitores a nos ajudar a melhorar a RSMTool! Eles não precisam ser um psicometrista ou um especialista em NLP para contribuir. Temos muitas questões abertas relacionadas à documentação e à programação Python que seriam perfeitas para qualquer programador Python iniciante ou intermediário. Também convidamos contribuições para SKLL (Scikit-Learn Laboratory) – outro pacote de código aberto da ETS para executar experimentos de aprendizado de máquina configuráveis pelo usuário de forma eficiente – que é usado pela RSMTool.

Antoine é um líder visionário e sócio-fundador da Unite.AI, impulsionado por uma paixão inabalável em moldar e promover o futuro da IA e da robótica. Um empreendedor serial, ele acredita que a IA será tão disruptiva para a sociedade quanto a eletricidade, e é frequentemente pego falando sobre o potencial das tecnologias disruptivas e da AGI. Como um futurista, ele está dedicado a explorar como essas inovações moldarão nosso mundo. Além disso, ele é o fundador da Securities.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.