Inteligência artificial

Por que a linguagem histórica é um desafio para a inteligência artificial

Publicado 16 de novembro de 2021

Atualização do 9 de dezembro de 2022

Martin Anderson

Um dos desafios centrais dos sistemas de Processamento de Linguagem Natural (PNL) é obter insights essenciais de uma ampla variedade de materiais escritos. As fontes contribuintes para um conjunto de dados de treinamento para um novo algoritmo de PNL poderiam ser tão diversificadas em termos linguísticos quanto o Twitter, jornais e revistas científicas, com todas as excentricidades recorrentes exclusivas de cada uma dessas três fontes.

Na maioria dos casos, isso se aplica apenas ao inglês; e isso se aplica apenas a fontes de texto atuais ou recentes. Quando um algoritmo de PNL precisa considerar material que vem de várias épocas, ele normalmente tem dificuldade em conciliar as maneiras muito diferentes que as pessoas falam ou escrevem em comunidades nacionais e subnacionais, e especialmente em diferentes períodos da história.

No entanto, usar dados de texto (como tratados históricos e trabalhos científicos veneráveis) que atravessam épocas é um método potencialmente útil de gerar uma supervisão histórica de um tópico e de formular reconstruções estatísticas de cronograma que antecedem a adoção e manutenção de métricas para um domínio.

Por exemplo, as informações meteorológicas que contribuem para os modelos preditivos de IA das mudanças climáticas não foram registradas adequadamente em todo o mundo até 1880, enquanto a mineração de dados de textos clássicos oferece registros mais antigos de grandes eventos meteorológicos que podem ser úteis no fornecimento de dados meteorológicos pré-vitorianos.

Desalinhamento Temporal

A novo papel da Universidade de Washington e do Allen Institute for AI descobriu que mesmo um intervalo tão curto quanto cinco anos pode causar desalinhamento temporal o que pode inviabilizar a utilidade de um modelo de PNL pré-treinado.

Em todos os casos, pontuações mais altas são melhores. Aqui vemos um mapa de calor da degradação temporal em quatro corpus de material de texto abrangendo um período de cinco anos. Tais incompatibilidades entre os dados de treinamento e avaliação, de acordo com os autores do novo artigo, podem causar uma “queda maciça de desempenho”. Fonte: https://arxiv.org/pdf/2111.07408.pdf

Em todos os casos, pontuações mais altas são melhores. Aqui, vemos um mapa de calor da degradação temporal em quatro corpora de material textual abrangendo um período de cinco anos. Tais incompatibilidades entre os dados de treinamento e avaliação, de acordo com os autores do novo artigo, podem causar uma "queda massiva de desempenho". Fonte: https://arxiv.org/pdf/2111.07408.pdf

O artigo afirma:

Descobrimos que o desalinhamento temporal afeta tanto a generalização do modelo de linguagem quanto o desempenho em tarefas. Encontramos uma variação considerável na degradação entre domínios de texto e tarefas. Ao longo de 5 anos, a pontuação F1 dos classificadores pode se deteriorar em até 40 pontos (filiação política no Twitter) ou apenas 1 ponto (avaliações de avaliações no Yelp). Duas tarefas distintas definidas no mesmo domínio podem apresentar diferentes níveis de degradação ao longo do tempo.

Divisões Desiguais

O problema principal é que os conjuntos de dados de treinamento geralmente são divididos em dois grupos, às vezes em uma proporção de 80/20 bastante desequilibrada, devido à disponibilidade limitada de dados. O grupo maior de dados é treinado em uma rede neural, enquanto os dados restantes são usados como um grupo de controle para testar a precisão do algoritmo resultante.

Em conjuntos de dados mistos contendo material que abrange vários anos, uma distribuição desigual de dados de vários períodos pode significar que os dados de avaliação são excessivamente compostos de material de uma época específica.

Isso fará com que seja um campo de testes inadequado para um modelo treinado em uma mistura mais diversa de eras (ou seja, em uma quantidade maior de todos os dados disponíveis). Na verdade, dependendo se os dados de avaliação da minoria superestimam material mais recente ou mais antigo, é como pedir ao seu avô para avaliar os ídolos mais recentes do K-Pop.

A solução longa seria treinar vários modelos em conjuntos de dados muito mais restritos por tempo e tentar agrupar recursos compatíveis dos resultados de cada modelo. No entanto, inicialização de modelo aleatório práticas por si só significa que esta abordagem enfrenta seu próprio conjunto de problemas para alcançar paridade e equidade entre modelos - mesmo antes de considerar se os múltiplos conjuntos de dados contribuintes eram adequadamente semelhantes entre si para tornar o experimento significativo.

Dados e Treinamento

Para avaliar o desalinhamento temporal, os autores treinaram quatro corpora de texto em quatro domínios:

Twitter
…onde eles coletaram dados não rotulados extraindo uma seleção aleatória de 12 milhões de tweets distribuídos uniformemente entre 2015-2020, onde os autores estudaram entidades nomeadas (ou seja, pessoas e organizações) e afiliações políticas.

Artigos científicos
…onde os autores obtiveram dados não rotulados do Corpo acadêmico semântico, constituindo 650,000 documentos em um período de 30 anos, e sobre os quais estudaram menção à classificação de tipos (CiênciaERC) e classificação de local AI (AIC, que distingue se um artigo foi publicado em AAAI or ICML).

Notícias
…onde os autores usaram nove milhões de artigos do Conjunto de dados da redação abrangendo um período de 2009-2016, no qual eles executaram três tarefas: resumo da redação, classificação do editor e classificação dos quadros de mídia (MFC), cuja última tarefa examina a priorização percebida de vários tópicos na produção de notícias.

Avaliações de alimentos
…onde os pesquisadores usaram o Conjunto de dados aberto do Yelp em uma única tarefa: classificação de classificação de revisão (YELPCLS), um desafio de análise de sentimento tradicional típico de muitas pesquisas de PNL neste setor.

Consistentes

Os modelos foram avaliados em GPT-2, com uma gama de resultados Pontuações F1. Os autores descobriram que a perda de desempenho devido ao desalinhamento temporal é bidirecional, o que significa que os modelos treinados em dados recentes podem ser afetados negativamente pela influência de dados mais antigos e vice-versa (consulte a imagem no início do artigo para ver os gráficos). Os autores observam que isso tem implicações específicas para aplicações em ciências sociais.

Em geral, os resultados mostram que o desalinhamento temporal degrada "substancialmente" a perda de desempenho e tem um efeito amplo na maioria das tarefas. Conjuntos de dados que abrangem períodos muito longos, como décadas, naturalmente agravam o problema.

Os autores observam ainda que o desalinhamento temporal também afeta os dados de pré-treinamento rotulados e não rotulados. Além disso, suas tentativas de mitigar os efeitos por meio da adaptação de domínio (veja abaixo) não melhoraram substancialmente a situação, embora afirmem que o ajuste fino das informações de dados no conjunto de dados pode ajudar até certo ponto.

Conclusão

Os pesquisadores confirmam descobertas anteriores de que remédios sugeridos anteriormente envolvendo adaptação de domínio (DAPT, onde a permissão é criada para a disparidade de dados) e adaptação temporal (onde os dados são selecionados por período de tempo) fazem pouco para aliviar o problema.

O artigo conclui*:

“Nossos experimentos revelaram uma variação considerável na degradação temporal entre as tarefas, mais do que o encontrado em Estudos anteriores. Essas descobertas motivam o estudo contínuo do desalinhamento temporal em aplicações de NLP, sua consideração em avaliações de referência e vigilância por parte dos profissionais capazes de monitorar o desempenho do sistema ao longo do tempo.

'Notavelmente, observamos que o treinamento contínuo de LMs em dados alinhados temporalmente não tem muito efeito, motivando pesquisas adicionais para encontrar métodos eficazes de adaptação temporal que sejam menos custosos do que a coleta contínua de conjuntos de dados anotados/rotulados ao longo do tempo.'

Os autores sugerem que uma investigação mais aprofundada sobre a aprendizagem contínua, onde os dados são constantemente atualizados, pode ser útil a esse respeito, e que a deriva de conceito e outros métodos de detecção de mudanças nas tarefas podem ser uma ajuda útil para atualizar conjuntos de dados.

* Minha conversão de citações inline em hiperlinks.

Tópicos relacionados:processamento de linguagem natural PNL pesquisa