Inteligência artificial
Por que a Linguagem Histórica é um Desafio para a Inteligência Artificial
Uma das principais desafios dos sistemas de Processamento de Linguagem Natural (NLP) é derivar insights essenciais de uma ampla variedade de materiais escritos. Fontes contribuintes para um conjunto de dados de treinamento para um novo algoritmo de NLP podem ser tão linguisticamente diversificadas quanto Twitter, jornais de grande circulação e periódicos científicos, com todas as peculiaridades únicas de cada uma dessas três fontes.
Na maioria dos casos, isso é apenas para o inglês; e isso é apenas para fontes de texto atuais ou recentes. Quando um algoritmo de NLP tem que considerar material que vem de várias eras, ele geralmente luta para reconciliar as maneiras muito diferentes pelas quais as pessoas falam ou escrevem em comunidades nacionais e subnacionais, e especialmente em diferentes períodos da história.
No entanto, usar dados de texto (como tratados históricos e obras científicas veneráveis) que abrangem épocas é um método potencialmente útil para gerar uma visão geral histórica de um tópico e para formular reconstruções estatísticas de linha do tempo que antecedem a adoção e manutenção de métricas para um domínio.
Por exemplo, as informações meteorológicas que contribuem para os modelos de previsão de mudanças climáticas da IA não foram adequadamente registradas em todo o mundo até 1880, enquanto a mineração de textos clássicos oferece registros mais antigos de eventos meteorológicos importantes que podem ser úteis para fornecer dados meteorológicos pré-vitorianos.
Desalinhamento Temporal
Um novo artigo da Universidade de Washington e do Instituto Allen para IA descobriu que mesmo um intervalo tão curto quanto cinco anos pode causar desalinhamento temporal, que pode descarrilar a utilidade de um modelo de NLP pré-treinado.

Em todos os casos, pontuações mais altas são melhores. Aqui vemos um mapa de calor de degradação temporal em quatro corpora de material de texto que abrangem um período de cinco anos. Essas discrepâncias entre os dados de treinamento e avaliação, de acordo com os autores do novo artigo, podem causar uma ‘queda massiva de desempenho’. Fonte: https://arxiv.org/pdf/2111.07408.pdf
O artigo afirma:
‘Descobrimos que o desalinhamento temporal afeta tanto a generalização do modelo de linguagem quanto o desempenho da tarefa. Descobrimos uma variação considerável na degradação em diferentes domínios de texto e tarefas. Em cinco anos, a pontuação F1 dos classificadores pode se deteriorar tanto quanto 40 pontos (afiliação política no Twitter) ou tão pouco quanto 1 ponto (classificação de avaliações do Yelp). Duas tarefas distintas definidas no mesmo domínio podem mostrar níveis diferentes de degradação ao longo do tempo.’
Divisões Desiguais
O problema central é que os conjuntos de dados de treinamento geralmente são divididos em dois grupos, às vezes em uma proporção bastante desequilibrada de 80/20, devido à limitada disponibilidade de dados. O grupo maior de dados é treinado em uma rede neural, enquanto os dados restantes são usados como um grupo de controle para testar a precisão do algoritmo resultante.
Em conjuntos de dados mistos que contêm material que abrange vários anos, uma distribuição desigual de dados de vários períodos pode significar que os dados de avaliação são compostos de forma desproporcional por material de uma época particular.
Isso fará com que seja um terreno de teste pobre para um modelo treinado em uma mistura mais diversificada de épocas (ou seja, em mais de todos os dados disponíveis). Em essência, dependendo de se os dados de avaliação minoritários super-representam material mais novo ou mais antigo, é como pedir ao seu avô para avaliar os últimos ídolos do K-Pop.
O longo workaround seria treinar vários modelos em conjuntos de dados mais restritos no tempo e tentar combinar recursos compatíveis dos resultados de cada modelo. No entanto, práticas de inicialização aleatória de modelo significam que essa abordagem enfrenta seus próprios problemas para alcançar paridade e equidade entre os modelos – mesmo antes de considerar se os conjuntos de dados contribuintes eram suficientemente semelhantes entre si para tornar o experimento significativo.
Dados e Treinamento
Para avaliar o desalinhamento temporal, os autores treinaram quatro corpora de texto em quatro domínios:
Twitter
…onde eles coletaram dados não rotulados extratando uma seleção aleatória de 12 milhões de tweets uniformemente distribuídos entre 2015-2020, onde os autores estudaram entidades nomeadas (ou seja, pessoas e organizações) e afiliações políticas.
Artigos Científicos
…onde os autores obtiveram dados não rotulados do corpus Semantic Scholar, constituindo 650.000 documentos que abrangem um período de 30 anos, e nos quais eles estudaram classificação de tipo de menção (SciERC) e classificação de local de publicação de IA (AIC, que distingue se um artigo foi publicado em AAAI ou ICML).
Artigos de Notícias
…onde os autores usaram nove milhões de artigos do conjunto de dados Newsroom que abrangem um período de 2009-2016, nos quais eles realizaram três tarefas: resumo de sala de notícias, classificação de editora e classificação de quadros de mídia (MFC), que examina a priorização percebida de vários tópicos em toda a saída de notícias.
Avaliações de Alimentos
…onde os pesquisadores usaram o conjunto de dados aberto do Yelp em uma tarefa única: classificação de avaliações de revisões (YELPCLS), um desafio de análise de sentimento tradicional típico de muitas pesquisas de NLP nesse setor.
Resultados
Os modelos foram avaliados no GPT-2, com uma variedade de pontuações F1 resultantes. Os autores descobriram que a perda de desempenho devido ao desalinhamento temporal é bidirecional, significando que os modelos treinados em dados recentes podem ser adversamente afetados pela influência de dados mais antigos, e vice-versa (veja a imagem no início do artigo para gráficos). Os autores observam que isso tem implicações particulares para aplicações em ciências sociais.
Em geral, os resultados mostram que o desalinhamento temporal degrada a perda de desempenho “substancialmente” e tem um efeito amplo na maioria das tarefas. Conjuntos de dados que abrangem períodos muito longos, como décadas, naturalmente exacerbam o problema.
Os autores observam ainda que o desalinhamento temporal também afeta dados de pré-treinamento rotulados e não rotulados. Além disso, suas tentativas de mitigar os efeitos por meio da adaptação de domínio (veja abaixo) não melhoraram substancialmente a situação, embora afirmem que o ajuste fino das informações de dados no conjunto de dados possa ajudar até certo ponto.
Conclusão
Os pesquisadores confirmam descobertas anteriores de que remédios sugeridos anteriormente que envolvem adaptação de domínio (DAPT, onde é criada uma tolerância para a disparidade de dados) e adaptação temporal (onde os dados são selecionados por período de tempo) fazem pouco para aliviar o problema.
O artigo conclui*:
‘Nossos experimentos revelaram uma variação considerável na degradação temporal em tarefas, mais do que encontrado em estudos anteriores. Essas descobertas motivam o estudo contínuo do desalinhamento temporal em aplicações de NLP, sua consideração em avaliações de benchmark e vigilância por parte de práticos capazes de monitorar o desempenho do sistema ao vivo ao longo do tempo.
‘Notavelmente, observamos que o treinamento contínuo de LMs em dados temporalmente alinhados não tem muito efeito, motivando mais pesquisas para encontrar métodos de adaptação temporal eficazes que sejam menos custosos do que a coleta contínua de conjuntos de dados rotulados/annotados ao longo do tempo.’
Os autores sugerem que uma investigação mais aprofundada sobre o aprendizado contínuo, onde os dados são constantemente atualizados, pode ser útil a esse respeito, e que a deriva de conceito e outros métodos de detecção de mudanças em tarefas podem ser uma ajuda útil para atualizar conjuntos de dados.
* Minha conversão de citações em linha para links.












