Inteligência artificial
A luta para impedir que a IA trapaceie nos testes

Novas descobertas de uma pesquisa de uma universidade chinesa oferecem uma visão sobre por que modelos de processamento de linguagem natural generativa, como o GPT-3, tendem a "trapacear" quando questionados sobre uma questão difícil, produzindo respostas que podem ser tecnicamente corretas, mas sem qualquer compreensão real de porque a resposta está correta; e por que demonstram pouca ou nenhuma capacidade de explicar a lógica por trás de suas respostas "fáceis". Os pesquisadores também propõem novos métodos para fazer com que os sistemas "estudem mais" durante a fase de treinamento.
O problema é duplo: em primeiro lugar, desenhamos sistemas que procuram alcançar resultados rapidamente e com uma utilização otimizada dos recursos. Mesmo quando, como no GPT-3, os recursos podem ser consideravelmente maiores do que o projeto médio de pesquisa em PNL é capaz de reunir, essa cultura de otimização voltada para resultados ainda permeia a metodologia, porque passou a dominar a convenção acadêmica.
Conseqüentemente, nossas arquiteturas de treinamento recompensam os modelos que convergem rapidamente e produzem respostas aparentemente apropriadas às perguntas, mesmo que o modelo de PNL seja subsequentemente incapaz de justificar sua resposta ou demonstrar como chegou a suas conclusões.
Uma disposição precoce para trapacear
Isso ocorre porque o modelo aprende "respostas de atalho" muito antes no treinamento do que aprende tipos mais complexos de aquisição de conhecimento. Como o aumento da precisão costuma ser recompensado de forma bastante indiscriminada ao longo do treinamento, o modelo prioriza qualquer abordagem que lhe permita responder a uma pergunta "de forma superficial" e sem insights reais.
Como o aprendizado por atalhos inevitavelmente representará o primeiro sucessos durante o treinamento, a sessão tenderá naturalmente para longe da tarefa mais difícil de ganhar uma perspectiva epistemológica útil e mais completa, que pode conter camadas mais profundas e perspicazes de atribuição e lógica.
Alimentando a IA com as respostas "fáceis"
O segundo problema é que, embora as recentes iniciativas de pesquisa tenham estudado A tendência da IA de "trapacear" dessa forma, e identificaram o fenômeno dos "atalhos", não houve até agora nenhum esforço para classificar o material que permite "atalhos" em um conjunto de dados contribuinte, o que seria o primeiro passo lógico para abordar o que pode ser uma falha arquitetônica fundamental em sistemas de compreensão de leitura de máquina (MRC).
O novo papel, uma colaboração entre o Wangxuan Institute of Computer Technology e o MOE Key Laboratory of Computational Linguistics na Peking University, testa vários modelos de linguagem contra um conjunto de dados recém-anotado que inclui classificações para soluções 'fáceis' e 'difíceis' para uma possível questão.

Fonte: https://arxiv.org/pdf/2106.01024.pdf
O conjunto de dados utiliza a paráfrase como critério para as respostas mais complexas e profundas, visto que a compreensão semântica é necessária para reformular o conhecimento obtido. Em contrapartida, as respostas "atalho" podem usar tokens como datas e outras palavras-chave encapsulantes para produzir uma resposta factualmente precisa, mas sem qualquer contexto ou raciocínio.
O componente de atalho das anotações apresenta correspondência de palavras interrogativas (QWM) e correspondência simples (SpM). Para QWM, o modelo utiliza entidades extraídas dos dados de texto fornecidos e contexto de descarte; para SpM, o modelo identifica a sobreposição entre frases de resposta e perguntas, ambas fornecidas nos dados de treinamento.
Dados de atalho quase "virais" em influência em um conjunto de dados
Os pesquisadores afirmam que os conjuntos de dados tendem a conter uma alta proporção de perguntas de atalho, o que faz com que os modelos treinados dependam de truques de atalho.
Os dois modelos usados nos experimentos foram BiDAF e do Google BERT-base. Os pesquisadores observam que, mesmo quando treinados em variações de conjuntos de dados com uma proporção maior de perguntas "difíceis", ambos os modelos ainda apresentam melhor desempenho em perguntas de atalho do que em perguntas parafraseadas mais complexas, apesar do pequeno número de exemplos nos conjuntos de dados.
Isso apresenta 'dados de atalho' quase no contexto de um vírus — é preciso que haja muito pouco deles presente em um conjunto de dados para que sejam adotados e priorizados no treinamento, de acordo com padrões e práticas convencionais em PNL.
Provando a trapaça
Um método utilizado pela pesquisa para comprovar a fragilidade de uma resposta abreviada é substituir uma palavra anômala por uma palavra-chave "fácil". Quando um método abreviado é utilizado, a lógica da resposta "trapaceada" não pode ser fornecida; mas quando a resposta é fornecida a partir de um contexto mais profundo e da avaliação semântica de uma gama mais ampla de textos contributivos, é possível que o sistema desconstrua o erro e reconstrua uma resposta correta.

Substituir 'Beyoncé' (uma pessoa) por 'América' (um local) revela se o modelo tem alguma lógica de fundo para sua resposta.
Atalhos devido a um imperativo econômico
Com relação a algumas das razões arquitetônicas pelas quais os atalhos são tão priorizados nos fluxos de trabalho de treinamento em PNL, os autores comentam 'Os modelos MRC podem aprender truques de atalho, como QWM, com menos recursos computacionais do que os desafios de compreensão, como identificar paráfrases'.
Isso, então, pode ser um resultado não intencional de otimização padrão e filosofias de preservação de recursos em abordagens para compreensão de leitura de máquina e a pressão para obter resultados com recursos limitados em prazos apertados.
Os pesquisadores também observam:
'[Como] o truque do atalho pode ser usado para responder corretamente à maioria das perguntas de treinamento, as poucas perguntas não resolvidas que permanecem podem não motivar os modelos a explorar soluções sofisticadas que exigem habilidades desafiadoras.'
Se os resultados do artigo forem posteriormente confirmados, parece que o vasto e crescente campo de pré-processamento de dados pode precisar considerar "localizações ocultas" nos dados como um problema a ser abordado em longo prazo, ou então revisar as arquiteturas de PNL para priorizar rotinas mais desafiadoras para ingestão de dados.












