toco A luta para impedir que a IA trapaceie nos testes - Unite.AI
Entre em contato

Inteligência artificial

A luta para impedir que a IA trapaceie nos testes

mm
Atualização do on

Novas descobertas de pesquisa de uma universidade chinesa oferecem uma visão sobre por que modelos generativos de processamento de linguagem natural, como o GPT-3, tendem a “trapacear” quando questionados sobre uma questão difícil, produzindo respostas que podem ser tecnicamente corretas, mas sem qualquer compreensão real de porque a resposta está correta; e por que eles demonstram pouca ou nenhuma habilidade para explicar a lógica por trás de suas respostas 'fáceis'. Os pesquisadores também propõem alguns novos métodos para tornar os sistemas 'mais difíceis de estudar' durante a fase de treinamento.

O problema é duplo: em primeiro lugar, desenhamos sistemas que procuram alcançar resultados rapidamente e com uma utilização otimizada dos recursos. Mesmo quando, como no GPT-3, os recursos podem ser consideravelmente maiores do que o projeto médio de pesquisa em PNL é capaz de reunir, essa cultura de otimização voltada para resultados ainda permeia a metodologia, porque passou a dominar a convenção acadêmica.

Conseqüentemente, nossas arquiteturas de treinamento recompensam os modelos que convergem rapidamente e produzem respostas aparentemente apropriadas às perguntas, mesmo que o modelo de PNL seja subsequentemente incapaz de justificar sua resposta ou demonstrar como chegou a suas conclusões.

Uma disposição precoce para trapacear

Isso ocorre porque o modelo aprende 'respostas de atalho' muito mais cedo no treinamento do que aprende tipos mais complicados de aquisição de conhecimento. Uma vez que o aumento da precisão geralmente é recompensado de forma bastante indiscriminada durante o treinamento, o modelo prioriza qualquer abordagem que permita responder a uma pergunta de maneira "fácil" e sem uma percepção real.

Como o aprendizado por atalhos inevitavelmente representará o primeiro sucessos durante o treinamento, a sessão tenderá naturalmente para longe da tarefa mais difícil de ganhar uma perspectiva epistemológica útil e mais completa, que pode conter camadas mais profundas e perspicazes de atribuição e lógica.

Alimentando a IA com as respostas 'fáceis'

O segundo problema é que, embora as recentes iniciativas de pesquisa tenham estudado A tendência da IA ​​de 'trapacear' dessa maneira e identificou o fenômeno de 'atalhos', até agora não houve nenhum esforço para classificar o material que permite 'atalho' em um conjunto de dados de contribuição, o que seria o primeiro passo lógico para abordar o que pode revelar-se uma falha arquitetônica fundamental em sistemas de compreensão de leitura de máquina (MRC).

O novo papel, uma colaboração entre o Wangxuan Institute of Computer Technology e o MOE Key Laboratory of Computational Linguistics na Peking University, testa vários modelos de linguagem contra um conjunto de dados recém-anotado que inclui classificações para soluções 'fáceis' e 'difíceis' para uma possível questão.

Fonte: https://arxiv.org/pdf/2106.01024.pdf

Fonte: https://arxiv.org/pdf/2106.01024.pdf

O conjunto de dados usa a paráfrase como critério para as respostas mais complicadas e profundas, pois é necessário um entendimento semântico para reformular o conhecimento obtido. Por outro lado, as respostas de 'atalho' podem usar tokens como datas e outras palavras-chave encapsuladas para produzir uma resposta que seja factualmente precisa, mas sem nenhum contexto ou raciocínio.

O componente de atalho das anotações apresenta correspondência de palavras interrogativas (QWM) e correspondência simples (SpM). Para QWM, o modelo utiliza entidades extraídas dos dados de texto fornecidos e contexto de descarte; para SpM, o modelo identifica a sobreposição entre frases de resposta e perguntas, ambas fornecidas nos dados de treinamento.

Dados de atalho quase 'virais' na influência em um conjunto de dados

Os pesquisadores afirmam que os conjuntos de dados tendem a conter uma alta proporção de perguntas de atalho, o que faz com que os modelos treinados dependam de truques de atalho.

Os dois modelos usados ​​nos experimentos foram BiDAF e do Google BERT-base. Os pesquisadores observaram que, mesmo quando treinados em variações de conjunto de dados com uma proporção maior de questões 'difíceis', ambos os modelos ainda funcionam melhor em questões de atalho do que em questões parafraseadas mais difíceis, apesar do pequeno número de exemplos nos conjuntos de dados.

Isso apresenta 'dados de atalho' quase no contexto de um vírus - que precisa haver muito pouco presente em um conjunto de dados para que seja adotado e priorizado no treinamento, de acordo com os padrões e práticas convencionais em PNL.

Provando a trapaça

Um método que a pesquisa usa para provar como a fragilidade de uma resposta de atalho é substituir uma palavra de entidade 'fácil' por uma palavra anômala. Onde um método de atalho foi usado, a lógica da resposta 'enganada' não pode ser fornecida; mas onde a resposta foi fornecida a partir de um contexto mais profundo e avaliação semântica de uma gama mais ampla de texto de contribuição, é possível para o sistema desconstruir o erro e reconstruir uma resposta correta.

Substituir 'Beyoncé' (uma pessoa) por 'América' (um local) revela se o modelo tem alguma lógica de fundo para sua resposta.

Substituir 'Beyoncé' (uma pessoa) por 'América' (um local) revela se o modelo tem alguma lógica de fundo para sua resposta.

Atalhos devido a um imperativo econômico

Com relação a algumas das razões arquitetônicas pelas quais os atalhos são tão priorizados nos fluxos de trabalho de treinamento em PNL, os autores comentam 'Modelos MRC podem aprender os truques de atalho, como QWM, com menos recursos computacionais do que os desafios de compreensão, como identificar paráfrases'.

Isso, então, pode ser um resultado não intencional de otimização padrão e filosofias de preservação de recursos em abordagens para compreensão de leitura de máquina e a pressão para obter resultados com recursos limitados em prazos apertados.

Os pesquisadores também observam:

'[Uma vez que] o truque do atalho pode ser usado para responder a maioria das questões de treinamento corretamente, as poucas questões não resolvidas que permaneceram podem não motivar os modelos a explorar soluções sofisticadas que requerem habilidades desafiadoras.'

Se os resultados do artigo forem posteriormente confirmados, parece que o vasto e sempre crescente campo de pré-processamento de dados pode precisar considerar 'berços ocultos' nos dados como um problema a ser resolvido a longo prazo, ou então revisar as arquiteturas de NLP para priorizar rotinas mais desafiadoras para ingestão de dados.