Inteligência artificial

As Limitações do Amazon Mechanical Turk Podem Ameaçar Sistemas de Geração de Linguagem Natural

Published September 16, 2021

Updated April 28, 2026

Martin Anderson

Um novo estudo da Universidade de Massachusetts Amherst opôs professores de inglês a trabalhadores crowdsourced no Amazon Mechanical Turk na avaliação da saída de sistemas de Geração de Linguagem Natural (NLG), concluindo que padrões frouxos e o ‘jogo’ de tarefas valorizadas entre os trabalhadores da AMT podem estar impedindo o desenvolvimento do setor.

O relatório chega a uma série de conclusões condenatórias sobre a extensão com que a terceirização em larga escala e barata de tarefas de avaliação de NLG de texto aberto pode levar a resultados e algoritmos inferiores neste setor.

Os pesquisadores também compilaram uma lista de 45 artigos sobre geração de texto aberto, onde a pesquisa havia feito uso da AMT, e descobriram que ‘a grande maioria’ não relatou detalhes críticos sobre o uso do serviço de multidão da Amazon, tornando difícil reproduzir as descobertas dos artigos.

Trabalho de Suor

O relatório critica tanto a natureza de trabalho de suor do Amazon Mechanical Turk quanto os projetos acadêmicos (provavelmente limitados por orçamento) que estão dando à AMT credibilidade adicional, usando (e citando) como um recurso de pesquisa válido e consistente. Os autores observam:

‘Embora a AMT seja uma solução conveniente e acessível, observamos que a alta variância entre os trabalhadores, a má calibração e as tarefas cognitivamente exigentes podem levar os pesquisadores a tirar conclusões científicas enganosas (por exemplo, que o texto escrito por humanos é “pior” do que o GPT-2’). ‘

O relatório culpa o jogo em vez dos jogadores, com os pesquisadores observando:

‘Os trabalhadores da multidão são frequentemente subpagos por seu trabalho, o que prejudica a qualidade da pesquisa e, mais importante, a capacidade desses trabalhadores de ganhar um salário digno.’

O artigo, intitulado Os Perigos de Usar Mechanical Turk para Avaliar Geração de Texto Aberto, conclui ainda que ‘avaliadores especializados’, como professores de língua e linguistas, devem ser usados para avaliar conteúdo de NLG artificial de texto aberto, mesmo que a AMT seja mais barata.

Tarefas de Teste

Em comparação com o desempenho da AMT contra leitores especializados menos limitados pelo tempo, os pesquisadores gastaram $144 nos serviços da AMT realmente usados nos testes de comparação (embora muito mais tenha sido gasto em resultados ‘não utilizáveis’ – veja abaixo), exigindo que trabalhadores aleatórios da AMT avaliassem um dos 200 textos, divididos entre conteúdo de texto criado por humanos e texto gerado artificialmente.

Fazer com que professores profissionais realizassem o mesmo trabalho custou $187,50, e confirmou seu desempenho superior (em comparação com os trabalhadores da AMT) contratando freelancers da Upwork para replicar as tarefas custou um adicional de $262,50.

Cada tarefa consistia em quatro critérios de avaliação: gramática (‘Quão gramaticalmente correto é o texto do fragmento da história?’); coerência (‘Quão bem as frases no fragmento da história se encaixam?’); simpatia (‘Quão agradável você acha o fragmento da história?’); e relevância (‘Quão relevante é o fragmento da história para o prompt?’).

Geração de Textos

Para obter material de NLG para os testes, os pesquisadores usaram o conjunto de dados de 2018 da Facebook AI Research Geração de Histórias Neurais Hierárquica dataset, que compreende 303.358 histórias em língua inglesa compostas por usuários no subreddit muito popular (15 milhões+ de usuários) r/writingprompts, onde as histórias dos assinantes são ‘iniciadas’ por prompts de uma única frase de forma semelhante às práticas atuais em geração de imagem de texto – e, claro, em sistemas de geração de linguagem natural abertos.

200 prompts do conjunto de dados foram selecionados aleatoriamente e passados por um modelo GPT-2 de tamanho médio usando a biblioteca Hugging-Face Transformers library. Assim, dois conjuntos de resultados foram obtidos a partir dos mesmos prompts: os ensaios discursivos escritos por humanos dos usuários do Reddit e os textos gerados pelo GPT-2.

Para evitar que os mesmos trabalhadores da AMT julgassem a mesma história várias vezes, três julgamentos de trabalhadores da AMT foram solicitados por exemplo. Juntamente com experimentos sobre as capacidades de língua inglesa dos trabalhadores (veja o final do artigo) e descontando resultados de trabalhadores de baixo esforço (veja ‘Tempo Curto’ abaixo), isso aumentou o gasto total com a AMT para cerca de $1.500 USD.

Para criar um campo de jogo justo, todos os testes foram realizados em dias de semana entre 11h00-11h30 PST.

Resultados e Conclusões

O estudo abrangente cobre muito terreno, mas os principais pontos são os seguintes:

Tempo Curto

O artigo encontrou que um tempo de tarefa médio relatado pela Amazon de 360 segundos se resumia a um tempo de trabalho real de apenas 22 segundos, e um tempo de trabalho médio de apenas 13 segundos – um quarto do tempo necessário pelo professor de inglês mais rápido para replicar a tarefa.

Do dia 2 do estudo: os trabalhadores individuais (em laranja) passaram muito menos tempo avaliando cada tarefa do que os professores melhor pagos e (mais tarde) os contratantes da Upwork ainda melhor pagos. Fonte: https://arxiv.org/pdf/2109.06835.pdf

Como a AMT não impõe limite ao número de Tarefas de Inteligência Humana (HITs) que um trabalhador individual pode aceitar, ‘astros’ da AMT surgiram, com (lucrativas) reputações por concluir alto número de tarefas por experimento. Para compensar os hits aceitos pelo mesmo trabalhador, os pesquisadores mediram o tempo entre hits consecutivamente submetidos, comparando o início e o fim de cada HIT. Dessa forma, a falta entre o WorkTimeInSeconds relatado pela AMT e o tempo real gasto na tarefa ficou em foco.

Como tal trabalho não pode ser realizado nesses intervalos de tempo reduzidos, os pesquisadores tiveram que compensar por isso:

‘Como é impossível ler cuidadosamente um parágrafo de história e avaliar todas as quatro propriedades em apenas 13 segundos, medimos o impacto nas avaliações médias quando filtramos os trabalhadores que gastam muito pouco tempo por HIT…Especificamente, removemos julgamentos de trabalhadores cujo tempo médio é inferior a 40s (que é uma barra baixa), e encontramos que, em média, cerca de 42% de nossas avaliações são filtradas (variando de 20%-72% em todos os experimentos).’

O artigo sustenta que o tempo de trabalho real mal relatado na AMT é ‘uma grande questão’ normalmente ignorada por pesquisadores que usam os serviços.

Apoio Necessary

As descobertas sugerem ainda que os trabalhadores da AMT não podem distinguir confiavelmente entre texto escrito por humanos e texto escrito por máquina, a menos que vejam ambos os textos lado a lado, o que comprometeria efetivamente um cenário de avaliação típico (onde o leitor deve ser capaz de fazer um julgamento com base em uma única amostra de texto, ‘real’ ou gerado artificialmente).

Aceitação Casual de Texto Artificial de Baixa Qualidade

Os trabalhadores da AMT consistentemente avaliaram texto artificial de baixa qualidade baseado em GPT em igualdade com texto de alta qualidade e coerente escrito por humanos, em contraste com os professores de inglês, que facilmente conseguiram distinguir a diferença de qualidade.

Sem Tempo de Preparação, Zero de Contexto

Entrar no estado de espírito correto para uma tarefa abstrata como a avaliação de autenticidade não vem naturalmente; os professores de inglês precisaram de 20 tarefas para calibrar seus sentidos para o ambiente de avaliação, enquanto os trabalhadores da AMT normalmente não recebem ‘tempo de orientação’ algum, reduzindo a qualidade de suas entradas.

Jogando o Sistema

O relatório afirma que o tempo total que os trabalhadores da AMT gastam em tarefas individuais é inflado por trabalhadores que aceitam múltiplas tarefas simultaneamente e executam as tarefas em diferentes guias do navegador, em vez de se concentrar em uma tarefa por duração da tarefa registrada.

País de Origem é Importante

As configurações padrão da AMT não filtram trabalhadores por país de origem, e o relatório observa trabalho anterior indicando que os trabalhadores da AMT usam VPNs para contornar restrições geográficas, permitindo que falantes não nativos se apresentem como falantes nativos de inglês (em um sistema que, talvez de forma um tanto ingênua, equipara a língua materna de um trabalhador com sua localização geográfica com base no IP).

Assim, os pesquisadores reexecutaram os testes de avaliação na AMT com filtros que limitavam os participantes potenciais a não-países de língua inglesa, encontrando que ‘trabalhadores de países não falantes de inglês avaliaram coerência, relevância e gramática…significativamente mais baixos do que trabalhadores igualmente qualificados de países de língua inglesa’.

O relatório conclui:

‘Avaliadores especializados, como linguistas ou professores de língua, devem ser usados sempre que possível, pois já foram treinados para avaliar texto escrito, e não é muito mais caro…’

Publicado em 16 de setembro de 2021 – Atualizado em 18 de dezembro de 2021: Adicionados tags