Inteligência artificial
A ‘Invisível’, Frequentemente Infeliz, Força de Trabalho que Está Decidindo o Futuro da IA

Dois novos relatórios, incluindo um artigo liderado pela Google Research, expressam preocupação de que a tendência atual de confiar em um pool barato e frequentemente desempoderado de trabalhadores globais para criar verdades fundamentais para sistemas de aprendizado de máquina possa ter implicações importantes para a IA.
Entre uma série de conclusões, o estudo da Google descobre que os próprios vieses dos trabalhadores da multidão provavelmente se tornarão incorporados nos sistemas de IA cujas verdades fundamentais serão baseadas em suas respostas; que práticas de trabalho injustas generalizadas (incluindo nos EUA) em plataformas de trabalho da multidão provavelmente degradarão a qualidade das respostas; e que o sistema de “consenso” (efetivamente uma “mini-eleição” para alguma verdade fundamental que influenciará sistemas de IA downstream) que atualmente resolve disputas pode efetivamente descartar as melhores e/ou mais informadas respostas.
Essa é a má notícia; a pior notícia é que quase todos os remédios são caros, demorados, ou ambos.
Insegurança, Rejeição Aleatória e Rancor
O primeiro artigo, de cinco pesquisadores da Google, é chamado De Quem é a Verdade Fundamental? Contabilizando Identidades Individuais e Coletivas Subjacentes à Anotação de Conjuntos de Dados; o segundo, de dois pesquisadores da Universidade de Syracuse, em Nova York, é chamado A Origem e o Valor do Desacordo entre Anotadores de Dados: Um Estudo de Caso de Diferenças Individuais na Anotação de Discurso de Ódio.
O artigo da Google observa que os trabalhadores da multidão – cujas avaliações frequentemente formam a base definidora de sistemas de aprendizado de máquina que podem eventualmente afetar nossas vidas – estão operando frequentemente sob uma série de restrições que podem afetar a forma como respondem a tarefas experimentais.
Por exemplo, as políticas atuais da Amazon Mechanical Turk permitem que os solicitantes (aqueles que distribuem as tarefas) rejeitem o trabalho de um anotador sem responsabilidade*:
‘[U]ma grande maioria dos trabalhadores da multidão (94%) teve trabalho rejeitado ou pelo qual não foi pago. No entanto, os solicitantes retêm todos os direitos sobre os dados que recebem, independentemente de aceitarem ou rejeitarem; Roberts (2016) descreve esse sistema como um que “permite o roubo de salário”.
‘Além disso, rejeitar o trabalho e retê-lo é doloroso porque as rejeições são frequentemente causadas por instruções pouco claras e a falta de canais de feedback significativos; muitos trabalhadores da multidão relatam que a comunicação ruim afeta negativamente seu trabalho.’
Os autores recomendam que os pesquisadores que usam serviços terceirizados para desenvolver conjuntos de dados considerem como uma plataforma de trabalho da multidão trata seus trabalhadores. Eles observam ainda que nos Estados Unidos, os trabalhadores da multidão são classificados como “contratantes independentes”, com o trabalho, portanto, não regulamentado e não coberto pelo salário mínimo estabelecido pela Lei de Padrões de Trabalho Justo.
Contexto Importa
O artigo também critica o uso de mão de obra global ad hoc para tarefas de anotação, sem considerar o contexto do anotador.
Quando o orçamento permite, é comum que os pesquisadores que usam a AMT e plataformas de trabalho da multidão semelhantes deem a mesma tarefa a quatro anotadores e sigam a “regra da maioria” nos resultados.
A experiência contextual, argumenta o artigo, é notavelmente subestimada. Por exemplo, se uma pergunta relacionada ao sexismo for distribuída aleatoriamente entre três homens que concordam, com idades entre 18 e 57 anos, e uma mulher discordante, de 29 anos, o veredito dos homens vence, exceto nos casos raros em que os pesquisadores prestam atenção às qualificações dos anotadores.
Da mesma forma, se uma pergunta sobre comportamento de gangues em Chicago for distribuída entre uma mulher rural dos EUA, de 36 anos, um residente de Chicago, de 42 anos, e dois anotadores, respectivamente, de Bangalore e da Dinamarca, a pessoa provavelmente mais afetada pela questão (o homem de Chicago) detém apenas um quarto do resultado, em uma configuração de terceirização padrão.
Os pesquisadores afirmam:
‘[A] noção de “uma verdade” nas respostas da multidão é um mito; o desacordo entre anotadores, que é frequentemente visto como negativo, pode na verdade fornecer um sinal valioso. Em segundo lugar, como muitos pools de anotadores da multidão são inclinados sociodemograficamente, há implicações para quais populações são representadas nos conjuntos de dados, bem como quais populações enfrentam os desafios do trabalho da multidão.
‘Contabilizar os vieses nas demografias dos anotadores é crítico para contextualizar os conjuntos de dados e garantir o uso responsável downstream. Em resumo, há valor em reconhecer e contabilizar o contexto sociocultural do trabalhador — tanto da perspectiva da qualidade dos dados quanto do impacto social.’
Não Há Opiniões ‘Neutras’ em Tópicos Quentes
Mesmo onde as opiniões de quatro anotadores não são inclinadas, demograficamente ou por algum outro métrica, o artigo da Google expressa preocupação de que os pesquisadores não estão contabilizando as experiências de vida ou a disposição filosófica dos anotadores:
‘Enquanto algumas tarefas tendem a apresentar perguntas objetivas com uma resposta correta (há um rosto humano em uma imagem?), frequentemente os conjuntos de dados visam capturar julgamentos em tarefas relativamente subjetivas sem uma resposta universalmente correta (é este texto ofensivo?). É importante ser intencional sobre se confiar nos julgamentos subjetivos dos anotadores.’
Em relação ao seu âmbito específico para abordar problemas na rotulagem de discurso de ódio, o artigo de Syracuse observa que perguntas mais categóricas, como Isso é um gato nesta fotografia? são notavelmente diferentes de perguntar a um trabalhador da multidão se uma frase é ‘tóxica’:
‘Levando em conta a complexidade da realidade social, as percepções das pessoas sobre toxicidade variam substancialmente. Seus rótulos de conteúdo tóxico são baseados em suas próprias percepções.’
Descobrindo que a personalidade e a idade têm uma ‘influência substancial’ na rotulagem dimensional do discurso de ódio, os pesquisadores de Syracuse concluem:
‘Esses resultados sugerem que os esforços para obter consistência de anotação entre anotadores com diferentes origens e personalidades para discurso de ódio podem nunca ter sucesso completo.’
O Juiz Também Pode Estar Viesado
Essa falta de objetividade provavelmente se iterará para cima também, de acordo com o artigo de Syracuse, que argumenta que a intervenção manual (ou política automatizada, também decidida por um humano) que determina o ‘vencedor’ dos votos de consenso também deve ser submetida a escrutínio.
Comparando o processo à moderação de fóruns, os autores afirmam*:
‘[U]m moderador de comunidade pode decidir o destino de posts e usuários em sua comunidade, promovendo ou ocultando posts, bem como honrando, envergonhando ou banindo os usuários. As decisões dos moderadores influenciam o conteúdo entregue aos membros da comunidade e audiência e, por extensão, também influenciam a experiência da comunidade na discussão.
‘Supondo que um moderador humano é um membro da comunidade que tem homogeneidade demográfica com outros membros da comunidade, parece possível que o esquema mental que usam para avaliar o conteúdo corresponda ao dos outros membros da comunidade.’
Isso dá alguma pista sobre por que os pesquisadores de Syracuse chegaram a uma conclusão tão desanimadora sobre o futuro da anotação de discurso de ódio; a implicação é que as políticas e decisões sobre opiniões discordantes da multidão não podem ser aplicadas aleatoriamente de acordo com ‘princípios aceitáveis’ que não são consagrados em lugar nenhum (ou não são redutíveis a um esquema aplicável, mesmo que existam).
As pessoas que tomam as decisões (os trabalhadores da multidão) estão viesadas, e seriam inúteis para tais tarefas se não estivessem viesadas, desde que a tarefa é fornecer um julgamento de valor; as pessoas que julgam as disputas nos resultados da multidão também estão fazendo julgamentos de valor ao estabelecer políticas para disputas.
Pode haver centenas de políticas em apenas um quadro de detecção de discurso de ódio, e a menos que cada uma delas seja levada ao Supremo Tribunal, onde pode surgir um ‘consenso autoritativo’?
Os pesquisadores da Google sugerem que ‘[os] desacordos entre anotadores podem incorporar nuances valiosas sobre a tarefa’. O artigo propõe o uso de metadados nos conjuntos de dados que refletem e contextualizam disputas.
No entanto, é difícil ver como essa camada de dados contextuais específicos poderia levar a métricas comparáveis, adaptar-se às demandas de testes padrão estabelecidos ou apoiar qualquer resultado definitivo — exceto no cenário irrealista de adotar o mesmo grupo de pesquisadores em trabalhos subsequentes.
Curando o Pool de Anotadores
Tudo isso assume que há orçamento em um projeto de pesquisa para múltiplas anotações que levariam a um voto de consenso. Em muitos casos, os pesquisadores tentam ‘curar’ o pool de anotação terceirizado de forma mais barata, especificando traços que os trabalhadores devem ter, como localização geográfica, gênero ou outros fatores culturais, trocando pluralidade por especificidade.
O artigo da Google argumenta que o caminho para esses desafios poderia ser estabelecer quadros de comunicação estendidos com anotadores, semelhantes à comunicação mínima que o aplicativo Uber facilita entre um motorista e um passageiro.
Essa consideração cuidadosa dos anotadores, naturalmente, seria um obstáculo à terceirização de anotação em hiperscala, resultando em conjuntos de dados mais limitados e de baixo volume que têm uma melhor justificativa para seus resultados, ou uma ‘avaliação apressada’ dos anotadores envolvidos, obtendo detalhes limitados sobre eles e caracterizando-os como ‘aptos para a tarefa’ com base em pouca informação.
Isso é se os anotadores estiverem sendo honestos.
Os ‘Agradadores’ na Rotulagem de Conjuntos de Dados Terceirizados
Com uma força de trabalho disponível que é subpago, sob competição severa por tarefas disponíveis, e deprimido por perspectivas de carreira escassas, os anotadores estão motivados a fornecer rapidamente a ‘resposta certa’ e seguir para a próxima mini-tarefa.
Se a ‘resposta certa’ for algo mais complicado do que Tem gato/Não tem gato, o artigo de Syracuse argumenta que o trabalhador provavelmente tentará deduzir uma ‘resposta aceitável’ com base no conteúdo e contexto da pergunta*:
‘Tanto a proliferação de conceituações alternativas quanto o uso generalizado de métodos de anotação simplistas estão, provavelmente, impedindo o progresso da pesquisa sobre discurso de ódio online. Por exemplo, Ross et al. encontraram que mostrar a definição de conduta odiosa do Twitter aos anotadores os levou a alinhar parcialmente suas próprias opiniões com a definição. Esse realinhamento resultou em uma confiabilidade inter-avaliador muito baixa das anotações.’
* Minha conversão das citações em linha do artigo para links.
Publicado em 13 de dezembro de 2021 – Atualizado em 18 de dezembro de 2021: Tags adicionadas












