Connect with us

Adobe e Meta Condenam o Uso Indevido de Estudos de Usuários em Pesquisas de Visão Computacional

Inteligência artificial

Adobe e Meta Condenam o Uso Indevido de Estudos de Usuários em Pesquisas de Visão Computacional

mm
Source: 'Evacuated King's College London students at the University of Bristol in 1940' - https://www.hmoob.press/nn/Bristol_University#wiki-2

Adobe e Meta, juntamente com a Universidade de Washington, publicaram uma crítica extensa sobre o que eles alegam ser o uso indevido e abuso crescente de estudos de usuários em pesquisas de visão computacional (CV).

Os estudos de usuários costumavam ser limitados a locais ou estudantes em torno do campus de uma ou mais instituições acadêmicas participantes, mas migraram quase inteiramente para plataformas de crowdsourcing online, como a Amazon Mechanical Turk (AMT).

Entre uma ampla gama de queixas, o novo artigo sustenta que projetos de pesquisa estão sendo pressionados a produzir estudos por revisores de artigos; frequentemente formulam os estudos de forma inadequada; encomendam estudos onde a lógica do projeto não suporta essa abordagem; e frequentemente são “manipulados” por crowdworkers céticos que “descobrem” as respostas desejadas em vez de realmente pensar sobre o problema.

O tratado de quinze páginas título (intitulado Em Direção a Melhores Estudos de Usuários em Gráficos Computacionais e Visão) que compõe o corpo central do novo artigo apresenta muitas outras críticas à forma como os estudos de usuários crowdsourced podem estar impedindo o avanço de sub-setores de visão computacional, como reconhecimento de imagens e síntese de imagens.

Embora o artigo aborde uma gama muito mais ampla de questões relacionadas a estudos de usuários, suas críticas mais fortes são reservadas para a forma como a avaliação de saída em estudos de usuários (ou seja, quando humanos crowdsourced são pagos em estudos de usuários para fazer julgamentos de valor sobre – por exemplo – a saída de novos algoritmos de síntese de imagens) pode estar afetando negativamente todo o setor.

Vamos dar uma olhada em uma seleção de alguns dos pontos centrais.

Interpretações Sensacionalistas

Entre as sugestões do artigo para aqueles que publicam no setor de visão computacional, está a admoestação para “interpretar os resultados com cuidado”. O artigo cita um exemplo de 2021, quando um novo trabalho de pesquisa alegando que “indivíduos são incapazes de identificar com precisão artefatos gerados por IA” foi amplamente divulgado na imprensa popular.

Um dos relatórios de mídia de maior perfil sobre o artigo de 2021 'O Papel do Conhecimento de Atribuição de IA na Avaliação de Artefatos', de Harsha Gangadharbatla, citado como exemplo no novo artigo. Aqui, a fonte do Daily Mail é The Times (com acesso restrito) Fontes: Daily Mail (link de arquivo) / https://www.gwern.net/docs/ai/nn/gan/2021-gangadharbatla.pdf

Um dos relatórios de mídia de maior perfil sobre o artigo de 2021 ‘O Papel do Conhecimento de Atribuição de IA na Avaliação de Artefatos’, de Harsha Gangadharbatla, citado como exemplo no novo artigo. Aqui, a fonte do Daily Mail é The Times (com acesso restrito). Fontes: Daily Mail (link de arquivo) / https://www.gwern.net/docs/ai/nn/gan/2021-gangadharbatla.pdf

Os autores afirmam*:

‘[Em] um estudo em um jornal de psicologia, imagens de artefatos tradicionais e imagens criadas por tecnologias de IA foram coletadas da web, e crowdworkers foram solicitados a distinguir quais imagens vinham de quais fontes. A partir dos resultados, concluiu-se que “indivíduos são incapazes de identificar com precisão artefatos gerados por IA”, uma conclusão muito ampla que não segue diretamente dos experimentos.

‘Além disso, o artigo não relata detalhes sobre quais conjuntos de imagens específicos foram coletados ou usados, tornando as alegações difíceis, se não impossíveis, de verificar e reproduzir.

‘Mais preocupante é que a imprensa popular relatou esses resultados com alegações enganosas de que as IAs podem criar arte independentemente tão bem quanto os humanos.’

Lidando com Crowdworkers que Trapaceiam

Trabalhadores crowdsourced não costumam ser pagos muito por seus esforços. Como suas perspectivas são minimais, e seu melhor potencial de ganhos é através da realização de uma grande quantidade de tarefas, muitos deles estão, segundo pesquisas, inclinados a tomar qualquer “atalho” que acelere a tarefa atual para que possam passar para a próxima “gig” menor.

O artigo observa que trabalhadores crowdsourced, assim como sistemas de aprendizado de máquina, aprenderão padrões repetitivos nos estudos de usuários que os pesquisadores formulam e simplesmente inferirão a “correta” ou “desejada” resposta, em vez de produzir uma resposta orgânica verdadeira ao material.

Para esse fim, o artigo recomenda realizar verificações nos trabalhadores crowdsourced, também conhecidas como “testes de validação” ou “sentinelas” – efetivamente, seções falsas de um teste projetadas para ver se o trabalhador está prestando atenção, clicando aleatoriamente ou simplesmente seguindo um padrão que eles próprios inferiram dos testes, em vez de pensar sobre suas escolhas.

Os autores afirmam:

‘Por exemplo, no caso de pares de imagens estilizadas, uma imagem do par pode ser um resultado de qualidade objetivamente ruim. Durante a análise, os dados de participantes que falharam em alguns testes pré-definidos podem ser descartados, supondo que foram gerados por participantes que estavam inatentos ou inconsistentes.

‘Esses testes devem ser inseridos aleatoriamente no estudo e devem parecer iguais aos outros testes; caso contrário, os participantes podem descobrir quais testes são os testes.’

Lidando com Pesquisadores que Trapaceiam

Com ou sem intenção, os pesquisadores podem ser cúmplices nesse tipo de “manipulação”; há muitas maneiras para eles, talvez até inadvertidamente, “sinalizar” suas escolhas desejadas para crowdworkers.

Por exemplo, o artigo observa que, selecionando crowdworkers com perfis que possam ser conduzidos a obter as “respostas ideais” em um estudo, nominalmente provando uma hipótese que poderia ter falhado em um grupo menos “seleto” e mais arbitrário.

A fraseologia também é uma preocupação importante:

‘A redação deve refletir os objetivos de alto nível, por exemplo, “qual imagem contém menos artefatos?” em vez de “qual imagem contém menos defeitos de cor na região facial?” Ao contrário, a redação de tarefas imprecisa deixa muito espaço para interpretação, por exemplo, “qual imagem é melhor?” pode ser entendida como “qual é mais esteticamente agradável?” onde a intenção poderia ter sido avaliar “qual é mais realista?”

Outra maneira de “influenciar benignamente” os participantes é permitir que eles saibam, abertamente ou implicitamente, qual das possíveis escolhas diante deles é o método do autor, em vez de um método anterior ou uma amostra aleatória.

O artigo afirma*:

‘[Os] participantes podem responder com as respostas que os pesquisadores desejam, consciente ou inconscientemente, o que é conhecido como o “efeito de bom sujeito”. Não rotule os resultados com nomes como “nosso método” ou “método existente”. Os participantes podem ser tendenciosos por dinâmicas de poder (ou seja, o pesquisador que detém o poder ao realizar a sessão de pesquisa), pesquisadores usando linguagem para primar os participantes (por exemplo, “quanto você gosta dessa ferramenta que eu construí ontem?”), e pesquisadores e participantes’ relação (por exemplo, se ambos trabalham no mesmo laboratório ou empresa).’

O formato de uma tarefa em um estudo de usuários também pode afetar a neutralidade do estudo. Os autores observam que, se, em uma apresentação lado a lado, a linha de base for consistentemente posicionada à esquerda (ou seja, ‘imagem A’) e a saída do novo algoritmo à direita, os participantes do estudo podem inferir que B é a “melhor” escolha, com base em sua crescente presunção do resultado desejado pelos pesquisadores.

‘Outros aspectos de apresentação, como o tamanho das imagens na tela, a distância entre elas, etc. podem influenciar as respostas dos participantes. Realizar o estudo com algumas configurações diferentes pode ajudar a identificar esses possíveis problemas precocemente.’

As Pessoas Erradas para o Produto Errado

Os autores observam em vários pontos do artigo que trabalhadores crowdsourced são um recurso mais “genérico” do que se esperaria em décadas anteriores, quando os pesquisadores eram forçados a solicitar ajuda localmente, muitas vezes de estudantes de faculdade que suplementavam sua renda através da participação em estudos.

A necessidade de participação ativa deixa o crowdworker contratado com pouco espaço para ficar “desinteressado” por um produto que está testando, e os autores do artigo recomendam que os pesquisadores identifiquem seus usuários-alvo antes de desenvolver e testar um produto ou serviço potencial – caso contrário, correm o risco de produzir algo muito difícil de criar, mas que ninguém realmente quer.

‘De fato, muitas vezes testemunhamos pesquisadores de gráficos computacionais ou visão tentando obter a adoção de sua pesquisa por práticos da indústria, apenas para descobrir que a pesquisa não atende às necessidades dos usuários-alvo. Pesquisadores que não realizam a identificação de necessidades no início podem se surpreender ao descobrir que os usuários não têm necessidade ou interesse na ferramenta que eles passaram meses ou anos desenvolvendo.

‘Tais ferramentas podem se sair mal em estudos de avaliação, pois os usuários podem achar que a tecnologia produz resultados inúteis, irrelevantes ou inesperados.’

O artigo observa ainda que os usuários que realmente usarão um produto devem ser selecionados para os estudos, mesmo que não sejam fáceis de encontrar (ou, presumivelmente, muito baratos).

Em vez de voltar a recrutar no campus (o que seria talvez um movimento um pouco retrógrado), os autores sugerem que os pesquisadores “recrutem usuários no mundo real”, engajando-se com comunidades pertinentes.

‘Por exemplo, pode haver um quadro de mensagens online ativo ou uma comunidade de mídia social que possa ser aproveitada. Mesmo encontrar um membro da comunidade pode levar a amostragem de neve, na qual usuários relevantes oferecem conexões com indivíduos semelhantes em sua rede.’

Solicitando Feedback

O artigo também recomenda solicitar feedback qualitativo daqueles que participaram de estudos de usuários, não menos porque isso pode potencialmente expor falsas suposições por parte dos pesquisadores.

‘Esses podem ajudar a depurar o estudo, mas também podem revelar facetas inesperadas da saída que influenciaram as avaliações dos usuários. O participante estava “muito insatisfeito” [sic] com a saída porque era irrealista, não estética, tendenciosa ou por algum outro motivo?

‘Sem informações qualitativas, o pesquisador pode trabalhar para refinar o algoritmo para ser mais realista, em vez de abordar o problema subjacente do usuário.’

Como muitas das recomendações ao longo do artigo, essa recomendação específica envolve mais gastos de tempo e dinheiro por parte dos pesquisadores, em uma cultura que, o trabalho observa, está se tornando rapidamente uma cultura de estudos crowdsourced, que são geralmente baratos, e que se conformam a uma cultura de estudo impulsionada que o artigo critica ao longo de todo o texto.

Sobrestudado

O artigo sugere que os estudos de usuários estão se tornando uma espécie de “requisito mínimo” na comunidade de visão computacional pré-impressa, mesmo em casos em que um estudo não pode ser razoavelmente formulado (por exemplo, com uma ideia tão nova ou marginal que não há análise “igual para igual” para realizar, e que pode não ser suscetível a qualquer métrica razoável que pudesse produzir resultados significativos em um estudo de usuários).

Como exemplo de “bullying de estudo” (não é a frase dos autores), os pesquisadores citam o caso de um artigo ICLR 2022 para o qual as revisões por pares estão disponíveis online (snapshot de arquivo tirado em 24 de junho de 2022; link tirado diretamente do novo artigo):

‘Dois revisores deram pontuações muito negativas devido, em parte, à falta de estudos de usuários. O artigo foi eventualmente aceito, acompanhado de um resumo repreendendo os revisores por usarem “estudos de usuários” como desculpa para revisões ruins, e acusando-os de gatekeeping. A discussão completa vale a pena ler.

‘A decisão final observou que a submissão descrevia uma biblioteca de software que havia sido implantada por anos, com milhares de usuários (informação que não foi revelada aos revisores para revisão anônima). O artigo – que descreve um sistema altamente impactante – teria sido rejeitado se o comitê não tivesse tido essa informação?

‘E, se os autores tivessem feito o esforço extra de contrapor e realizar um estudo de usuários, teria sido significativo, e teria sido suficiente para convencer os revisores?’

Os autores afirmam que viram revisores e editores imporem “exigências de avaliação onerosas” em artigos submetidos, não obstante se tais avaliações teriam algum significado ou valor.

‘Também observamos autores e revisores usarem avaliações do MTurk como um apoio para evitar tomar decisões difíceis. Comentários de revisores como “não consigo dizer se as imagens são melhores, talvez um estudo de usuários possa ajudar” são potencialmente prejudiciais, incentivando os autores a realizar trabalho extra que não melhorará um artigo medíocre.’

Os autores fecham o artigo com um “chamado à ação” central, para as comunidades de visão computacional e gráficos computacionais considerarem mais plenamente seus pedidos de estudos de usuários, em vez de permitir que uma cultura de estudo se desenvolva como um padrão rotineiro, não obstante os “casos de bordo” onde alguns dos trabalhos mais interessantes podem não se encaixar em alguns dos pipelines de pesquisa e submissão mais lucrativos ou frutíferos.

Os autores concluem:

‘[Se] o objetivo principal de realizar estudos de usuários é aplacar os revisores em vez de gerar novos conhecimentos, a utilidade e a validade de tais estudos de usuários devem ser questionadas por autores e revisores. Penalizar o trabalho que não contém avaliação de usuários tem a consequência não intencional de incentivar a realização de pesquisas de usuários apressadas e mal executadas.

‘Um lema a manter em mente é que “mau estudo de usuários leva a maus resultados”, e tal pesquisa continuará se os revisores continuarem a pedi-la.’

 

* Minha conversão das citações inline do artigo para hiperlinks pertinentes
Minha ênfase, não dos autores.

Publicado pela primeira vez em 24 de junho de 2022.

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.