toco Os conjuntos de dados de IA de hiperescala com curadoria insuficiente são piores do que a própria Internet? - Unite.AI
Entre em contato

Inteligência artificial

Os conjuntos de dados de IA de hiperescala com curadoria insuficiente são piores do que a própria Internet?

mm
Atualização do on

Pesquisadores da Irlanda, Reino Unido e Estados Unidos alertaram que o crescimento em conjuntos de dados de treinamento de IA em hiperescala ameaça propagar os piores aspectos de suas fontes da Internet, argumentando que um conjunto de dados acadêmicos recém-lançado apresenta 'imagens problemáticas e explícitas e pares de texto de estupro, pornografia, estereótipos malignos, calúnias racistas e étnicas e outros conteúdos extremamente problemáticos'.

Os pesquisadores acreditam que uma nova onda de conjuntos de dados multimodais (por exemplo, imagens e imagens) massivamente mal curados ou incorretamente filtrados são indiscutivelmente mais prejudiciais em sua capacidade de reforçar os efeitos de tal conteúdo negativo, uma vez que os conjuntos de dados preservam imagens e outros conteúdos que podem ter sido removidos das plataformas online por meio de reclamação do usuário, moderação local ou algoritmos.

Eles ainda observam que pode levar anos – no caso do poderoso conjunto de dados ImageNet, uma década inteira – para reclamações de longa data sobre o conteúdo do conjunto de dados serem abordadas, e que essas revisões posteriores nem sempre são refletidas, mesmo em novos conjuntos de dados derivados deles. .

A papel, Com o título Conjuntos de dados multimodais: misoginia, pornografia e estereótipos malignos, vem de pesquisadores da University College Dublin & Lero, da Universidade de Edimburgo, e do cientista-chefe da plataforma de autenticação UnifyID.

Embora o trabalho se concentre no recente lançamento do CLIP-filtrado Conjunto de dados LAION-400M, os autores estão argumentando contra a tendência geral de lançar quantidades crescentes de dados em estruturas de aprendizado de máquina, como o modelo de linguagem neural GPT-3, e afirmam que o foco nos resultados leva a uma melhor inferência (e até mesmo à Inteligência Geral Artificial [AGI] ), está resultando no uso ad hoc de fontes de dados prejudiciais com supervisão negligente dos direitos autorais; o potencial para gerar e promover danos; e a capacidade não só de perpetuar dados ilegais que de outra forma poderiam ter desaparecido do domínio público, mas de realmente incorporar os modelos morais de tais dados em implementações de IA a jusante.

LAION-400M

No mês passado, o conjunto de dados LAION-400M foi lançado, somando-se ao crescente número de conjuntos de dados linguísticos multimodais que dependem do Rastreio comum repositório, que raspa a internet indiscriminadamente e repassa a responsabilidade pela filtragem e curadoria aos projetos que dela fazem uso. O conjunto de dados derivado contém 400 milhões de pares de texto/imagem.

LAION-400M é uma variante de código aberto do WIT fechado do Google AI (WebImageText) conjunto de dados lançado em março de 2021 e apresenta pares texto-imagem, em que uma imagem no banco de dados foi associada a um texto explícito ou de metadados (por exemplo, o texto alternativo de uma imagem em uma galeria da web). Isso permite que os usuários realizem a recuperação de imagem baseada em texto, revelando as associações que a IA subjacente formou sobre esses domínios (ou seja, 'animal', 'bicicleta', 'pessoa', 'homem', 'mulher').

Essa relação entre imagem e texto e a semelhança de cosseno que pode incorporar viés nos resultados da consulta estão no centro do apelo do artigo por metodologias aprimoradas, uma vez que consultas muito simples ao banco de dados LAION-400M podem revelar viés.

Por exemplo, a imagem da astronauta pioneira Eileen Collins na biblioteca scitkit-image recupera duas legendas associadas em LAION-400M: 'Este é um retrato de um astronauta com a bandeira americana' e 'Esta é uma fotografia de uma dona de casa sorridente em um macacão laranja com a bandeira americana'.

A astronauta americana Eileen Collins obtém duas visões muito diferentes de suas conquistas como a primeira mulher no espaço sob o LAION-400M. Fonte: https://arxiv.org/pdf/2110.01963.pdf

A astronauta americana Eileen Collins obtém duas visões muito diferentes de suas conquistas como a primeira mulher no espaço sob o LAION-400M. Fonte: https://arxiv.org/pdf/2110.01963.pdf

As semelhanças de cosseno relatadas que tornam qualquer legenda aplicável são muito próximas umas das outras, e os autores afirmam que essa proximidade tornaria os sistemas de IA que usam LAION-400M relativamente prováveis ​​de apresentar qualquer uma delas como uma legenda adequada.

A pornografia sobe ao topo novamente

LAION-400M fez uma interface pesquisável disponível, onde desmarcar o botão 'pesquisa segura' revela até que ponto imagens pornográficas e associações textuais dominam rótulos e classes. Por exemplo, procurando 'freira' (NSFW se você desativar o modo de segurança posteriormente) no banco de dados retorna resultados principalmente relacionados a horror, cosplay e fantasias, com muito poucas freiras reais disponíveis.

Desativar o modo de segurança na mesma pesquisa revela uma série de imagens pornográficas relacionadas ao termo, que empurram qualquer imagem não pornográfica para baixo na página de resultados da pesquisa, revelando até que ponto LAION-400M atribuiu maior peso às imagens pornográficas, porque eles são predominantes para o termo 'freira' em fontes online.

A ativação padrão do Modo de segurança é enganosa na interface de pesquisa on-line, pois representa uma peculiaridade da interface do usuário, um filtro que não apenas não será necessariamente ativado em sistemas de IA derivados, mas que foi generalizado no domínio 'freira' de uma forma que não é tão facilmente filtrado ou distinguido dos resultados (relativamente) SFW em termos de uso algorítmico.

O documento apresenta exemplos borrados em vários termos de pesquisa nos materiais complementares no final. Eles não podem ser apresentados aqui, devido à linguagem do texto que acompanha as fotos borradas, mas os pesquisadores observam o custo que o exame e o desfoque das imagens cobram e reconhecem o desafio de selecionar esse material para a supervisão humana de grandes bancos de dados de escala:

'Nós (assim como nossos colegas que nos ajudaram) experimentamos vários níveis de desconforto, náusea e dor de cabeça durante o processo de sondagem do conjunto de dados. Além disso, esse tipo de trabalho encontra desproporcionalmente críticas negativas significativas na esfera acadêmica da IA ​​após o lançamento, o que não apenas adiciona um peso emocional adicional à já pesada tarefa de estudar e analisar esses conjuntos de dados, mas também desencoraja trabalhos futuros semelhantes, em detrimento de o campo da IA ​​e a sociedade em geral.'

Os pesquisadores afirmam que, embora a curadoria human-in-the-loop seja cara e tenha custos pessoais associados, os sistemas de filtragem automatizados projetados para remover ou endereçar esse material claramente não são adequados para a tarefa, uma vez que os sistemas de PNL têm dificuldade em isolar ou descartar ofensivos material que pode dominar um conjunto de dados raspado e, posteriormente, ser percebido como significativo devido ao grande volume.

Consagrando o conteúdo proibido e eliminando as proteções de direitos autorais

O artigo argumenta que conjuntos de dados com curadoria insuficiente dessa natureza são "altamente prováveis" de perpetuar a exploração de indivíduos minoritários e abordam se projetos de dados de código aberto semelhantes têm ou não o direito, legal ou moralmente, de desviar a responsabilidade pelo material para o usuário final:

“Indivíduos podem excluir seus dados de um site e presumir que eles desapareceram para sempre, embora ainda existam nos servidores de vários pesquisadores e organizações. Há uma dúvida sobre quem é responsável por remover esses dados do uso no conjunto de dados? Para LAION-400M, os criadores delegaram esta tarefa ao usuário do conjunto de dados. Dado que tais processos são intencionalmente complexos e que o usuário médio não possui o conhecimento técnico para remover seus dados, esta é uma abordagem razoável?'

Eles ainda afirmam que o LAION-400M pode não ser adequado para lançamento sob seu modelo de licença Creative Common CC-BY 4.0 adotado, apesar dos benefícios potenciais para a democratização de conjuntos de dados em grande escala, anteriormente domínio exclusivo de empresas bem financiadas, como Google e OpenAI.

O domínio LAION-400M afirma que as imagens do conjunto de dados 'estão sob seus próprios direitos autorais' - um mecanismo de 'passagem' amplamente permitido por decisões judiciais e diretrizes governamentais dos últimos anos que aprovam amplamente a captura da web para fins de pesquisa. Fonte: https://rom1504.github.io/clip-retrieval/

O domínio LAION-400M afirma que as imagens do conjunto de dados 'estão sob seus próprios direitos autorais' - um mecanismo de 'passagem' amplamente permitido por decisões judiciais e diretrizes governamentais dos últimos anos que aprovam amplamente a captura da web para fins de pesquisa. Fonte: https://rom1504.github.io/clip-retrieval/

Os autores sugerem que as bases (ou seja, voluntários de crowdsourcing) poderiam resolver alguns dos problemas do conjunto de dados e que os pesquisadores poderiam desenvolver técnicas de filtragem aprimoradas.

'No entanto, os direitos do titular dos dados permanecem não abordados aqui. É imprudente e perigoso subestimar os danos inerentes a tais conjuntos de dados em grande escala e encorajar seu uso em ambientes industriais e comerciais. A responsabilidade do esquema de licença sob o qual o conjunto de dados é fornecido recai exclusivamente sobre o criador do conjunto de dados'.

Os problemas de democratização dos dados em hiperescala

O artigo argumenta que conjuntos de dados visiolinguísticos tão grandes quanto o LAION-400M não estavam disponíveis anteriormente fora das grandes empresas de tecnologia e do número limitado de instituições de pesquisa que controlam os recursos para compilar, curar e processá-los. Eles ainda saúdam o espírito do novo lançamento, enquanto criticam sua execução.

Os autores afirmam que a definição aceita de 'democratização', conforme se aplica a conjuntos de dados de hiperescala de código aberto, é muito limitada e 'falha em levar em conta os direitos, o bem-estar e os interesses de indivíduos e comunidades vulneráveis, muitos dos quais provavelmente sofrerão mais com os impactos a jusante deste conjunto de dados e dos modelos treinados nele'.

Como o desenvolvimento de modelos de código aberto em escala GPT-3 foi projetado para ser disseminado para milhões (e por procuração, possivelmente bilhões) de usuários em todo o mundo, e como os projetos de pesquisa podem adotar conjuntos de dados antes de serem posteriormente editados ou mesmo removidos, perpetuando qualquer problemas foram projetados para serem resolvidos nas modificações, os autores argumentam que lançamentos descuidados de conjuntos de dados com curadoria insuficiente não devem se tornar um recurso habitual no aprendizado de máquina de código aberto.

Colocando o gênio de volta na garrafa

Alguns conjuntos de dados que foram suprimidos muito depois de seu conteúdo ter passado, talvez inextricavelmente, para projetos de IA de longo prazo, foram incluído o conjunto de dados Duke MTMC (Multi-Target, Multi-Camera), que acabou sendo retirado devido a preocupações repetidas de organizações de direitos humanos sobre seu uso por autoridades repressivas na China; Microsoft Celeb (MS-Celeb-1M), um conjunto de dados de 10 milhões de imagens faciais de "celebridades" que transpirou ter incluído jornalistas, ativistas, formuladores de políticas e escritores, cuja exposição de dados biométricos no comunicado foi duramente criticada; e o conjunto de dados Tiny Images, retirado em 2020 por autoconfessos 'tendências, imagens ofensivas e prejudiciais e terminologia depreciativa'.

Em relação aos conjuntos de dados que foram alterados em vez de retirados após críticas, os exemplos incluem o imensamente popular conjunto de dados ImageNet, que, observam os pesquisadores, levou dez anos (2009-2019) para agir sobre críticas repetidas sobre privacidade e classes não imagiáveis.

O artigo observa que o LAION-400M efetivamente atrasa até mesmo essas melhorias demoradas, 'ignorando amplamente' as revisões mencionadas na representação do ImageNet na nova versão e observa uma tendência mais ampla a esse respeito*:

'Isso é destacado no surgimento de conjuntos de dados maiores, como Conjunto de dados Tencent ML-images (em fevereiro de 2020) que engloba a maioria desses classes sem imagem, a disponibilidade contínua de modelos treinados no conjunto de dados Full-ImageNet-21k em repositórios como TF-hub, o uso contínuo do ImageNet-21k não filtrado nos modelos SotA mais recentes (como o mais recente EfficientNetV2 do Google e modelos CoAtNet) e os anúncios explícitos que permitem o uso de pré-treinamento ImageNet-21k não filtrado em concursos respeitáveis como o desafio LVIS 2021.

'Enfatizamos esta observação crucial: uma equipe da estatura da ImageNet gerenciando menos de 15 milhões de imagens lutou e falhou nessas tentativas de desintoxicação até agora.

"A escala de esforços cuidadosos necessários para desintoxicar completamente este enorme conjunto de dados multimodal e os modelos downstream treinados neste conjunto de dados abrangendo potencialmente bilhões de pares de legendas de imagens serão inegavelmente astronômicos."

 

* Minha conversão das citações inline do autor em hiperlinks.