Ética

Práticas Atuais de IA Podem Estar Permitindo uma Nova Geração de Trolls de Direitos Autorais

Published November 5, 2021

Updated April 5, 2026

Martin Anderson

Uma nova colaboração de pesquisa entre a Huawei e a academia sugere que uma grande parte das principais pesquisas atuais em inteligência artificial e aprendizado de máquina pode estar exposta a litígios assim que se tornar comercialmente proeminente, porque os conjuntos de dados que tornam possíveis os avanços estão sendo distribuídos com licenças inválidas que não respeitam os termos originais dos domínios públicos de onde os dados foram obtidos.

Em efeito, isso tem dois resultados quase inevitáveis: que algoritmos de IA muito bem-sucedidos e comercializados que são conhecidos por terem usado esses conjuntos de dados se tornarão alvos futuros de trolls de patentes oportunistas cujos direitos autorais não foram respeitados quando seus dados foram coletados; e que organizações e indivíduos poderão usar as mesmas vulnerabilidades legais para protestar contra a implantação ou difusão de tecnologias de aprendizado de máquina que eles consideram questionáveis.

O artigo é intitulado Posso usar este conjunto de dados publicamente disponível para construir software de IA comercial? Provavelmente não, e é uma colaboração entre a Huawei Canadá e a Huawei China, juntamente com a Universidade de York no Reino Unido e a Universidade de Victoria no Canadá.

Cinco de Seis Conjuntos de Dados de Código Aberto Não São Legalmente Usáveis

Para a pesquisa, os autores pediram aos departamentos da Huawei que selecionassem os conjuntos de dados de código aberto mais desejáveis que eles gostariam de explorar em projetos comerciais, e selecionaram os seis conjuntos de dados mais solicitados das respostas: CIFAR-10 (um subconjunto do conjunto de dados 80 milhões de imagens pequenas, desde retirado por ‘termos depreciativos’ e ‘imagens ofensivas’, embora seus derivados se proliferem); ImageNet; Cityscapes (que contém material exclusivamente original); FFHQ; VGGFace2, e MSCOCO.

Para analisar se os conjuntos de dados selecionados eram adequados para uso legal em projetos comerciais, os autores desenvolveram um pipeline novo para rastrear a cadeia de licenças tanto quanto foi possível para cada conjunto, embora tenham tido que recorrer a capturas do arquivo da web para localizar licenças de domínios agora expirados, e em certos casos tenham tido que ‘adivinhar’ o status da licença a partir das informações mais próximas disponíveis.

Arquitetura para o sistema de rastreamento de proveniência desenvolvido pelos autores. Fonte: https://arxiv.org/pdf/2111.02374.pdf

Os autores encontraram que as licenças para cinco dos seis conjuntos de dados ‘contêm riscos associados a pelo menos um contexto de uso comercial’:

‘Observamos que, exceto MS COCO, nenhuma das licenças estudadas permite aos praticantes o direito de comercializar um modelo de IA treinado nos dados ou mesmo a saída do modelo de IA treinado. Tal resultado também impede efetivamente que os praticantes usem modelos pré-treinados treinados nesses conjuntos de dados. Conjuntos de dados e modelos de IA pré-treinados que são amplamente usados comercialmente.’ *

Os autores observam ainda que três dos seis conjuntos de dados estudados poderiam resultar em violação de licença em produtos comerciais se o conjunto de dados for modificado, pois apenas o MS-COCO permite isso. No entanto, a ampliação de dados e subconjuntos e superconjuntos de conjuntos de dados influentes são uma prática comum.

No caso do CIFAR-10, os compiladores originais não criaram nenhuma forma convencional de licença, apenas exigindo que os projetos que usassem o conjunto de dados incluíssem uma citação ao artigo original que acompanhava a liberação do conjunto de dados, apresentando uma obstrução adicional para estabelecer o status legal dos dados.

Além disso, apenas o conjunto de dados CityScapes contém material que é exclusivamente gerado pelos originadores do conjunto de dados, em vez de ser ‘curado’ (coletado) de fontes de rede, com o CIFAR-10 e o ImageNet usando múltiplas fontes, cada uma das quais precisaria ser investigada e rastreada para estabelecer qualquer tipo de mecanismo de direitos autorais (ou mesmo uma declaração significativa).

Não Há Escapatória

Existem três fatores que as empresas de IA comerciais parecem estar contando para protegê-las de litígios em torno de produtos que usaram conteúdo protegido por direitos autorais de conjuntos de dados livremente e sem permissão, para treinar algoritmos de IA. Nenhum desses fatores oferece muita (ou alguma) proteção confiável a longo prazo:

1: Leis Nacionais Laissez Faire
Embora os governos em todo o mundo sejam compelidos a relaxar as leis em torno da coleta de dados em um esforço para não ficar para trás na corrida em direção a uma IA performática (que depende de grandes volumes de dados do mundo real, para os quais a conformidade regular com os direitos autorais e a licença seria irrealista), apenas os Estados Unidos oferecem imunidade total nesse aspecto, sob a Doutrina do Uso Justo – uma política que foi ratificada em 2015 com a conclusão do caso Authors Guild v. Google, Inc., que afirmou que o gigante da busca poderia livremente ingerir material protegido por direitos autorais para seu projeto Google Books sem ser acusado de violação.

Se a política da Doutrina do Uso Justo mudar (por exemplo, em resposta a outro caso marco que envolva organizações ou corporações suficientemente poderosas), provavelmente seria considerada um estado a priori em termos de explorar bancos de dados atuais que violam direitos autorais, protegendo o uso anterior; mas não o uso contínuo e desenvolvimento de sistemas que foram habilitados por meio de material protegido por direitos autorais sem acordo.

Isso coloca a proteção atual da Doutrina do Uso Justo em uma base muito provisória e poderia potencialmente, nesse cenário, exigir que algoritmos de aprendizado de máquina comercializados e estabelecidos cessem a operação em casos onde suas origens foram habilitadas por material protegido por direitos autorais – mesmo em casos onde os pesos do modelo agora lidam exclusivamente com conteúdo permitido, mas foram treinados em (e tornados úteis por) conteúdo ilegalmente copiado.

Fora dos EUA, como os autores observam no novo artigo, as políticas são geralmente menos lenientes. O Reino Unido e o Canadá apenas isentam o uso de dados protegidos por direitos autorais para fins não comerciais, enquanto a Lei de Mineração de Texto e Dados da UE (que não foi totalmente anulada pelas propostas recentes para uma regulação de IA mais formal) também exclui a exploração comercial para sistemas de IA que não atendem aos requisitos de direitos autorais dos dados originais.

Esses últimos arranjos significam que uma organização pode alcançar grandes coisas com os dados de outras pessoas, até – mas não incluindo – o ponto de fazer dinheiro com isso. Nessa etapa, o produto seria ou exposto legalmente, ou arranjos precisariam ser feitos com literalmente milhões de titulares de direitos autorais, muitos dos quais agora são inacessíveis devido à natureza mutável da internet – uma perspectiva impossível e inaffordável.

2: Caveat Emptor
Em casos onde organizações infratoras estão esperando para adiar a culpa, o novo artigo também observa que muitas licenças para os conjuntos de dados de código aberto mais populares auto-indenizam-se contra qualquer reclamação de abuso de direitos autorais:

‘Por exemplo, a licença do ImageNet exige explicitamente que os praticantes indenizem a equipe do ImageNet contra qualquer reclamação decorrente do uso do conjunto de dados. Os conjuntos de dados FFHQ, VGGFace2 e MS COCO exigem que o conjunto de dados, se distribuído ou modificado, seja apresentado sob a mesma licença.’

Efetivamente, isso força aqueles que usam conjuntos de dados de código aberto a absorver a culpabilidade pelo uso de material protegido por direitos autorais, diante de eventuais litígios (embora não proteja necessariamente os compiladores originais em um caso onde o clima atual de ‘porto seguro’ é comprometido).

3: Indenização por Obscuridade
A natureza colaborativa da comunidade de aprendizado de máquina torna difícil usar ocultismo corporativo para ocultar a presença de algoritmos que se beneficiaram de conjuntos de dados que violam direitos autorais. Projetos comerciais de longo prazo muitas vezes começam em ambientes de código aberto onde o uso de conjuntos de dados é um assunto de registro, no GitHub e outros fóruns publicamente acessíveis, ou onde as origens do projeto foram publicadas em pré-impressão ou artigos revisados por pares.

Mesmo quando isso não é o caso, inversão de modelo é cada vez mais capaz de revelar as características típicas dos conjuntos de dados (ou mesmo produzir explicitamente algum do material de origem), fornecendo prova em si ou suspeita suficiente de violação para permitir o acesso ordenado pelo tribunal à história do desenvolvimento do algoritmo e detalhes dos conjuntos de dados usados nesse desenvolvimento.

Conclusão

O artigo descreve um uso caótico e ad hoc de material protegido por direitos autorais obtido sem permissão, e de uma série de cadeias de licenças que, seguidas logicamente até o original, exigiriam negociações com milhares de titulares de direitos autorais cujo trabalho foi apresentado sob a égide de sites com uma ampla variedade de termos de licença, muitos dos quais proíbem obras derivadas comerciais.