Ângulo de Anderson
Métodos de Lavagem de IP em IA

Se houver um acerto de contas legal por vir sobre o uso de propriedade intelectual no treinamento de IA, também existem vários métodos para obscurecer tal uso.
Opinião A atual revolução em IA gerativa, que está se desenrolando rapidamente, está ocorrendo no ambiente legal mais precário que acompanhou qualquer desenvolvimento tecnológico transformador desde o século XIX.
Até 3-4 anos atrás, a comunidade de pesquisa em aprendizado de máquina desfrutava de uma licença tácita (freqüentemente explícita) para explorar material protegido por propriedade intelectual no curso do desenvolvimento de novos sistemas; desde que esses sistemas não eram ainda bem-sucedidos, em termos de serem maduros ou comercialmente viáveis, os resultados eram, em todos os sentidos, acadêmicos.
Nesse período, o sucesso súbito de uma nova geração de modelos de linguagem grandes baseados em difusão (LLMs, como ChatGPT e Claude) e modelos de visão-linguagem (VLMs, como Sora) sinalizou que essas linhas abstratas e, até então, ‘inofensivas’ de pesquisa haviam se desenvolvido em viabilidade comercial e ultrapassado seu ‘passe livre’, no que diz respeito à exploração da propriedade intelectual de outras pessoas.
A partir de agora, os titulares de direitos buscarão uma participação nos frutos dos sistemas de IA treinados em grande parte ou em parte com seus dados protegidos por direitos autorais ou de outra forma, levando a uma avalanche contínua de casos legais que requer algum esforço para apenas manter o controle.

Aqui limitado apenas a casos apresentados nos EUA, novos casos surgem a um ritmo frenético nos Estados Unidos e além. Fonte
Exigindo um ‘Almoço Grátis’
O compromisso financeiro atualmente ocorrendo em relação à infraestrutura de IA tem sido apontado por algumas vozes como um esforço para entranhar ‘IA perigosa em termos de direitos autorais’ tão profundamente na economia da sociedade que ela se torne não apenas ‘muito grande para falhar’, mas também ‘muito poderosa para ser processada’ – ou pelo menos tão poderosa que processos bem-sucedidos não pudessem ser permitidos para desestabilizar a revolução.
Nesse sentido geral, o atual presidente dos Estados Unidos está transformando em política sua visão de que ‘Você não pode ser esperado para ter um programa de IA bem-sucedido quando cada artigo, livro ou qualquer outra coisa que você leu ou estudou, você é suposto pagar por’.
Realmente? Nada remotamente semelhante ou comparável ocorreu na era industrial ocidental, e isso representa um movimento que se choca severamente contra a cultura tradicional dos EUA de litígio e reparação; talvez as posições mais semelhantes sejam a expiração obrigatória de patentes medicinais após 20 anos (em si frequentemente atacada), e a limitação das expectativas de privacidade em locais públicos.
No entanto, os tempos mudam; na ausência de qualquer garantia de que a tendência atual para ‘domínio eminente’ contra proteções de PI não falhará, ou seja, será revertida mais tarde, existem várias abordagens secundárias que estão se tornando prática padrão no desenvolvimento de sistemas de IA e no tratamento dos dados de treinamento muito contestados que os impulsionam.
Conjuntos de Dados por Procuração
Uma dessas abordagens adota uma abordagem surpreendentemente semelhante à defesa (nem sempre bem-sucedida) de sites de listagem de torrents, que alegam que não hospedam nenhum material contestado – ou qualquer material.
Além de evitar a necessidade de armazenar e servir grandes quantidades de dados de imagem ou vídeo minimamente compressíveis, coleções desse tipo permitem atualizações rápidas – como a remoção de material a pedido dos titulares de direitos autorais – e versionamento.
Assim como os torrents são apenas sinais de onde o material protegido por direitos autorais pode ser encontrado, vários conjuntos de dados muito influentes são, em si, apenas listas de estilo ‘ponteiro’ de dados existentes; se o usuário final deseja usar essas listas como uma lista de download para seu próprio conjunto de dados, isso é problema dele, no que diz respeito à responsabilidade dos curadores.
Entre esses, está o conjunto de dados Conceptual 12M da Google Research, que fornece legendas para imagens, mas apenas aponta para locais na web onde essas imagens existem (ou existiam no momento da curação):

Dois exemplos da curação do Conceptual 12M da Google Research. Fonte
Outro exemplo proeminente, e que agora tem uma reivindicação válida à reverência na história da IA, é o conjunto de dados LAION que facilitou o advento do sistema gerativo Stable Diffusion em 2022 – o primeiro sistema desse tipo a oferecer imagens gerativas de código aberto poderosas para os usuários finais, justo quando os sistemas proprietários pareciam estabelecer esses serviços como um domínio comercial puramente cercado:

Uma das muitas variantes do projeto LAION, apresentando obras de arte modernas e protegidas por direitos autorais. Fonte
Em muitos casos, os tamanhos de arquivo grandes dessas coleções de ‘ponteiro’ indicam a inclusão de conteúdo de imagem em um arquivo baixável e hospedado; no entanto, os tamanhos de download não triviais são freqüentemente devido ao grande volume de conteúdo de texto e, às vezes, à inclusão de embeddings extraídos ou recursos – resumos ou nós de conteúdo aplicável extraído dos dados de origem durante o processo de treinamento.
O Prêmio de Vídeo
Os conjuntos de dados de vídeo apresentam um caso ainda mais forte para a abordagem de ‘conjunto de dados por procuração’ ou ponteiro, desde que o volume de armazenamento de dados necessário para agregar um número significativo e útil de vídeos em uma coleção baixável é proibitivo, e um método ‘distribuído’ é desejável.
No entanto, em ambos os casos – mas particularmente com vídeo – as URLs de download de origem representam dados que precisarão de atenção significativa adicional antes de serem usados em processos de treinamento. Tanto imagens quanto vídeos precisarão ser redimensionados, ou decisões de corte feitas, para criar amostras que se encaixem no espaço de GPU disponível. Mesmo vídeos muito reduzidos também requererão corte para comprimentos muito curtos, como 3-5 segundos, tipicamente.
Conjuntos de dados de vídeo notáveis que usam referências a vídeos online (em vez da curação e embalagem direta de vídeo) incluem o conjunto de dados Kinetics Human Action Video Dataset da Google e a coleção YouTube-8M da gigante de busca, que usa anotação de segmento para indicar como tratar cada vídeo uma vez baixado – mas que, mais uma vez, deixa o usuário final para obter os vídeos a partir das URLs fornecidas.
Fechado e Aberto
Finalmente, nessa categoria, os dados de efeitos visuais ‘abertos’ podem ser gerados com plataformas fechadas que subsequentemente publicam e tornam disponível o conjunto de dados resultante. É razoável se perguntar por que isso acontece e considerar se pode ser porque a empresa originadora deseja sanitizar um modelo de montante não amigável em termos de PI, para seu próprio uso; ou que um conjunto ‘lavado’ foi solicitado de fora.
Um caso desses de ‘lavagem geracional’ é, argumentativamente, o conjunto de dados Omni-VFX, que incorpora muitos pontos de dados do conjunto de dados Open-VFX (que, por sua vez, referencia muitas plataformas fechadas e semi-fechadas, como Pika e PixVerse).
Para ser honesto, Omni-VFX nem mesmo está tentando muito:

No conjunto de dados de código aberto Omni-VFX, um rosto familiar. Fonte
Responsabilidade Ancestral
A segunda abordagem principal para a lavagem de PI é por meio do uso de material protegido por direitos autorais em um ou muitos removes. Um dos métodos nessa categoria é o uso de dados sintéticos que foram treinados, em algum ponto a montante, em dados protegidos por direitos autorais. Nesses casos, mais particularmente onde os dados sintéticos são capazes de obter resultados autênticos, o trabalho protegido por direitos autorais fornece transformações que não poderiam ser razoavelmente adivinhadas ou aproximadas por modelos gerais do mundo ou modelos não especializados.
Isso é enfaticamente o caso onde os sistemas de vídeo gerativos são necessários para gerar ‘eventos impossíveis’ e eventos que cairiam geralmente na categoria de ‘efeitos visuais’ (VFX).
De fato, o que trouxe esse tópico à mente foi o mais recente de uma série de artigos de pesquisa que oferecem a capacidade de ‘abstrair’ diversos tipos de efeitos visuais, como produzir raios laser de partes improváveis do corpo, seja por ter sido treinado em cliques de VFX personalizados ou ‘de código aberto’ (em vez da fonte mais óbvia, como os caros cliques de VFX encontrados na saída do universo cinematográfico da Marvel):
Exemplos do site EffectMaker, onde a ‘ação’ no clipe de origem (longe à esquerda) é aplicada a uma imagem de origem (centro). Fonte
Os exemplos acima vêm da página do projeto para o projeto EffectMaker. EffectMaker não é mesmo a primeira oferta desse ano que busca extrair dinâmicas de VFX de um clipe de vídeo e transpô-las para um clipe novo, e de fato isso está se tornando uma tarefa discreta na pesquisa de VFX de IA*.
Ciente de que gigantes da mídia, como a Marvel, têm uma chance maior do que a média de ganhar casos legais sobre PI (mesmo no clima mencionado de ‘tolerância forçada’), empresas de efeitos visuais e startups estão atualmente indo a grandes comprimentos para garantir que seus quadros de VFX gerativos estejam livres da PI corporativa de outras empresas.
Antes de tudo, está a Meta, que foi relatada no subreddit r/vfx para ter feito uma contratação bem remunerada no inverno para 2026, oferecendo aos artistas de VFX trabalho treinando modelos de IA para produzir efeitos visuais de nível de Hollywood. Embora o pagamento não tenha sido especificado em várias postagens, uma descreveu como ‘dinheiro de aposentadoria’.
Siga o Dinheiro
No entanto, é necessário se perguntar quanto dinheiro mesmo os likes da Meta estão dispostos a pagar por uma diversidade e abundância verdadeiras de cliques de VFX ad hoc, considerando que o custo médio de um único clique de VFX para um filme de blockbuster é de cerca de $42.000 USD – e muitos vêm em muito mais.
Além disso, é razoável supor que modelos de IA geradores de VFX personalizados accederão à demanda popular, incluindo vários efeitos padrão de tropos de categorias de filmes mais populares e caras.
Além da perspectiva de que profissionais de VFX ‘remanescentes’ possam acabar recriando cliques que trabalharam em um catálogo de filmes existente† – o que, por si só, contextualiza o trabalho de conjunto de dados personalizado como imitativo – não há garantia de que essas novas amostras caras acabem sendo treinadas ‘a partir do zero’ em uma nova arquitetura.
De fato, se essas recriações forem desviadas para módulos auxiliares como LoRAs, que dependem de um modelo base, então o processo é apenas tão defensável quanto o modelo base é ‘limpo em termos de PI’ – e não muitos são.
Da mesma forma, se o ‘novo’ processo usa outras técnicas ‘híbridas’ como ajuste fino, onde o valor do efeito visual depende de modelos, priors ou embeddings de coleções ou modelos mais antigos de integridade não comprovada, a originalidade do trabalho é, argumentativamente, cosmética e sujeita a desafio.
Missões Impossíveis
O domínio da saída de VFX é um caso de estudo particularmente interessante em relação à lavagem potencial de PI em conjuntos de dados de IA, desde que os cliques de efeitos visuais frequentemente retratam coisas ‘impossíveis’ para as quais nenhuma alternativa de código aberto estará disponível.
Por exemplo, enquanto a demolição de um prédio poderia ser treinada em um modelo gerativo a partir de vários clipes de estoque de domínio público ou de outra forma acessíveis, se você quiser treinar um modelo para produzir raios laser humanos, você precisará treinar em cliques de VFX, roubados ou encomendados; coisas como essas não acontecem em nenhum outro lugar.
Mesmo no caso de outros tipos de desastres naturais, como inundações dramáticas, o material de origem disponível é improvável de ser capaz de reproduzir pontos de vista dramáticos sobre eventos calamitosos, porque (com algumas exceções) as pessoas não costumam transmitir ao vivo de locais catastróficos. Portanto, ‘visões legais’ sobre desastres são raras em conjuntos de dados do mundo real, e qualquer modelo de IA que possa gerá-las provavelmente obteve as informações em outro lugar.
A maioria dos fluxos de tarefas de IA desejáveis não tem esse nível de especificidade, e nesses casos a obscuridade dos benefícios dos dados protegidos por direitos autorais pode não exigir quase tanto esforço.
Conclusão: Teia Entrelaçada
Apenas aqueles que usaram IA gerativa extensivamente e por um período prolongado entenderão instintivamente que esses sistemas lutam para combinar múltiplos conceitos quando não existem exemplos comparáveis em seus dados de treinamento.
Essa limitação é conhecida como entrelaçamento, no qual os vários aspectos dos conceitos treinados tendem a se agrupar com elementos relacionados, em vez de se decompor em blocos de construção úteis e fáceis de usar que possam ser arranjados em qualquer nova configuração que o usuário possa desejar.
O entrelaçamento é um poço de gravidade arquitetônica que é quase impossível de escapar, pelo menos para as abordagens baseadas em difusão que caracterizam todos os principais frameworks de IA atuais. No entanto, pode ser que novas abordagens surjam nos próximos anos que sejam melhores em discretizar conceitos treinados para que possam ser colados mais habilmente e oferecer menos indicações sobre sua proveniência.
* Não faço acusações contra o EffectMaker, mas comento aqui sobre a generalidade de uma prática emergente na pesquisa de vídeo de IA.
† Porque esses cliques, nesses tipos de filmes, geraram e continuam a gerar dinheiro.
Publicado pela primeira vez na segunda-feira, 16 de março de 2026










