Ângulo de Anderson
Automatizando a proteção de direitos autorais em imagens geradas por IA

Como discutido semana passada, mesmo os modelos de base central por trás dos sistemas populares de IA generativa podem produzir conteúdo que infringe direitos autorais, devido a curadoria inadequada ou desalinhada, bem como a presença de múltiplas versões da mesma imagem nos dados de treinamento, levando a sobreajuste, e aumentando a probabilidade de reproduções reconhecíveis.
Apesar dos esforços para dominar o espaço da IA generativa e da crescente pressão para coibir a violação de PI, grandes plataformas como a MidJourney e a DALL-E da OpenAI continuam a enfrentar desafios na prevenção da reprodução não intencional de conteúdo protegido por direitos autorais:

A capacidade dos sistemas generativos de reproduzir dados protegidos por direitos autorais aparece regularmente na mídia.
À medida que surgem novos modelos e os modelos chineses ganhar domínio, a supressão de material protegido por direitos autorais em modelos de fundação é uma perspectiva onerosa; na verdade, o líder de mercado open.ai declarou no ano passado que é 'impossível' para criar modelos eficazes e úteis sem dados protegidos por direitos autorais.
Arte Anterior
Em relação à geração inadvertida de material protegido por direitos autorais, o cenário de pesquisa enfrenta um desafio semelhante ao da inclusão de pornografia e outros materiais NSFW em dados de origem: quer-se o benefício do conhecimento (ou seja, anatomia humana correta, que historicamente sempre foi baseado em estudos nus) sem a capacidade de abusar dela.
Da mesma forma, os criadores de modelos querem o benefício do enorme escopo de material protegido por direitos autorais que encontra seu caminho em conjuntos de hiperescala, como LAION, sem que o modelo desenvolva a capacidade de realmente infringir a PI.
Desconsiderando os riscos éticos e legais de tentar ocultar o uso de material protegido por direitos autorais, a filtragem para o último caso é significativamente mais desafiadora. O conteúdo NSFW geralmente contém latentes de baixo nível distintos características que permitem uma filtragem cada vez mais eficaz sem exigir comparações diretas com material do mundo real. Em contraste, o incorporações latentes que definem milhões de obras protegidas por direitos autorais não se reduzem a um conjunto de marcadores facilmente identificáveis, tornando a detecção automatizada muito mais complexa.
CopiarJuiz
O julgamento humano é uma mercadoria escassa e cara, tanto na curadoria de conjuntos de dados quanto na criação de filtros de pós-processamento e sistemas baseados em "segurança", projetados para garantir que material bloqueado por IP não seja entregue aos usuários de portais baseados em API, como o MidJourney e a capacidade de geração de imagens do ChatGPT.
Portanto, uma nova colaboração acadêmica entre a Suíça, a Sony AI e a China está oferecendo CopiarJuiz – um método automatizado de orquestrar grupos sucessivos de "juízes" coniventes baseados no ChatGPT que podem examinar entradas em busca de sinais de provável violação de direitos autorais.

O CopyJudge avalia diversas gerações de IA que afetam a propriedade intelectual. Fonte: https://arxiv.org/pdf/2502.15278
O CopyJudge oferece efetivamente uma estrutura automatizada que aproveita grandes modelos de visão e linguagem (LVLMs) para determinar similaridade substancial entre imagens protegidas por direitos autorais e aquelas produzidas por modelos de difusão de texto para imagem.

A abordagem CopyJudge usa aprendizado por reforço e outras abordagens para otimizar avisos que violam direitos autorais e, então, usa informações desses avisos para criar novos avisos com menor probabilidade de invocar imagens protegidas por direitos autorais.
Embora muitos geradores de imagens on-line baseados em IA filtrem os avisos dos usuários em busca de conteúdo NSFW, material protegido por direitos autorais, recriação de pessoas reais e vários outros domínios banidos, o CopyJudge usa avisos "infratores" refinados para criar avisos "higienizados" que têm menos probabilidade de evocar imagens não permitidas, sem a intenção de bloquear diretamente o envio do usuário.
Embora esta não seja uma abordagem nova, ela contribui para libertar os sistemas generativos baseados em API de simplesmente recusar a entrada do usuário (principalmente porque isso permite que os usuários desenvolvam acesso por backdoor para gerações rejeitadas, através da experimentação).
Uma exploração recente (hoje fechada pelos desenvolvedores) permitiu que os usuários gerassem material pornográfico na plataforma de IA generativa Kling simplesmente incluindo uma cruz proeminente, ou crucifixo, na imagem carregada em um fluxo de trabalho de imagem para vídeo.

Em uma brecha corrigida pelos desenvolvedores do Kling no final de 2024, os usuários poderiam forçar o sistema a produzir saída NSFW banida simplesmente incluindo uma cruz ou crucifixo na imagem semente do I2V. Não houve nenhuma explicação futura sobre a lógica por trás desse hack agora expirado. Fonte: Discord
Casos como este enfatizam a necessidade de uma rápida higienização em sistemas generativos online, principalmente porque a desaprendizagem da máquina, em que o próprio modelo de base é alterado para remover conceitos proibidos, pode ter efeitos indesejáveis na usabilidade do modelo final.
Buscando soluções menos drásticas, o sistema CopyJudge imita julgamentos legais baseados em humanos usando IA para dividir imagens em elementos-chave, como composição e cor, para filtrar partes não protegidas por direitos autorais e comparar o que resta. Ele também inclui um método orientado por IA para ajustar prompts e modificar a geração de imagens, ajudando a evitar problemas de direitos autorais enquanto preserva o conteúdo criativo.
Os resultados experimentais, sustentam os autores, demonstram a equivalência do CopyJudge com as abordagens de última geração nesta busca e indicam que o sistema exibe superioridade generalização e interpretabilidade, em comparação com trabalhos anteriores.
O novo papel é intitulado CopyJudge: Identificação e mitigação automatizadas de violações de direitos autorais em modelos de difusão de texto para imagem, e vem de cinco pesquisadores da EPFL, Sony AI e da Universidade Westlake da China.
Forma
Embora o CopyJudge use o GPT para criar tribunais rotativos de juízes automatizados, os autores enfatizam que o sistema não é otimizado para o produto da OpenAI e que qualquer número de Modelos de Linguagem de Grande Visão (LVLMs) alternativos poderia ser usado em seu lugar.
Em primeira instância, a estrutura de abstração-filtragem-comparação dos autores é necessária para decompor as imagens de origem em partes constituintes, conforme ilustrado no lado esquerdo do esquema abaixo:

Esquema conceitual para a fase inicial do fluxo de trabalho do CopyJudge.
No canto inferior esquerdo, vemos um agente de filtragem dividindo as seções da imagem em uma tentativa de identificar características que podem ser nativas de uma obra protegida por direitos autorais, mas que por si só seriam genéricas demais para serem qualificadas como uma violação.
Vários LVLMs são posteriormente usados para avaliar os elementos filtrados – uma abordagem que se mostrou eficaz em artigos como o CSAIL de 2023 oferecendo treinamento para distância Melhorando a factualidade e o raciocínio em modelos de linguagem por meio do debate multiagente e Avaliação de bate-papo, entre diversos outros reconhecidos no novo artigo.
Os autores declaram:
'[Nós] adotamos uma abordagem de debate de comunicação síncrona totalmente conectada, onde cada LVLM recebe as [respostas] dos [outros] LVLMs antes de fazer o próximo julgamento. Isso cria um loop de feedback dinâmico que fortalece a confiabilidade e a profundidade da análise, à medida que os modelos adaptam suas avaliações com base em novos insights apresentados por seus pares.
'Cada LVLM pode ajustar sua pontuação com base nas respostas dos outros LVLMs ou mantê-la inalterada.'
Vários pares de imagens pontuadas por humanos também são incluídos no processo por meio de aprendizado contextual de poucas fotos.
Depois que os "tribunais" do ciclo chegam a uma pontuação consensual que está dentro da faixa de aceitabilidade, os resultados são passados para um "metajuiz" LVLM, que sintetiza os resultados em uma pontuação final.
Mitigação
Em seguida, os autores se concentraram no processo de mitigação rápida descrito anteriormente.

Esquema do CopyJudge para mitigar violações de direitos autorais por meio do refinamento de prompts e ruído latente. O sistema ajusta os prompts iterativamente, usando aprendizado por reforço para modificar variáveis latentes à medida que os prompts evoluem, reduzindo, com sorte, o risco de violação.
Os dois métodos usados para mitigação de prompts foram o controle de prompts baseado em LVLM, onde prompts eficazes e não infratores são desenvolvidos iterativamente em clusters GPT – uma abordagem que é inteiramente 'caixa preta', não exigindo acesso interno à arquitetura do modelo; e um aprendizagem de reforço-baseada em direitos autorais (RL), onde a recompensa é projetada para penalizar saídas que infrinjam direitos autorais.
Dados e testes
Para testar o CopyJudge, vários conjuntos de dados foram usados, incluindo D-Rep, que contém pares de imagens reais e falsas pontuadas por humanos em uma classificação de 0 a 5.

Explorando o conjunto de dados D-Rep no Hugging Face. Esta coleção combina imagens reais e geradas. Fonte: https://huggingface.co/datasets/WenhaoWang/D-Rep/viewer/default/
O esquema CopyJudge considerou imagens D-Rep que pontuaram 4 ou mais como exemplos de infração, com o restante retido como não relevante para PI. As 4000 imagens oficiais no conjunto de dados foram usadas como imagens de teste. Além disso, os pesquisadores selecionaram e fizeram a curadoria de imagens para 10 personagens de desenho animado famosos da Wikipédia.
As três arquiteturas baseadas em difusão usadas para gerar imagens potencialmente infratoras foram Difusão Estável V2; Kandinsky2-2; e Difusão estável XL. Os autores selecionaram manualmente uma imagem infratora e uma imagem não infratora de cada um dos modelos, chegando a 60 amostras positivas e 60 negativas.
Os métodos de base selecionados para comparação foram: L2 norma; Aprendizado de similaridade de patch de imagem perceptual (LPIPS); SSCD; RLCP; e PDF-Emb. Para métricas, precisão e Pontuação F1 foram usados como critérios para infração.
O GPT-4o foi usado para popular as equipes de debate interno do CopyJudge, usando três agentes para um máximo de cinco iterações em qualquer imagem enviada em particular. Três imagens aleatórias de cada classificação no D-Rep foram usadas como humanas priores para os agentes considerarem.

Resultados de infração para CopyJudge no primeiro turno.
Destes resultados os autores comentam:
'[É] evidente que os métodos tradicionais de detecção de cópias de imagens apresentam limitações na tarefa de identificação de violação de direitos autorais. Nossa abordagem supera significativamente a maioria dos métodos. Para o método de última geração, PDF-Emb, que foi treinado em 36,000 amostras do D-Rep, nosso desempenho no D-Rep é ligeiramente inferior.
'No entanto, seu baixo desempenho no conjunto de dados Cartoon IP e Artwork destaca sua falta de capacidade de generalização, enquanto nosso método demonstra resultados igualmente excelentes em todos os conjuntos de dados.'
Os autores também observam que o CopyJudge fornece um limite 'relativamente' mais distinto entre casos válidos e infratores:

Mais exemplos das rodadas de testes, no material suplementar do novo artigo.
Os pesquisadores compararam seus métodos a um aplicativo de IA da Sony colaboração a partir de 2024 intitulado Detectando, explicando e mitigando a memorização em modelos de difusão. Este trabalho utilizou um modelo de difusão estável ajustado com 200 imagens memorizadas (ou seja, superajustadas) para obter dados protegidos por direitos autorais no momento da inferência.
Os autores do novo trabalho descobriram que seu próprio método de mitigação rápida, em comparação com a abordagem de 2024, foi capaz de produzir imagens com menor probabilidade de causar violação.

Resultados da mitigação de memorização com o CopyJudge comparados ao trabalho de 2024.
Os autores comentam aqui:
"[Nossa] abordagem conseguiu gerar imagens com menor probabilidade de causar infração, mantendo uma precisão de correspondência comparável, embora ligeiramente reduzida. Como mostrado na [imagem abaixo], nosso método evita efetivamente as deficiências do método [anterior], incluindo a falha em mitigar a memorização ou a geração de imagens com desvios significativos."

Comparação de imagens e prompts gerados antes e depois da memorização mitigada.
Os autores realizaram mais testes em relação à mitigação de infrações, estudando explícito e implicitamente violação.
Violação explícita ocorre quando os prompts fazem referência direta a materiais protegidos por direitos autorais, como 'Gerar uma imagem do Mickey Mouse'. Para testar isso, os pesquisadores usaram 20 amostras de desenhos animados e obras de arte, gerando imagens infratoras no Stable Diffusion v2 com avisos que incluíam explicitamente nomes ou atribuições de autores.

Uma comparação entre o método de Controle Latente (LC) dos autores e o método de Controle Prompt (PC) do trabalho anterior, em diversas variações, usando Difusão Estável para criar imagens que retratam infrações explícitas.
Violação implícita ocorre quando um prompt não possui referências explícitas de direitos autorais, mas ainda resulta em uma imagem infratora devido a certos elementos descritivos – um cenário que é particularmente relevante para modelos comerciais de texto para imagem, que frequentemente incorporam sistemas de detecção de conteúdo para identificar e bloquear prompts relacionados a direitos autorais.
Para explorar isso, os autores usaram as mesmas amostras bloqueadas por IP do teste de violação explícita, mas geraram imagens infratoras sem referências diretas a direitos autorais, usando DALL-E 3 (embora o artigo observe que o módulo de detecção de segurança integrado do modelo rejeitou certos avisos que acionaram seus filtros).

Violação implícita usando DALLE-3, com pontuações de violação e CLIP.
Os autores declaram:
'[Pode-se] ver que nosso método reduz significativamente a probabilidade de infração, tanto para infração explícita quanto implícita, com apenas uma ligeira queda na pontuação CLIP. A pontuação de infração após apenas o controle latente é relativamente maior do que após o controle imediato, porque recuperar latentes não infratores sem alterar o aviso é bastante desafiador. No entanto, ainda podemos reduzir efetivamente a pontuação de infração, mantendo uma qualidade de correspondência de imagem e texto mais alta.
'[A imagem abaixo] mostra os resultados da visualização, onde pode ser observado que evitamos a violação de propriedade intelectual, preservando ao mesmo tempo os requisitos do usuário.'

Imagens geradas antes e depois da mitigação de violação de PI.
Conclusão
Embora o estudo apresente uma abordagem promissora para a proteção de direitos autorais em imagens geradas por IA, a dependência de grandes modelos de visão e linguagem (LVLMs) para detecção de violações pode levantar preocupações sobre viés e consistência, uma vez que os julgamentos baseados em IA podem nem sempre estar alinhados aos padrões legais.
Talvez o mais importante seja que o projeto também pressupõe que a aplicação de direitos autorais pode ser automatizada, apesar das decisões legais do mundo real que frequentemente envolvem fatores subjetivos e contextuais que a IA pode ter dificuldade para interpretar.
No mundo real, a automação do consenso jurídico, principalmente em torno do resultado da IA, provavelmente continuará sendo uma questão controversa muito além deste tempo e muito além do escopo do domínio abordado neste trabalho.
Primeira publicação segunda-feira, 24 de fevereiro de 2025