Inteligência artificial

Extração de Dados de Treinamento de Modelos de Difusão Estável Ajustados

Published October 7, 2024

Updated April 3, 2026

Martin Anderson

Examples of training images (below), extracted from a trained model (above). Source: https://arxiv.org/pdf/2410.03039

Nova pesquisa nos EUA apresenta um método para extrair porções significativas de dados de treinamento de modelos ajustados. Isso pode potencialmente fornecer evidências legais em casos onde o estilo de um artista foi copiado ou onde imagens protegidas por direitos autorais foram usadas para treinar modelos gerativos de figuras públicas, personagens protegidas por propriedade intelectual ou outros conteúdos.

A partir do novo artigo: as imagens de treinamento originais são vistas na linha acima, e as imagens extraídas são representadas na linha abaixo. Fonte: https://arxiv.org/pdf/2410.03039

Tais modelos estão amplamente e gratuitamente disponíveis na internet, principalmente por meio dos enormes arquivos contribuídos por usuários da civit.ai, e, em menor medida, na plataforma de repositório Hugging Face. O novo modelo desenvolvido pelos pesquisadores é chamado de FineXtract, e os autores afirmam que ele alcança resultados de ponta nessa tarefa. O artigo observa:

‘[Nossa estrutura] aborda efetivamente o desafio de extrair dados de ajuste de modelos DM finos disponíveis publicamente. Ao aproveitar a transição das distribuições DM pré-treinadas para distribuições de dados de ajuste, FineXtract orienta com precisão o processo de geração em direção a regiões de alta probabilidade da distribuição de dados ajustados, permitindo a extração bem-sucedida de dados.’

À extrema direita, a imagem original usada no treinamento. Segunda da direita, a imagem extraída via FineXtract. As outras colunas representam métodos anteriores. Por favor, consulte o artigo-fonte para melhor resolução.

Por Que Isso Importa

Os modelos originais treinados para sistemas gerativos de texto-para-imagem, como Stable Diffusion e Flux, podem ser baixados e ajustados por usuários finais, usando técnicas como a implementação DreamBooth de 2022.

Um exemplo de um LORA treinado, oferecido para download gratuito no site Civitai. Tal modelo pode ser criado em qualquer coisa, desde minutos até algumas horas, por entusiastas usando software de código aberto instalado localmente – e online, por meio de alguns sistemas de treinamento mais permissivos baseados em API. Fonte: civitai.com

Um exemplo de um LORA treinado, oferecido para download gratuito no domínio Civitai. Tal modelo pode ser criado em qualquer coisa, desde minutos até algumas horas, por entusiastas usando software de código aberto instalado localmente – e online, por meio de alguns sistemas de treinamento mais permissivos baseados em API. Fonte: civitai.com

Desde 2022, é trivial criar checkpoints e LoRAs específicos de identidade, fornecendo apenas um pequeno número (em média 5-50) de imagens legendadas e treinando o checkpoint (ou LoRA) localmente, em uma estrutura de código aberto como Kohya ss, ou usando serviços online.

A facilidade com que os usuários podem criar sistemas de IA que replicam o trabalho de artistas reais causou furor e diversas campanhas nos últimos dois anos. Fonte: https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/

É difícil provar quais imagens foram usadas em um checkpoint ajustado ou em um LoRA, desde que o processo de generalização ‘abstrai’ a identidade dos conjuntos de dados de treinamento, e não é provável que reproduza exemplos dos dados de treinamento (exceto no caso de overfitting, onde se pode considerar que o treinamento falhou).

As palavras-chave essenciais geralmente podem ser extraídas cegamente do modelo ajustado usando um ataque L2-PGD durante 1000 iterações, a partir de uma prompt aleatória.

Os usuários frequentemente evitam tornar seus conjuntos de dados de treinamento disponíveis ao lado do modelo treinado ‘estilo caixa-preta’. Para a pesquisa, os autores colaboraram com entusiastas de aprendizado de máquina que realmente forneceram conjuntos de dados.

Por meio da ‘orientação do modelo’, desenvolvida pelos pesquisadores do novo artigo, as características de ajuste podem ser mapeadas, permitindo a extração dos dados de treinamento.

Os autores explicam:

‘Durante o processo de ajuste, os [modelos de difusão] progressivamente mudam sua distribuição aprendida da distribuição dos DMs pré-treinados para a distribuição dos dados ajustados.

‘Assim, aproximamos parametricamente a distribuição aprendida dos [modelos de difusão] ajustados.’

Dessa forma, a soma da diferença entre os modelos central e ajustado fornece o processo de orientação.

Resultados para comparações de FineXtract contra os dois métodos mais populares anteriores.

Os autores comentam:

‘Os [resultados] demonstram uma vantagem significativa de FineXtract sobre métodos anteriores, com uma melhoria de aproximadamente 0,02 a 0,05 em AS e um dobro da A-ESR na maioria dos casos.’

FineXtract aplicado em uma variedade de modelos de difusão. Para o componente WikiArt, o teste se concentrou em quatro classes no WikiArt.

Uma comparação qualitativa dos resultados extraídos de FineXtract e abordagens anteriores. Por favor, consulte o artigo-fonte para melhor resolução.

Os autores observam que, quando um número maior de imagens é usado no conjunto de dados para um modelo ajustado, o algoritmo de clusterização precisa ser executado por um período de tempo mais longo para permanecer eficaz.

FineXtract’s desempenho contra imagens protegidas por Cutout e RandAugment.

Imagens produzidas sob Stable Diffusion V1.4, ajustadas com medidas defensivas – que drasticamente reduzem a qualidade da imagem. Por favor, consulte o artigo-fonte para melhor resolução.

O artigo conclui:

‘Nossos experimentos demonstram a robustez do método em vários conjuntos de dados e checkpoints do mundo real, destacando os riscos potenciais de vazamento de dados e fornecendo fortes evidências de violações de direitos autorais.’

Conclusão

2024 provou ser o ano em que o interesse das corporações em ‘dados de treinamento limpos’ aumentou significativamente, diante da cobertura midiática contínua da propensão da IA para substituir humanos e da perspectiva de proteger legalmente os modelos gerativos que elas próprias estão tão ansiosas para explorar. É fácil afirmar que seus dados de treinamento são limpos, mas está se tornando mais fácil para tecnologias semelhantes provar que não são – como Unite.AI, Runway ML, Stability.ai e MidJourney (entre outros) descobriram recentemente. Projetos como FineXtract são, por sua vez, indícios do fim absoluto da era ‘faroeste selvagem’ da IA, onde até a natureza aparentemente oculta de um espaço latente treinado poderia ser responsabilizada. * Para fins de conveniência, assumiremos ‘ajuste e LoRA’, onde necessário. Publicado pela primeira vez na segunda-feira, 7 de outubro de 2024