Inteligência artificial
Como saber quando os sistemas de sÃntese de imagens estão produzindo material genuinamente 'original'

Um novo estudo da Coréia do Sul propôs um método para determinar se os sistemas de sÃntese de imagem estão produzindo imagens genuinamente novas ou variantes 'menores' nos dados de treinamento, potencialmente derrotando o objetivo de tais arquiteturas (como a produção de imagens novas e originais). .
Muitas vezes, sugere o artigo, o último é verdadeiro, porque as métricas existentes que esses sistemas usam para melhorar suas capacidades generativas ao longo do treinamento são forçadas a favorecer imagens relativamente próximas das imagens de origem (não falsas) no conjunto de dados .
Afinal, se uma imagem gerada é 'visualmente próxima' dos dados de origem, é provável que ela tenha uma pontuação melhor em 'autenticidade' do que em 'originalidade', já que é 'fiel' – se não for inspirada.
Em um setor muito incipiente e inexperiente para que suas ramificações legais sejam conhecidas, isso pode tornar-se uma importante questão legal, se ficar claro que o conteúdo da imagem sintética comercializada não difere o suficiente do material de origem (geralmente) protegido por direitos autorais que é atualmente permissão para perfundir o setor de pesquisa na forma de conjuntos de dados populares extraÃdos da web (o potencial para futuras reivindicações de violação desse tipo foi ganhou destaque recentemente em relação ao GitHub Co-Pilot AI da Microsoft).
Em termos da saÃda cada vez mais coerente e semanticamente robusta de sistemas como o OpenAI DALL-E2, Do Google Imagem, e da China CogViewGenericName lançamentos (assim como os de menor especificação DALL-E mini), Há muito poucos postar fato maneiras de testar com segurança a originalidade de uma imagem gerada.
De fato, a busca por algumas das novas imagens DALL-E 2 mais populares geralmente leva apenas a outras instâncias dessas mesmas imagens, dependendo do mecanismo de pesquisa.

Carregar um grupo de saÃda DALL-E 9 completo de 2 imagens leva apenas a mais grupos de saÃda DALL-E 2, porque a estrutura de grade é o recurso mais forte. Separando e carregando a primeira imagem (de esta postagem do Twitter de 8 de junho de 2022, da conta 'Weird Dall-E Generations') faz com que o Google se fixe na bola de basquete da foto, levando a pesquisa baseada em imagem a um beco semântico semântico. Para a mesma pesquisa baseada em imagem, o Yandex parece pelo menos estar fazendo alguma desconstrução real baseada em pixels e correspondência de recursos.
Embora o Yandex seja mais provável do que a Pesquisa do Google para usar o real caracterÃsticas (ou seja, uma imagem derivada/calculada caracterÃsticas, não necessariamente caracterÃsticas faciais das pessoas) e visual (em vez de semânticas) caracterÃsticas de uma imagem enviada para encontrar imagens semelhantes, todos os mecanismos de pesquisa baseados em imagens têm algum tipo de agenda ou prática que podem dificultar a identificação de casos de fonte>gerada plágio por meio de pesquisas na web.
Além disso, os dados de treinamento para um modelo generativo podem não estar disponÃveis publicamente em sua totalidade, dificultando ainda mais o exame forense da originalidade das imagens geradas.
Curiosamente, realizar uma pesquisa na web baseada em imagens em uma das imagens sintéticas apresentadas pelo Google em seu site de imagem dedicado não encontra absolutamente nada comparável ao assunto da imagem, em termos de realmente olhar para a imagem e procurar imparcialmente imagens semelhantes. Em vez disso, fixados semanticamente como sempre, os resultados da pesquisa de imagens do Google para esta imagem Imagen não permitirão uma pesquisa na web baseada em imagem pura da imagem sem adicionar os termos de pesquisa 'imagen google' como um parâmetro adicional (e limitante):
Yandex, por outro lado, encontra uma infinidade de imagens do mundo real semelhantes (ou pelo menos visualmente relacionadas) da comunidade artÃstica amadora:
Em geral, seria melhor se a novidade ou originalidade da saÃda dos sistemas de sÃntese de imagens pudesse ser medida de alguma forma, sem a necessidade de extrair recursos de todas as imagens possÃveis da Internet no momento em que o modelo foi treinado, ou em conjuntos de dados não públicos que podem estar usando material protegido por direitos autorais.
Relacionado a esta questão, pesquisadores da Kim Jaechul Graduate School of AI no Korea Advanced Institute of Science and Technology (KAIST AI) colaboraram com a empresa global de TIC e pesquisa NAVER Corp para desenvolver um Pontuação de Raridade que podem ajudar a identificar as criações mais originais dos sistemas de sÃntese de imagens.

As imagens aqui são geradas via StyleGAN-FFHQ. Da esquerda para a direita, as colunas indicam os piores para os melhores resultados. Podemos ver que a métrica 'Truncamento' (veja abaixo) e a métrica Realismo têm suas próprias agendas, enquanto a nova pontuação 'Rarity' (linha superior) busca imagens coesas, mas originais (em vez de apenas imagens coesas). Como há limites de tamanho de imagem neste artigo, consulte o documento de origem para obter melhores detalhes e resolução. Fonte: https://arxiv.org/pdf/2206.08549.pdf
O novo papel é intitulado Pontuação de raridade: uma nova métrica para avaliar a raridade de imagens sintetizadas, e vem de três pesquisadores da KAIST e três da NAVER Corp.
Além do 'truque barato'
Entre as métricas anteriores que o novo artigo procura melhorar estão o 'truque de truncamento' sugerido em 2019 em uma colaboração entre a Heriot-Watt University do Reino Unido e a DeepMind do Google.
O truque de truncamento usa essencialmente uma distribuição latente diferente para amostragem do que foi usado para treinar o modelo generativo.
Os pesquisadores que desenvolveram esse método ficaram surpresos com o resultado, mas admitem no artigo original que ele reduz a variedade de resultados gerados. No entanto, o truque de truncamento tornou-se eficaz e popular, no contexto do que poderia ser descrito como um 'truque barato' para obter resultados de aparência autêntica que realmente não assimilam todas as possibilidades inerentes aos dados e podem assemelham-se mais aos dados de origem do que o desejado.
Em relação ao truque de truncamento, os autores do novo artigo observam:
'[Ele] não se destina a gerar amostras raras em conjuntos de dados de treinamento, mas sim sintetizar imagens tÃpicas de forma mais estável. Nossa hipótese é que os modelos generativos existentes serão capazes de produzir amostras mais ricas na distribuição de dados reais se o gerador puder ser induzido a efetivamente produzir amostras raras.'
Da tendência geral de confiar em métricas tradicionais, como Frechet Inception Distance (FID, que foi alvo de intensas crÃticas em dezembro de 2021), pontuação inicial (IS) e Distância inicial do kernel (KID) como 'indicadores de progresso' durante o treinamento de um modelo generativo, os autores comentam ainda*:
'Esse esquema de aprendizado leva o gerador a não sintetizar amostras muito raras, únicas e com caracterÃsticas fortes que não representam uma grande proporção da distribuição real da imagem. Exemplos de amostras raras de conjuntos de dados públicos incluem pessoas com vários acessórios em FFHQ, animais brancos no AFHQ e estátuas incomuns em Metfaces.
'A capacidade de gerar amostras raras é importante não apenas porque está relacionada à capacidade de ponta dos modelos generativos, mas também porque a singularidade desempenha um papel importante nas aplicações criativas, como humanos virtuais.
'No entanto, os resultados qualitativos de vários estudos recentes raramente contêm esses raros exemplos. Conjecturamos que a natureza das forças do esquema de aprendizado adversário gerou uma distribuição de imagem semelhante à de um conjunto de dados de treinamento. Assim, as imagens com nÃtida individualidade ou raridade ocupam apenas uma pequena parte das imagens sintetizadas pelos modelos.'
Técnica
O novo Rarity Score dos pesquisadores adapta uma ideia apresentada em mais cedo funciona - o uso de Vizinhos mais próximos (KNNs) para representar as matrizes de dados genuÃnos (treinamento) e sintéticos (saÃda) em um sistema de sÃntese de imagens.
Sobre esse novo método de análise, os autores afirmam:
"Nossa hipótese é que amostras comuns estariam mais próximas umas das outras, enquanto amostras únicas e raras estariam esparsamente localizadas no espaço de caracterÃsticas."
A imagem de resultados acima mostra as menores distâncias de vizinhos mais próximos (NNDs) até as maiores, em uma arquitetura StyleGAN treinada em FFHQ.
'Para todos os conjuntos de dados, as amostras com os menores NNDs mostram imagens representativas e tÃpicas. Pelo contrário, as amostras com os maiores NNDs têm forte individualidade e são significativamente diferentes das imagens tÃpicas com os menores NNDs.'
Em teoria, ao usar essa nova métrica como um discriminador, ou pelo menos incluÃ-la em uma arquitetura discriminadora mais complexa, um sistema generativo poderia ser desviado da pura imitação para um algoritmo mais inventivo, mantendo a coesão essencial de conceitos que podem ser crÃticos para produção de imagem autêntica (ou seja, 'homem', 'mulher', 'carro', 'igreja', Etc.)
Comparações e experimentos
Em testes, os pesquisadores realizaram uma comparação do desempenho do Rarity Score com o Truncation Trick e o NVIDIA 2019 Pontuação de realismo, e descobriu que em uma variedade de estruturas e conjuntos de dados, a abordagem é capaz de individualizar resultados 'únicos'.
Embora os resultados apresentados no artigo sejam muito extensos para serem incluÃdos aqui, os pesquisadores parecem ter demonstrado a capacidade do novo método de identificar a raridade nas imagens de origem (reais) e geradas (falsas) em um procedimento generativo:

Selecione exemplos dos extensos resultados visuais reproduzidos no artigo (consulte o URL de origem acima para obter mais detalhes). À esquerda, exemplos genuÃnos de FFHQ que têm muito poucos vizinhos próximos (ou seja, são novos e incomuns) no conjunto de dados original; à direita, imagens falsas geradas pelo StyleGAN, que a nova métrica identificou como verdadeiramente novas. Como há limites de tamanho de imagem neste artigo, consulte o documento de origem para obter melhores detalhes e resolução.
A nova métrica Rarity Score não apenas permite a possibilidade de identificar saÃda generativa 'nova' em uma única arquitetura, mas também, afirmam os pesquisadores, permite comparações entre modelos generativos de várias e variadas arquiteturas (ou seja, autoencoder, VAE, GAN, etc. ).
O artigo observa que o Rarity Score difere das métricas anteriores ao se concentrar na capacidade de uma estrutura generativa de criar imagens únicas e raras, em oposição à s métricas 'tradicionais', que examinam (de forma mais mÃope) a diversidade entre as gerações durante o treinamento do modelo.
Além das Tarefas Limitadas
Embora os pesquisadores do novo artigo tenham realizado testes em estruturas de domÃnio limitado (como combinações de gerador/conjunto de dados projetadas para produzir especificamente imagens de pessoas ou de gatos, por exemplo), o Rarity Score pode potencialmente ser aplicado a qualquer procedimento arbitrário de sÃntese de imagem em que deseja-se identificar exemplos gerados que usam as distribuições derivadas dos dados treinados, em vez de aumentar a autenticidade (e reduzir a diversidade) interpondo distribuições latentes estrangeiras ou contando com outros 'atalhos' que comprometem a novidade em favor da autenticidade.
Com efeito, essa métrica poderia potencialmente distinguir instâncias de saÃda verdadeiramente novas em sistemas como a série DALL-E, usando a distância identificada entre um resultado aparente 'extrÃnseco', os dados de treinamento e os resultados de prompts ou entradas semelhantes (ou seja, imagem prompts baseados em
Na prática, e na ausência de uma compreensão clara de até que ponto o sistema realmente assimilou conceitos visuais e semânticos (muitas vezes impedidos pelo conhecimento limitado sobre os dados de treinamento), este poderia ser um método viável para identificar um verdadeiro 'momento de inspiração' em um sistema generativo - o ponto em que um número adequado de conceitos e dados de entrada resultou em algo genuinamente inventivo, em vez de algo excessivamente derivado ou próximo dos dados de origem.
* Minhas conversões de citações inline dos autores para hiperlinks.
Publicado pela primeira vez em 20 de junho de 2022.