Inteligência artificial

Como saber quando os sistemas de síntese de imagens estão produzindo material genuinamente 'original'

Publicado 20 de Junho de 2022

Atualização do 9 de dezembro de 2022

Martin Anderson

'Ursos de pelúcia trabalhando em novas pesquisas de IA debaixo d'água com tecnologia dos anos 1990' – Fonte: https://www.creativeboom.com/features/meet-dall-e/

Um novo estudo da Coréia do Sul propôs um método para determinar se os sistemas de síntese de imagem estão produzindo imagens genuinamente novas ou variantes 'menores' nos dados de treinamento, potencialmente derrotando o objetivo de tais arquiteturas (como a produção de imagens novas e originais). .

Muitas vezes, sugere o artigo, o último é verdadeiro, porque as métricas existentes que esses sistemas usam para melhorar suas capacidades generativas ao longo do treinamento são forçadas a favorecer imagens relativamente próximas das imagens de origem (não falsas) no conjunto de dados .

Afinal, se uma imagem gerada é 'visualmente próxima' dos dados de origem, é provável que ela tenha uma pontuação melhor em 'autenticidade' do que em 'originalidade', já que é 'fiel' – se não for inspirada.

Em um setor muito incipiente e inexperiente para que suas ramificações legais sejam conhecidas, isso pode tornar-se uma importante questão legal, se ficar claro que o conteúdo da imagem sintética comercializada não difere o suficiente do material de origem (geralmente) protegido por direitos autorais que é atualmente permissão para perfundir o setor de pesquisa na forma de conjuntos de dados populares extraídos da web (o potencial para futuras reivindicações de violação desse tipo foi ganhou destaque recentemente em relação ao GitHub Co-Pilot AI da Microsoft).

Em termos da saída cada vez mais coerente e semanticamente robusta de sistemas como o OpenAI DALL-E2, Do Google Imagem, e da China CogViewGenericName lançamentos (assim como os de menor especificação DALL-E mini), Há muito poucos postar fato maneiras de testar com segurança a originalidade de uma imagem gerada.

De fato, a busca por algumas das novas imagens DALL-E 2 mais populares geralmente leva apenas a outras instâncias dessas mesmas imagens, dependendo do mecanismo de pesquisa.

Carregar um grupo de saída DALL-E 9 completo de 2 imagens leva apenas a mais grupos de saída DALL-E 2. Separar e fazer upload da primeira imagem (desta postagem no Twitter de 8 de junho de 2022, da conta 'Weird Dall-E Generations') faz com que o Google se fixe na bola de basquete da foto, levando a pesquisa baseada em imagem a um beco semântico semântico. Para a mesma pesquisa baseada em imagem, o Yandex parece pelo menos estar fazendo alguma desconstrução real baseada em pixels e correspondência de recursos.

Carregar um grupo de saída DALL-E 9 completo de 2 imagens leva apenas a mais grupos de saída DALL-E 2, porque a estrutura de grade é o recurso mais forte. Separando e carregando a primeira imagem (de esta postagem do Twitter de 8 de junho de 2022, da conta 'Weird Dall-E Generations') faz com que o Google se fixe na bola de basquete da foto, levando a pesquisa baseada em imagem a um beco semântico semântico. Para a mesma pesquisa baseada em imagem, o Yandex parece pelo menos estar fazendo alguma desconstrução real baseada em pixels e correspondência de recursos.

Embora o Yandex seja mais provável do que a Pesquisa do Google para usar o real características (ou seja, uma imagem derivada/calculada características, não necessariamente características faciais das pessoas) e visual (em vez de semânticas) características de uma imagem enviada para encontrar imagens semelhantes, todos os mecanismos de pesquisa baseados em imagens têm algum tipo de agenda ou prática que podem dificultar a identificação de casos de fonte>gerada plágio por meio de pesquisas na web.

Além disso, os dados de treinamento para um modelo generativo podem não estar disponíveis publicamente em sua totalidade, dificultando ainda mais o exame forense da originalidade das imagens geradas.

Curiosamente, realizar uma pesquisa na web baseada em imagens em uma das imagens sintéticas apresentadas pelo Google em seu site de imagem dedicado não encontra absolutamente nada comparável ao assunto da imagem, em termos de realmente olhar para a imagem e procurar imparcialmente imagens semelhantes. Em vez disso, fixados semanticamente como sempre, os resultados da pesquisa de imagens do Google para esta imagem Imagen não permitirão uma pesquisa na web baseada em imagem pura da imagem sem adicionar os termos de pesquisa 'imagen google' como um parâmetro adicional (e limitante):

Yandex, por outro lado, encontra uma infinidade de imagens do mundo real semelhantes (ou pelo menos visualmente relacionadas) da comunidade artística amadora:

Em geral, seria melhor se a novidade ou originalidade da saída dos sistemas de síntese de imagens pudesse ser medida de alguma forma, sem a necessidade de extrair recursos de todas as imagens possíveis da Internet no momento em que o modelo foi treinado, ou em conjuntos de dados não públicos que podem estar usando material protegido por direitos autorais.

Relacionado a esta questão, pesquisadores da Kim Jaechul Graduate School of AI no Korea Advanced Institute of Science and Technology (KAIST AI) colaboraram com a empresa global de TIC e pesquisa NAVER Corp para desenvolver um Pontuação de Raridade que podem ajudar a identificar as criações mais originais dos sistemas de síntese de imagens.

As imagens aqui são geradas via StyleGAN-FFHQ. Da esquerda para a direita, as colunas indicam os piores para os melhores resultados. Podemos ver que a métrica 'Truncamento' (veja abaixo) e a métrica Realismo têm suas próprias agendas, enquanto a nova pontuação 'Rarity' (linha superior) busca imagens coesas, mas originais (em vez de apenas imagens coesas). Como há limites de tamanho de imagem neste artigo, consulte o documento de origem para obter melhores detalhes e resolução. Fonte: https://arxiv.org/pdf/2206.08549.pdf

O novo papel é intitulado Pontuação de raridade: uma nova métrica para avaliar a raridade de imagens sintetizadas, e vem de três pesquisadores da KAIST e três da NAVER Corp.

Além do 'truque barato'

Entre as métricas anteriores que o novo artigo procura melhorar estão o 'truque de truncamento' sugerido em 2019 em uma colaboração entre a Heriot-Watt University do Reino Unido e a DeepMind do Google.

O truque de truncamento usa essencialmente uma distribuição latente diferente para amostragem do que foi usado para treinar o modelo generativo.

Os pesquisadores que desenvolveram esse método ficaram surpresos com o resultado, mas admitem no artigo original que ele reduz a variedade de resultados gerados. No entanto, o truque de truncamento tornou-se eficaz e popular, no contexto do que poderia ser descrito como um 'truque barato' para obter resultados de aparência autêntica que realmente não assimilam todas as possibilidades inerentes aos dados e podem assemelham-se mais aos dados de origem do que o desejado.

Em relação ao truque de truncamento, os autores do novo artigo observam:

'[Ele] não se destina a gerar amostras raras em conjuntos de dados de treinamento, mas sim sintetizar imagens típicas de forma mais estável. Nossa hipótese é que os modelos generativos existentes serão capazes de produzir amostras mais ricas na distribuição de dados reais se o gerador puder ser induzido a efetivamente produzir amostras raras.'

Da tendência geral de confiar em métricas tradicionais, como Frechet Inception Distance (FID, que foi alvo de intensas críticas em dezembro de 2021), pontuação inicial (IS) e Distância inicial do kernel (KID) como 'indicadores de progresso' durante o treinamento de um modelo generativo, os autores comentam ainda*:

'Esse esquema de aprendizado leva o gerador a não sintetizar amostras muito raras, únicas e com características fortes que não representam uma grande proporção da distribuição real da imagem. Exemplos de amostras raras de conjuntos de dados públicos incluem pessoas com vários acessórios em FFHQ, animais brancos no AFHQ e estátuas incomuns em Metfaces.

'A capacidade de gerar amostras raras é importante não apenas porque está relacionada à capacidade de ponta dos modelos generativos, mas também porque a singularidade desempenha um papel importante nas aplicações criativas, como humanos virtuais.

'No entanto, os resultados qualitativos de vários estudos recentes raramente contêm esses raros exemplos. Conjecturamos que a natureza das forças do esquema de aprendizado adversário gerou uma distribuição de imagem semelhante à de um conjunto de dados de treinamento. Assim, as imagens com nítida individualidade ou raridade ocupam apenas uma pequena parte das imagens sintetizadas pelos modelos.'

Técnica

O novo Rarity Score dos pesquisadores adapta uma ideia apresentada em mais cedo funciona - o uso de Vizinhos mais próximos (KNNs) para representar as matrizes de dados genuínos (treinamento) e sintéticos (saída) em um sistema de síntese de imagens.

Sobre esse novo método de análise, os autores afirmam:

"Nossa hipótese é que amostras comuns estariam mais próximas umas das outras, enquanto amostras únicas e raras estariam esparsamente localizadas no espaço de características."

A imagem de resultados acima mostra as menores distâncias de vizinhos mais próximos (NNDs) até as maiores, em uma arquitetura StyleGAN treinada em FFHQ.

'Para todos os conjuntos de dados, as amostras com os menores NNDs mostram imagens representativas e típicas. Pelo contrário, as amostras com os maiores NNDs têm forte individualidade e são significativamente diferentes das imagens típicas com os menores NNDs.'

Em teoria, ao usar essa nova métrica como um discriminador, ou pelo menos incluí-la em uma arquitetura discriminadora mais complexa, um sistema generativo poderia ser desviado da pura imitação para um algoritmo mais inventivo, mantendo a coesão essencial de conceitos que podem ser críticos para produção de imagem autêntica (ou seja, 'homem', 'mulher', 'carro', 'igreja', Etc.)

Comparações e experimentos

Em testes, os pesquisadores realizaram uma comparação do desempenho do Rarity Score com o Truncation Trick e o NVIDIA 2019 Pontuação de realismo, e descobriu que em uma variedade de estruturas e conjuntos de dados, a abordagem é capaz de individualizar resultados 'únicos'.

Embora os resultados apresentados no artigo sejam muito extensos para serem incluídos aqui, os pesquisadores parecem ter demonstrado a capacidade do novo método de identificar a raridade nas imagens de origem (reais) e geradas (falsas) em um procedimento generativo:

Selecione exemplos dos extensos resultados visuais reproduzidos no artigo (consulte o URL de origem acima para obter mais detalhes). À esquerda, exemplos genuínos de FFHQ que têm muito poucos vizinhos próximos (ou seja, são novos e incomuns) no conjunto de dados original; à direita, imagens falsas geradas pelo StyleGAN, que a nova métrica identificou como verdadeiramente novas. Como há limites de tamanho de imagem neste artigo, consulte o documento de origem para obter melhores detalhes e resolução.

A nova métrica Rarity Score não apenas permite a possibilidade de identificar saída generativa 'nova' em uma única arquitetura, mas também, afirmam os pesquisadores, permite comparações entre modelos generativos de várias e variadas arquiteturas (ou seja, autoencoder, VAE, GAN, etc. ).

O artigo observa que o Rarity Score difere das métricas anteriores ao se concentrar na capacidade de uma estrutura generativa de criar imagens únicas e raras, em oposição às métricas 'tradicionais', que examinam (de forma mais míope) a diversidade entre as gerações durante o treinamento do modelo.

Além das Tarefas Limitadas

Embora os pesquisadores do novo artigo tenham realizado testes em estruturas de domínio limitado (como combinações de gerador/conjunto de dados projetadas para produzir especificamente imagens de pessoas ou de gatos, por exemplo), o Rarity Score pode potencialmente ser aplicado a qualquer procedimento arbitrário de síntese de imagem em que deseja-se identificar exemplos gerados que usam as distribuições derivadas dos dados treinados, em vez de aumentar a autenticidade (e reduzir a diversidade) interpondo distribuições latentes estrangeiras ou contando com outros 'atalhos' que comprometem a novidade em favor da autenticidade.

Com efeito, essa métrica poderia potencialmente distinguir instâncias de saída verdadeiramente novas em sistemas como a série DALL-E, usando a distância identificada entre um resultado aparente 'extrínseco', os dados de treinamento e os resultados de prompts ou entradas semelhantes (ou seja, imagem prompts baseados em

Na prática, e na ausência de uma compreensão clara de até que ponto o sistema realmente assimilou conceitos visuais e semânticos (muitas vezes impedidos pelo conhecimento limitado sobre os dados de treinamento), este poderia ser um método viável para identificar um verdadeiro 'momento de inspiração' em um sistema generativo - o ponto em que um número adequado de conceitos e dados de entrada resultou em algo genuinamente inventivo, em vez de algo excessivamente derivado ou próximo dos dados de origem.

* Minhas conversões de citações inline dos autores para hiperlinks.

Publicado pela primeira vez em 20 de junho de 2022.

A seguir

Novo método ajuda carros autônomos a criar 'memórias'

Não Perca

Engenheiros constroem chip AI empilhável e reconfigurável

Martin Anderson

Escritor sobre machine learning, especialista em domínio em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa na Metaphysic.ai.
Site pessoal: martinanderson.ai
Contato: [email protegido]
Twitter: @manders_ai