Entre em contato

Um sistema de detecção para estruturas de síntese de imagem pura como DALL-E 2

Inteligência artificial

Um sistema de detecção para estruturas de síntese de imagem pura como DALL-E 2

mm

Novo pesquisa da Universidade da Califórnia em Berkeley oferece um método para determinar se a saída da nova geração de estruturas de síntese de imagens – como a Open AI DALL-E2e do Google Imagem e Peças – podem ser detectados como "não reais", ao estudar a geometria, as sombras e os reflexos que aparecem nas imagens sintetizadas.

Estudando imagens geradas por prompts de texto no DALL-E 2, os pesquisadores descobriram que, apesar do impressionante realismo de que a arquitetura é capaz, ocorrem algumas inconsistências persistentes relacionadas à renderização da perspectiva global, à criação e disposição de sombras e especialmente em relação à renderização de objetos refletidos.

O artigo afirma:

'Estruturas [geométricas], sombras projetadas e reflexos em superfícies espelhadas não são totalmente consistentes com a perspectiva geométrica esperada de cenas naturais. Estruturas geométricas e sombras são, em geral, localmente consistentes, mas globalmente inconsistentes.

'Reflexos, por outro lado, muitas vezes são renderizados de forma implausível, provavelmente porque são menos comuns no conjunto de dados de imagens de treinamento.'

A falta de interseções consistentes entre o objeto renderizado e a renderização de seu reflexo é atualmente uma maneira confiável de detectar uma imagem DALL-E 2, de acordo com o novo estudo. Fonte: https://arxiv.org/pdf/2206.14617.pdf

A falta de interseções consistentes entre o objeto renderizado e a renderização de seu reflexo é atualmente uma maneira confiável de detectar uma imagem DALL-E 2, de acordo com o novo estudo. Fonte: https://arxiv.org/pdf/2206.14617.pdf

O artigo representa uma incursão inicial no que pode eventualmente se tornar uma vertente notável na comunidade de pesquisa em visão computacional – detecção de síntese de imagens.

Desde o advento dos deepfakes em 2017, detecção de deepfake (principalmente de codificador automático saída de pacotes como DeepFace Lab e Troca de rosto) tornou-se um ativo e competitivo vertente acadêmica, com vários artigos e metodologias visando a evolução dos "sinais" de rostos sintetizados em filmagens de vídeo reais.

No entanto, até o surgimento muito recente de sistemas de geração de imagens treinadas em hiperescala, a saída de sistemas de prompt de texto, como CLIP não representava nenhuma ameaça ao status quo da "fotorrealidade". Os autores do novo artigo acreditam que isso está prestes a mudar e que mesmo as inconsistências que descobriram na saída do DALL-E 2 podem não fazer muita diferença no potencial das imagens de saída de enganar os observadores.

Os autores afirmam*:

'[Tais] falhas podem não importar muito para o sistema visual humano, que se mostrou surpreendentemente inepto em certos julgamentos geométricos, incluindo inconsistências em iluminação, sombras, reflexões, posição de visualização e distorção de perspectiva. '

Credibilidade desaparecendo

O primeiro exame forense dos autores da saída do DALL-E 2 está relacionado à projeção em perspectiva – a maneira como o posicionamento de bordas retas em objetos e texturas próximos deve ser resolvido uniformemente em um "ponto de fuga".

À esquerda, linhas paralelas no mesmo plano terminam em um ponto de fuga comum; à direita, vários pontos de fuga nos mesmos planos paralelos definem uma linha de fuga (representada em vermelho).

À esquerda, linhas paralelas no mesmo plano terminam em um ponto de fuga comum; à direita, vários pontos de fuga nos mesmos planos paralelos definem uma linha de fuga (representada em vermelho).

Para testar a consistência do DALL-E 2 nesse aspecto, os autores usaram o DALL-E 2 para gerar 25 imagens sintetizadas de cozinhas — um espaço familiar que, mesmo em residências bem equipadas, geralmente é confinado o suficiente para fornecer múltiplos pontos de fuga possíveis para uma variedade de objetos e texturas.

Examinando a saída do prompt 'uma foto de uma cozinha com piso de ladrilho', os pesquisadores descobriram que, apesar de uma representação geralmente convincente em cada caso (exceto alguns artefatos estranhos e menores não relacionados à perspectiva), os objetos representados nunca parecem convergir corretamente.

Os autores observam que, embora cada conjunto de linhas paralelas do padrão do azulejo seja consistente e se cruze em um único ponto de fuga (azul na imagem abaixo), o ponto de fuga da bancada (ciano) discorda de ambas as linhas de fuga (vermelho ) e o ponto de fuga derivado das telhas.

Os autores observam que mesmo que a bancada não esteja paralela aos ladrilhos, o ponto de fuga ciano deveria resolver para a linha de fuga (vermelha) definida pelos pontos de fuga dos ladrilhos.

O artigo afirma:

Embora a perspectiva nessas imagens seja – impressionantemente – localmente consistente, ela não é globalmente consistente. Esse mesmo padrão foi encontrado em cada uma das 25 imagens de cozinha sintetizadas.

Sombra Forense

Como qualquer pessoa que já lidou com traçado de raios sabe, as sombras também têm pontos de fuga em potencial, indicando iluminação de uma ou várias fontes. Para sombras externas sob forte luz solar, seria de se esperar que as sombras em todas as facetas de uma imagem resolvessem consistentemente para a única fonte de luz (o sol).

Assim como no experimento anterior, os pesquisadores criaram 25 imagens DALL-E 2 com o prompt 'três cubos em uma calçada fotografados em um dia ensolarado', bem como mais 25 com o prompt ''três cubos em uma calçada fotografados em um dia nublado'.

Na linha superior, imagens criadas a partir do prompt dos pesquisadores 'três cubos em uma calçada fotografados em um dia nublado'; na linha inferior, imagens criadas a partir do prompt 'três cubos em uma calçada fotografados em um dia ensolarado'.

Na linha superior, imagens criadas a partir do prompt dos pesquisadores 'três cubos em uma calçada fotografados em um dia nublado'; na linha inferior, imagens criadas a partir do prompt 'três cubos em uma calçada fotografados em um dia ensolarado'.

Os pesquisadores observam que, ao representar condições nubladas, o DALL-E 2 é capaz de renderizar as sombras associadas mais difusas de maneira convincente e plausível, talvez não menos porque esse tipo de sombra provavelmente será mais prevalente nas imagens do conjunto de dados em que o quadro foi treinado.

Entretanto, os autores descobriram que algumas das fotos "ensolaradas" eram inconsistentes com uma cena iluminada por uma única fonte de luz.

Na imagem acima, as gerações foram convertidas para escala de cinza para maior clareza e mostram cada objeto com seu próprio "sol" dedicado.

Embora o observador médio possa não perceber tais anomalias, algumas das imagens geradas tiveram exemplos mais manifestos de "falha de sombra":

Enquanto algumas das sombras estão simplesmente no lugar errado, muitas delas, curiosamente, correspondem ao tipo de discrepância visual produzida na modelagem CGI quando a taxa de amostragem para uma luz virtual é muito baixa.

Reflexões em DALL-E 2

Os resultados mais contundentes em termos de análise forense surgiram quando os autores testaram a capacidade do DALL-E 2 de criar superfícies altamente reflexivas, o que é um cálculo trabalhoso também no traçado de raios CGI e outros algoritmos de renderização tradicionais.

Para este experimento, os autores produziram 25 imagens DALL-E 2 com o prompt 'uma foto de um dinossauro de brinquedo e seu reflexo em um espelho de vaidade'.

Em todos os casos, relatam os autores, a imagem espelhada do brinquedo renderizado estava de alguma forma desconectada do aspecto e da disposição do dinossauro de brinquedo "real". Os autores afirmam que o problema era a resistência a variações no prompt de texto e parece ser uma fraqueza fundamental do sistema.

Parece haver uma lógica em alguns dos erros – o primeiro e o terceiro exemplos na linha superior parecem mostrar um dinossauro que é duplicado muito bem, mas não espelhado.

Os autores comentam:

'Ao contrário das sombras projetadas e estruturas geométricas nas seções anteriores, o DALL·E-2 tem dificuldade em sintetizar reflexões plausíveis, presumivelmente porque tais reflexões são menos comuns em seu conjunto de dados de imagens de treinamento.'

Problemas como esses podem ser corrigidos em futuros modelos de texto para imagem que sejam capazes de revisar de forma mais eficaz a lógica semântica geral de sua saída e que sejam capazes de impor regras físicas abstratas em cenas que, até certo ponto, foram montadas a partir de recursos pertinentes às palavras no espaço latente do sistema.

À luz de uma tendência crescente para arquiteturas de síntese cada vez maiores, os autores concluem:

"[Pode] ser apenas uma questão de tempo até que os mecanismos de síntese de pintura por texto aprendam a renderizar imagens com total consistência de perspectiva. Até lá, porém, análises forenses geométricas podem ser úteis na análise dessas imagens."

 

* Minha conversão das citações inline dos autores em hiperlinks.

Publicado pela primeira vez em 30 de junho de 2022.

Escritor sobre machine learning, especialista em domínio em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa na Metaphysic.ai.
Site pessoal: martinanderson.ai
Contato: [email protected]
Twitter: @manders_ai