Inteligência artificial
Solução Única do DALL-E 2 para Significados Duplos

Qualquer pessoa que tenha aprendido italiano aprende cedo a prestar atenção ao contexto ao descrever uma vassoura, porque a palavra italiana para este item doméstico mundano tem um significado extremamente NSFW como verbo*. Embora aprendamos cedo a desembaraçar o mapeamento semântico e a aplicabilidade (apta) de palavras com múltiplos significados, essa não é uma habilidade fácil de passar para sistemas de síntese de imagem em larga escala, como o DALL-E 2 e a Stable Diffusion, porque eles dependem do módulo de pré-treinamento de linguagem e imagem contrastiva da OpenAI (CLIP), que trata objetos e suas propriedades de forma mais frouxa (mas que está ganhando terreno no espaço de síntese de imagem e vídeo de difusão latente).
Estudando essa deficiência, uma nova colaboração de pesquisa da Universidade Bar-Ilan e do Instituto Allen de Inteligência Artificial oferece um estudo extensivo sobre a extensão com que o DALL-E 2 está predisposto a esses erros semânticos:

Significados duplos divididos em múltiplas interpretações no DALL-E 2 – embora qualquer sistema de difusão latente possa produzir tais exemplos. Na imagem superior direita, remover ‘ouro’ do prompt muda a espécie de peixe, enquanto no caso da ‘faixa de zebra’, é necessário especificar explicitamente a superfície da estrada para remover a associação duplicada. Fonte: https://export.arxiv.org/pdf/2210.10606
Os autores descobriram que essa tendência a interpretar palavras e frases de forma dupla parece não ser apenas comum a todos os modelos de difusão orientados por CLIP, mas que piora à medida que os modelos são treinados com quantidades cada vez maiores de dados. O artigo observa que as versões ‘reduzidas’ de modelos de texto-para-imagem, incluindo o DALL-E Mini (agora Craiyon), produzem esses tipos de erros com muito menos frequência, e que a Stable Diffusion também erra menos – embora apenas porque, com muita frequência, não segue o prompt de forma alguma, o que é outro tipo de erro.

O prompt simples ‘data’ força o DALL-E 2 a invocar dois dos vários significados da palavra, enquanto a palavra ‘fã’ também se divide em dois de seus mapeamentos semânticos, e, na terceira imagem, a frase ‘cone’ transforma confiavelmente o alimento não especificado no prompt em sorvete, que está associado a ‘cone’.
Explicando como realizamos separações lexicais eficientes, o artigo afirma:
‘Enquanto símbolos – assim como estruturas de frases – podem ser ambíguos, após uma interpretação ser construída, essa ambiguidade já está resolvida. Por exemplo, enquanto o símbolo ‘morcego’ em um ‘morcego voando’ pode ser interpretado como um pedaço de madeira ou um animal, nossas possíveis interpretações da frase são ou de um pedaço de madeira voando ou de um animal voando, mas nunca ambos ao mesmo tempo. Uma vez que a palavra ‘morcego’ tenha sido usada na interpretação para denotar um objeto (por exemplo, um pedaço de madeira), ela não pode ser reutilizada para denotar outro objeto (um animal) na mesma interpretação.’
O DALL-E 2, observa o artigo, não está limitado dessa forma:

‘Um morcego está voando sobre um estádio de beisebol’ – a primeira imagem é do artigo, as outras três obtidas simplesmente alimentando o mesmo prompt no DALL-E 2.
Essa propriedade foi nomeada sensibilidade de recursos.
O artigo identifica três comportamentos anômalos exibidos pelo DALL-E 2: que uma palavra ou frase pode ser interpretada e efetivamente bifurcada em duas entidades distintas, renderizando um objeto ou conceito para cada uma na mesma cena; que uma palavra pode ser interpretada como um modificador de duas entidades diferentes (veja os exemplos de ‘peixe dourado’ e outros acima); e que uma palavra pode ser interpretada simultaneamente como um modificador e uma entidade alternativa – exemplificado pelo prompt ‘um selo está abrindo uma carta’:

‘Um selo está abrindo uma carta’ – a primeira ilustração é do artigo, as três adjacentes, reproduções idênticas do DALL-E 2. Os exemplos fotorealistas abaixo tiveram o texto extra ‘foto, Canon50, 85mm, F5.6, foto premiado’.
Os autores identificam dois modos de falha para modelos de difusão nesse respeito: que os resultados de prompts de usuário com palavras ambíguas de sentido frequentemente exibirão a palavra concretizada junto com alguma manifestação do conceito; e vazamento de conceito, onde as propriedades de um objeto ‘vazam’ para outro objeto renderizado.
‘Tomados em conjunto, os fenômenos que examinamos fornecem evidências para limitações na capacidade linguística do DALLE-2 e abrem avenidas para pesquisas futuras que descobririam se essas limitações decorrem de problemas com a codificação de texto, o modelo gerador ou ambos. Mais geralmente, a abordagem proposta pode ser estendida a outros cenários onde o processo de decodificação é usado para descobrir o viés indutivo e as limitações dos modelos de texto-para-imagem.’
Usando 17 palavras que farão com que o DALL-E 2 divida a entrada em múltiplas saídas, os autores observaram que a duplicação de homônimos ocorreu em mais de 80% das 216 imagens renderizadas.
Os pesquisadores usaram pares de controle-estímulo para examinar a extensão com que a linguagem específica e, argumentativamente, sobre-especificada é necessária para parar essas duplicações. Para os testes de entidade-para-propriedade, 10 pares foram criados, e os autores observam que os prompts de estímulo provocam a propriedade compartilhada em 92,5% dos casos, enquanto o prompt de controle apenas a evoca em 6,6% dos casos.
‘[Para] demonstrar, considere uma zebra e uma rua, aqui, zebra é uma entidade, mas modifica a rua, e o DALLE-2 constantemente gera faixas de pedestres, possivelmente devido à semelhança das listras de zebra com uma faixa de pedestres. E, de acordo com nossa conjectura, o controle de uma zebra e uma rua de cascalho especifica um tipo de rua que normalmente não tem faixas de pedestres, e, de fato, todas as nossas amostras de controle para esse prompt não contêm uma faixa de pedestres.’













