Inteligência artificial
A ‘Língua de Nonsense’ Que Pode Subverter os Sistemas de Moderação de Síntese de Imagens

Pesquisas recentes da Universidade de Columbia sugerem que os salvaguardas que impedem os modelos de síntese de imagens, como o DALL-E 2, Imagen e Parti, de serem capazes de produzir imagens prejudiciais ou controversas, são suscetíveis a um tipo de ataque adversarial que envolve ‘palavras inventadas’.
O autor desenvolveu duas abordagens que podem potencialmente anular as medidas de moderação de conteúdo em um sistema de síntese de imagens e descobriu que elas são notavelmente robustas, mesmo em diferentes arquiteturas, indicando que a fraqueza é mais do que apenas sistêmica e pode estar relacionada a alguns dos princípios mais fundamentais da síntese de texto para imagem.
A primeira, e a mais forte das duas, é chamada de macaronic prompting. O termo ‘macaronic’ originalmente se refere a uma mistura de várias línguas, como encontrado em Esperanto ou Unwinese. Talvez o exemplo mais difundido culturalmente seja Urdu-English, um tipo de ‘mistura de códigos’ comum no Paquistão, que mistura livremente substantivos em inglês e sufixos em urdu.
Em alguns dos exemplos acima, frações de palavras significativas foram coladas juntas, usando o inglês como uma ‘estrutura’. Outros exemplos no artigo usam várias línguas em uma única prompt.
O sistema responderá de forma semanticamente significativa devido à falta relativa de curadoria nas fontes da web nas quais o sistema foi treinado. Tais fontes geralmente terão rótulos multilíngues (ou seja, de conjuntos de dados não projetados especificamente para uma tarefa de síntese de imagem), e cada palavra ingerida, em qualquer língua, se tornará um ‘token’; mas, da mesma forma, partes dessas palavras se tornarão ‘subpalavras’ ou tokens fracionários. No Processamento de Linguagem Natural (NLP), esse tipo de ‘stemming’ ajuda a distinguir a etimologia de palavras derivadas mais longas que podem surgir em operações de transformação, mas também cria um enorme ‘conjunto de Lego’ lexical que ‘promptings criativos’ podem aproveitar.

Palavras portmanteau monolíngues também são eficazes para obter imagens por meio de linguagem indireta ou não prosaica, com resultados muito semelhantes frequentemente obtidos em diferentes arquiteturas, como DALL-E 2 e DALL-E Mini (Craiyon).
Na segunda abordagem, chamada evocative prompting, algumas das palavras conjugadas são semelhantes em tom ao ‘latim escolar’ mais juvenil demonstrado em Monty Python’s Life of Brian (1979).














