Inteligência artificial

Ensinar IA a Entender e Usar Imagens em Diálogo

Published July 21, 2021

Updated April 28, 2026

Martin Anderson

Pesquisadores da Coreia do Sul desenvolveram um conjunto de dados projetado para auxiliar a pesquisa sobre a compreensão da IA sobre a forma como os humanos usam imagens em diálogo, e para ajudar os modelos de linguagem natural a participar desse desenvolvimento recente nas comunicações humanas.

O artigo, da KAIST em Daedeok Innopolis, observa que a pesquisa sobre sistemas de diálogo multi-modais nos últimos dez anos foi prejudicada por conjuntos de dados e metodologias centradas em disciplinas periféricas ao tema, como resposta a perguntas visuais e legendas de imagens.

Nessas abordagens mais antigas, as imagens são avaliadas fora do contexto lexical de uma conversa, sem entender como o diálogo é aprimorado e desenvolvido por respostas de imagens, e sem esquema de decodificação de contribuições visuais para o discurso.

Imagens como Facetas de Primeira Classe do Diálogo

Muitas das abordagens mencionadas até agora foram iniciativas ou desenvolvimentos do braço de pesquisa de IA da Microsoft, que em 2017 também examinou o tópico de conversas multi-modais que são iniciadas por uma imagem, em vez de usar imagens livremente como componentes de diálogo.

Para abordar a falta de dados de pesquisa, os pesquisadores sul-coreanos desenvolveram um conjunto de dados de 45.000 instâncias de diálogo envolvendo o uso ad hoc de imagens, sem se concentrar em imagens de ‘meme’ virais; o último, embora seja uma área de interesse na pesquisa de linguagem, é arguivelmente menos desafiador, pois o significado de memes virais pode ser inferido mais facilmente por meio de milhares de usos em contexto em plataformas de mídia social.

Desenvolvendo Ilustrações como Substituto para Texto

Para desenvolver uma metodologia para a transliteração bilateral palavra/frase>imagem, os pesquisadores sul-coreanos treinaram um sistema de aprendizado de máquina para substituir partes de uma conversa baseada em texto por conteúdo de imagem semanticamente relevante.

Arquitetura do sistema coreano para gerar um conjunto de dados para pesquisa de diálogo multi-modal. Fonte: https://arxiv.org/pdf/2107.08685.pdf

O pré-processamento das frases alvo envolveu a exclusão de palavras de parada que poderiam inibir a previsão da próxima resposta na conversa, e a poda de trocas de baixa qualidade por meio de filtros de similaridade contextual.

Para testar a utilidade do conjunto de dados, os pesquisadores configuraram um módulo para prever a próxima “rodada” no diálogo, considerando o contexto da conversa e as imagens envolvidas.

A interface de avaliação humana usada na pesquisa.

Cinco conjuntos de dados externos foram usados como material base para o conjunto de dados de 45k (que está disponível no GitHub). Três são elementos baseados em texto: DailyDialog, um conjunto de texto multi-turno manualmente anotado de 2017; e EmpatheticDialogues e PersonaChat, ambos de 2018. Os dois conjuntos de dados de imagens usados foram MS-COCO e Flicker30k.

Pares de imagem/texto – esquema JSON de frases no conjunto de dados, associadas a imagens (neste exemplo) do banco de dados de imagens da Microsoft COCO.

A substituição de texto por imagem para o sistema foi alimentada pela rede pré-treinada Visual Semantic Reasoning Network (VSRN), desenvolvida em 2019 na Northeastern University em Boston. O VSRN foi configurado para operar em frases manualmente pré-selecionadas dos conjuntos de dados de texto contribuintes.

Estabelecendo Coerência

A coerência dos conjuntos de dados de origem foi estabelecida desenvolvendo seis combinações de cada conjunto de dados de diálogo, correlacionadas a instâncias em cada conjunto de dados de imagem, e avaliadas por humanos em várias rodadas.

A avaliação humana foi baseada em três critérios: consistência com o contexto da troca; relevância da imagem para o conceito central que a imagem estava tentando expressar; e a extensão em que a imagem continha objetos-chave da sentença alvo.

Considerando o último critério, pode-se argumentar que o esquema que os pesquisadores decidiram descontou amplamente a possibilidade de possibilidades humorísticas, sarcásticas, abstratas ou metafísicas para o significado semântico de uma imagem que poderia ser injetada em uma conversa de texto.

No entanto, este é um trabalho seminal, e tem que começar em algum lugar, enquanto esforços consideráveis estão sendo feitos em outro lugar no setor de Processamento de Linguagem Natural (NLP) para mapear instâncias de sarcasmo, entre outros exemplos menos tangíveis da relação imagem/texto.

Testando

Para testar a estrutura de geração de dados, os pesquisadores usaram um modelo de recuperação de três partes baseado na pesquisa Image-Chat da Facebook de 2020. O módulo compreende Resnext-101 como codificador de imagem; o BERT da Google para o codificador de texto; e um módulo de fusão personalizado para esses.

O sistema alcançou 50,35 e 14,38 na tarefa de previsão de sentença atual e próxima, melhorando a linha de base para cada tarefa.

Mais tarde, dois pesquisadores foram encarregados de criar 100 diálogos multi-modais inserindo imagens em conversas manualmente, e executando o sistema contra esses exemplos ‘orgânicos’ de diálogos multi-modais. O sistema foi capaz de prever trocas atuais e de próxima rodada com alta consciência de contexto, mesmo para esses exemplos ad hoc.

Resultados do teste para o sistema de geração de conjunto de dados multi-modal coreano, revelando correlação consistentemente alta entre similaridade de texto-para-imagem e pontuações de perguntas baseadas em humanos nos mesmos dados.