Ângulo de Anderson

Nova Pesquisa Propõe Publicidade Realmente ‘Personalizada’

Publicado em 2 de junho de 2026

Por

Martin Anderson

A woman looks at a laptop displaying a news website, reacting with surprise as a banner advertisement on the page shows a smiling woman who closely resembles her.

Em uma redefinição de ‘autopromoção’, um novo método extrai os próprios cliques do usuário para criar anúncios personalizados na web com base em sua própria história.

Embora as agências de publicidade estejam ansiosas para desacreditar a ideia de que existem funis de publicidade que podem servir anúncios com base no que você acabou de dizer no conforto de sua casa, o nível de ‘personalização’ demonstrado pelos anúncios em sites e aplicativos de mídia social tem, no entanto, ganho manchetes nos últimos anos.

O cenário ideal para o anunciante sempre foi que o anúncio servido seja um ‘ajuste perfeito’ para o visualizador. Dentro dos limites da rejeição pública sobre o rastreamento online e das medidas preventivas que o usuário pode ter instalado contra esse monitoramento, a inteligência artificial generativa (deixando de lado os medos em torno da publicidade de LLM em um mundo pós-busca) é capaz de produzir imagens e textos de anúncios rapidamente o suficiente para implantação em tempo real.

No entanto, o principal impulso da pesquisa e a maior parte das implementações nessa linha até o momento foram baseadas em estatísticas de uso agregadas, de modo que qualquer anúncio gerado para um visualizador seria baseado no grupo de coorte suposto do visualizador, em vez de sua própria história única.

Agora, uma nova colaboração de pesquisa entre a China e os EUA apresenta um sistema para gerar imagens e textos de anúncios para usuários individuais, aprendendo com seus próprios cliques passados quando conectados a um site, indo além das suposições baseadas em coorte que governaram a maioria das pesquisas de publicidade personalizada até o momento:

Exemplos de gerações que mostram anúncios personalizados. É claro que, sem o histórico do usuário como contexto, o impacto total só pode ser imaginado. Fonte

De forma incomum, a nova abordagem evita modelos baseados em difusão em favor de uma arquitetura autoregressiva – a principal diferença sendo que modelos de difusão refinam gradualmente uma imagem a partir do ruído visual, enquanto modelos autoregressivos geram conteúdo peça por peça, prevendo cada novo elemento a partir de tudo o que veio antes.

Para apoiar o novo modelo gerativo, os autores desenvolveram o que eles alegam ser o primeiro conjunto de dados em larga escala de imagem/texto para publicidade personalizada, bem como uma métrica nova projetada para avaliar essa tarefa específica. Em testes, eles descobriram que sua abordagem superou tanto as linhas de base gerais quanto os métodos e estruturas existentes que atualmente abordam esse desafio.

Jardim Murado

Vale notar o escopo proposto do trabalho, que não oferece aos anunciantes uma maneira de contornar as novas medidas contra o rastreamento de terceiros, mas dá a um varejista suficientemente grande o poder de popular um cliente conectado com anúncios que se relacionam diretamente com essa pessoa específica.

Isso não está necessariamente confinado a clientes que estão atualmente navegando no site do varejista: dependendo da extensão com que o usuário concedeu ao varejista o poder de rastreá-los em outros sites, eles poderiam ser apresentados com anúncios direcionados em qualquer número de outros sites que participam de leilões de anúncios que o varejista usa.

Esse tipo de alcance publicitário tende a ser limitado a pontos de venda de alto volume e grande escala, como a Amazon, no Ocidente (e notamos que um varejista chinês de tamanho análogo participou do novo trabalho – veja abaixo), embora qualquer preocupação semelhante em tamanho (como uma plataforma de mídia social popular) possa, em teoria, gerar um quadro gerativo semelhante.

O novo artigo é intitulado Desenhe Seu Anúncio: Geração de Imagem e Texto de Publicidade Personalizada com Modelos Autoregressivos Unificados e vem de 18 autores da Universidade Sun Yat-Sen em Guangzhou, da Universidade Northeastern e do maior varejista da China, JD.com (este último dos quais tem acesso precioso aos históricos e hábitos dos compradores). O código foi disponibilizado via GitHub, e os pontos de verificação relevantes também foram disponibilizados.

Dados e Método

O conjunto de dados construído para o projeto é intitulado Publicidade Personalizada de Imagem-Texto (PAd1M) e é alimentado por dados fornecidos pelo contribuidor do projeto JD.com. Os autores afirmam:

‘Cada produto normalmente fornece mais de dez imagens e textos candidatos, garantindo que as preferências diversificadas possam ser totalmente detectadas. Para permitir um modelo de preferência confiável, coletamos históricos de cliques de usuário completos sobre imagens e textos, filtrando usuários com atividade insuficiente para reduzir o ruído.

‘Isso produz um conjunto de dados de 1.145.371 usuários, com 18.923.555 imagens de produtos clicados e textos, com mais de dezesseis comportamentos multimodais históricos por usuário.’

Para cada usuário, um par de imagem-texto clicado anteriormente foi selecionado como o exemplo de destino, após o que o produto em si foi isolado da imagem usando Grounded SAM.

Descrições e pontos de venda fornecidos pelo vendedor foram então anexados ao registro, criando um conjunto de dados no qual cada anúncio de destino é acompanhado por uma imagem de produto transparente; informações de produto estruturadas; e um histórico de interações de imagem e texto anteriores, destinadas a capturar os interesses e preferências anteriores do usuário:

Um perfil de usuário do conjunto de dados PAd1M, mostrando um anúncio de destino ao lado das informações de produto usadas para gerá-lo e as interações de imagem e texto históricas usadas para modelar as preferências do usuário.

O conjunto de dados resultante oferece uma escala de mais de um milhão de usuários e quase 19 milhões de registros de imagens e textos clicados, com os autores afirmando que a coleta é substancialmente maior do que os conjuntos de dados de personalização anteriores.

Além disso, os dados, de forma incomum para essa linha de pesquisa, combinam imagens e textos, permitindo que as preferências do usuário sejam modeladas em várias modalidades, em vez de dentro de um único domínio.

PAd1M também apresenta acompanhamento de preferências em nível individual; ao contrário dos conjuntos de dados de publicidade anteriores, que foram construídos em torno de taxas de cliques agregadas em grandes grupos, PAd1M vincula interações a usuários específicos a partir dos dados do JD.com.

Para métricas, além das escolhas padrão de BLEU e ROUGE, os pesquisadores desenvolveram sua própria medição personalizada intitulada Similaridade de Fundo do Produto (PBS). Baseada na iniciativa MoCo-v3 anterior, PBS foi treinada em 681.123 pares de imagens mostrando o mesmo produto contra diferentes contextos, permitindo que a métrica se concentre na variação contextual em vez do próprio produto:

Similaridade de Fundo do Produto (PBS) atribui pontuações de similaridade marcadamente diferentes a anúncios que contêm o mesmo produto, mas o colocam em diferentes contextos visuais. Por outro lado, métricas concorrentes produzem separações muito menores.

Durante o treinamento, cada imagem foi emparelhada com ela mesma como um exemplo positivo, enquanto uma imagem do mesmo produto colocada em um contexto diferente serviu como um exemplo negativo, uma estratégia de treinamento destinada a aumentar a sensibilidade ao contexto de fundo. Os resultados da avaliação, o artigo afirma, indicam diferenças de similaridade maiores entre contextos de fundo coincidentes e não coincidentes do que as produzidas por CLIP, DINO v3 ou a mencionada MoCov3.

Como mostrado na seção superior esquerda da imagem abaixo*, os pesquisadores usam um modelo gerativo de anúncio unificado (Uni-AdGen) com uma arquitetura de visão-linguagem autoregressiva para gerar tanto texto quanto imagens de anúncios. O processo é guiado por uma instrução estruturada que inclui a definição da tarefa e uma descrição do produto, juntamente com pontos de venda:

Visão geral do método.

Tokens delimitadores especiais definem a porção da sequência reservada para a cópia do anúncio. Após a geração do texto, um token de imagem dedicado dispara a geração de imagens, enquanto um token de imagem de fechamento marca sua conclusão, com tokens gerados subsequentemente enviados a decodificadores de texto e imagem separados.

Para imagens, o decodificador VQ-GAN do LlamaGen é usado para converter tokens de imagem discretos de volta em pixels.

Desta forma, a arquitetura unificada gera texto e imagens dentro de um único quadro de previsão de próximo token, em vez de confiar em pipelines separados – o método adotado para sistemas de publicidade anteriores com um escopo semelhante.

Durante o treinamento, o modelo aprende ambas as modalidades juntas, com tokens de texto previstos com base na sequência de entrada e no texto gerado anteriormente. Tokens de imagem são então previstos usando a sequência de entrada, o texto gerado e os tokens de imagem gerados anteriormente.

Para manter os anúncios gerados vinculados ao produto promovido, Uni-AdGen usa um módulo de percepção de primeiro plano baseado no DINO v2, para injetar informações de imagens de produto transparentes no modelo autoregressivo.

Ajuste de instrução (treinando o modelo para seguir instruções de geração específicas do produto derivadas de descrições e pontos de venda) também foi usado para melhorar a aderência às descrições e pontos de venda fornecidos pelo vendedor, com GPT-4o usado para filtrar exemplos de treinamento inadequados.

A personalização dependia de um módulo de compreensão de preferência de granulação grossa a fina. Interações históricas foram primeiro filtradas por um pipeline de Amostragem de Similaridade de Produto (PSS) para favorecer produtos semelhantes ao item de destino. Os registros restantes foram então processados por uma etapa de Extração de Preferência Multimodal projetada para identificar os elementos visuais e textuais mais prováveis de refletir os interesses do usuário – com essas preferências inseridas no prompt, para guiar a geração.

Testes

Os autores afirmam que sua abordagem de teste é derivada do Janus-Pro 7B da DeepSeek.

O modelo foi treinado em um tamanho de lote de quatro, sob o otimizador AdamW em uma taxa de aprendizado de 5e-5. O modelo base foi ajustado por LoRA, com a percepção de primeiro plano e a extração de preferência multimodal completamente ajustados (ou seja, ao contrário do LoRA, os pesos do modelo base foram permanentemente alterados).

Todos os testes foram executados em um GPU NVIDIA B200 com 192GB de VRAM. Para a geração de imagens, PickScore, ImageReward e ASE foram usados para medir a qualidade visual, enquanto m-BLEU e m-ROUGE^† foram usados para avaliar o texto do anúncio. Avaliadores humanos também avaliaram a realismo da imagem e a qualidade do layout, juntamente com a precisão e fluência textual, com todas as métricas computadas em 500 produtos.

Para a geração de imagens, as linhas de base incluíam Qwen2.5-VL e GPT-4o para criar prompts de fundo a partir de imagens de produtos, seguidos por ReliableAd, PosterMaker e Flux-Fill para gerar os anúncios finais. As comparações de geração de texto foram realizadas contra Qwen2.5, Qwen3 e DeepSeek-R1.

Os resultados iniciais quantitativos para a geração de anúncios são mostrados abaixo:

Desempenho no benchmark geral de geração de anúncios. Uni-AdGen igualou ou superou as linhas de base de geração de imagens mais fortes em qualidade estética e PickScore, enquanto o modelo de imagem e texto unificado alcançou a pontuação m-ROUGE mais alta entre todas as abordagens de geração de texto. Os resultados da avaliação humana permaneceram competitivos em ambas as modalidades.

Desses resultados, os autores afirmam:

‘Nosso método alcança o melhor desempenho em ImageReward e ocupa o segundo lugar em ambos PickScore e avaliação humana, demonstrando seu desempenho superior em estética e taxa de disponibilidade alta. Embora ReliableAd lidera na avaliação humana, ele fica muito atrás nas métricas estéticas. Por outro lado, PosterMaker e Flux-Fill geram imagens visualmente atraentes, mas sofrem de limitações de usabilidade notáveis.

‘Graças a abordagens de controle eficazes, nosso método consegue com sucesso um equilíbrio ótimo entre conteúdo visual e utilidade prática.’

Personalizada geração de anúncios foi avaliada em 500 usuários com históricos de interação registrados, usando a mencionada PBS para medir a similaridade de imagens e BLEU e ROUGE para comparar o texto gerado com produtos que os usuários realmente clicaram.

Porque as linhas de base gerais de publicidade usadas no experimento anterior não podiam incorporar históricos de usuário, as comparações foram transferidas para sistemas projetados para personalização. Para a geração de imagens, Flux-Kontext e Pigeon foram selecionados como linhas de base. Flux-Kontext foi fornecido com uma grade de imagens históricas do usuário ao lado da imagem do produto de destino, permitindo que as preferências anteriores influenciassem a geração.

Como Pigeon não suporta nativamente a colocação controlada de produtos, o módulo de percepção de primeiro plano desenvolvido para Uni-AdGen foi integrado para preservar a consistência do produto. Para a geração de texto, Qwen3 e DeepSeek-R1 foram usados, com descrições históricas de produtos inseridas diretamente em seus modelos de instrução para fornecer contexto específico do usuário:

Resultados da geração de anúncios personalizados. Uni-AdGen superou Flux-Kontext, Pigeon, Qwen3 e DeepSeek-R1 em todas as métricas de personalização relatadas, enquanto o estudo de ablação indicou que os dados históricos do usuário, a Amostragem de Similaridade de Produto (PSS) e a extração de preferência multimodal contribuíram com ganhos mensuráveis.

Aqui os autores comentam:

‘Os resultados visualizados [incluídos na imagem abaixo] mostram que Flux-Kontext falha em entender as preferências do usuário e permanece suscetível ao ruído de nível de amostra, resultando em uma desviação significativa do valor real, como os itens irrelevantes na imagem da motocicleta.’

Exemplos de geração de anúncios personalizados. Em comparação com Flux-Kontext, Pigeon, Qwen3 e DeepSeek-R1, Uni-AdGen produziu imagens que se assemelham mais ao estilo visual e contexto de anúncios que os usuários realmente clicaram, enquanto gerou texto que capturou uma proporção maior dos atributos e pontos de venda do produto presentes nos exemplos de valor real. Termos coincidentes são realçados em verde.

Os exemplos qualitativos, os autores defendem, indicam que Flux-Kontext e Pigeon frequentemente produziram saídas que se desviavam das características visuais dos anúncios que os usuários haviam clicado anteriormente; enquanto o texto gerado por Qwen3 e DeepSeek-R1 omitia alguns pontos de venda presentes nos exemplos de valor real.

Conclusão

A utilidade desse projeto depende inteiramente da opção do usuário e da extensão do alcance desse sistema ‘predutivo’ além do escopo do domínio que controla o histórico do usuário – nesse caso, JD.com – que exige um conjunto ainda mais relaxado de permissões explícitas do usuário, na maioria dos territórios.

No entanto, o sistema é baseado no tipo de efeito de rede em grande escala em funcionamento nesse cenário e na ideia (talvez ligeiramente otimista) de que os usuários encontrarão esse tipo de sistema de recomendação verdadeiramente personalizado e até previdente útil em vez de intrusivo, pelo menos dentro do contexto de um gigante varejista em seu ‘jardim murado’.

* Essa imagem constrói sobre a tendência preocupante de ‘figuras compiladas’ em artigos de pesquisa, onde ilustrações que antes seriam 3-4 figuras diferentes são compiladas em uma (para o propósito de obedecer às diretrizes de envio sobre o comprimento máximo do artigo principal) e usadas como material de referência, muitas vezes sem explicação adequada na legenda acompanhante.

^†‘m’-prefixo indica comparação com vários textos candidatos.

Publicado pela primeira vez na terça-feira, 2 de junho de 2026. Alterado às 18h21 EET para corrigir ‘parede’ para ‘jardim murado’ no último parágrafo.