Angle dâAnderson
Nouvelle recherche propose une publicité vraiment « personnalisée »

Dans une redéfinition de l’« autopromotion », une nouvelle méthode exploite les clics d’un utilisateur pour créer des publicités Web sur mesure en fonction de son histoire particulière.
Bien que les agences de publicité soient désireuses de démentir l’idée que des tunnels publicitaires existent qui peuvent servir des publicités en fonction de ce que vous venez de dire dans le confort de votre maison, l’étendue de la « personnalisation » démontrée par les publicités sur les sites Web et les applications de médias sociaux a néanmoins fait les gros titres ces dernières années.
Le scénario idéal pour l’annonceur a toujours été que la publicité servie soit une « correspondance exacte » pour le spectateur. Dans les limites de la réaction publique contre le suivi en ligne, et des mesures préventives que l’utilisateur peut avoir installées contre un tel suivi, l’intelligence artificielle générative (en mettant de côté les craintes entourant la publicité LLM dans un monde post-recherche) est tout à fait capable de produire des images et des copies publicitaires rapidement enough pour un déploiement en temps réel.
Cependant, l’essentiel de la recherche et la majorité des mises en œuvre dans cette ligne à ce jour ont été basés sur des statistiques d’utilisation agrégées, de sorte que toute publicité générée pour un spectateur serait basée sur le groupe de cohorte supposé du spectateur plutôt que sur son histoire unique.
Or, une nouvelle collaboration de recherche entre la Chine et les États-Unis présente un système pour générer des images et des textes publicitaires pour des utilisateurs individuels en apprenant de leurs propres clics passés lorsqu’ils sont connectés à un site, allant au-delà des hypothèses basées sur les cohortes qui ont gouverné la plupart des recherches sur la publicité personnalisée à ce jour :

Exemples de générations représentant des publicités sur mesure. Bien sûr, sans l’historique de l’utilisateur comme contexte, l’impact complet ne peut être qu’imaginé. Source
De manière inhabituelle, la nouvelle approche renonce aux modèles basés sur la diffusion en faveur d’une architecture autoregressive – la principale différence étant que les modèles de diffusion affinent progressivement une image à partir du bruit visuel, tandis que les modèles autoregressifs génèrent du contenu pièce par pièce, en prédisant chaque nouvel élément à partir de tout ce qui a précédé.
Pour soutenir le nouveau modèle génératif, les auteurs ont développé ce qu’ils affirment être le premier ensemble de données d’images et de textes à grande échelle pour la publicité personnalisée, ainsi qu’une nouvelle métrique conçue pour évaluer cette tâche très spécifique. Lors des tests, ils ont constaté que leur approche surpassait à la fois les références générales et les méthodes et les cadres existants qui abordent actuellement ce défi.
Jardin clos
Il est important de noter la portée proposée du travail, qui n’offre pas aux annonceurs un moyen de contourner les nouvelles mesures contre le suivi tiers, mais donne plutôt à un détaillant suffisamment important le pouvoir de peupler un client connecté avec des publicités qui se rapportent directement à cette personne en particulier.
Ceci n’est pas nécessairement limité aux clients qui sont actuellement en train de parcourir le site du détaillant : en fonction de l’étendue à laquelle l’utilisateur a accordé au détaillant le pouvoir de le suivre sur d’autres sites, il pourrait être présenté avec des publicités ciblées sur n’importe quel nombre d’autres sites Web qui participent aux enchères publicitaires que le détaillant utilise lui-même.
Ce type de portée publicitaire tend à être limité à des détaillants de grande taille, tels qu’Amazon, en Occident (et nous notons qu’un détaillant chinois de taille analogue a participé au nouveau travail – voir ci-dessous), bien que n’importe quel préoccupant similaire (comme une plate-forme de médias sociaux populaire) puisse en théorie générer un cadre génératif similaire.
Le nouvel article est intitulé Concevez votre publicité : génération d’images et de textes publicitaires personnalisés avec des modèles autoregressifs unifiés, et provient de 18 auteurs issus de l’Université Sun Yat-Sen à Guangzhou, de l’Université Northeastern et du plus grand détaillant chinois, JD.com (le dernier ayant cet historique précieux des acheteurs et de leurs habitudes). Le code a été mis à disposition via GitHub, et les points de repère pertinents ont également été mis à disposition.
Données et méthode
L’ensemble de données construit pour le projet est intitulé Publicité personnalisée image-texte (PAd1M), et est alimenté par des données fournies par le contributeur du projet JD.com. Les auteurs déclarent :
‘Chaque produit fournit généralement plus de dix candidats images et textes, garantissant que les préférences diverses peuvent être pleinement détectées. Pour permettre un modèle de préférences fiable, nous collectons l’historique complet des clics des utilisateurs sur les images et les textes, en filtrant les utilisateurs avec une activité insuffisante pour réduire le bruit.
‘Cela donne un ensemble de données de 1 145 371 utilisateurs, avec 18 923 555 images et textes de produits cliqués, en moyenne plus de seize comportements multimodaux historiques par utilisateur.’
Pour chaque utilisateur, une paire d’image et de texte cliqués précédemment a été sélectionnée comme exemple cible, après quoi le produit lui-même a été isolé de l’image à l’aide de Grounded SAM.
Les descriptions et les points de vente fournis par le vendeur ont ensuite été attachés à l’enregistrement, créant un ensemble de données dans lequel chaque publicité cible est accompagnée d’une image de produit transparente ; des informations de produit structurées ; et un historique d’interactions d’images et de textes antérieures, destiné à capturer les intérêts et les préférences antérieurs de l’utilisateur :

Un profil utilisateur de l’ensemble de données PAd1M, montrant une publicité cible aux côtés des informations de produit utilisées pour la générer, et les interactions d’images et de textes historiques utilisées pour modéliser les préférences de l’utilisateur.
L’ensemble de données résultant offre une échelle de plus d’un million d’utilisateurs, et près de 19 millions d’enregistrements d’images et de textes cliqués, les auteurs déclarant que la collecte est substantiellement plus grande que les ensembles de données de personnalisation précédents.
En outre, les données, de manière inhabituelle pour cette branche de la recherche, combinent à la fois des images et des textes, permettant aux préférences des utilisateurs d’être modélisées sur plusieurs modalités, plutôt que dans un seul domaine.
PAd1M présente également un suivi des préférences au niveau individuel ; contrairement aux ensembles de données publicitaires précédents, qui étaient construits autour des taux de clics agrégés sur de grands groupes, PAd1M relie les interactions aux utilisateurs spécifiques à partir des données de JD.com.
Pour les métriques, outre les choix standard de BLEU et ROUGE, les chercheurs ont développé leur propre mesure personnalisée intitulée Similarité de l’arrière-plan du produit (PBS). Basé sur l’initiative MoCo-v3 précédente, PBS a été formé sur 681 123 paires d’images montrant le même produit sur différents arrière-plans, permettant à la métrique de se concentrer sur la variation contextuelle plutôt que sur le produit lui-même :

La similarité de l’arrière-plan du produit (PBS) attribue des scores de similarité nettement différents aux publicités qui contiennent le même produit mais le placent dans différents contextes visuels. À l’inverse, les métriques concurrentes produisent des séparations beaucoup plus petites.
Lors de la formation, chaque image a été appariée avec elle-même comme exemple positif, tandis qu’une image du même produit placée dans un contexte différent a servi d’exemple négatif, une stratégie d’apprentissage destinée à augmenter la sensibilité au contexte de l’arrière-plan. Les résultats d’évaluation, selon l’article, indiquent des différences de similarité plus importantes entre les contextes de correspondance et de non-correspondance que celles produites par CLIP, DINO v3, ou la précédente MoCov3.
Comme le montre la partie supérieure gauche de l’image ci-dessous*, le modèle génératif publicitaire unifié (Uni-AdGen) des chercheurs utilise une architecture vision-langage autoregressive pour générer à la fois des textes et des images publicitaires. Le processus est guidé par une instruction structurée qui comprend la définition de la tâche, ainsi qu’une description de produit et des points de vente clés :

Vue d’ensemble de la méthode.
Des jetons de délimitation spéciaux définissent la partie de la séquence réservée à la copie publicitaire. Après que le texte ait été généré, un jeton d’image dédié déclenche la génération d’images, tandis qu’un jeton d’image de fermeture marque sa fin, les jetons générés étant ensuite envoyés à des décodeurs de texte et d’image distincts.
Pour les images, le décodeur VQ-GAN de LlamaGen est utilisé pour convertir les jetons d’image discrets en pixels.
De cette façon, l’architecture unifiée génère du texte et des images dans un seul cadre de prédiction de jeton suivant, plutôt que de s’appuyer sur des pipelines distincts – la méthode adoptée pour les systèmes publicitaires précédents avec une portée similaire.
Lors de la formation, le modèle apprend les deux modalités ensemble, les jetons de texte étant prédits sur la base de la séquence d’entrée et du texte généré précédemment. Les jetons d’image sont ensuite prédits en utilisant la séquence d’entrée, le texte généré et les jetons d’image générés précédemment.
Pour garder les publicités générées liées au produit promu, Uni-AdGen utilise un module de perception de premier plan basé sur DINO v2, pour injecter des informations provenant d’images de produits transparentes dans le modèle autoregressif.
L’ajustement des instructions (formation du modèle pour suivre des instructions de génération spécifiques au produit dérivées de descriptions et de points de vente) a également été utilisé pour améliorer l’adhérence aux descriptions et aux points de vente fournis par le vendeur, avec GPT-4o utilisé pour filtrer les exemples de formation inappropriés.
La personnalisation reposait sur un module de compréhension des préférences de type coarse-to-fine. Les interactions historiques ont d’abord été filtrées à travers un pipeline d’échantillonnage de similarité de produit (PSS) pour favoriser les produits ressemblant à l’article cible. Les enregistrements restants ont ensuite été traités par une étape d’extraction de préférences multimodales conçue pour identifier les éléments visuels et textuels les plus susceptibles de refléter les intérêts de l’utilisateur – ces préférences étant insérées dans l’invite, pour guider la génération.
Tests
Les auteurs déclarent que leur approche de test est dérivée de DeepSeek’s Janus-Pro 7B.
Le modèle a été formé à une taille de lot de quatre, sous l’optimiseur AdamW à un taux d’apprentissage de 5e-5. Le modèle de base a été affiné via LoRA, avec le module de perception de premier plan et l’extraction de préférences multimodales entièrement affinés (c’est-à-dire, contrairement à LoRA, les poids du modèle de base ont été modifiés de manière permanente).
Tous les tests ont été exécutés sur une carte graphique NVIDIA B200 avec 192 Go de VRAM. Pour la génération d’images, PickScore, ImageReward et ASE ont été utilisés pour mesurer la qualité visuelle, tandis que m-BLEU et m-ROUGE† ont été utilisés pour évaluer le texte publicitaire. Des évaluateurs humains ont également évalué le réalisme et la qualité de mise en page des images, ainsi que l’exactitude et la fluidité du texte, avec toutes les métriques calculées sur 500 produits.
Pour la génération d’images, les références comprenaient Qwen2.5-VL et GPT-4o pour la création de prompts d’arrière-plan à partir d’images de produits, suivis de ReliableAd, PosterMaker et Flux-Fill pour la génération des publicités finales. Les comparaisons de génération de texte ont été effectuées contre Qwen2.5, Qwen3 et DeepSeek-R1.
Les résultats quantitatifs initiaux pour la génération de publicités sont présentés ci-dessous :

Performances sur la référence générale de génération de publicités. Uni-AdGen a égalé ou dépassé les références d’image les plus fortes sur la qualité esthétique et PickScore, tandis que le modèle d’image et de texte unifié a obtenu le score m-ROUGE le plus élevé parmi toutes les approches de génération de texte. Les résultats d’évaluation humaine sont restés compétitifs dans les deux modalités.
Sur ces résultats, les auteurs déclarent :
‘Notre méthode obtient les meilleures performances en ImageReward et se classe deuxième en PickScore et en évaluation humaine, démontrant sa performance supérieure en termes d’esthétique et de taux de disponibilité élevé. Alors que ReliableAd mène en évaluation humaine, elle accuse un retard important dans les métriques esthétiques. À l’inverse, PosterMaker et Flux-Fill génèrent des images visuellement attrayantes mais souffrent de limitations d’utilisabilité notables.
‘Grâce à des approches de contrôle efficaces, notre méthode parvient avec succès à un équilibre optimal entre contenu visuel et utilité pratique.’
La génération de publicités personnalisées a été évaluée sur 500 utilisateurs avec des historiques d’interaction enregistrés, en utilisant le PBS pour mesurer la similarité d’images, et BLEU et ROUGE pour comparer le texte généré avec les produits que les utilisateurs avaient réellement cliqués.
Puisque les références générales de publicité utilisées dans l’expérience précédente ne pouvaient pas intégrer les historiques des utilisateurs, les comparaisons ont été déplacées vers des systèmes conçus pour la personnalisation. Pour la génération d’images, Flux-Kontext et Pigeon ont été sélectionnés comme références. Flux-Kontext a été fourni avec une grille d’images historiques d’utilisateurs aux côtés de l’image de produit cible, permettant aux préférences antérieures d’influencer la génération.
Puisque Pigeon ne prend pas en charge la mise en page de produit contrôlée de manière native, le module de perception de premier plan développé pour Uni-AdGen a été intégré pour préserver la cohérence du produit.
Les descriptions et les points de vente historiques des produits ont été insérés directement dans les modèles d’instruction pour fournir un contexte spécifique à l’utilisateur.

Résultats de la génération de publicités personnalisées. Uni-AdGen a surpassé Flux-Kontext, Pigeon, Qwen3 et DeepSeek-R1 sur toutes les métriques de personnalisation signalées, tandis que l’étude d’ablation a indiqué que les données historiques des utilisateurs, l’échantillonnage de similarité de produit (PSS) et l’extraction de préférences multimodales ont toutes contribué à des gains mesurables.
Ici, les auteurs commentent :
‘Les résultats visualisés [inclus dans l’image ci-dessous] montrent que Flux-Kontext ne parvient pas à comprendre les préférences des utilisateurs et reste sensible au bruit au niveau de l’échantillon, ce qui entraîne une déviation significative par rapport à la vérité terrain, comme les éléments non pertinents dans l’image du motocycle.’

Exemples de génération de publicités personnalisées. Par rapport à Flux-Kontext, Pigeon, Qwen3 et DeepSeek-R1, Uni-AdGen a produit des images qui correspondent plus étroitement au style visuel et au contexte des publicités que les utilisateurs ont réellement cliquées, tout en générant du texte qui capture une plus grande proportion des attributs et des points de vente du produit présents dans les exemples de vérité terrain. Les termes correspondants sont mis en évidence en vert.
Les exemples qualitatifs, selon les auteurs, indiquent que Flux-Kontext et Pigeon ont souvent produit des sorties qui s’écartent des caractéristiques visuelles des publicités que les utilisateurs avaient précédemment cliquées ; tandis que le texte généré par Qwen3 et DeepSeek-R1 omet certains points de vente présents dans les exemples de vérité terrain.
Conclusion
L’utilité de ce projet dépend entièrement de l’opt-in de l’utilisateur, et l’extension de la portée de ce système « prédictif » au-delà de la portée du domaine contrôlant l’historique de l’utilisateur – dans ce cas, JD.com – nécessite un ensemble encore plus détendu d’autorisations utilisateur explicites, dans la plupart des territoires.
Cependant, le système est fondé sur l’effet de réseau à grande échelle à l’œuvre dans un tel scénario, et sur l’idée (peut-être légèrement optimiste) que les utilisateurs trouveront ce type de système de recommandation vraiment personnalisé et même prédictif utile plutôt qu’intrusif, au moins dans le contexte d’un géant de la vente au détail.
* Cette image s’inscrit dans la tendance inquiétante des « chiffres collatéraux » dans les articles de recherche, où les illustrations qui auraient autrefois été 3-4 figures différentes sont collatérales en une seule (pour obéir aux directives de soumission sur la longueur maximale de l’article) et utilisées uniquement comme matériel de référence, souvent sans explication adéquate dans la légende accompagnante.
† ‘m’-préfixe indique une comparaison avec plusieurs textes candidats.
Publié pour la première fois mardi 2 juin 2026. Modifié 18h21 EET pour corriger le « mur » final en « jardin clos » dans le dernier paragraphe.












