Angle d'Anderson
Se préparer à la publicité dans les grands modèles linguistiques

De nouvelles recherches montrent que des publicités pourraient bientôt être intégrées directement aux réponses de type ChatGPT, non pas sous forme de bannières ou de pop-ups, mais intégrées à la réponse elle-même. Un nouveau benchmark teste la capacité de ces réponses publicitaires à rester utiles, crédibles et rentables, et pourrait nécessiter un compromis entre une expérience utilisateur acceptable et des taux de clics élevés.
Avec la popularité croissante et généralisée des grands modèles de langage porte atteinte aux méthodes publicitaires traditionnelles qui ont alimenté Internet presque depuis sa création, quiconque est familier avec les tactiques de capture de marché des capital-risqueurs se demandera combien de temps encore les chatbots IA pourront se retenir d'inclure du contenu publicitaire dans leurs réponses.
Alors que Netflix et une liste croissante de services de streaming démontrer, la stratégie traditionnelle de l'ère du câble consistant à combiner des abonnements payants avec de la publicité intégrée (souvent justifiée comme un moyen de réduire les coûts pour les consommateurs) reprend de l'ampleur ; et le passage à l'intégration directe de publicités dans les résultats LLM commence à semblent moins spéculatifs. et plus comme un adoptant naturel de ce modèle.

Extrait du document « Publicités en ligne avec les LLM : opportunités et défis », un exemple assez représentatif de la transition que la plupart des gens attendent lorsque les LLM sont monétisés. Source : https://www.sigecom.org/exchanges/volume_22/2/FEIZI.pdf
La perspective d’inclure des publicités dans un média émergent qui a déjà une notoriété notable vous aider à faire face aux problèmes qui vous perturbent avec crédibilité, peut sembler précipitée ; pourtant, échelle d'investissement dans l'IA générative au cours des douze derniers mois suggère que le marché n'est pas actuellement défini par une attitude prudente ou circonspecte ; et avec des acteurs plus importants tels qu'OpenAI sans doute surendettés et ayant besoin un retour rapide sur investissement massifL’histoire montre que la période de lune de miel des productions sans publicité touche à sa fin.
Banc GEM
Dans ce climat et avec ces impératifs commerciaux à l'esprit, un nouvel article intéressant de Singapour propose la première référence visant les interfaces de chatbot IA, ainsi que de nouvelles mesures de quantification pour ce qui pourrait s'avérer l'un des domaines publicitaires les plus explosifs depuis 100 ans.
Peut-être avec optimisme, les auteurs supposent une distinction nette entre le « vrai » contenu et le contenu publicitaire, où le « détournement » des réponses standard vers le contenu marketing est assez facile à repérer :

Exemples du type d’intégration publicitaire qui pourrait se produire dans le cadre de deux modèles étudiés dans le nouvel article. Source : https://arxiv.org/pdf/2509.14221
Il reste à voir si les annonceurs eux-mêmes chercheront, comme ils ont tendance à le faire, à intégrer leur contenu publicitaire de manière plus subtile dans les résultats que dans les exemples donnés dans l’article.
Mais ce sont des questions qui seront traitées plus tard ; pour l’instant, le domaine est tellement naissant que même la terminologie de base fait défaut, ou n’est pas encore établie.
Le document présente donc Marketing par moteur génératif (GEM) comme nouveau cadre pour monétiser les chatbots basés sur LLM, en intégrant des publicités pertinentes directement dans les réponses générées.
Les chercheurs identifient Réponse injectée par la publicité La génération d'AIR constitue le principal défi du GEM, et ils soutiennent que les benchmarks existants sont peu adaptés à son étude. Pour combler cette lacune, ils présentent ce qu'ils présentent comme le premier benchmark conçu spécifiquement à cet effet.
GEM-Bench se compose de trois jeux de données soigneusement sélectionnés, couvrant des scénarios de chatbot et de moteur de recherche. Il inclut également une ontologie de métriques conçue pour évaluer les multiples facettes de la satisfaction et de l'engagement des utilisateurs, ainsi qu'un ensemble de méthodes de référence implémentées dans un cadre multi-agents modulaire.
Les auteurs affirment que si les méthodes simples basées sur des invites permettent d'obtenir des indicateurs d'engagement honorables, tels que des taux de clics (CTR) élevés, elles ont tendance à dégrader la satisfaction des utilisateurs. En revanche, les approches qui intègrent des publicités dans des réponses pré-générées et sans publicité améliorent la confiance et la qualité des réponses, mais au prix d'une charge de calcul plus importante.
Ces compromis, selon l’article, soulignent la nécessité de techniques plus efficaces et plus efficientes pour intégrer les publicités dans les résultats génératifs.
nouveau travail est intitulé GEM-Bench : une référence pour la génération de réponses injectées par la publicité dans le marketing par moteur génératif, et provient de quatre chercheurs de l'Université nationale de Singapour.
Méthode
Le marketing génératif sur les moteurs de recherche (GEM) s'inspire des principes fondamentaux du marketing sur les moteurs de recherche (SEM). Le SEM traditionnel consiste à associer les requêtes aux annonces via un pipeline en plusieurs étapes : les annonceurs enchérissent sur des mots clés ; le système identifie les requêtes qui déclenchent les annonces ; il estime la probabilité de clic sur chaque annonce ; puis attribue les emplacements via une enchère qui équilibre les enchères avec l'engagement prévu.
En revanche, l'approche GEM adapte les mêmes étapes aux LLM, mais fait face à de nouveaux défis à chaque étape : il n'y a pas d'espaces publicitaires fixes, le système doit donc décider si une requête peut prendre une publicité et où l'insérer dans un texte libre ; l'estimation des taux de clics devient plus difficile sans mises en page structurées ; et la pertinence doit être mise en balance avec la satisfaction de l'utilisateur, puisque les publicités sont directement intégrées dans la sortie du modèle plutôt que servies comme une copie autonome.
L’une des lignes de base étudiées dans le travail, Chat publicitaire, représente une méthode simple où le contenu publicitaire est inséré dans l'invite système avant que le modèle ne génère une réponse. Cela signifie que le modèle produit une réponse avec la publicité déjà intégrée, guidée par un agenda préchargé.
L'autre approche, Ad-LLM, a été développé par les auteurs dans le cadre de la nouvelle offre de benchmark. Ad-LLM suit un parcours modulaire : il commence par générer une réponse claire et sans publicité ; sélectionne une annonce pertinente ; identifie le meilleur point d'insertion en fonction du flux sémantique ; et enfin, réécrit le résultat pour intégrer l'annonce de manière fluide.

Comparaison entre Ad-Chat et la méthode « Ad-LLM » des auteurs. Ad-Chat injecte des publicités via l'invite système avant la génération, avec un contrôle limité du placement. Ad-LLM sépare la génération des réponses de l'insertion des publicités, en choisissant les points d'insertion en fonction du flux sémantique et en affinant le résultat. Les deux méthodes sont évaluées à l'aide des indicateurs GEM-Bench de satisfaction et d'engagement.
Bien qu'Ad-Chat soit moins cher et parfois plus persuasif, il tend à réduire la confiance et la précision. Ad-LLM obtient de meilleurs résultats en termes de satisfaction utilisateur, mais son coût est plus élevé.
Date
Pour la génération AIR, deux types d'ensembles de données ont été générés initialement : un ensemble de requêtes utilisateur (L'Utilisateur) et une base de données publicitaires (AdDB).
Étant donné que les requêtes des utilisateurs définissent les opportunités publicitaires dans les réponses du LLM, on peut dire que « l'inventaire publicitaire » existe dans ces réponses, bien que cela soit défini non seulement par l'applicabilité de la requête de l'utilisateur, mais aussi par la mesure dans laquelle le système obéira à ses propres règles concernant l'équilibre entre l'intégrité et les impératifs des annonceurs.
Dans tous les cas, les publicités n'apparaîtront que dans les réponses, même si (voir schéma ci-dessus) les demandes des utilisateurs peuvent être secrètement augmentées pour s'adapter au processus de diffusion des publicités.
Pour le scénario du chatbot, les auteurs ont construit deux ensembles de données de requête : MT-Humain et Marché LM.
MT-Human a été tiré de la partie sciences humaines de Banc MT, un test de référence multi-tours pour les LLM, et contient des questions susceptibles d'accueillir du contenu publicitaire.
LM-Market a été construit à partir de plus d'un demi-million de requêtes ChatGPT réelles collectées par LMSYS-Chat-1M, filtré pour les invites liées au marketing en anglais et regroupées par sujet à l'aide de plongements sémantiques.
Dans les deux cas, les requêtes finales ont été sélectionnées via un pipeline à plusieurs étapes combinant des regroupement, Notation LLM et vérification humaine, dans le but d'identifier les invites où l'insertion d'annonces serait naturelle et plausible.
Pour évaluer la qualité des réponses publicitaires, GEM définit une ontologie de mesure couvrant à la fois la satisfaction et l'engagement des utilisateurs. Celle-ci prend en compte des indicateurs quantitatifs, notamment flux de réponse, cohésionbauen taux de clics, ainsi que des normes qualitatives telles que de confiance, précisionbauen naturel – des mesures destinées à refléter à la fois la mesure dans laquelle une publicité s’intègre à une réponse et la probabilité que les utilisateurs la perçoivent et interagissent avec elle.
Concernant la « naturalité », le document déclare :
Le [caractère naturel] mesure dans quelle mesure l'insertion d'une publicité perturbe le flux et le naturel de la conversation, en fonction de son caractère perturbateur et authentique. Le caractère perturbateur examine si la publicité crée une impression d'interruption ou de brusquerie pendant la lecture, interrompant ainsi la concentration continue de l'utilisateur sur le sujet.
« L'authenticité évalue si la publicité porte atteinte au « contact humain » ou au « flux naturel » de la conversation, rendant la réponse rigide, stéréotypée et moins authentique. »
Pour générer un scénario de moteur de recherche traditionnel pour la phase de test, les auteurs ont créé un ensemble de données intitulé CA-Prod du AnnoncesCVLR corpus commercial, qui contient 300,000 XNUMX paires requête-annonce, chacune composée d'un mot-clé, de métadonnées et d'une étiquette manuelle marquant la pertinence :

À partir de son article source original, des exemples de l'ensemble de données AdsCVLR, qui ont contribué à fournir du matériel pour les tests des auteurs. Source : http://www.jdl.link/doc/2011/20221224_AdsCVLR.pdf
Les enregistrements contenant des champs manquants ont été supprimés et seules les requêtes contenant à la fois des annonces positives et négatives (voir l'image ci-dessus pour des exemples) ont été conservées.
Pour affiner les données, les annonces ont été regroupées en six groupes thématiques (équipement de pelouse et de jardin, chaussures à enfiler, articles ménagers, suppléments nutritionnels, appareils Androidbauen robes de femmes) en utilisant des plongements sémantiques et un clustering K-means.
Les requêtes ont ensuite été attribuées à des sujets en fonction de leurs annonces positives, les ensembles trop clairsemés ou trop denses étant exclus, avant que 120 requêtes et 2,215 XNUMX produits uniques ne soient finalement échantillonnés pour l'analyse comparative.
Tests
Pour évaluer l'efficacité des différentes stratégies d'injection de publicité, l'analyse comparative a abordé trois questions fondamentales : l'efficacité de chaque méthode par rapport aux indicateurs de satisfaction et d'engagement définis ; comment les choix de conception interne au sein d'Ad-LLM pourraient affecter ses résultats ; et comment le coût de calcul se comparerait entre les systèmes.
Les auteurs ont évalué Ad-Chat et trois variantes du pipeline Ad-LLM des auteurs, chacune différant dans la manière dont les publicités étaient récupérées (soit à partir de l'invite, soit à partir de la réponse générée), et dans la mesure où la sortie finale était réécrite pour plus de fluidité.
Toutes les méthodes ont été exécutées en utilisant dobao-1-5-lite-32k comme modèle de base et jugé avec gpt-4.1-mini.

Efficacité des variantes Ad-Chat et Ad-LLM sur les ensembles de données MT-Human, LM-Market et CA-Prod. Les indicateurs quantitatifs incluent le flux de réponse (RF), la cohérence de la réponse (RC), le flux publicitaire (AF), la cohérence publicitaire (AC), le taux d'injection (IR), le taux de clics (CTR) et les scores globaux. Les indicateurs qualitatifs couvrent la précision, le caractère naturel, la personnalité, la confiance, la notoriété, le taux de clics et la performance globale.
Sur les trois ensembles de données, Ad-LLM a obtenu de meilleurs résultats qu'Ad-Chat, tant sur le plan de la satisfaction que de l'engagement. Comme le montre le tableau des résultats ci-dessus, la meilleure variante d'Ad-LLM a amélioré Ad-Chat de 8.4 %, 1.5 % et 3.8 % sur le plan quantitatif global ; et de 10.7 %, 10.4 % et 8.6 % sur le plan qualitatif pour MT-Human, LM-Market et CA-Prod respectivement.
Parmi ces résultats, les auteurs déclarent :
« Ces résultats démontrent que la génération d'une réponse brute et l'injection ultérieure de publicités produisent une meilleure qualité de réponse par rapport à l'approche plus simple consistant à s'appuyer uniquement sur l'injection d'invite du système.
« Pour des dimensions spécifiques de satisfaction et d'engagement des utilisateurs, Ad-Chat montre systématiquement un écart de performance substantiel par rapport aux solutions Ad-LLM dans les trois ensembles de données, en particulier dans des dimensions telles que la précision, la personnalité et la confiance. »
De plus, Ad-LLM a enregistré ses plus fortes progressions en termes de précision, de personnalité et de confiance, surpassant Ad-Chat de respectivement 17.6 %, 23.3 % et 17.2 %. Selon l'étude, ces différences pourraient provenir de la façon dont Ad-Chat utilise les invites système pour orienter le modèle vers un langage plus personnalisé et promotionnel, ce qui, selon les auteurs, peut engendrer un ton commercial qui nuit à la précision et à la confiance.
Ad-Chat a également produit des taux d'injection inférieurs, même lorsqu'il a été évalué sur des requêtes sélectionnées pour leur pertinence publicitaire, et les auteurs attribuent cela à une dépendance aux signaux basés sur des invites (qu'ils qualifient de difficiles à contrôler).
Cependant, dans le contexte des moteurs de recherche, Ad-Chat a obtenu un taux de clics supérieur de 8.6 %, ce qui, selon l'article, pourrait refléter l'avantage d'utiliser un LLM pour récupérer des produits candidats, plutôt que de s'appuyer uniquement sur des intégrations sémantiques :

Comparaison des scores de performance globaux de quatre modèles de juges (GPT-4.1-mini, Qwen-max, claude-3-5-haiku, kimi-k2) pour Ad-Chat et trois variantes d'Ad-LLM (GI-R, GIR-R, GIR-P) sur les jeux de données MT-Human, LM-Market et CA-Prod. Bien que les scores varient selon le juge, Ad-LLM surpasse systématiquement Ad-Chat dans toutes les conditions.
Le deuxième tableau de résultats (présenté ci-dessus) montre que sur les trois ensembles de données, les solutions Ad-LLM surpassent systématiquement Ad-Chat sur quatre modèles de juges : GPT-4.1-mini ; Qwen-max ; Claude-3-5-haiku ; et Kimi-k2.
Ces juges ont été choisis pour se différencier du modèle de base doubao-1-5-lite-32k, ce qui contribue à réduire le biais lié à l'alignement des familles de modèles. GIR-R s'est classé premier ou deuxième dans tous les cas, ce qui suggère un large consensus parmi les juges quant à la supériorité d'Ad-LLM. La répartition selon les dimensions qualitatives individuelles suit de près la tendance observée dans les résultats immédiatement précédents (présentés ci-dessus).
En conclusion, l'article souligne que les modèles Ad-Chat et Ad-LLM nécessitent des ressources plus importantes que les modèles plus innovants et plus performants, et que l'utilisation d'agents LLM dans ce type de transaction pourrait représenter une charge importante. On peut toutefois imaginer que des problèmes de latence (généralement critiques dans les scénarios de diffusion publicitaire) pourraient survenir suite à ce type d'utilisation de LLM (bien que ce point ne soit pas spécifiquement abordé dans l'article).
Dans tous les cas, la mise en œuvre par les auteurs de la stratégie Ad-Chat (la ligne supérieure du schéma précédent présenté au début de l'article) s'est avérée offrir le taux de clics le plus élevé, même si elle avait le coût LLM associé le plus élevé.
Conclusion
Bien qu'il ne soit pas surprenant que la littérature spécule sur les méthodes par lesquelles les LLM peuvent diffuser de la publicité, il existe en réalité assez peu de recherches accessibles au public sur le sujet ; cela rend le document actuel, et ce que nous pouvons raisonnablement interpréter comme son prédécesseur, tarif intéressant.
Quiconque a travaillé avec un service de vente de publicité ou de vente d’inventaire sait que les annonceurs veulent toujours plus – idéalement, avoir des publicités présentées comme du contenu factuel, totalement indistinct du flux de contenu de l’hôte ; et ils paieront une prime importante pour cela (tout comme l’hôte, qui risque ainsi sa crédibilité et sa réputation auprès des lecteurs et d’autres types de parties prenantes).
Il sera donc intéressant de voir dans quelle mesure, le cas échéant, les codicilles chargés de publicité envisagés dans les deux articles pourraient être incités à remonter plus haut dans la réponse d'un LLM et à se rapprocher de la « charge utile ».
Première publication le jeudi 18 septembre 2025












