Angle dâAnderson
Préparation à la publicité dans les grands modÚles de langage

De nouvelles recherches montrent comment les publicités pourraient bientôt être intégrées directement dans les réponses de type ChatGPT – non sous forme de bannières ou de fenêtres contextuelles, mais tissées dans la réponse elle-même. Un nouveau référentiel teste combien ces réponses avec publicités intégrées peuvent rester utiles, crédibles et rentables, et peut nécessiter un compromis entre une expérience utilisateur acceptable et des clics.
Alors que la popularité généralisée et croissante des grands modèles de langage mine les méthodes publicitaires traditionnelles qui ont alimenté Internet depuis presque son inception, quiconque familiarisé avec les tactiques de capture de marché des capitalistes d’investissement se demandera combien de temps encore les chatbots IA pourront s’abstenir d’inclure du contenu publicitaire dans leurs réponses.
Alors que Netflix et un nombre croissant de services de streaming démontrent, la stratégie de l’ère du câble consistant à combiner des abonnements payants avec des publicités intégrées (souvent justifiées comme un moyen de réduire les coûts pour les consommateurs) regagne de l’élan ; et le passage à l’intégration de publicités directement dans les sorties de LLM commence à apparaître moins spéculatif et plus comme un adoptant naturel de ce modèle.

À partir du document ‘Publicités en ligne avec les LLM : opportunités et défis’, un exemple assez représentatif de la transition que la plupart des gens attendent lorsque les LLM sont monétisés. Source: https://www.sigecom.org/exchanges/volume_22/2/FEIZI.pdf
La perspective d’inclure des publicités dans un média émergent qui a déjà des problèmes notables de crédibilité peut sembler prématurée ; pourtant, l’ampleur des investissements dans l’IA générative au cours des douze derniers mois suggère que le marché n’est pas actuellement défini par une attitude prudente ou circonspecte ; et avec de plus grands acteurs tels que OpenAI qui sont probablement surendettés et ont besoin d’un retour rapide sur un investissement massif, l’histoire indique que la période de miel de sorties sans publicité peut être en train de se terminer.
GEM-Bench
Avec ce climat et ces impératifs commerciaux en tête, un document intéressant de Singapour propose le premier référentiel destiné aux interfaces de chatbot IA, ainsi que de nouvelles métriques de quantification pour ce qui pourrait s’avérer l’un des domaines publicitaires les plus explosifs des 100 dernières années.
Peut-être de manière optimiste, les auteurs supposent une division nette entre le contenu « réel » et le contenu publicitaire, où la « déviation » des réponses standard vers du contenu marketing est assez facile à repérer:

Exemples du type d’intégration de publicités qui pourrait avoir lieu dans les deux modèles étudiés dans le nouveau document. Source: https://arxiv.org/pdf/2509.14221
Il reste à voir si les annonceurs eux-mêmes chercheront à intégrer leur contenu publicitaire de manière plus subtile dans la sortie que dans les exemples donnés dans le document.
Cependant, ce sont des questions pour plus tard ; pour le moment, le domaine est si naissant que même la terminologie de base manque, ou n’est pas encore établie.
Le document introduit donc Generative Engine Marketing (GEM) comme un nouveau cadre pour la monétisation des chatbots basés sur les LLM, en intégrant des publicités pertinentes directement dans les réponses générées.
Les chercheurs identifient Ad-Injected Response (AIR) comme le défi central dans GEM, et soutiennent que les référentiels existants sont mal adaptés pour l’étudier. Pour combler cette lacune, ils introduisent ce qu’ils prétendent être le premier référentiel conçu spécifiquement à cette fin.
GEM-Bench se compose de trois jeux de données ciblés couvrant des scénarios de chatbot et de moteur de recherche. Il comprend également une ontologie de métriques conçue pour évaluer plusieurs facettes de la satisfaction et de l’engagement de l’utilisateur, ainsi qu’un ensemble de méthodes de base mises en œuvre dans un cadre multi-agent modulaire.
Les auteurs soutiennent que même si les méthodes basées sur les invites simples peuvent atteindre des métriques d’engagement respectables, telles que des taux de clics élevés (CTR), elles tendent à dégrader la satisfaction de l’utilisateur. En revanche, les approches qui insèrent des publicités dans des réponses pré-générées sans publicité montrent des améliorations en termes de confiance et de qualité de réponse – mais au prix d’une charge de calcul plus élevée.
Ces compromis, soutient le document, mettent en évidence la nécessité de techniques plus efficaces et efficientes pour intégrer des publicités dans les sorties génératives.
Le nouveau travail est intitulé GEM-Bench: Un référentiel pour la génération de réponses avec injection de publicités dans le marketing de moteur génératif, et provient de quatre chercheurs de l’Université nationale de Singapour.
Méthode
La méthode de Generative Engine Marketing (GEM) s’inspire des principes de base du Marketing de Moteur de Recherche (SEM). Le SEM traditionnel fonctionne en faisant correspondre des requêtes à des publicités via un pipeline multistage dans lequel les annonceurs font des offres sur des mots clés ; le système identifie quelles requêtes déclenchent des publicités ; le système estime la probabilité que chaque publicité soit cliquée ; et attribue ensuite une place via une enchère qui équilibre les offres avec l’engagement prévu.
En revanche, l’approche GEM adapte les mêmes étapes aux LLM, mais fait face à de nouveaux défis à chaque étape : il n’y a pas de places publicitaires fixes, donc le système doit décider si une requête peut prendre une publicité et où l’insérer dans du texte libre ; estimer les taux de clics devient plus difficile sans dispositions structurées ; et la pertinence doit être équilibrée avec la satisfaction de l’utilisateur, puisque les publicités sont tissées directement dans la sortie du modèle plutôt que servies comme copie autonome.
L’un des référentiels étudiés dans le travail, Ad-Chat, représente une méthode simple où le contenu publicitaire est inséré dans l’invite du système avant que le modèle génère une réponse. Cela signifie que le modèle produit une réponse avec la publicité déjà intégrée, guidée par un agenda préchargé.
L’autre approche, Ad-LLM, a été développée par les auteurs dans le cadre du nouveau référentiel. Ad-LLM suit un chemin modulaire, en générant d’abord une réponse brute sans publicité ; en sélectionnant une publicité pertinente ; en identifiant le meilleur point d’insertion en fonction du flux sémantique ; et en réécrivant enfin la sortie pour intégrer la publicité de manière fluide :

Comparaison entre Ad-Chat et la méthode ‘Ad-LLM’ des auteurs. Ad-Chat injecte des publicités via l’invite du système avant la génération, avec un contrôle de placement limité. Ad-LLM sépare la génération de réponse et l’insertion de publicité, en choisissant des points d’insertion en fonction du flux sémantique, et en affinant le résultat. Les deux sont notés en utilisant les métriques GEM-Bench pour la satisfaction et l’engagement.
Alors que Ad-Chat est moins cher et parfois plus persuasif, il tend à réduire la confiance et l’exactitude. Ad-LLM obtient de meilleurs résultats sur les métriques de satisfaction de l’utilisateur, mais à un coût plus élevé.
Données
Pour la génération de réponses avec injection de publicités, deux types de jeux de données ont été générés initialement : un ensemble de requêtes utilisateur (Utilisateur) et une base de données de publicités (AdDB).
Puisque les requêtes utilisateur définissent les opportunités publicitaires dans les réponses du LLM, l’inventaire publicitaire peut être dit exister dans ces réponses, bien que cela soit défini non seulement par l’applicabilité de la requête de l’utilisateur mais également par la mesure dans laquelle le système obéira à ses propres règles concernant l’équilibre de l’intégrité par rapport aux impératifs des annonceurs.
En tout cas, les publicités n’apparaîtront que dans les réponses, même si (voir schéma ci-dessus) les requêtes utilisateur peuvent être secrètement augmentées pour accommoder le processus de service de publicités.
Pour le scénario de chatbot, les auteurs ont construit deux ensembles de requêtes : MT-Human et LM-Market.
MT-Human a été tiré de la partie humanités du MT-Bench, un référentiel multivol pour les LLM, et contient des questions susceptibles d’accueillir du contenu publicitaire.
LM-Market a été construit à partir de plus d’un demi-million de requêtes ChatGPT réelles collectées par LMSYS-Chat-1M, filtrées pour les invites de marketing en anglais, et regroupées par sujet en utilisant des embeddings sémantiques.
Dans les deux cas, les requêtes finales ont été sélectionnées via un pipeline multistage combinant le regroupement automatisé, la notation LLM et la vérification humaine, avec pour objectif d’identifier les invites pour lesquelles l’insertion de publicités serait naturelle et plausible.
Pour évaluer la qualité des réponses avec injection de publicités, GEM définit une ontologie de mesure couvrant à la fois la satisfaction de l’utilisateur et l’engagement. Cela inclut des métriques quantitatives telles que flux de réponse, cohérence et taux de clics, ainsi que des normes qualitatives telles que confiance, exactitude et naturalité – des métriques destinées à refléter à la fois la façon dont une publicité s’intègre dans une réponse et la probabilité que les utilisateurs la perçoivent et interagissent avec elle.
En ce qui concerne la « Naturalité », le document indique :
‘[Naturalité] mesure dans quelle mesure l’insertion de publicités perturbe le flux et la naturalité de la conversation, sur la base de l’interruptivité et de l’authenticité. L’interruptivité examine si la publicité crée un sentiment de « saut » ou « abrupt » lors de la lecture, rompant la focalisation continue de l’utilisateur sur le sujet.
‘L’authenticité évalue si la publicité sape le « toucher humain » ou le « flux naturel » de la conversation, rendant la réponse rigide, formulée et moins authentique.’
Pour générer un scénario de moteur de recherche traditionnel pour la phase de test, les auteurs ont créé un jeu de données intitulé CA-Prod à partir du corpus commercial AdsCVLR, qui contient 300 000 paires de requêtes et de publicités, chacune consistant en un mot clé, des métadonnées et un libellé manuel indiquant la pertinence :

À partir de son document source, des exemples du jeu de données AdsCVLR, qui ont aidé à fournir du matériel pour les tests des auteurs. Source: http://www.jdl.link/doc/2011/20221224_AdsCVLR.pdf
Les enregistrements avec des champs manquants ont été supprimés, et seules les requêtes contenant à la fois des publicités positives et négatives (voir image ci-dessus pour des exemples) ont été conservées.
Pour raffiner les données, les publicités ont été regroupées en six groupes thématiques (équipement de jardin et de jardinage, chaussures à glissière, articles ménagers, suppléments nutritionnels, appareils Android et robes pour femmes) en utilisant des embeddings sémantiques et le regroupement K-means.
Les requêtes ont ensuite été attribuées à des sujets en fonction de leurs publicités positives, avec des ensembles trop peu denses ou trop denses exclus, avant que 120 requêtes et 2 215 produits uniques soient finalement échantillonnés pour le référentiel.
Tests
Pour évaluer combien les différentes stratégies d’injection de publicités fonctionnaient bien, le référentiel a abordé trois questions fondamentales : combien chaque méthode était efficace sur les métriques de satisfaction et d’engagement définies ; comment les choix de conception internes dans Ad-LLM pourraient affecter ses résultats ; et comment le coût de calcul se comparerait entre les systèmes.
Les auteurs ont évalué Ad-Chat et trois variantes du pipeline Ad-LLM, chacune différant dans la façon dont les publicités étaient récupérées (soit à partir de l’invite ou de la réponse générée) et dans la mesure où la sortie finale était réécrite pour la fluidité.
Toutes les méthodes ont été exécutées en utilisant doubao-1-5-lite-32k comme modèle de base et jugées en utilisant gpt-4.1-mini.

Efficacité d’Ad-Chat et des variantes d’Ad-LLM sur les ensembles de données MT-Human, LM-Market et CA-Prod. Les métriques quantitatives incluent le flux de réponse (RF), la cohérence de réponse (RC), le flux de publicité (AF), la cohérence de publicité (AC), le taux d’injection (IR), le taux de clics (CTR) et les scores globaux. Les métriques qualitatives couvrent l’exactitude, la naturalité, la personnalité, la confiance, la notice, le clic (clic), et la performance globale.
Sur tous les trois ensembles de données, Ad-LLM a produit de meilleurs résultats que Ad-Chat sur les deux mesures de satisfaction et d’engagement. Comme le montre le tableau de résultats ci-dessus, la meilleure variante d’Ad-LLM a amélioré Ad-Chat de 8,4, 1,5 et 3,8 pour cent en termes de scores quantitatifs globaux ; et de 10,7, 10,4 et 8,6 pour cent en termes de scores qualitatifs pour MT-Human, LM-Market et CA-Prod, respectivement.
Sur ces résultats, les auteurs déclarent :
‘Ces résultats démontrent qu’il est préférable de générer une réponse brute et d’injecter ensuite des publicités pour obtenir une meilleure qualité de réponse par rapport à l’approche plus simple qui consiste à s’appuyer uniquement sur l’injection d’invites de système.
‘Pour des dimensions spécifiques de satisfaction et d’engagement de l’utilisateur, Ad-Chat montre systématiquement un écart de performance important par rapport aux solutions Ad-LLM sur les trois ensembles de données, en particulier dans les dimensions telles que l’exactitude, la personnalité et la confiance.’
En outre, Ad-LLM a montré ses gains les plus importants en termes d’exactitude, de personnalité et de confiance, surpassant Ad-Chat de jusqu’à 17,6 %, 23,3 % et 17,2 % respectivement. Selon le document, ces différences pourraient résulter de la façon dont Ad-Chat utilise les invites du système pour orienter le modèle vers un langage plus personnalisé et promotionnel – ce que les auteurs soutiennent peut conduire à un ton « de vendeur » qui réduit l’exactitude et la confiance.
Ad-Chat a également produit des taux d’injection plus faibles, même lorsqu’il a été évalué sur des requêtes sélectionnées pour leur adéquation aux publicités, et les auteurs attribuent cela à une dépendance à l’égard des invites basées sur les invites (qu’ils caractérisent comme difficiles à contrôler).
Dans le scénario de moteur de recherche, cependant, Ad-Chat a atteint un taux de clics de 8,6 % plus élevé, que le document suggère peut refléter l’avantage de l’utilisation d’un LLM pour récupérer des candidats produits, plutôt que de s’appuyer uniquement sur des embeddings sémantiques :

Comparaison des scores de performance globale sur quatre modèles de juge (GPT-4.1-mini, Qwen-max, claude-3-5-haiku, kimi-k2) pour Ad-Chat et trois variantes d’Ad-LLM (GI-R, GIR-R, GIR-P) sur les ensembles de données MT-Human, LM-Market et CA-Prod. Bien que les scores varient selon le juge, Ad-LLM surpasse systématiquement Ad-Chat dans toutes les conditions.
Le deuxième tableau de résultats (ci-dessus) illustre qu’Ad-LLM surpasse systématiquement Ad-Chat sur les trois ensembles de données, sur quatre modèles de juge ; GPT-4.1-mini ; Qwen-max ; Claude-3-5-haiku ; et Kimi-k2.
Ces juges ont été choisis pour différer du modèle de base doubao-1-5-lite-32k, aidant ainsi à réduire les biais provenant de l’alignement de la famille de modèles. GIR-R s’est classé premier ou deuxième dans chaque cas, suggérant un large accord entre les juges sur la supériorité d’Ad-LLM. La ventilation sur les dimensions qualitatives individuelles suit de près le modèle observé dans les résultats précédents (affichés plus haut).
En conclusion, le document note que les deux Ad-Chat et Ad-LLM nécessitent des ressources plus élevées que les modèles plus innovants et efficaces, et que le besoin d’utiliser des agents LLM dans ce type de transaction pourrait représenter une charge importante. Même si l’on pourrait imaginer que des problèmes de latence (généralement critiques dans les scénarios de service de publicités) pourraient surgir de l’utilisation de LLM de cette manière (bien que cela ne soit pas spécifiquement abordé dans le document).
Dans tous les cas, la mise en œuvre par les auteurs de la stratégie Ad-Chat (la rangée supérieure du schéma présenté au début de l’article) a offert le taux de clics le plus élevé, même s’il avait le coût LLM associé le plus élevé.
Conclusion
Bien qu’il ne soit pas surprenant que la littérature spéculerait sur les méthodes par lesquelles les LLM peuvent supporter la publicité, il y a en fait peu de recherches publiques disponibles sur le sujet ; cela rend le document actuel, ainsi que ce que l’on peut raisonnablement interpréter comme son prédécesseur, intéressant.
Quiconque a travaillé avec un service de vente publicitaire ou en vendant des inventaires sait que les annonceurs veulent toujours plus – idéalement, pour avoir des publicités présentées comme du contenu factuel, indiscernables du flux de contenu hôte ; et ils paieront un prix premium pour cela (ainsi que l’hôte, qui risque ainsi sa crédibilité et sa position auprès des lecteurs et d’autres types de parties prenantes).
Il sera donc intéressant de voir dans quelle mesure, le cas échéant, les codicilles publicitaires envisagés dans les deux documents pourraient être incités à s’infiltrer plus haut dans une réponse LLM et plus près de la « charge utile ».
Publié pour la première fois le jeudi 18 septembre 2025












