Unghiul lui Anderson

Pregătirea pentru publicitate în modelele de limbaj mari

Publicat 18 septembrie 2025

Actualizat 18 mai 2026

Martin Anderson

Source: ChatGPT-4o and https://commons.wikimedia.org/wiki/File:Microsoft_Surface_Laptop_7.jpg

Noi cercetări arată cum anunțurile pot fi încorporate în curând direct în răspunsurile de tip ChatGPT – nu sub formă de bannere sau ferestre pop-up, ci țesute în însuși răspunsul.

Pe măsură ce popularitatea larg răspândită și în creștere a Modelelor de Limbaj Mari subminează metodele tradiționale de publicitate care au alimentat internetul de aproape la începuturile sale, oricine familiarizat cu tactica de cucerire a pieței a capitaliștilor de risc se va întreba cât mai mult timp vor putea chatbot-urile AI să se abțină de la includerea conținutului publicitar în răspunsurile lor.

Pe măsură ce Netflix și o listă în expansiune de servicii de streaming demonstrează, strategia tradițională din era cablului de a combina abonamente plătite cu publicitate încorporată (adesea justificată ca o modalitate de a menține costurile consumatorilor sub control) câștigă din nou teren; și trecerea spre încorporarea directă a anunțurilor în ieșirile LLM începe să pară mai puțin speculativă și mai mult ca o adoptare naturală a acestui model.

Din lucrarea ‘Anunțuri online cu LLM: Oportunități și provocări’, un exemplu destul de reprezentativ pentru tranziția pe care o așteaptă majoritatea oamenilor atunci când LLM-urile sunt monetizate. Sursă: https://www.sigecom.org/exchanges/volume_22/2/FEIZI.pdf

Perspectiva de a include anunțuri într-un mediu emergent care are deja probleme cu credibilitatea, poate părea precipitată; însă scara investițiilor în inteligență artificială generativă din ultimele douăsprezece luni sugerează că piața nu este în prezent definită de o atitudine precaută sau circumstanțială; și cu jucători mai mari, cum ar fi OpenAI, care sunt probabil supra-îndatorați și au nevoie de o revenire rapidă a investițiilor masive, istoria indică faptul că perioada de luni de miere a ieșirilor fără publicitate se poate termina.

GEM-Bench

Cu acest climat și cu aceste imperative de afaceri în minte, o lucrare interesantă nouă din Singapore oferă primul benchmark destinat interfețelor de chatbot AI, împreună cu noi metrice de cuantificare a ceea ce poate dovedi a fi una dintre cele mai explozive arene publicitare din ultimii 100 de ani.

Probabil în mod optimist, autorii presupun o diviziune netă între conținut “adevărat” și conținut publicitar, unde “devierea” de la răspunsurile standard în copie de marketing este destul de ușor de detectat:

Exemple ale tipului de integrare a anunțurilor care ar putea avea loc sub cele două modele studiate în lucrarea nouă. Sursă: https://arxiv.org/pdf/2509.14221

Rămâne de văzut dacă advertiserii înșiși vor căuta, așa cum a fost tendința lor, să-și integreze conținutul publicitar mai subtil în ieșiri decât în exemplele prezentate în lucrare.

Însă acestea sunt chestiuni pentru mai târziu; pentru moment, domeniul este atât de nou încât chiar și terminologia de bază lipsește sau nu este stabilită.

Lucrarea introduce, prin urmare, Marketingul Motorului Generativ (GEM) ca o nouă cadră pentru monetizarea chatbot-urilor bazate pe LLM, prin încorporarea directă a anunțurilor relevante în răspunsurile generate.

Cercetătorii identifică Generarea de Răspunsuri Injectate cu Anunțuri (AIR) ca provocarea centrală în GEM și argumentează că benchmark-urile existente sunt slab adaptate pentru a studia acest lucru. Pentru a umple această lacună, ei introduc ceea ce pretind a fi primul benchmark proiectat special pentru acest scop.

GEM-Bench constă din trei seturi de date curate care acoperă scenarii de chatbot și de motor de căutare. De asemenea, include o ontologie de metrice proiectată pentru a evalua multiple aspecte ale satisfacției și angajamentului utilizatorilor, împreună cu o suită de metode de bază implementate într-un cadru modular multi-agent.

Autorii susțin că, deși metodele simple bazate pe prompt pot obține metrice de angajament respectabile, cum ar fi ratele ridicate de click-through, acestea tind să deterioreze satisfacția utilizatorilor. Abordările care inserează anunțuri în răspunsuri pregenerate, fără publicitate, arată îmbunătățiri în încredere și calitatea răspunsului – deși la un cost mai mare de calcul.

Aceste compromisuri, argumentează lucrarea, subliniază nevoia de tehnici mai eficiente și mai eficace pentru integrarea anunțurilor în ieșirile generative.

Noua lucrare, intitulată GEM-Bench: Un benchmark pentru Generarea de Răspunsuri Injectate cu Anunțuri în cadrul Marketingului Motorului Generativ, provine de la patru cercetători de la Universitatea Națională din Singapore.

Metodă

Conturul pentru Marketingul Motorului Generativ (GEM) împrumută de la principiile de bază ale Marketingului Motorului de Căutare (SEM). SEM tradițional funcționează prin asocierea întrebărilor cu anunțuri printr-o conductă multietapă în care advertiserii licitează pe cuvinte cheie; sistemul identifică care întrebări declanșează anunțuri; sistemul estimează cât de probabil este ca fiecare anunț să fie accesat; și apoi alocă plasarea prin licitație care echilibrează ofertele cu angajamentul prevăzut.

În contrast, abordarea GEM adaptează aceste etape la LLM, dar se confruntă cu noi provocări la fiecare etapă: nu există sloturi publicitare fixe, așa că sistemul trebuie să decidă dacă o întrebare poate primi un anunț și unde să-l insereze în textul liber; estimarea ratelor de click-through devine mai dificilă fără layout-uri structurate; și relevanța trebuie echilibrată cu satisfacția utilizatorului, deoarece anunțurile sunt țesute direct în ieșirile modelului, și nu sunt servite ca copie independentă.

Una dintre liniile de bază studiate în lucrare, Ad-Chat, reprezintă o metodă simplă în care conținutul publicitar este inserat în promptul sistemului înainte de a genera un răspuns. Acest lucru înseamnă că modelul produce un răspuns cu anunțul deja încorporat, ghidat de o agendă preîncărcată.

Cealaltă abordare, Ad-LLM, a fost dezvoltată de autori ca parte a noului benchmark oferit. Ad-LLM urmează o cale modulară, generând mai întâi un răspuns brut, fără publicitate; selectând un anunț relevant; identificând cel mai bun punct de inserare pe baza fluxului semantic; și, în final, rescriind ieșirea pentru a integra anunțul în mod fluent:

Comparație între Ad-Chat și metoda ‘Ad-LLM’ a autorilor. Ad-Chat injectează anunțuri prin promptul sistemului înainte de generare, cu control limitat asupra plasamentului. Ad-LLM separă generarea răspunsului și inserarea anunțului, alegând punctele de inserare pe baza fluxului semantic și rafinând rezultatul.

În timp ce Ad-Chat este mai ieftin și uneori mai convingător, tendința este să reducă încrederea și acuratețea. Ad-LLM performează mai bine în ceea ce privește metricile de satisfacție ale utilizatorilor, dar la un cost mai mare.

Date

Pentru generarea de răspunsuri injectate cu anunțuri, au fost generate inițial două tipuri de seturi de date: un set de întrebări utilizator (Utilizator) și o bază de date de anunțuri (AdDB).

Deoarece întrebările utilizatorilor definesc oportunitățile publicitare în răspunsurile LLM, “inventarul publicitar” poate fi spus că există în aceste răspunsuri, deși acesta este definit nu numai de aplicabilitatea întrebării utilizatorului, ci și de măsura în care sistemul va respecta propriile reguli despre echilibrul integrității cu imperativele advertiserilor.

În orice caz, anunțurile vor apărea numai în răspunsuri, chiar dacă (a se vedea schema de mai sus) solicitările utilizatorilor pot fi secret augmentate pentru a facilita procesul de servire a anunțurilor.

Pentru scenariul de chatbot, autorii au construit două seturi de date de întrebări: MT-Human și LM-Market.

MT-Human a fost extras din partea de științe umaniste a MT-Bench, un benchmark multi-etapă pentru LLM, și conține întrebări care sunt probabil să conțină conținut publicitar.

LM-Market a fost construit din peste jumătate de milion de întrebări reale ChatGPT colectate de LMSYS-Chat-1M, filtrate pentru prompturi de marketing în limba engleză, și grupate pe subiecte utilizând încorporări semantice.

În ambele cazuri, întrebările finale au fost selectate printr-o conductă multi-etapă care combină clustering automat, evaluarea LLM și verificarea umană, cu scopul de a identifica prompturi unde inserarea anunțurilor ar fi naturală și plauzibilă.

Pentru a evalua calitatea răspunsurilor injectate cu anunțuri, GEM definește o ontologie de măsurare care acoperă atât satisfacția utilizatorilor, cât și angajamentul. Acesta include metrice cantitative, cum ar fi fluxul răspunsului, coerența răspunsului și rata de click-through, precum și standarde calitative, cum ar fi încrederea, acuratețea și naturalitatea – metrice menite să reflecte atât cât de bine un anunț se potrivește într-un răspuns, cât și cât de probabil este ca utilizatorii să perceapă și să interacționeze cu el.

În ceea ce privește “Naturalitatea”, lucrarea afirmă:

‘[Naturalitatea] măsoară măsura în care inserarea anunțului perturbă fluxul și naturalitatea conversației, pe baza perturbării și autenticității. Perturbarea examinează dacă anunțul creează un sentiment de “săritură” sau “abrupt” în timpul citirii, întrerupând focalizarea continuă a utilizatorului asupra subiectului. ‘

‘Autenticitatea evaluează dacă anunțul subminează “atitudinea umană” sau “fluxul natural” al conversației, făcând răspunsul să pară rigid, formulatic și mai puțin autentic.’

Pentru a genera un scenariu tradițional de motor de căutare pentru faza de testare, autorii au creat un set de date intitulat CA-Prod din corpusul comercial AdsCVLR, care conține 300.000 de perechi întrebare-anunț, fiecare constând dintr-un cuvânt cheie, metadate și o etichetă manuală care marchează relevanța:

Din lucrarea originală, exemple din setul de date AdsCVLR, care a ajutat la furnizarea de material pentru testele autorilor. Sursă: http://www.jdl.link/doc/2011/20221224_AdsCVLR.pdf

Înregistrările cu câmpuri lipsă au fost eliminate, și au fost păstrate numai întrebările care conțineau atât anunțuri pozitive, cât și negative (a se vedea imaginea de mai sus pentru exemple).

Pentru a rafina datele, anunțurile au fost grupate în șase grupuri tematice (echipamente pentru grădină și grădinărit, încălțăminte, articole pentru casă, suplimente de nutriție, dispozitive Android și rochii pentru femei) utilizând încorporări semantice și clustering K-means.

Întrebările au fost apoi atribuite unor subiecte în funcție de anunțurile pozitive, cu seturi prea rare sau dense excluse, înainte de a fi selectate în final 120 de întrebări și 2.215 produse unice pentru benchmark.

Teste

Pentru a evalua cât de bine strategiile de injecție a anunțurilor au performant, benchmark-ul a abordat trei întrebări de bază: cât de eficientă a fost fiecare metodă în ceea ce privește metricile definite de satisfacție și angajament; cum ar putea afecta alegerile de proiectare interne din Ad-LLM rezultatele; și cum ar putea fi comparat costul computațional între sisteme.

Autorii au evaluat Ad-Chat și trei variante ale pipeline-ului Ad-LLM, fiecare diferențiindu-se prin modul în care anunțurile au fost recuperate (fie din prompt, fie din răspunsul generat) și prin faptul că ieșirea finală a fost rescrisă pentru fluență.

Toate metodele au fost rulate utilizând Doubao-1-5-lite-32k ca model de bază și evaluate cu GPT-4.1-mini.

Eficacitatea Ad-Chat și a variantelor Ad-LLM pe seturile de date MT-Human, LM-Market și CA-Prod.

Pe toate cele trei seturi de date, Ad-LLM a produs rezultate mai puternice decât Ad-Chat atât în ceea ce privește satisfacția, cât și angajamentul. Așa cum se arată în tabelul de rezultate de mai sus, cea mai bună variantă Ad-LLM a îmbunătățit Ad-Chat cu 8,4%, 1,5% și 3,8% în scorurile cantitative generale; și cu 10,7%, 10,4% și 8,6% în scorurile calitative pentru MT-Human, LM-Market și CA-Prod, respectiv.

Din aceste rezultate, autorii afirmă:

‘Aceste rezultate demonstrează că generarea unui răspuns brut și injectarea ulterioară a anunțurilor oferă o calitate a răspunsului mai bună în comparație cu abordarea mai simplă de a se baza exclusiv pe injecția prin promptul sistemului. ‘

‘Pentru dimensiunile specifice de satisfacție și angajament ale utilizatorului, Ad-Chat arată în mod constant o diferență semnificativă de performanță în comparație cu soluțiile Ad-LLM pe toate cele trei seturi de date, în special în dimensiuni cum ar fi acuratețea, personalitatea și încrederea.’

Mai mult, Ad-LLM a arătat câștiguri semnificative în acuratețe, personalitate și încredere, depășind Ad-Chat cu până la 17,6%, 23,3% și 17,2%, respectiv. Conform lucrării, aceste diferențe ar putea rezulta din modul în care Ad-Chat utilizează prompturile sistemului pentru a direcționa modelul către un limbaj mai personalizat și promovational – ceea ce autorii susțin că poate duce la un ton “de vânzător” care reduce acuratețea și încrederea.

Ad-Chat a produs, de asemenea, rate de injecție mai scăzute, chiar și atunci când a fost evaluat pe întrebări selectate pentru adecvarea anunțurilor, și autorii atribuie acest lucru dependenței de prompturile sistemului (pe care le caracterizează ca fiind dificil de controlat).

În setarea motorului de căutare, însă, Ad-Chat a atins o rată de click-through cu 8,6% mai mare, pe care lucrarea o sugerează că ar putea reflecta avantajul utilizării unui LLM pentru a recupera candidați de produse, în loc de a se baza exclusiv pe încorporări semantice:

Comparație a scorurilor de performanță generală pe patru modele de judecată (GPT-4.1-mini, Qwen-max, claude-3-5-haiku, kimi-k2) pentru Ad-Chat și trei variante Ad-LLM (GI-R, GIR-R, GIR-P) pe seturile de date MT-Human, LM-Market și CA-Prod. În timp ce scorurile variază în funcție de judecător, Ad-LLM performează constant mai bine decât Ad-Chat în toate condițiile.

Comparație a scorurilor de performanță generală pe patru modele de judecată pentru Ad-Chat și trei variante Ad-LLM pe seturile de date MT-Human, LM-Market și CA-Prod.

Pe toate cele trei seturi de date, Ad-LLM a performant mai bine decât Ad-Chat în ceea ce privește atât satisfacția, cât și angajamentul. Tabelul de rezultate de mai sus arată că cea mai bună variantă Ad-LLM a îmbunătățit Ad-Chat cu 8,4%, 1,5% și 3,8% în scorurile cantitative generale; și cu 10,7%, 10,4% și 8,6% în scorurile calitative pentru MT-Human, LM-Market și CA-Prod, respectiv.

În încheiere, lucrarea notează că atât Ad-Chat, cât și Ad-LLM necesită resurse mai mari decât modelele mai inovatoare și mai eficiente, și că nevoia de a utiliza agenți LLM în acest tip de tranzacție poate reprezenta o suprasarcină semnificativă. Deși s-ar putea imagina că problemele de latență (de obicei critice în scenariile de servire a anunțurilor) ar putea apărea din utilizarea LLM în acest mod (deși acest lucru nu este abordat în mod specific în lucrare).

În orice caz, implementarea strategiei Ad-Chat de către autori (linia superioară din schema prezentată la începutul articolului) a oferit cea mai mare rată de click-through, deși a avut și costul LLM asociat cel mai ridicat.

Concluzie

Deși nu este surprinzător că literatura ar specula despre metodele prin care LLM-urile pot transporta publicitate, există de fapt relativ puține cercetări disponibile pe această temă; această lucrare, împreună cu ceea ce putem interpreta în mod rezonabil ca predecesoarea sa, este deci o lectură interesantă.

Oricine care a lucrat cu un departament de vânzări publicitare sau care a vândut inventar va ști că advertiserii vor întotdeauna mai mult – ideal, să aibă anunțuri prezentate ca conținut factual, absolut indistinct de fluxul de conținut gazdă; și vor plăti un premiu semnificativ pentru acest lucru (împreună cu gazda, care astfel riscă credibilitatea și poziția sa cu cititorii și cu alte tipuri de stakeholder).

Prin urmare, va fi interesant de văzut în ce măsură, dacă există, anexele publicitare încărcate din cele două lucrări ar putea fi stimulate să se deplaseze mai sus în răspunsul unui LLM și mai aproape de “încărcătură”.

Publicat pentru prima dată joi, 18 septembrie 2025