Unghiul lui Anderson
Pregătirea pentru publicitatea în modele lingvistice mari

Noi cercetări arată cum reclamele ar putea fi în curând încorporate direct în răspunsurile în stil ChatGPT – nu ca bannere sau ferestre pop-up, ci integrate în răspunsul în sine. Un nou test de performanță testează cât de bine aceste răspunsuri injectate cu reclame pot rămâne utile, credibile și profitabile și ar putea necesita un compromis între o experiență acceptabilă pentru utilizator și numărul de clicuri.
Pe măsură ce popularitatea extinsă și crescândă a Modelelor de Limbaj Mari (LMS) subminează metodele tradiționale de publicitate care au alimentat internetul aproape de la începuturile sale, oricine este familiarizat cu tacticile de captare a pieței utilizate de investitorii de capital de risc se va întreba cât timp vor mai putea chatboții cu inteligență artificială să se abțină de la includerea de conținut publicitar în răspunsurile lor.
Pe măsură ce Netflix și o listă tot mai mare de servicii de streaming demonstra, strategia tradițională din era televiziunii prin cablu de a combina abonamentele plătite cu publicitatea încorporată (adesea justificată ca o modalitate de a menține costurile reduse pentru consumatori) își recapătă avânt; iar trecerea către încorporarea directă a reclamelor în rezultatele LLM începe să se manifeste par mai puțin speculative... și mai degrabă un adoptator natural al acelui model.

Din lucrarea „Reclame online cu masteranzi în drept: oportunități și provocări”, un exemplu destul de reprezentativ al tranziției la care se așteaptă majoritatea oamenilor atunci când masteranzii în drept monetizează. Sursă: https://www.sigecom.org/exchanges/volume_22/2/FEIZI.pdf
Perspectiva includerii reclamelor într-un mediu emergent care are deja o gamă notabilă de probleme de cu credibilitate, poate părea precipitat; totuși, amploarea investițiilor în inteligența artificială generativă evoluția din ultimele douăsprezece luni sugerează că piața nu este definită în prezent de o atitudine prudentă sau circumspectă; și având în vedere că jucători mai mari, cum ar fi OpenAI, sunt probabil supra-îndatorați și au nevoie de o rentabilitate rapidă a unei investiții masive, istoria indică faptul că perioada de lună de miere cu producție fără reclame s-ar putea apropia de sfârșit.
GEM-Bench
Având în vedere acest climat și aceste imperative de afaceri, o nouă lucrare interesantă din Singapore oferă primul benchmark care vizează interfețele chatbot-urilor bazate pe inteligență artificială, împreună cu noi metrici de cuantificare pentru ceea ce s-ar putea dovedi a fi una dintre cele mai explozive arene publicitare din ultimii 100 de ani.
Poate într-un mod optimist, autorii presupun o diviziune clară între conținutul „adevărat” și conținutul publicitar, unde „devierea” de la răspunsurile standard către textele de marketing este destul de ușor de observat:

Exemple de integrare a reclamelor care ar putea fi realizată în cadrul a două modele studiate în noua lucrare. Sursa: https://arxiv.org/pdf/2509.14221
Rămâne de văzut dacă agenții de publicitate înșiși vor căuta, așa cum au avut tendința, să-și integreze conținutul publicitar mai subtil în rezultate decât în exemplele date în lucrare.
Totuși, acestea sunt chestiuni pentru mai târziu; deocamdată, domeniul este atât de incipient încât chiar și terminologia de bază lipsește sau nu este stabilită.
Prin urmare, lucrarea introduce Marketing generativ cu motor (GEM) ca un nou cadru pentru monetizarea chatboților bazați pe LLM, prin încorporarea de reclame relevante direct în răspunsurile generate.
Cercetătorii identifică Răspuns injectat cu reclame generarea (AIR) ca provocare centrală în GEM și susțin că reperele existente sunt insuficiente pentru studierea acesteia. Pentru a umple această lacună, ei introduc ceea ce susțin a fi primul reper conceput special în acest scop.
GEM-Bench constă din trei seturi de date selectate care acoperă scenarii cu chatbot-uri și motoare de căutare. De asemenea, include o ontologie metrică concepută pentru a evalua multiple fațete ale satisfacției și implicării utilizatorilor, împreună cu o suită de metode de bază implementate într-un cadru modular multi-agent.
Autorii susțin că, deși metodele simple bazate pe solicitări pot obține indicatori de implicare respectabili, cum ar fi rate de clic (CTR) crescute, acestea tind să degradeze satisfacția utilizatorilor. În schimb, abordările care inserează reclame în răspunsuri pregenerate, fără reclame, arată îmbunătățiri în ceea ce privește încrederea și calitatea răspunsurilor - deși cu prețul unei cheltuieli de calcul mai mari.
Aceste compromisuri, susține lucrarea, evidențiază necesitatea unor tehnici mai eficiente și mai eficiente pentru integrarea reclamelor în rezultate generative.
lucrare nouă se intitulează GEM-Bench: Un punct de referință pentru generarea de răspunsuri injectate prin reclame în cadrul marketingului generativși provine de la patru cercetători de la Universitatea Națională din Singapore.
Metodă
Schița Marketingului Generativ prin Motoare (GEM) se bazează pe principiile de bază ale Marketingului prin Motoare de Căutare (SEM). SEM-ul tradițional funcționează prin potrivirea interogărilor cu anunțurile printr-o rețea de căutare în mai multe etape, în care agenții de publicitate licitează pe cuvinte cheie; sistemul identifică ce interogări declanșează anunțurile; sistemul estimează probabilitatea ca fiecare anunț să fie accesat; apoi alocă plasarea printr-o licitație care echilibrează ofertele cu implicarea estimată.
Prin contrast, abordarea GEM adaptează aceleași etape la modelele LLM, dar se confruntă cu noi provocări la fiecare pas: nu există sloturi publicitare fixe, așa că sistemul trebuie să decidă dacă o interogare poate prelua un anunț și unde să îl insereze în text liber; estimarea ratelor de clic devine mai dificilă fără machete structurate; iar relevanța trebuie echilibrată cu satisfacția utilizatorilor, deoarece anunțurile sunt integrate direct în rezultatul propriu al modelului, mai degrabă decât să fie servite ca un text independent.
Una dintre principiile de bază studiate în lucrare, Chat publicitar, reprezintă o metodă simplă prin care conținutul reclamei este inserat în promptul sistemului înainte ca modelul să genereze un răspuns. Aceasta înseamnă că modelul produce un răspuns cu reclama deja încorporată, ghidat de o agendă preîncărcată.
Cealaltă abordare, Ad-LLM, a fost dezvoltat de autori ca parte a noii oferte de referință. Ad-LLM urmează o cale modulară, generând mai întâi un răspuns curat, fără reclame; selectând o reclamă relevantă; identificând cel mai bun punct de inserare pe baza fluxului semantic; și în final rescriind rezultatul pentru a integra reclama fără probleme:

Comparație între Ad-Chat și metoda „Ad-LLM” a autorilor. Ad-Chat injectează reclame prin intermediul promptului de sistem înainte de generare, cu control limitat asupra plasării. Ad-LLM separă generarea răspunsurilor de inserarea reclamelor, alegând punctele de inserare pe baza fluxului semantic și rafinând rezultatul. Ambele sunt evaluate folosind metrici GEM-Bench pentru satisfacție și implicare.
Deși Ad-Chat este mai ieftin și uneori mai persuasiv, tinde să reducă încrederea și acuratețea. Ad-LLM are performanțe mai bune în ceea ce privește indicatorii de satisfacție a utilizatorilor, dar la un cost mai mare.
Date
Pentru generarea AIR, inițial au fost generate două tipuri de seturi de date: un set de interogări utilizator (Utilizator) și o bază de date cu reclame (AdDB).
Întrucât interogările utilizatorilor definesc oportunitățile de publicitate în răspunsurile LLM, se poate spune că „inventarul de reclame” există în aceste răspunsuri, deși acesta este definit nu numai de aplicabilitatea interogării utilizatorului, ci și de măsura în care sistemul își va respecta propriile reguli privind echilibrarea integrității cu imperativele agenților de publicitate.
În orice caz, anunțurile vor apărea doar în răspunsuri, chiar dacă (vezi schema de mai sus) solicitările utilizatorilor pot fi amplificate în secret pentru a facilita procesul de difuzare a anunțurilor.
Pentru scenariul chatbot-ului, autorii au construit două seturi de date de interogare: MT-Uman și LM-Market.
MT-Human a fost extras din secțiunea de științe umaniste a MT-Banca, un test de performanță multiplă pentru LLM-uri și conține întrebări care pot fi utilizate pentru conținut publicitar.
LM-Market a fost construit din peste o jumătate de milion de interogări ChatGPT reale colectate de LMSYS-Chat-1M, filtrate pentru solicitări legate de marketing în limba engleză și grupate după subiect folosind înglobări semantice.
În ambele cazuri, interogările finale au fost selectate printr-un flux de lucru în mai multe etape, combinând procese automate clustering, scorare LLM și verificare umană, cu scopul de a identifica solicitările în care inserarea reclamelor ar fi naturală și plauzibilă.
Pentru a evalua calitatea răspunsurilor injectate în reclame, GEM definește o ontologie de măsurare care acoperă atât satisfacția utilizatorilor, cât și implicarea acestora. Aceasta include indicatori cantitativi, inclusiv fluxul de răspuns, coerență și rata de clicprecum și standarde calitative, cum ar fi încredere, precizie și naturalețe – indicatori meniți să reflecte atât cât de bine se încadrează o reclamă într-un răspuns, cât și cât de probabil este ca utilizatorii să o perceapă și să interacționeze cu aceasta.
În ceea ce privește „naturalitatea”, lucrarea afirmă:
„[Naturalitatea] măsoară măsura în care inserarea reclamelor perturbă fluxul și naturalețea conversației, bazându-se pe caracterul întreruptiv și autenticitate. Caracterul întreruptiv examinează dacă reclama creează o senzație de „saritură” sau „bruscă” în timpul citirii, întrerupând concentrarea continuă a utilizatorului asupra subiectului.”
„Autenticitatea evaluează dacă reclama subminează «atingerea umană» sau «fluxul natural» al conversației, făcând ca răspunsul să pară rigid, formulat și mai puțin autentic.”
Pentru a genera un scenariu tradițional pentru un motor de căutare în faza de testare, autorii au creat un set de date intitulat Produs CA de la AdsCVLR corpus comercial, care conține 300,000 de perechi interogare-reclamă, fiecare constând dintr-un cuvânt cheie, metadate și o etichetă manuală care marchează relevanța:

Din lucrarea sursă originală, exemple din setul de date AdsCVLR, care au ajutat la furnizarea de material pentru testele autorilor. Sursă: http://www.jdl.link/doc/2011/20221224_AdsCVLR.pdf
Înregistrările cu câmpuri lipsă au fost eliminate și au fost păstrate doar interogările care conțineau atât anunțuri pozitive, cât și negative (consultați imaginea de mai sus pentru exemple).
Pentru a rafina datele, anunțurile au fost grupate în șase grupuri tematice (echipamente de grădină și gazon, pantofi alunecați, articole de uz casnic, suplimente nutritive, dispozitive Android și rochii de dama) folosind încorporări semantice și grupare K-means.
Interogările au fost apoi atribuite subiectelor în funcție de reclamele lor pozitive, excluzând seturile excesiv de rare sau dense, înainte ca 120 de interogări și 2,215 produse unice să fie în final eșantionate pentru testul de referință.
Teste
Pentru a evalua performanța diferitelor strategii de injectare a reclamelor, benchmark-ul a abordat trei întrebări principale: cât de eficientă a fost fiecare metodă în raport cu indicatorii de satisfacție și implicare definiți; modul în care alegerile de design intern din cadrul Ad-LLM ar putea afecta rezultatele sale; și cum s-ar compara costul computațional între sisteme.
Autorii au evaluat Ad-Chat și trei variante ale pipeline-ului Ad-LLM al autorilor, fiecare dintre acestea diferind prin modul în care au fost preluate reclamele (fie din prompt, fie din răspunsul generat) și prin rescrierea rezultatului final pentru fluență.
Toate metodele au fost rulate folosind doubao-1-5-lite-32k ca model de bază și evaluat cu gpt-4.1-mini.

Eficacitatea variantelor Ad-Chat și Ad-LLM în seturile de date MT-Human, LM-Market și CA-Prod. Indicatorii cantitativi includ fluxul de răspuns (RF), coerența răspunsului (RC), fluxul de reclame (AF), coerența reclamelor (AC), rata de injectare (IR), rata de clic (CTR) și scorurile generale. Indicatorii calitativi acoperă acuratețea, naturalețea, personalitatea, încrederea, notița, numărul de clicuri (-click-through) și performanța generală.
În toate cele trei seturi de date, Ad-LLM a produs rezultate mai bune decât Ad-Chat atât în ceea ce privește măsurarea satisfacției, cât și a implicării. După cum se arată în tabelul cu rezultate de mai sus, cea mai bună variantă Ad-LLM a înregistrat îmbunătățiri față de Ad-Chat cu 8.4%, 1.5% și 3.8% în ceea ce privește scorurile cantitative generale; și cu 10.7%, 10.4% și 8.6% în ceea ce privește scorurile calitative pentru MT-Human, LM-Market și respectiv CA-Prod.
Dintre aceste rezultate, autorii afirmă:
„Aceste rezultate demonstrează că generarea unui răspuns brut și injectarea ulterioară a reclamelor oferă o calitate mai bună a răspunsului în comparație cu abordarea mai simplă de a se baza exclusiv pe injectarea de prompturi de sistem.”
„Pentru dimensiuni specifice de satisfacție a utilizatorilor și implicare, Ad-Chat prezintă în mod constant un decalaj substanțial de performanță în comparație cu soluțiile Ad-LLM în toate cele trei seturi de date, în special în dimensiuni precum acuratețea, personalitatea și încrederea.”
În plus, Ad-LLM a demonstrat cele mai puternice câștiguri în ceea ce privește acuratețea, personalitatea și încrederea, depășind Ad-Chat cu până la 17.6%, 23.3% și, respectiv, 17.2%. Conform lucrării, aceste diferențe ar putea rezulta din modul în care Ad-Chat folosește solicitările sistemului pentru a orienta modelul către un limbaj mai personalizat și promoțional - ceea ce, susțin autorii, poate duce la un ton „de vânzător” care reduce acuratețea și încrederea.
Ad-Chat a produs, de asemenea, rate de injectare mai mici, chiar și atunci când a fost evaluat pe baza interogărilor selectate pentru adecvarea la reclame, iar autorii atribuie acest lucru dependenței de indicii bazate pe prompturi (pe care le caracterizează ca fiind dificil de controlat).
În contextul motorului de căutare, însă, Ad-Chat a obținut o rată de clicuri cu 8.6% mai mare, ceea ce, conform studiului, ar putea reflecta avantajul utilizării unui LLM pentru a găsi produse candidate, în loc să se bazeze doar pe încorporări semantice:

Comparație a scorurilor generale de performanță pentru patru modele de arbitri (GPT-4.1-mini, Qwen-max, claude-3-5-haiku, kimi-k2) pentru Ad-Chat și trei variante Ad-LLM (GI-R, GIR-R, GIR-P) pe seturile de date MT-Human, LM-Market și CA-Prod. Deși scorurile variază în funcție de arbitru, Ad-LLM depășește în mod constant Ad-Chat în toate condițiile.
Al doilea tabel cu rezultate (prezentat mai sus) ilustrează faptul că, pentru toate cele trei seturi de date, soluțiile Ad-LLM depășesc în mod constant Ad-Chat în patru modele de judecători: GPT-4.1-mini; Qwen-max; Claude-3-5-haiku; și Kimi-k2.
Acești judecători au fost aleși pentru a diferi de modelul de bază doubao-1-5-lite-32k, contribuind la reducerea erorii cauzate de alinierea modelului cu familia de teste. GIR-R s-a clasat pe primul sau al doilea loc în fiecare caz, sugerând un acord larg în rândul judecătorilor cu privire la superioritatea Ad-LLM. Repartizarea pe dimensiuni calitative individuale urmează îndeaproape modelul observat în rezultatele imediat anterioare (prezentate mai sus).
În concluzie, lucrarea menționează că atât Ad-Chat, cât și Ad-LLM necesită resurse mai mari decât modelele mai inovatoare și eficiente și că necesitatea utilizării agenților LLM în acest tip de tranzacție ar putea reprezenta o suprasarcină semnificativă. Deși ne-am putea imagina că problemele de latență (de obicei critice în scenariile de difuzare a reclamelor) ar putea apărea din cauza utilizării LLM de acest tip (deși acest aspect nu este abordat în mod specific în lucrare).
În orice caz, implementarea de către autori a strategiei Ad-Chat (rândul superior din schema anterioară prezentată spre începutul articolului) s-a dovedit a oferi cea mai mare rată de clicuri, chiar dacă a avut cel mai mare cost LLM asociat.
Concluzie
Deși nu este surprinzător faptul că literatura de specializare ar specula asupra metodelor prin care masterații în drept pot face publicitate, există de fapt destul de puține cercetări disponibile publicului pe această temă; acest lucru face ca lucrarea de față și ceea ce putem interpreta în mod rezonabil ca fiind predecesorul său, mâncare interesantă.
Oricine a lucrat cu un departament de vânzări de publicitate sau cu vânzări de inventar știe că agenții de publicitate își doresc întotdeauna mai mult – în mod ideal, să prezinte reclame ca conținut factual, complet diferit de fluxul de conținut al gazdei; și vor plăti un preț semnificativ pentru acest lucru (împreună cu gazda, care își riscă astfel credibilitatea și reputația în fața cititorilor și a altor tipuri de părți interesate).
Prin urmare, va fi interesant de văzut în ce măsură, dacă este cazul, codicilele încărcate de reclame preconizate în cele două lucrări ar putea fi stimulate să se extindă mai mult în răspunsul unui LLM și să se apropie de „sarcina utilă”.
Publicat pentru prima dată joi, 18 septembrie 2025