Кут Андерсона
Підготовка до реклами у великих мовних моделях

Нове дослідження показує, як рекламу незабаром можна буде вбудовувати безпосередньо у відповіді у стилі ChatGPT – не як банери чи спливаючі вікна, а вплетену в саму відповідь. Новий бенчмарк перевіряє, наскільки добре ці відповіді з вставкою реклами можуть залишатися корисними, правдоподібними та прибутковими, і може вимагати компромісу між прийнятним користувацьким досвідом та кількістю кліків.
Зі зростанням поширення та популярності моделей великих мов підриває традиційні методи реклами які живлять інтернет майже з моменту його появи, кожен, хто знайомий з тактикою захоплення ринку венчурними капіталістами, задається питанням, як довго ще чат-боти зі штучним інтелектом зможуть стримуватися від включення рекламного контенту до своїх відповідей.
Оскільки Netflix та зростаючий список стрімінгових сервісів демонструватиТрадиційна стратегія кабельної ери, що поєднує платні підписки з вбудованою рекламою (часто виправдовується як спосіб зниження споживчих витрат), знову набирає обертів; і починається перехід до включення реклами безпосередньо до результатів LLM. виглядають менш спекулятивними... і радше як природний послідовник цієї моделі.

Зі статті «Онлайн-реклама з LLM: можливості та виклики», досить показового прикладу переходу, якого очікує більшість людей, коли LLM монетизується. Джерело: https://www.sigecom.org/exchanges/volume_22/2/FEIZI.pdf
Перспектива включення реклами в нові медіа, яке вже має помітні питання з достовірністю, може здаватися поспішним; проте масштаб інвестицій у генеративний штучний інтелект за останні дванадцять місяців свідчить про те, що ринок наразі не характеризується обережним чи обачним ставленням; а більші гравці, такі як OpenAI, можливо, надмірно захищені та потребують швидка окупність величезних інвестиційІсторія показує, що медовий місяць без реклами може добігати кінця.
GEM-Bench
З огляду на цей клімат та ці бізнес-імперативи, цікава нова стаття з Сінгапуру пропонує перший бенчмарк, спрямований на інтерфейси чат-ботів на базі штучного інтелекту, разом з новими кількісними показниками для того, що може виявитися однією з найбільш вибухонебезпечних рекламних сфер за останні 100 років.
Можливо, оптимістично, автори припускають чіткий розрив між «справжнім» контентом та рекламним контентом, де «перенаправлення» зі стандартних відповідей на маркетинговий текст досить легко помітити:

Приклади такого роду інтеграції реклами, яка може відбутися за двома моделями, дослідженими в новій статті. Джерело: https://arxiv.org/pdf/2509.14221
Залишається побачити, чи самі рекламодавці, як це було раніше, прагнутимуть більш тонко вплести свій рекламний контент у результати, ніж у прикладах, наведених у статті.
Однак, це питання на потім; наразі ця галузь настільки зароджується, що навіть базова термінологія відсутня або ще не визначена.
Таким чином, у статті представлено Маркетинг генеративних двигунів (GEM) як нова основа для монетизації чат-ботів на основі LLM шляхом вбудовування релевантної реклами безпосередньо у згенеровані відповіді.
Дослідники визначають Відповідь на введення реклами (AIR) як центральну проблему в GEM, та стверджують, що існуючі бенчмарки погано підходять для її вивчення. Щоб заповнити цю прогалину, вони пропонують те, що, за їхніми словами, є першим бенчмарком, розробленим спеціально для цієї мети.
GEM-Bench складається з трьох кураторських наборів даних, що охоплюють сценарії чат-ботів та пошукових систем. Він також включає метричну онтологію, призначену для оцінки різних аспектів задоволеності та залученості користувачів, а також набір базових методів, реалізованих у модульній багатоагентній платформі.
Автори стверджують, що хоча прості методи на основі підказок можуть досягти поважних показників залученості, таких як підвищений коефіцієнт кліків (CTR), вони, як правило, знижують задоволеність користувачів. Натомість, підходи, що вставляють рекламу в попередньо згенеровані відповіді без реклами, демонструють покращення довіри та якості відповідей, хоча й ціною більших обчислювальних витрат.
Ці компроміси, стверджується в статті, підкреслюють необхідність більш ефективних та результативних методів інтеграції реклами в генеративні результати.
Команда нова робота має титул GEM-Bench: Орієнтир для генерації відповідей за допомогою рекламних ін'єкцій у рамках генеративного маркетингу, і походить від чотирьох дослідників з Національного університету Сінгапуру.
Метод
Схема генеративного маркетингу за допомогою пошукових систем (GEM) запозичена з базових принципів пошукового маркетингу (SEM). Традиційний SEM працює шляхом зіставлення запитів з оголошеннями через багатоетапний конвеєр, де рекламодавці роблять ставки на ключові слова; система визначає, які запити запускають показ оголошень; система оцінює ймовірність кліку на кожне оголошення; а потім розподіляє місця за допомогою аукціону, який збалансовує ставки з прогнозованою залученістю.
На противагу цьому, підхід GEM адаптує ті ж етапи до LLM, але стикається з новими викликами на кожному кроці: немає фіксованих рекламних місць, тому система повинна вирішити, чи може запит прийняти оголошення та де його вставити у текст вільної форми; оцінити коефіцієнт кліків стає складніше без структурованих макетів; а релевантність має бути збалансована із задоволенням користувачів, оскільки оголошення безпосередньо вплетені у власний вивід моделі, а не подаються як окремий текст.
Одна з базових позицій, що досліджуються в роботі, Рекламний чат, являє собою простий метод, за якого рекламний контент вставляється в системний запит до того, як модель згенерує відповідь. Це означає, що модель створює відповідь із вже вбудованою рекламою, керуючись попередньо завантаженим порядком денним.
Інший підхід, Ad-LLM, був розроблений авторами як частина нової пропозиції для тестування на бенчмарк. Ad-LLM обирає модульний шлях, спочатку генеруючи чисту відповідь без реклами; вибираючи відповідну рекламу; визначаючи найкращу точку вставки на основі семантичного потоку; і, нарешті, переписуючи вивід для плавної інтеграції реклами:

Порівняння між Ad-Chat та методом авторів «Ad-LLM». Ad-Chat вставляє рекламу через системне запитування перед генерацією, з обмеженим контролем розміщення. Ad-LLM розділяє генерацію відповідей та вставку реклами, вибираючи точки вставки на основі семантичного потоку та уточнюючи результат. Обидва методи оцінюються за допомогою метрик GEM-Bench для задоволення та залученості.
Хоча Ad-Chat дешевший і іноді переконливіший, він, як правило, знижує довіру та точність. Ad-LLM краще показує показники задоволеності користувачів, але й коштує дорожче.
дані
Для генерації AIR спочатку було згенеровано два типи наборів даних: набір запитів користувача (користувач) та база даних реклами (AdDB).
Оскільки запити користувачів визначають рекламні можливості у відповідях LLM, можна сказати, що «рекламний інвентар» існує в цих відповідях, хоча це визначається не лише застосовністю запиту користувача, але й тим, якою мірою система дотримуватиметься власних правил щодо балансування чесності з імперативами рекламодавців.
У будь-якому випадку, реклама відображатиметься лише у відповідях, навіть якщо (див. схему вище) запити користувачів можуть бути таємно доповнені для адаптації до процесу показу реклами.
Для сценарію з чат-ботом автори створили два набори даних запитів: MT-Людина та LM-Маркет.
MT-Human був обраний з гуманітарної частини МТ-Лава, багатоетапний бенчмарк для LLM, та містить питання, які, ймовірно, стосуються рекламного контенту.
LM-Market було створено на основі понад півмільйона реальних запитів ChatGPT, зібраних LMSYS-Чат-1M, відфільтровані за англомовними маркетинговими підказками та згруповані за темами за допомогою семантичні вкраплення.
В обох випадках остаточні запити були відібрані за допомогою багатоетапного конвеєра, що поєднує автоматизовані Кластеризація, оцінювання LLM та перевірка людиною з метою виявлення підказок, де вставка реклами була б природною та правдоподібною.
Для оцінки якості відповідей, що вводяться за допомогою реклами, GEM визначає онтологію вимірювання, що охоплює як задоволеність користувачів, так і їхню залученість. Вона враховує кількісні показники, зокрема потік відповідей, узгодженість та швидкість кліку, а також якісні стандарти, такі як довіряти, точність та природність – показники, що відображають як те, наскільки добре реклама вписується у відповідь, так і те, наскільки ймовірно, що користувачі її сприймуть та взаємодіятимуть з нею.
Щодо «природності», у статті зазначається:
«[Натуральність] вимірює ступінь, до якої вставка реклами порушує плинність і природність розмови, на основі переривчастості та автентичності. Переривчастість досліджує, чи створює реклама відчуття «вискоку» або «різкості» під час читання, порушуючи постійну зосередженість користувача на темі».
«Автентичність оцінює, чи підриває реклама «людський підхід» або «природний хід» розмови, роблячи відповідь жорсткою, шаблонною та менш автентичною».
Щоб створити традиційний сценарій пошукової системи для фази тестування, автори створили набір даних під назвою CA-Prod від AdsCVLR комерційний корпус, що містить 300,000 XNUMX пар запит-реклама, кожна з яких складається з ключового слова, метаданих та ручної мітки релевантності:

З оригінальної статті, приклади з набору даних AdsCVLR, які допомогли надати матеріал для тестів авторів. Джерело: http://www.jdl.link/doc/2011/20221224_AdsCVLR.pdf
Записи з відсутніми полями було видалено, і збережено лише запити, що містили як позитивну, так і негативну рекламу (див. приклади на зображенні вище).
Для уточнення даних рекламу було згруповано у шість тематичних груп (обладнання для газонів та саду, туфлі сліпони, побутові речі, харчові добавки, Android-пристроїв та жіночі сукні) з використанням семантичних вбудовувань та кластеризації K-середніх.
Потім запити були розподілені за темами відповідно до їхньої позитивної реклами, виключаючи надмірно розріджені або щільні набори, перш ніж 120 запитів та 2,215 унікальних продуктів були остаточно відібрані для порівняльного аналізу.
Випробування
Щоб оцінити ефективність різних стратегій введення реклами, бенчмарк розглянув три основні питання: наскільки ефективним був кожен метод за визначеними показниками задоволеності та залученості; як внутрішні рішення щодо дизайну в Ad-LLM можуть вплинути на його результати; та як обчислювальні витрати порівнюватимуться між системами.
Автори оцінили Ad-Chat та три варіанти розробленого ними конвеєра Ad-LLM, кожен з яких відрізнявся способом отримання оголошень (або з підказки, або зі згенерованої відповіді), а також тим, чи був кінцевий вивід переписаний для плавності.
Всі методи були виконані з використанням doubao-1-5-lite-32k як базову модель та оцінену за допомогою gpt-4.1-mini.

Ефективність варіантів Ad-Chat та Ad-LLM у наборах даних MT-Human, LM-Market та CA-Prod. Кількісні показники включають потік відповідей (RF), когерентність відповідей (RC), потік реклами (AF), когерентність реклами (AC), коефіцієнт введення (IR), коефіцієнт кліків (CTR) та загальні бали. Якісні показники охоплюють точність, природність, індивідуальність, довіру, помітність, кліки та загальну ефективність.
У всіх трьох наборах даних Ad-LLM показав кращі результати, ніж Ad-Chat, як за показниками задоволеності, так і залученості. Як показано в таблиці результатів вище, найкращий варіант Ad-LLM покращив Ad-Chat на 8.4%, 1.5 та 3.8 відсотка за загальними кількісними оцінками; та на 10.7%, 10.4 та 8.6 відсотка за якісними оцінками для MT-Human, LM-Market та CA-Prod відповідно.
З цих результатів автори стверджують:
Ці результати демонструють, що генерування необробленої відповіді та подальше введення реклами забезпечує кращу якість відповіді порівняно з простішим підходом, який передбачає використання виключно системних підказок для введення.
«Щодо конкретних показників задоволеності користувачів та залученості, Ad-Chat постійно демонструє суттєвий розрив у продуктивності порівняно з рішеннями Ad-LLM у всіх трьох наборах даних, особливо за такими показниками, як точність, індивідуальність та довіра».
Крім того, Ad-LLM продемонстрував найсильніші переваги в точності, індивідуальності та довірі, перевершивши Ad-Chat на 17.6%, 23.3% та 17.2% відповідно. Згідно з дослідженням, ці відмінності можуть бути пов'язані зі способом, яким Ad-Chat використовує системні підказки для спрямування моделі в бік більш персоналізованої та рекламної мови, що, на думку авторів, може призвести до «продавчого» тону, що знижує точність і довіру.
Ad-Chat також показав нижчі показники введення реклами, навіть коли його оцінювали за запитами, відібраними на предмет придатності для реклами, і автори пояснюють це залежністю від підказок на основі підказок (які вони характеризують як важкоконтрольовані).
Однак у налаштуваннях пошукової системи Ad-Chat досяг на 8.6% вищого показника клікабельності, що, як стверджує стаття, може відображати перевагу використання LLM для пошуку кандидатів на продукти, а не покладатися лише на семантичні вбудовування:

Порівняння загальних балів продуктивності за чотирма моделями оцінювання (GPT-4.1-mini, Qwen-max, claude-3-5-haiku, kimi-k2) для Ad-Chat та трьох варіантів Ad-LLM (GI-R, GIR-R, GIR-P) на наборах даних MT-Human, LM-Market та CA-Prod. Хоча бали різняться залежно від оцінювання, Ad-LLM послідовно перевершує Ad-Chat за всіх умов.
Друга таблиця результатів (наведена вище) ілюструє, що на всіх трьох наборах даних рішення Ad-LLM послідовно перевершують Ad-Chat у чотирьох моделях оцінювання: GPT-4.1-mini; Qwen-max; Claude-3-5-haiku; та Kimi-k2.
Ці судді були обрані таким чином, щоб відрізнятися від базової моделі doubao-1-5-lite-32k, що допомагало зменшити упередженість через узгодження з сімейством моделей. GIR-R посів перше або друге місце в кожному випадку, що свідчить про широку згоду серед суддів щодо переваги Ad-LLM. Розподіл за окремими якісними вимірами точно відповідає закономірності, що спостерігається в безпосередньо попередніх результатах (показано вище).
На завершення, у статті зазначається, що як Ad-Chat, так і Ad-LLM потребують більших ресурсів, ніж більш інноваційні та ефективні моделі, і що необхідність використання агентів LLM у цьому типі транзакцій може призвести до значних накладних витрат. Хоча можна було б припустити, що проблеми із затримкою (зазвичай критичні у сценаріях розміщення реклами) можуть виникнути внаслідок використання LLM такого типу (хоча це конкретно не розглядається в статті).
У будь-якому разі, реалізація авторами стратегії Ad-Chat (верхній рядок у попередній схемі, показаній на початку статті) виявилася настільки ефективною, що запропонувала найвищий показник CTR, навіть попри найвищі пов'язані з нею витрати на LLM.
Висновок
Хоча не дивно, що в літературі розглядаються методи, за допомогою яких LLM можуть поширювати рекламу, насправді існує досить мало публічно доступних досліджень на цю тему; це робить цю статтю, і те, що ми можемо обґрунтовано інтерпретувати як його попередник, цікава страва.
Кожен, хто працював у відділі продажів реклами або займався продажем товарів, знає, що рекламодавці завжди хочуть більшого – в ідеалі, щоб реклама була представлена як фактичний контент, абсолютно невіддільний від потоку контенту хоста; і вони за це заплатять значну премію (разом з хостом, який таким чином ризикує своєю довірою та репутацією серед читачів та інших зацікавлених сторін).
Тому буде цікаво побачити, наскільки, якщо взагалі, рекламні кодицили, передбачені в двох статтях, можуть бути стимульовані для просування далі вгору по відповіді LLM та ближче до «корисного навантаження».
Вперше опубліковано у четвер, 18 вересня 2025 року