Sudut Pandang Anderson
Bersiap untuk Beriklan dalam Model Bahasa Besar

Riset baru menunjukkan bagaimana iklan dapat segera disematkan langsung di dalam balasan bergaya ChatGPT – bukan sebagai banner atau pop-up, melainkan terintegrasi ke dalam balasan itu sendiri. Sebuah tolok ukur baru menguji seberapa baik balasan yang disematkan iklan ini dapat tetap bermanfaat, kredibel, dan menguntungkan, serta mungkin memerlukan pertimbangan antara pengalaman pengguna yang memuaskan dan rasio klik-tayang.
Seiring dengan semakin meluasnya dan meningkatnya popularitas Model Bahasa Besar melemahkan metode periklanan tradisional yang telah mendukung internet hampir sejak awal mulanya, siapa pun yang familier dengan taktik penangkapan pasar oleh pemodal ventura akan bertanya-tanya berapa lama lagi chatbot AI akan mampu menahan diri untuk tidak menyertakan konten iklan dalam responsnya.
Ketika Netflix dan sejumlah layanan streaming lainnya berkembang mendemonstrasikanStrategi era kabel tradisional yang menggabungkan langganan berbayar dengan iklan tertanam (sering dibenarkan sebagai cara untuk menjaga biaya konsumen tetap rendah) kembali mendapatkan momentum; dan pergeseran menuju penggabungan iklan langsung ke dalam output LLM mulai tampak kurang spekulatif. dan lebih seperti pengadopsi alami model itu.

Dari makalah 'Iklan Daring dengan LLM: Peluang dan Tantangan', contoh yang cukup representatif mengenai transisi yang diharapkan sebagian besar orang ketika LLM dimonetisasi. Sumber: https://www.sigecom.org/exchanges/volume_22/2/FEIZI.pdf
Prospek untuk memasukkan iklan ke dalam media yang sedang berkembang dan sudah memiliki pengaruh yang signifikan masalah dengan kredibilitas, mungkin tampak tergesa-gesa; namun skala investasi dalam AI generatif selama dua belas bulan terakhir menunjukkan bahwa pasar saat ini tidak ditentukan oleh sikap hati-hati atau cermat; dan dengan pemain yang lebih besar seperti OpenAI bisa dibilang terlalu banyak menggunakan leverage dan membutuhkan pengembalian awal atas investasi besar-besaran, sejarah menunjukkan bahwa masa bulan madu keluaran bebas iklan mungkin akan segera berakhir.
Bangku GEM
Dengan iklim ini dan mempertimbangkan keharusan bisnis ini, sebuah makalah baru yang menarik dari Singapura menawarkan tolok ukur pertama yang ditujukan pada antarmuka chatbot AI, bersama dengan metrik kuantifikasi baru untuk apa yang mungkin terbukti sebagai salah satu arena periklanan paling eksplosif dalam 100 tahun.
Mungkin secara optimis, penulis berasumsi adanya pemisahan yang rapi antara konten 'sebenarnya' dan konten iklan, di mana 'pengalihan' dari respons standar ke salinan pemasaran cukup mudah dikenali:

Contoh jenis integrasi iklan yang mungkin terjadi berdasarkan dua model yang dipelajari dalam makalah baru. Sumber: https://arxiv.org/pdf/2509.14221
Masih harus dilihat apakah pengiklan sendiri akan, sebagaimana kecenderungan mereka, berupaya agar konten iklan mereka diintegrasikan secara lebih halus ke dalam keluaran daripada contoh yang diberikan dalam makalah.
Akan tetapi, ini adalah masalah yang akan dibahas kemudian; untuk saat ini, bidang ini masih sangat baru sehingga bahkan terminologi dasarnya pun belum ada, atau belum ditetapkan.
Oleh karena itu, makalah ini memperkenalkan Pemasaran Mesin Generatif (GEM) sebagai kerangka kerja baru untuk memonetisasi chatbot berbasis LLM, dengan menyematkan iklan relevan langsung ke respons yang dihasilkan.
Para peneliti mengidentifikasi Respons yang Disuntikkan Iklan (AIR) sebagai tantangan utama dalam GEM, dan berpendapat bahwa tolok ukur yang ada kurang cocok untuk mempelajarinya. Untuk mengisi celah ini, mereka memperkenalkan apa yang mereka klaim sebagai tolok ukur pertama yang dirancang khusus untuk tujuan ini.
GEM-Bench terdiri dari tiga set data kurasi yang mencakup skenario chatbot dan mesin pencari. Ini juga mencakup ontologi metrik yang dirancang untuk menilai berbagai aspek kepuasan dan keterlibatan pengguna, beserta serangkaian metode dasar yang diimplementasikan dalam kerangka kerja multi-agen modular.
Para penulis berpendapat bahwa meskipun metode berbasis perintah sederhana dapat mencapai metrik keterlibatan yang baik, seperti rasio klik-tayang (RKT) yang tinggi, metode tersebut cenderung menurunkan kepuasan pengguna. Sebaliknya, pendekatan yang menyisipkan iklan ke dalam respons yang telah dibuat sebelumnya dan bebas iklan menunjukkan peningkatan kepercayaan dan kualitas respons – meskipun dengan biaya komputasi yang lebih besar.
Menurut makalah tersebut, pertukaran ini menyoroti perlunya teknik yang lebih efektif dan efisien untuk mengintegrasikan iklan ke dalam keluaran generatif.
pekerjaan Baru berjudul GEM-Bench: Tolok Ukur untuk Generasi Respons yang Disuntikkan Iklan dalam Pemasaran Mesin Generatif, dan berasal dari empat peneliti di Universitas Nasional Singapura.
metode
Kerangka kerja Generative Engine Marketing (GEM) mengadopsi prinsip dasar Search Engine Marketing (SEM). SEM tradisional bekerja dengan mencocokkan kueri dengan iklan melalui alur kerja multitahap di mana pengiklan menawar kata kunci; sistem mengidentifikasi kueri mana yang memicu iklan; sistem memperkirakan kemungkinan setiap iklan diklik; dan kemudian mengalokasikan penempatan melalui lelang yang menyeimbangkan tawaran dengan prediksi interaksi.
Sebaliknya pendekatan GEM mengadaptasi tahapan yang sama ke LLM, tetapi menghadapi tantangan baru di setiap langkah: tidak ada slot iklan tetap, jadi sistem harus memutuskan apakah kueri dapat mengambil iklan dan di mana memasukkannya ke dalam teks bentuk bebas; memperkirakan rasio klik-tayang menjadi lebih sulit tanpa tata letak terstruktur; dan relevansi harus diseimbangkan dengan kepuasan pengguna, karena iklan dijalin langsung ke dalam keluaran model itu sendiri dan bukan disajikan sebagai salinan yang berdiri sendiri.
Salah satu dasar yang dipelajari dalam penelitian ini, Obrolan Iklan, merupakan metode sederhana di mana konten iklan disisipkan ke dalam prompt sistem sebelum model menghasilkan respons. Ini berarti model menghasilkan respons dengan iklan yang sudah disematkan, dipandu oleh agenda yang telah dimuat sebelumnya.
Pendekatan lainnya, Ad-LLM, dikembangkan oleh para penulis sebagai bagian dari penawaran benchmark baru. Ad-LLM mengambil jalur modular, pertama-tama menghasilkan jawaban yang bersih dan bebas iklan; memilih iklan yang relevan; mengidentifikasi titik penyisipan terbaik berdasarkan alur semantik; dan terakhir menulis ulang output untuk mengintegrasikan iklan dengan lancar:

Perbandingan antara Ad-Chat dan metode 'Ad-LLM' penulis. Ad-Chat menyuntikkan iklan melalui prompt sistem sebelum pembuatan, dengan kontrol penempatan yang terbatas. Ad-LLM memisahkan pembuatan respons dan penyisipan iklan, memilih titik penyisipan berdasarkan alur semantik, dan menyempurnakan hasilnya. Keduanya dinilai menggunakan metrik GEM-Bench untuk kepuasan dan interaksi.
Meskipun Ad-Chat lebih murah dan terkadang lebih persuasif, hal ini cenderung mengurangi kepercayaan dan akurasi. Ad-LLM berkinerja lebih baik dalam metrik kepuasan pengguna, tetapi dengan biaya yang lebih besar.
Data
Untuk pembuatan AIR, dua jenis kumpulan data dibuat pada awalnya: kumpulan kueri pengguna (Pengguna) dan database iklan (AdDB).
Karena pertanyaan pengguna menentukan peluang periklanan dalam respons LLM, 'inventaris iklan' dapat dikatakan ada dalam respons ini, meskipun hal ini ditentukan bukan hanya oleh penerapan pertanyaan pengguna tetapi juga sejauh mana sistem akan mematuhi aturannya sendiri tentang menyeimbangkan integritas dengan keharusan pengiklan.
Bagaimanapun, iklan hanya akan muncul dalam respons, meskipun (lihat skema di atas) permintaan pengguna mungkin diam-diam ditambah untuk mengakomodasi proses penayangan iklan.
Untuk skenario chatbot, penulis membuat dua set data kueri: MT-Manusia dan LM-Pasar.
MT-Manusia diambil dari bagian humaniora MT-Bangku, tolok ukur multi-putaran untuk LLM, dan berisi pertanyaan-pertanyaan yang mungkin mengakomodasi konten iklan.
LM-Market dibangun dari lebih dari setengah juta kueri ChatGPT nyata yang dikumpulkan oleh LMSYS-Obrolan-1M, difilter berdasarkan permintaan pemasaran berbahasa Inggris, dan dikelompokkan berdasarkan topik menggunakan penyematan semantik.
Dalam kedua kasus, pertanyaan akhir dipilih melalui jalur multi-tahap yang menggabungkan otomatisasi kekelompokan, penilaian LLM, dan verifikasi manusia, dengan tujuan mengidentifikasi petunjuk di mana penyisipan iklan akan alami dan masuk akal.
Untuk mengevaluasi kualitas respons yang diinjeksikan iklan, GEM mendefinisikan ontologi pengukuran yang mencakup kepuasan dan keterlibatan pengguna. Ontologi ini mencakup metrik kuantitatif, termasuk: aliran respons, koherensi, dan rasio klik-tayang, serta standar kualitatif seperti percaya, ketepatan, dan kealamian – metrik yang dimaksudkan untuk mencerminkan seberapa baik suatu iklan sesuai dengan respons, dan seberapa besar kemungkinan pengguna akan mempersepsi dan berinteraksi dengannya.
Mengenai 'Kealamian', makalah tersebut menyatakan:
[Kealamian] mengukur sejauh mana penyisipan iklan mengganggu alur dan kealamian percakapan, berdasarkan interupsi dan autentisitas. Interupsi menguji apakah iklan menciptakan sensasi "mendadak" atau "mendadak" saat membaca, sehingga mengganggu fokus pengguna yang berkelanjutan pada topik.
Keaslian mengevaluasi apakah iklan tersebut merusak “sentuhan manusia” atau “alur alami” percakapan, sehingga responsnya terkesan kaku, klise, dan kurang autentik.
Untuk menghasilkan skenario mesin pencari tradisional untuk fase pengujian, penulis membuat kumpulan data berjudul CA-Prod dari Iklan CVLR korpus komersial, yang berisi 300,000 pasangan kueri-iklan, masing-masing terdiri dari kata kunci, metadata, dan label manual yang menandai relevansi:

Dari sumber makalah aslinya, contoh dari kumpulan data AdsCVLR, yang membantu menyediakan materi untuk pengujian para penulis. Sumber: http://www.jdl.link/doc/2011/20221224_AdsCVLR.pdf
Catatan dengan bidang yang hilang dihapus, dan hanya kueri yang berisi iklan positif dan negatif (lihat gambar di atas untuk contoh) yang disimpan.
Untuk menyempurnakan data, iklan dikelompokkan menjadi enam kelompok topik (peralatan rumput dan taman, sepatu slip-on, peralatan Rumah tangga, suplemen gizi, perangkat Android, dan gaun wanita) menggunakan penyematan semantik dan pengelompokan K-means.
Kueri kemudian ditetapkan ke topik berdasarkan iklan positifnya, dengan mengecualikan kumpulan yang terlalu jarang atau padat, sebelum 120 kueri dan 2,215 produk unik akhirnya diambil sampelnya untuk tolok ukur.
Tes
Untuk mengevaluasi seberapa baik kinerja berbagai strategi injeksi iklan, tolok ukur tersebut menangani tiga pertanyaan inti: seberapa efektif setiap metode di seluruh metrik kepuasan dan keterlibatan yang ditentukan; bagaimana pilihan desain internal dalam Ad-LLM dapat memengaruhi hasilnya; dan bagaimana biaya komputasi akan dibandingkan di seluruh sistem.
Para penulis mengevaluasi Ad-Chat dan tiga varian alur Ad-LLM milik para penulis, yang masing-masing berbeda dalam cara iklan diambil (baik dari perintah atau dari respons yang dihasilkan), dan apakah keluaran akhir ditulis ulang demi kelancaran.
Semua metode dijalankan menggunakan doubao-1-5-lite-32k sebagai model dasar dan dinilai dengan gpt-4.1-mini.

Efektivitas varian Ad-Chat dan Ad-LLM di seluruh dataset MT-Human, LM-Market, dan CA-Prod. Metrik kuantitatif meliputi alur respons (RF), koherensi respons (RC), alur iklan (AF), koherensi iklan (AC), rasio injeksi (IR), rasio klik-tayang (CTR), dan skor keseluruhan. Metrik kualitatif meliputi akurasi, kealamian, kepribadian, kepercayaan, pemberitahuan, klik-tayang, dan kinerja keseluruhan.
Di ketiga set data, Ad-LLM menghasilkan hasil yang lebih baik daripada Ad-Chat, baik dalam hal kepuasan maupun keterlibatan. Sebagaimana ditunjukkan pada tabel hasil di atas, varian Ad-LLM terbaik meningkat pada Ad-Chat sebesar 8.4, 1.5, dan 3.8 persen dalam skor kuantitatif keseluruhan; dan sebesar 10.7, 10.4, dan 8.6 persen dalam skor kualitatif untuk MT-Human, LM-Market, dan CA-Prod.
Dari hasil ini, penulis menyatakan:
'Hasil ini menunjukkan bahwa menghasilkan respons mentah dan kemudian menyuntikkan iklan menghasilkan kualitas respons yang lebih baik dibandingkan dengan pendekatan yang lebih sederhana dengan hanya mengandalkan injeksi perintah sistem.
'Untuk dimensi kepuasan dan keterlibatan pengguna tertentu, Ad-Chat secara konsisten menunjukkan kesenjangan kinerja yang substansial dibandingkan dengan solusi Ad-LLM di ketiga kumpulan data, terutama dalam dimensi seperti akurasi, kepribadian, dan kepercayaan.'
Lebih lanjut, Ad-LLM menunjukkan peningkatan terbesar dalam hal akurasi, kepribadian, dan kepercayaan, mengungguli Ad-Chat masing-masing hingga 17.6%, 23.3%, dan 17.2%. Menurut makalah tersebut, perbedaan ini dapat disebabkan oleh cara Ad-Chat menggunakan perintah sistem untuk mengarahkan model ke bahasa yang lebih personal dan promosional – yang menurut para penulis dapat menghasilkan nada "seperti penjual" yang mengurangi akurasi dan kepercayaan.
Ad-Chat juga menghasilkan tingkat injeksi yang lebih rendah, bahkan ketika dievaluasi pada kueri yang dipilih untuk kesesuaian iklan, dan penulis menghubungkan hal ini dengan ketergantungan pada isyarat berbasis perintah (yang mereka gambarkan sebagai sulit dikendalikan).
Namun, dalam pengaturan mesin pencari, Ad-Chat mencapai rasio klik-tayang 8.6% lebih tinggi, yang menurut makalah ini mungkin mencerminkan keuntungan menggunakan LLM untuk mengambil kandidat produk, daripada hanya mengandalkan penyematan semantik:

Perbandingan skor kinerja keseluruhan di empat model juri (GPT-4.1-mini, Qwen-max, claude-3-5-haiku, kimi-k2) untuk Ad-Chat dan tiga varian Ad-LLM (GI-R, GIR-R, GIR-P) pada set data MT-Human, LM-Market, dan CA-Prod. Meskipun skor bervariasi antar juri, Ad-LLM secara konsisten mengungguli Ad-Chat di semua kondisi.
Tabel hasil kedua (ditunjukkan di atas) menggambarkan bahwa pada ketiga kumpulan data, solusi Ad-LLM secara konsisten mengungguli Ad-Chat di empat model penilaian; GPT-4.1-mini; Qwen-max; Claude-3-5-haiku; dan Kimi-k2.
Para juri ini dipilih untuk membedakan diri dari model dasar doubao-1-5-lite-32k, sehingga membantu mengurangi bias dari keselarasan model-keluarga. GIR-R menempati peringkat pertama atau kedua dalam setiap kasus, menunjukkan adanya kesepakatan yang luas di antara para juri tentang keunggulan Ad-LLM. Perincian di antara masing-masing dimensi kualitatif mengikuti pola yang terlihat pada hasil sebelumnya (ditunjukkan lebih lanjut di atas).
Sebagai penutup, makalah ini mencatat bahwa Ad-Chat dan Ad-LLM membutuhkan sumber daya yang lebih tinggi dibandingkan model yang lebih inovatif dan efektif, dan kebutuhan untuk menggunakan agen LLM dalam transaksi semacam ini dapat menimbulkan overhead yang signifikan. Meskipun demikian, dapat dibayangkan bahwa masalah latensi (yang biasanya kritis dalam skenario penayangan iklan) dapat muncul dari penggunaan LLM semacam ini (meskipun hal ini tidak dibahas secara spesifik dalam makalah ini).
Bagaimanapun, penerapan strategi Ad-Chat oleh penulis (baris atas pada skema sebelumnya yang ditunjukkan di awal artikel) terbukti menawarkan rasio klik-tayang tertinggi, meskipun biaya LLM terkaitnya tertinggi.
Kesimpulan
Meskipun tidak mengherankan bahwa literatur berspekulasi tentang metode yang digunakan LLM untuk menyampaikan iklan, sebenarnya hanya ada sedikit penelitian yang tersedia untuk umum tentang topik ini; hal ini menjadikan makalah ini, dan apa yang dapat kita tafsirkan sebagai pendahulunya, tarif yang menarik.
Siapa pun yang pernah bekerja di bagian penjualan iklan, atau penjualan inventaris, pasti tahu bahwa pengiklan selalu menginginkan lebih – idealnya, iklan disajikan sebagai konten faktual, yang sama sekali tidak berbeda dengan aliran konten host; dan mereka bersedia membayar premi yang signifikan untuk ini (bersama dengan host, yang dengan demikian mempertaruhkan kredibilitas dan kedudukan mereka di mata pembaca dan jenis pemangku kepentingan lainnya).
Oleh karena itu, akan menarik untuk melihat sejauh mana, jika ada, tambahan berisi iklan yang dibayangkan dalam kedua makalah tersebut dapat didorong untuk merayap lebih jauh ke atas dalam respons LLM, dan lebih dekat ke 'muatan'.
Pertama kali diterbitkan pada hari Kamis, 18 September 2025