Bizimle iletişime geçin

Anderson'ın Açısı

Büyük Dil Modellerinde Reklam Vermeye Hazırlanma

mm
Kaynak: ChatGPT-4o ve https://commons.wikimedia.org/wiki/File:Microsoft_Surface_Laptop_7.jpg

Yeni bir araştırma, reklamların yakında doğrudan ChatGPT tarzı yanıtların içine yerleştirilebileceğini gösteriyor; banner veya açılır pencereler olarak değil, yanıtın içine yerleştirilebiliyor. Yeni bir ölçüt, bu reklam içeren yanıtların ne kadar yararlı, inandırıcı ve kârlı kalabileceğini test ediyor ve kabul edilebilir bir kullanıcı deneyimi ile tıklama oranları arasında bir denge kurulmasını gerektirebiliyor.

 

Büyük Dil Modellerinin yaygınlaşması ve popülaritesinin artmasıyla birlikte geleneksel reklamcılık yöntemlerini zayıflatır İnternetin başlangıcından bu yana neredeyse onu besleyen yapay zeka sohbet robotları, girişim sermayedarlarının pazar ele geçirme taktiklerine aşina olan herkes, yapay zeka sohbet robotlarının yanıtlarına reklam içerikleri eklemekten ne kadar daha geri kalabileceğini merak ediyor.

Netflix ve genişleyen yayın hizmetleri yelpazesiyle göstermek, ücretli abonelikleri gömülü reklamlarla birleştirmenin geleneksel kablolu yayın dönemi stratejisi (genellikle tüketici maliyetlerini düşük tutmanın bir yolu olarak haklı gösterilir) ivme kazanıyor; ve reklamları doğrudan LLM çıktılarına dahil etme yönündeki değişim başlıyor daha az spekülatif görünmek. ve daha çok o modelin doğal bir benimseyicisi gibi.

'LLM'lerde Çevrimiçi Reklamlar: Fırsatlar ve Zorluklar' başlıklı makaleden, LLM'lerin para kazanmasıyla birlikte çoğu insanın beklediği geçişin oldukça temsili bir örneği. Kaynak: https://www.sigecom.org/exchanges/volume_22/2/FEIZI.pdf

'LLM'lerde Çevrimiçi Reklamlar: Fırsatlar ve Zorluklar' adlı makaleden, LLM'lerin para kazanması durumunda çoğu insanın beklediği geçişin oldukça temsili bir örneği. Kaynak: https://www.sigecom.org/exchanges/volume_22/2/FEIZI.pdf

Zaten önemli bir ilgi gören yeni bir medyaya reklam ekleme olasılığı sorunlar güvenilirlikle, aceleci görünebilir; ancak üretken yapay zekaya yapılan yatırımın ölçeği Son on iki ayda, piyasanın şu anda temkinli veya dikkatli bir tavırla tanımlanmadığı ve OpenAI gibi daha büyük oyuncuların tartışmasız aşırı kaldıraçlı olduğu ve ihtiyaç duyduğu görülüyor. büyük yatırımın erken getirisiTarih, reklamsız yayınların balayı döneminin sona erdiğini gösteriyor.

GEM-Bank

Bu iklim ve iş zorunlulukları göz önünde bulundurulduğunda, Singapur'dan gelen ilgi çekici yeni bir makale, yapay zeka sohbet robotu arayüzlerine yönelik ilk kıyaslamayı sunuyor ve ayrıca 100 yılın en patlayıcı reklamcılık alanlarından biri olabilecek yeni niceliksel metrikler sunuyor.

Yazarlar belki de iyimser bir şekilde, 'gerçek' içerik ile reklam içeriği arasında net bir ayrım olduğunu varsayıyorlar; burada standart yanıtların pazarlama metnine 'yönlendirilmesi' oldukça kolay fark ediliyor:

Yeni makalede incelenen iki model altında gerçekleşebilecek reklam entegrasyonuna dair örnekler. Kaynak: https://arxiv.org/pdf/2509.14221

Yeni makalede incelenen iki model altında gerçekleşebilecek reklam entegrasyonunun örnekleri. Kaynak: https://arxiv.org/pdf/2509.14221

Reklam verenlerin, her zamanki gibi, reklam içeriklerinin makalede verilen örneklerden daha sinsice çıktıya dahil edilmesini isteyip istemeyecekleri ise henüz belli değil.

Ancak bunlar daha sonraki konular; şimdilik alan o kadar yeni ki, temel terminoloji bile eksik veya henüz kararlaştırılmamış.

Bu nedenle makale şunu tanıtıyor: Üretken Motor Pazarlaması (GEM), ilgili reklamları doğrudan oluşturulan yanıtların içine yerleştirerek LLM tabanlı sohbet robotlarından para kazanmak için yeni bir çerçeve olarak kullanılıyor.

Araştırmacılar şunları tespit ediyor: Reklam Enjekte Edilen Yanıt (AIR) neslini GEM'deki temel zorluk olarak ele alıyorlar ve mevcut kıyaslama ölçütlerinin bunu incelemek için yetersiz olduğunu savunuyorlar. Bu boşluğu doldurmak için, özellikle bu amaç için tasarlanmış ilk kıyaslama ölçütünü sunduklarını iddia ediyorlar.

GEM-Bench, sohbet robotu ve arama motoru senaryolarını kapsayan üç özel veri kümesinden oluşur. Ayrıca, kullanıcı memnuniyeti ve etkileşiminin çeşitli yönlerini değerlendirmek üzere tasarlanmış bir metrik ontoloji ve modüler bir çoklu aracı çerçevesi içinde uygulanan bir dizi temel yöntem içerir.

Yazarlar, basit ve hızlı yanıt tabanlı yöntemlerin yüksek tıklama oranları (TO) gibi saygın etkileşim metriklerine ulaşabilse de, kullanıcı memnuniyetini düşürme eğiliminde olduğunu savunuyorlar. Buna karşılık, önceden oluşturulmuş, reklamsız yanıtlara reklam ekleyen yaklaşımlar, daha fazla hesaplama yükü pahasına da olsa, güven ve yanıt kalitesinde iyileşmeler gösteriyor.

Makalede, bu tür uzlaşmaların, reklamların üretken çıktılara entegre edilmesi için daha etkili ve verimli tekniklere ihtiyaç duyulduğunun altı çiziliyor.

MKS yeni iş başlıklı GEM-Bench: Üretken Motor Pazarlamasında Reklam Enjekte Edilen Yanıt Üretimi için Bir Ölçütve Singapur Ulusal Üniversitesi'ndeki dört araştırmacıdan geliyor.

Yöntem

Generative Engine Marketing'in (GEM) ana hatları, Arama Motoru Pazarlaması'nın (SEM) temel ilkelerinden esinlenmiştir. Geleneksel SEM, reklamverenlerin anahtar kelimeler için teklif verdiği çok aşamalı bir süreç aracılığıyla sorguları reklamlarla eşleştirerek çalışır; sistem hangi sorguların reklamları tetiklediğini belirler; sistem her bir reklamın tıklanma olasılığını tahmin eder ve ardından teklifleri öngörülen etkileşimle dengeleyen bir açık artırma yoluyla yerleşimi tahsis eder.

Buna karşılık GEM yaklaşımı aynı aşamaları LLM'lere uyarlar, ancak her adımda yeni zorluklarla karşılaşır: sabit reklam yuvaları yoktur, bu nedenle sistem bir sorgunun bir reklamı alıp alamayacağına ve serbest biçimli metne nereye ekleyeceğine karar vermelidir; yapılandırılmış düzenler olmadan tıklama oranlarını tahmin etmek daha zor hale gelir; ve reklamlar tek başına bir metin olarak sunulmak yerine doğrudan modelin kendi çıktısına dokunduğundan alaka düzeyi kullanıcı memnuniyetine göre dengelenmelidir.

Çalışmada incelenen temel çizgilerden biri, Reklam Sohbeti, modelin bir yanıt oluşturmasından önce reklam içeriğinin sistem istemine eklendiği basit bir yöntemi temsil eder. Bu, modelin önceden yüklenmiş bir gündem tarafından yönlendirilen, reklamın önceden yerleştirilmiş olduğu bir yanıt ürettiği anlamına gelir.

Diğer yaklaşım ise, Ad-LLM, yazarlar tarafından yeni kıyaslama teklifinin bir parçası olarak geliştirildi. Ad-LLM, modüler bir yol izleyerek önce temiz ve reklamsız bir yanıt oluşturuyor; ilgili bir reklam seçiyor; anlamsal akışa göre en iyi ekleme noktasını belirliyor; ve son olarak çıktıyı reklamı sorunsuz bir şekilde entegre edecek şekilde yeniden yazıyor:

Ad-Chat ile yazarların "Ad-LLM" yönteminin karşılaştırılması. Ad-Chat, reklamları oluşturmadan önce sistem komut istemi aracılığıyla yerleştirir ve sınırlı yerleştirme kontrolü sağlar. Ad-LLM ise yanıt oluşturma ve reklam yerleştirmeyi ayırır, yerleştirme noktalarını anlamsal akışa göre seçer ve sonucu iyileştirir. Her ikisi de memnuniyet ve etkileşim için GEM-Bench metrikleri kullanılarak puanlanır.

Ad-Chat ile yazarların "Ad-LLM" yönteminin karşılaştırılması. Ad-Chat, reklamları oluşturmadan önce sistem komut istemi aracılığıyla yerleştirir ve sınırlı yerleştirme kontrolü sağlar. Ad-LLM ise yanıt oluşturma ve reklam yerleştirmeyi ayırır, yerleştirme noktalarını anlamsal akışa göre seçer ve sonucu iyileştirir. Her ikisi de memnuniyet ve etkileşim açısından GEM-Bench metrikleri kullanılarak puanlanır.

Ad-Chat daha ucuz ve bazen daha ikna edici olsa da, güveni ve doğruluğu azaltma eğilimindedir. Ad-LLM, kullanıcı memnuniyeti ölçümlerinde daha iyi performans gösterir, ancak maliyeti daha yüksektir.

Veri

AIR üretimi için başlangıçta iki tür veri kümesi üretildi: bir kullanıcı sorgusu kümesi (kullanıcı) ve bir reklam veritabanı (AdDB).

Kullanıcı sorguları LLM'nin yanıtlarındaki reklam fırsatlarını tanımladığından, bu yanıtlar içerisinde 'reklam envanteri'nin var olduğu söylenebilir; ancak bu yalnızca kullanıcının sorgusunun uygulanabilirliğiyle değil, aynı zamanda sistemin reklam verenlerin zorunluluklarına karşı dürüstlük ile ilgili kendi kurallarına ne ölçüde uyacağıyla da tanımlanır.

Her durumda, reklamlar yalnızca yanıtlar halinde görünecektir, (yukarıdaki şemaya bakın) kullanıcı istekleri reklam yayınlama sürecini karşılamak için gizlice artırılabilse bile.

Chatbot senaryosu için yazarlar iki sorgu veri kümesi oluşturdu: MT-İnsan ve LM-Market.

MT-Human, beşeri bilimler bölümünden alınmıştır MT-TezgahLLM'ler için çok turlu bir ölçüt olan ve reklam içeriklerine uyum sağlayabilecek soruları içeren bir sınavdır.

LM-Market, ChatGPT tarafından toplanan yarım milyondan fazla gerçek sorgudan oluşturuldu LMSYS-Sohbet-1M, İngilizce dilindeki pazarlama ile ilgili istemler için filtrelendi ve konuya göre kümelendi anlamsal yerleştirmeler.

Her iki durumda da, son sorgular, otomatikleştirilmiş bir çok aşamalı boru hattı aracılığıyla seçildi kümeleme, LLM puanlaması ve insan doğrulaması, reklam yerleştirmenin doğal ve makul olacağı istemleri belirleme amacını taşır.

Reklam enjekte edilen yanıtların kalitesini değerlendirmek için GEM, hem kullanıcı memnuniyetini hem de etkileşimi kapsayan bir ölçüm ontolojisi tanımlar. Bu, aşağıdakiler de dahil olmak üzere nicel metrikleri içerir: yanıt akışı, uyum, ve tıklama oranıve niteliksel standartların yanı sıra güven, doğruluk, ve doğallık – hem bir reklamın bir tepkiye ne kadar iyi uyduğunu hem de kullanıcıların onu algılama ve onunla etkileşime girme olasılığını yansıtmayı amaçlayan metrikler.

'Doğallık' konusunda ise makalede şunlar ifade ediliyor:

'[Doğallık], reklamın konuşmanın akışını ve doğallığını kesintiye uğratma ve özgünlük temelinde ne ölçüde bozduğunu ölçer. Kesintiye uğratma, reklamın okuma sırasında "ani" veya "ani" bir his yaratıp yaratmadığını ve kullanıcının konuya sürekli odaklanmasını bozup bozmadığını inceler.

'Gerçeklik, reklamın konuşmanın 'insani dokunuşunu' veya 'doğal akışını' baltalayıp baltalamadığını, tepkinin katı, formüle edilmiş ve daha az gerçek görünmesini sağlayıp sağlamadığını değerlendirir.'

Test aşaması için geleneksel bir arama motoru senaryosu oluşturmak amacıyla yazarlar, başlıklı bir veri seti oluşturdular. CA-Prod itibaren AdsCVLR Her biri bir anahtar kelime, meta veri ve alaka düzeyini işaretleyen manuel bir etiketten oluşan 300,000 sorgu-reklam çiftini içeren ticari gövde:

Yazarların testleri için materyal sağlamaya yardımcı olan AdsCVLR veri setinden örnekler, orijinal kaynak makalesinden alınmıştır. Kaynak: http://www.jdl.link/doc/2011/20221224_AdsCVLR.pdf

Yazarların testleri için materyal sağlamaya yardımcı olan AdsCVLR veri setinden örnekler, orijinal kaynak makalesinden alınmıştır. Kaynak: http://www.jdl.link/doc/2011/20221224_AdsCVLR.pdf

Eksik alanları olan kayıtlar kaldırıldı ve yalnızca hem olumlu hem de olumsuz reklamları içeren sorgular tutuldu (örnekler için yukarıdaki resme bakın).

Verileri iyileştirmek için reklamlar altı konu grubuna ayrıldı (çim ve bahçe ekipmanları, slip-on ayakkabılar, evde bulunan malzemeler, beslenme takviyeleri, Android cihazlar, ve kadın elbiseleri) anlamsal yerleştirmeler ve K-ortalamalar kümelemesi kullanılarak.

Daha sonra, kıyaslama için 120 sorgu ve 2,215 benzersiz ürün örneklemlenmeden önce, sorgular olumlu reklamlarına göre konulara atandı ve aşırı seyrek veya yoğun kümeler hariç tutuldu.

Testler

Değişen reklam enjeksiyon stratejilerinin ne kadar iyi performans gösterdiğini değerlendirmek için, kıyaslama üç temel soruyu ele aldı: her yöntemin tanımlanan memnuniyet ve katılım ölçütleri açısından ne kadar etkili olduğu; Ad-LLM içindeki dahili tasarım seçimlerinin sonuçlarını nasıl etkileyebileceği; ve hesaplama maliyetinin sistemler arasında nasıl karşılaştırılacağı.

Yazarlar, reklamların nasıl alındığı (istemden veya oluşturulan yanıttan) ve son çıktının akıcılık için yeniden yazılıp yazılmadığı konusunda farklılık gösteren Ad-Chat ve yazarların Ad-LLM kanalının üç çeşidini değerlendirdi.

Tüm yöntemler kullanılarak çalıştırıldı doubao-1-5-lite-32k temel model olarak ve değerlendirilerek gpt-4.1-mini.

MT-Human, LM-Market ve CA-Prod veri kümelerinde Ad-Chat ve Ad-LLM varyantlarının etkinliği. Nicel metrikler arasında yanıt akışı (RF), yanıt tutarlılığı (RC), reklam akışı (AF), reklam tutarlılığı (AC), enjeksiyon oranı (IR), tıklama oranı (TO) ve genel puanlar yer alır. Nitel metrikler arasında doğruluk, doğallık, kişilik, güven, dikkat çekme, tıklama oranı ve genel performans yer alır.

MT-Human, LM-Market ve CA-Prod veri kümelerinde Ad-Chat ve Ad-LLM varyantlarının etkinliği. Nicel metrikler arasında yanıt akışı (RF), yanıt tutarlılığı (RC), reklam akışı (AF), reklam tutarlılığı (AC), enjeksiyon oranı (IR), tıklama oranı (TO) ve genel puanlar yer alır. Nitel metrikler arasında doğruluk, doğallık, kişilik, güven, dikkat çekme, tıklama oranı ve genel performans yer alır.

Her üç veri kümesinde de Ad-LLM, hem memnuniyet hem de etkileşim ölçümlerinde Ad-Chat'ten daha güçlü sonuçlar üretti. Yukarıdaki sonuç tablosunda görüldüğü gibi, en iyi Ad-LLM varyantı, genel nicel puanlarda Ad-Chat'e göre sırasıyla %8.4, %1.5 ve %3.8; MT-İnsan, LM-Pazar ve CA-Üretim için nitel puanlarda ise sırasıyla %10.7, %10.4 ve %8.6 oranında iyileşme gösterdi.

Yazarlar bu sonuçlar hakkında şunları söylüyor:

'Bu sonuçlar, ham bir yanıt oluşturmanın ve ardından reklamları enjekte etmenin, yalnızca sistem istemi enjeksiyonuna güvenen daha basit yaklaşıma kıyasla daha iyi yanıt kalitesi sağladığını göstermektedir.

'Belirli kullanıcı memnuniyeti ve etkileşim boyutları açısından Ad-Chat, her üç veri kümesinde de, özellikle doğruluk, kişilik ve güven gibi boyutlarda, Ad-LLM çözümleriyle karşılaştırıldığında sürekli olarak önemli bir performans farkı gösteriyor.'

Ayrıca, Ad-LLM, doğruluk, kişilik ve güven konularında en güçlü kazanımlarını göstererek Ad-Chat'i sırasıyla %17.6, %23.3 ve %17.2'ye varan oranlarda geride bıraktı. Makaleye göre, bu farklılıklar, Ad-Chat'in modeli daha kişiselleştirilmiş ve tanıtım amaçlı bir dile yönlendirmek için sistem komutlarını kullanma biçiminden kaynaklanıyor olabilir. Yazarlar, bunun doğruluğu ve güveni azaltan "satış elemanı benzeri" bir üsluba yol açabileceğini savunuyor.

Ad-Chat, reklam uygunluğu açısından seçilen sorgular üzerinden değerlendirildiğinde bile daha düşük enjeksiyon oranları üretti ve yazarlar bunu, istem tabanlı ipuçlarına (kontrol edilmesi zor olarak nitelendirdikleri) bağımlılığa bağlıyor.

Ancak arama motoru ortamında Ad-Chat, %8.6 daha yüksek bir tıklama oranı elde etti; makale, bunun yalnızca anlamsal yerleştirmelere güvenmek yerine ürün adaylarını almak için bir LLM kullanmanın avantajını yansıtabileceğini öne sürüyor:

MT-Human, LM-Market ve CA-Prod veri kümelerinde Ad-Chat ve üç Ad-LLM varyantı (GI-R, GIR-R, GIR-P) için dört hakem modeli (GPT-4.1-mini, Qwen-max, claude-3-5-haiku, kimi-k2) genelindeki genel performans puanlarının karşılaştırılması. Puanlar hakeme göre değişmekle birlikte, Ad-LLM tüm koşullarda Ad-Chat'ten sürekli olarak daha iyi performans göstermektedir.

MT-Human, LM-Market ve CA-Prod veri kümelerinde Ad-Chat ve üç Ad-LLM varyantı (GI-R, GIR-R, GIR-P) için dört hakem modeli (GPT-4.1-mini, Qwen-max, claude-3-5-haiku, kimi-k2) genelindeki genel performans puanlarının karşılaştırılması. Puanlar hakeme göre değişmekle birlikte, Ad-LLM tüm koşullarda Ad-Chat'ten sürekli olarak daha iyi performans göstermektedir.

İkinci sonuç tablosu (yukarıda gösterilmiştir) üç veri setinin hepsinde Ad-LLM çözümlerinin dört yargı modeli olan GPT-4.1-mini; Qwen-max; Claude-3-5-haiku; ve Kimi-k2'de Ad-Chat'ten sürekli olarak daha iyi performans gösterdiğini göstermektedir.

Bu jüri üyeleri, temel model doubao-1-5-lite-32k'den farklı olacak şekilde seçildi ve bu da model-aile uyumundan kaynaklanan önyargıyı azaltmaya yardımcı oldu. GIR-R her durumda birinci veya ikinci sırada yer aldı ve bu da jüri üyeleri arasında Ad-LLM'nin üstünlüğü konusunda genel bir fikir birliği olduğunu gösteriyor. Bireysel niteliksel boyutlar arasındaki dağılım, hemen önceki sonuçlarda görülen örüntüyü yakından takip ediyor (yukarıda daha ayrıntılı olarak gösterilmiştir).

Sonuç olarak, makale hem Ad-Chat hem de Ad-LLM'nin daha yenilikçi ve etkili modellere kıyasla daha fazla kaynak gerektirdiğini ve bu tür işlemlerde LLM aracıları kullanma ihtiyacının önemli bir ek yük getirebileceğini belirtiyor. Ancak, bu tür LLM kullanımından kaynaklanan gecikme sorunlarının (genellikle reklam yayınlama senaryolarında kritik öneme sahiptir) ortaya çıkabileceği düşünülebilir (ancak bu durum makalede özel olarak ele alınmamıştır).

Her durumda, yazarların Ad-Chat stratejisini uygulaması (makalenin başında gösterilen önceki şemanın üst sırası) en yüksek LLM maliyetine sahip olmasına rağmen en yüksek tıklama oranını sağladığı kanıtlanmıştır.

Sonuç

LLM'lerin reklam yayınlama yöntemleri hakkında literatürde spekülasyon yapılması şaşırtıcı olmasa da, aslında bu konu hakkında kamuya açık çok az araştırma bulunmaktadır; bu da mevcut makaleyi ve makul bir şekilde yorumlayabileceğimiz şeyi, selefi, ilginç yemekler.

Reklam satış departmanında veya envanter satışında çalışmış olan herkes, reklam verenlerin her zaman daha fazlasını istediğini bilir; ideal olarak, reklamların, ana içerik akışından tamamen farklı, gerçekçi içerik olarak sunulmasını isterler; ve bunun için önemli bir prim öderler (bu durumda okuyucular ve diğer paydaşlar nezdinde güvenilirliklerini ve itibarlarını riske atan ana bilgisayarla birlikte).

Bu nedenle, iki makalede öngörülen reklam yüklü eklerin, bir LLM'nin yanıtında daha yukarıya ve 'yük'e daha yakın bir noktaya doğru ilerlemek için ne ölçüde teşvik edilebileceğini görmek ilginç olacaktır.

 

İlk yayın tarihi Perşembe, 18 Eylül 2025

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai