Anderson’un Açısı
Yeni Araştırma Gerçekten ‘Kişiselleştirilmiş’ Reklam Öneriyor

Kendini tanıtmada bir yeniden tanımlama olarak, yeni bir yöntem, kullanıcıların kendi tıklamalarını madencilik yaparak, onların özel tarihine dayalı olarak web reklamları oluşturmak için kullanıyor.
Reklam ajansları, evinizin konforunda bir şey hakkında konuştuğunuzda size reklamlar sunan reklam kanallarının varlığını yalanlamaya hevesli olsalar da, web siteleri ve sosyal medya uygulamalarındaki reklamların gösterdiği “kişiselleştirme” düzeyi son yıllarda manşetlere taşınmıştır.
Reklamverenin ideal senaryosu, sunulan reklamın izleyici için “tam bir uyum” olmasıdır. Çevrimiçi izleme hakkında kamu tepkisi ve kullanıcıların bu tür izlemeye karşı kurabileceği önlemler sınırları içinde, generatif AI (LLM reklamcılığı etrafındaki korkuları bir yana bırakarak) reklam görselleri ve metinleri gerçek zamanlı dağıtıma uygun şekilde üretme yeteneğine sahiptir.
Ancak, bu alandaki araştırmaların ve bugüne kadar yapılan uygulamaların büyük çoğunluğu, herhangi bir izleyici için oluşturulan reklamın, izleyicinin tahmin edilen koğuş grubuna dayanarak oluşturulmasına dayanmaktadır.
Şimdi, Çin ve ABD arasındaki yeni bir araştırma işbirliği, bir kullanıcıyı_logged-in_ bir siteye bağlı olarak geçmiş tıklamalarından öğrenerek, bireysel kullanıcılar için reklam görselleri ve metinleri oluşturmak için bir sistem sunuyor. Bu, cohort-tabanlı varsayımların ötesine geçerek, bugüne kadar meisten kişiselleştirilmiş reklam araştırmalarını yöneten cohort-tabanlı varsayımların ötesine geçiyor:

Bireysel olarak üretilen reklamları gösteren örnekler. Kullanıcının geçmişini bağlam olarak düşünmeden, tam etki sadece hayal edilebilir. Kaynak
Alışılmadık bir şekilde, yeni yaklaşım difüzyon tabanlı modelleri reddederek, bir otoregresif mimariyi tercih ediyor – temel fark, difüzyon modellerinin görsel gürültüden bir görüntüyü dần dần iyileştirirken, otoregresif modellerin içeriği bir parça bir parça oluşturması ve her yeni öğeyi önceki her şeyden öngörmesidir.
… (devam ediyor)
Walled Garden
Bu çalışmanın önerilen kapsamı, reklamverenlere yeni üçüncü taraf izleme önlemlerini atlatma yolu sunmaz, bunun yerine yeterli büyük bir perakendeciye, logged-in müşteri ile doğrudan ilgili reklamları sunma yeteneği verir.
Bu, yalnızca perakendecinin kendi sitesini gezen müşterilerle sınırlı değildir: Kullanıcı, perakendeciye diğer sitelerde onu izleme yetkisi vermişse, perakendecinin kullandığı reklam müzayedelerine katılan diğer web sitelerinde hedefli reklamlarla karşılaşabilir.
Bu tür reklam erişimi genellikle Amazon gibi yüksek hacimli, büyük ölçekli perakendecilere sınırlıdır (ve analog bir Çin perakendecisinin yeni çalışmaya katıldığını not ediyoruz), ancak benzer büyüklükteki herhangi bir şirket (örneğin, bir sosyal medya platformu) teoride benzer bir generatif çerçeve oluşturabilir.
Yeni makale, Design Your Ad: Kişisel Reklam Görüntü ve Metin Oluşturma ile Birleştirilmiş Oto-Regresif Modeller başlığını taşıyor ve Guangzhou’daki Sun Yat-Sen Üniversitesi, Northeastern Üniversitesi ve Çin’in en büyük perakendecisi JD.com’dan 18 yazar tarafından sunuluyor. Kod, GitHub üzerinden kullanılabilir ve ilgili kontrol noktaları de mevcuttur.
Veri ve Yöntem
Proje için oluşturulan veri kümesi, Personalized Advertising image-text (PAd1M) olarak adlandırılmıştır ve proje katılımcısı JD.com tarafından sağlanan verilerle güçlendirilmiştir. Yazarlar şunları belirtir:
‘Her ürün genellikle ondan fazla aday görüntü ve metin sağlar, böylece çeşitli tercihler tam olarak tespit edilebilir. Güvenilir tercih modellemesi için, kullanıcıların tıklama geçmişlerini hem görseller hem de metinler üzerinde toplar ve gürültüyü azaltmak için yetersiz aktiviteye sahip kullanıcıları filtreleriz.
‘Bu, 1.145.371 kullanıcı, 18.923.555 tıklanmış ürün görseli ve metni ve ortalama olarak her kullanıcı için on altı多luhistorical davranışla bir veri kümesi sağlar.’
Her kullanıcı için, daha önce tıklanmış bir görüntü-metin çifti hedef örnek olarak seçildi, ardından ürün kendisi Grounded SAM kullanılarak görüntüden izole edildi.
Satıcı tarafından sağlanan açıklamalar ve satış noktaları daha sonra kayda eklenerek, her hedef reklamın şeffaf bir ürün görseli, yapılandırılmış ürün bilgisi ve kullanıcıların önceki ilgi ve tercihlerini yakalamak amacıyla tasarlanmış önceki görüntü ve metin etkileşimlerinin tarihi ile birlikte bir veri kümesi oluşturuldu:

PAd1M veri kümesinden bir kullanıcı profili, hedef reklamı, onu oluşturmak için kullanılan ürün bilgilerini ve kullanıcı tercihlerini modellemek için kullanılan historical görüntü ve metin etkileşimlerini gösterir.
Sonuçlanan veri kümesi, bir milyondan fazla kullanıcı ve yaklaşık 19 milyon tıklanmış-görüntü ve metin kaydı sunar ve yazarlar, bu koleksiyonun önceki kişiselleştirme veri kümelerinden önemli ölçüde daha büyük olduğunu belirtir.
Ek olarak, veriler, bu araştırma alanının diğer örneklerinden farklı olarak, hem görseller hem de metinleri birleştirir, böylece kullanıcı tercihleri tek bir domaine değil, birden fazla modda modellenebilir.
PAd1M ayrıca, önceki reklam veri kümelerinin çoğunun büyük gruplar genelinde tıklama oranlarına dayandığından farklı olarak, bireysel düzeyde tercih izleme özelliğine sahiptir.
Metrikler için, standart BLEU ve ROUGE seçimleri yanı sıra, araştırmacılar kendi özel ölçümünü geliştirdiler, Ürün Arka Plan Benzerliği (PBS). Önceki MoCo-v3 girişimine dayanan PBS, 681.123 görüntü çifti üzerinde eğitildi ve aynı ürünü farklı arka planlarda gösteren bu görüntü çiftleri, metriğin ürün kendisi yerine bağlam varyasyonuna odaklanmasını sağladı:

Ürün Arka Plan Benzerliği (PBS), aynı ürünü ancak farklı görsel bağlamlarda gösteren reklamlara belirgin şekilde farklı benzerlik puanları atar, diğer metrikler ise çok daha küçük ayrılıklar üretir.
Eğitim sırasında, her görüntü kendisiyle birlikte olumlu bir örnek olarak eşleştirilirken, aynı ürünün farklı bir ayar içinde yerleştirilmiş bir görüntüsü olumsuz bir örnek olarak kullanılır, bu eğitim stratejisi, arka plan bağlamına duyarlılığı artırmayı amaçlar. Değerlendirme sonuçları, makale, PBS’nin CLIP, DINO v3 veya söz konusu MoCov3 tarafından üretilenden daha büyük benzerlik farklılıklarını sunduğunu iddia eder.
Araştırmacıların Birleştirilmiş Reklam Oluşturma (Uni-AdGen) modeli, bir oto-regresif görüntüleme-dil mimarisi kullanır ve reklam metni ve görsellerini üretir. Süreç, görev tanımı, ürün açıklaması ve satış noktaları dahil olmak üzere yapılandırılmış bir talimat tarafından yönlendirilir:

Yöntem özeti.
Özel sınırlayıcı tokenler, reklam kopyasının ayrılmış bölümünü tanımlar. Metin oluşturulduktan sonra, bir görüntü tokeni görüntü oluşturmayı tetikler ve bir kapanış görüntü tokeni onun tamamlanmasını işaretler, oluşturulan tokenler daha sonra ayrı metin ve görüntü dekodörlerine gönderilir.
Görseller için, LlamaGen’in VQ-GAN dekodörü, ayrılmış görüntü tokenlerini piksellere geri dönüştürmek için kullanılır.
Bu şekilde, birleşik mimari, metin ve görselleri tek bir sonraki-token tahmini çerçevesinde üretir, önceki reklam sistemleri gibi ayrı boru hatlarına güvenmek yerine.
Eğitim sırasında, model her iki modu birlikte öğrenir, metin tokenleri girişe dayalı olarak ve daha önce oluşturulan metne göre tahmin edilir. Görüntü tokenleri, girişe, oluşturulan metne ve daha önce oluşturulan görüntü tokenlerine göre tahmin edilir.
Üretilen reklamları tanıttığı ürünle bağlamak için, Uni-AdGen, DINO v2 tabanlı bir ön plan-algı modülü kullanır ve şeffaf ürün görsellerinden bilgiyi oto-regresif modele enjekte eder.
Talimat-tuning (modeli, açıklamalardan ve satış noktalarından türetilen ürün-spesifik oluşturma talimatlarına uymaya eğitmek) ayrıca, satıcı tarafından sağlanan açıklamalara ve satış noktalarına uymayı iyileştirmek için kullanılır, GPT-4o eğitim örneklerini filtrelemek için kullanılır.
Kişiselleştirme, bir kaba-ince tercih-anlama modülüne dayanıyordu. Historical etkileşimler önce, ürünbenzeri ürünlerin tercih edilmesini sağlayan bir Ürün Benzerliği Örnekleme pipeline aracılığıyla filtrelenirdi. Kalan kayıtlar daha sonra, kullanıcıların ilgi ve tercihlerini yansıtabilecek görsel ve metinsel öğeleri tanımlamaya yönelik bir Multimodal Tercih Çıkarma aşamasına tabi tutulur ve bu tercihler, oluşturmayı yönlendirmek için talimata eklenirdi.
Testler
Yazarlar, test yaklaşımının DeepSeek’in Janus-Pro 7B tarafından türetilendiğini belirtir.
Model, dörtlük bir toplu işleme boyutunda, AdamW optimizatörü altında 5e-5’lik bir öğrenme oranı ile eğitildi. Temel model, LoRA aracılığıyla fine-tune edildi, ön plan algı ve multimodal tercih çıkarma tamamen fine-tune edildi (yani, LoRA ile olduğu gibi, temel model ağırlıkları kalıcı olarak değiştirildi).
Tüm testler, 192GB’lik VRAM ile donatılmış bir NVIDIA B200 GPU üzerinde gerçekleştirildi. Görüntü oluşturma için PickScore, ImageReward ve ASE kullanıldı, reklam metni için m-BLEU ve m-ROUGE† kullanıldı. İnsan değerlendiriciler ayrıca görüntü gerçekçiliği ve düzen kalitesini, metinsel doğruluk ve akıcılıkla birlikte değerlendirdi ve tüm metrikler 500 ürün üzerinden hesaplandı.
Görüntü oluşturma için, karşılaştırma noktaları Qwen2.5-VL ve GPT-4o idi, ürün görsellerinden arka plan talimatları oluşturmak için kullanıldı, ardından ReliableAd, PosterMaker ve Flux-Fill nihai reklamları üretmek için kullanıldı. Metin oluşturma karşılaştırmaları, Qwen2.5, Qwen3 ve DeepSeek-R1 karşıtı olarak gerçekleştirildi.
İlk karşılaştırma noktaları için nicel sonuçlar aşağıdaki gibidir:

Genel reklam oluşturma benchmark’indeki performans. Uni-AdGen, estetik kalite ve PickScore’da en güçlü görüntü oluşturma karşılaştırma noktalarını eşledi veya aştı, birleşik görüntü ve metin modeli ise tüm metin oluşturma yaklaşımları arasında en yüksek m-ROUGE puanını elde etti. İnsan değerlendirme sonuçları her iki modda da rekabetçi kaldı.
Bu sonuçlar hakkında yazarlar şunları belirtir:
‘[Bizim] yöntem, ImageReward’de en iyi performansı gösterir ve PickScore’da ve insan değerlendirme sonuçlarında ikinci sırada yer alır, bu da onun estetik ve yüksek kullanılabilirlikte üstün performansını gösterir. ReliableAd, insan değerlendirme sonuçlarında lider olsa da, estetik metriklerde önemli ölçüde geride kalır. Öte yandan, PosterMaker ve Flux-Fill görsel olarak çekici görüntüler üretir, ancak belirgin kullanım sınırlamalarına sahiptir.
‘Etkili kontrol yaklaşımları sayesinde, bizim yöntem, görsel içerik ve pratik fayda arasında optimal bir denge sağlar.’
Kişiselleştirilmiş reklam oluşturma, 500 kullanıcı için, PBS ile görüntü benzerliğini ölçmek ve BLEU ile ROUGE ile oluşturulan metni kullanıcıların gerçekten tıkladığı ürünlerle karşılaştırmak için değerlendirildi.
Genel reklam karşılaştırma noktaları, kullanıcı tarihlerini birleştiremediği için, karşılaştırmalar kişiselleştirme için tasarlanmış sistemlere kaydırıldı. Görüntü oluşturma için, Flux-Kontext ve Pigeon karşılaştırma noktaları olarak seçildi. Flux-Kontext, hedef ürün görseliyle birlikte historical kullanıcı görsellerinin bir ızgarasını aldı, böylece önceki tercihler oluşturmayı etkileyebildi.
Pigeon, ürün yerleştirme için yerleşik olarak destek vermediği için, Uni-AdGen için geliştirilen ön plan algı modülü entegre edildi, böylece ürün tutarlılığı korunur.
Metin oluşturma için, Qwen3 ve DeepSeek-R1 karşılaştırma noktaları olarak kullanıldı, historical ürün açıklamaları doğrudan talimat şablonlarına eklenerek kullanıcı-spesifik bağlam sağlandı:

Kişiselleştirilmiş reklam oluşturma sonuçları. Uni-AdGen, Flux-Kontext, Pigeon, Qwen3 ve DeepSeek-R1’i reported kişiselleştirme metrikleri açısından aştı, ayrıca bir abolisyon çalışması, historical kullanıcı verilerinin, Ürün Benzerliği Örnekleme (PSS) ve multimodal tercih çıkarmasının her birinin ölçülebilir kazançlar sağladığını gösterdi.
Burada yazarlar şunları belirtir:
‘Görselleştirilmiş sonuçlar [aşağıdaki görüntüde], Flux-Kontext’in kullanıcı tercihlerini anlamakta başarısız olduğunu ve örnek seviyesindeki gürültüye karşı savunmasız kaldığını, bu da gerçek değerden önemli sapmalara yol açar, örneğin motosiklet görüntüsündeki alakasız öğeler gibi.’

Kişiselleştirilmiş reklam oluşturma örnekleri. Flux-Kontext, Pigeon, Qwen3 ve DeepSeek-R1 ile karşılaştırıldığında, Uni-AdGen, kullanıcıların gerçekten tıkladığı reklamların görsel stili ve bağlamına daha yakın görseller üretti ve metin oluşturdu, bu metin ürünün özelliklerini ve satış noktalarını daha büyük bir oranda yakaladı. Eşleşen terimler yeşil renkle vurgulanmıştır.
Niteliksel örnekler, yazarlara göre, Flux-Kontext ve Pigeon’ın genellikle, kullanıcıların daha önce tıkladığı reklamların görsel özelliklerinden sapmış çıktılar ürettiğini, ayrıca Qwen3 ve DeepSeek-R1 tarafından oluşturulan metinlerin, gerçek örneklerde bulunan bazı satış noktalarını atladığını gösterir.
Sonuç
Bu projenin faydası tamamen kullanıcıların onayına bağlıdır ve bu ‘öngörülü’ sistemin erişimini, kullanıcı geçmişini kontrol eden alanın ötesine taşımak, daha da gevşek bir kullanıcı izni kümesi gerektirir.
Ancak, sistem, böyle bir senaryoda çalışan hiperscale network etkisine dayanmaktadır ve belki de biraz umutlu bir şekilde, kullanıcıların bu tür gerçekten kişiselleştirilmiş ve hatta öngörülü bir öneri sistemini, bir perakende devinin walled gardenı içinde faydalı rather than müdahaleci bulacağı düşüncesine dayanmaktadır.
* Bu görüntü, ‘toplanan figürler’ araştırma makalelerindeki yeni ve endişe verici bir trendi yansıtır, burada daha önce 3-4 farklı figür olarak sunulan illüstrasyonlar, birleştirilir ve (makalelerin ana bölümünün maksimum uzunluğuna ilişkin gönderi rehberlerine uymak için) yalnızca referans materyali olarak kullanılır ve genellikle eşlik eden kaptan yeterli açıklama olmadan.
† ‘m’-ön eki, birden fazla aday metinle karşılaştırmayı gösterir.
İlk olarak 2 Haziran 2026 Salı günü yayımlandı. 18:21 EET’de son paragraftaki ‘wall’ yerine ‘walled’ yazılması için düzeltilmiştir.












