Anderson’un Açısı

AI Tarafından Üretilen Demografik Hedefli Reklam Görselleri – Ve Sonunda Siz?

mm
Montage of AI-generated images depicting frames from an online video aimed at three different age groups. Z-Image Turbo via Krita Diffusion AI.

Reklamcılar, reklamları bireysel izleyicilere göre uyarlamak için çalışırlar ve her bir kişi için özel reklamlar oluşturmak şu anda pratik olmasa da, yeni bir araştırmaya göre AI tarafından üretilen görseller, belirli demografik gruplara etkili bir şekilde hedeflenebilir.

 

Steven Spielberg’in 2002 yapımı bilim kurgu aksiyon filmi Azınlik Raporu, kişiselleştirilmiş reklamcılık konusundaki kalıcı ve hatta ürkütücü bir izlenim bırakmıştır. Filmdeki proaktif reklam panoları, kalabalıklardaki insanları tanır ve onlara doğrudan reklam mesajları iletir.

Çok sayıda tüketici grubu, bu düzeyde izleyici tanıma düzeyini kâbus olarak görebilir ve Cambridge Analytica skandalı之后 yavaşlatılan ilerleme, doğrudan ve yüksek düzeyde hedeflenmiş etkileşim, reklamcılıkta hala birincil hedeftir.

Aslında, belirli bir izleyiciye özgü özelliklerine kadar inen sistemler sürekli geliştirme altındadır – ancak bu durumlarda, şirket araştırmaları, kişisel olarak tanımlanabilir bilgiler (PII) etrafındaki yasalara saygı göstermek için önlemler almak zorundadır; yasalar, son on yılda Avrupa’da güçlendirilmiştir ve bu iyileştirilmiş korumalar, Brüksel Etkisi aracılığıyla başka yerlerde yayılmıştır.

Sana!

Şimdi AI tarafından üretilen reklamlar ve pazarlama içeriği yükselişte olduğunda, reklamcılar, AI reklamlarının belirli bireylere hedeflenmesi maliyetini göz önünde bulundurmak zorundadır, burada görseller ve metinler fırsatçı bir şekilde ve anında oluşturulur.

Örneğin, özel bir görsel çok hızlı bir şekilde oluşturulsa bile, büyük ölçekli maliyetler önemli olacaktır. Ayrıca, otomatik çevrimiçi reklam artırma süreçleri kritik, milisaniye düzeyinde zaman çerçevelerinde çalışır, bu da kullanıcıya yönelik özel görsel içeriğinin zor olmasını sağlar; ve video içeriği daha da uzak bir olasılıktır.

Ancak, daha yüksek düzeyde demografik kohort gruplarını internetteki bir izleyiciye (laptop, telefon, akıllı TV vb. aracılığıyla) hitap etme tekniksel engelleri o kadar nghiêmvidir – ve yeni bir uluslararası akademik ve endüstriyel işbirliği, yaş, konum gibi faktörleri içeren farklı demografik gruplar için ayrı reklam görselleri oluşturmayı öneriyor:

Yeni çalışmadan: farklı izleyici gruplarına yönelik kişiselleştirilmiş reklam oluşturma örnekleri, tek bir ürün farklı stillerde渲染. İlk satır orijinal ürün görsellerini gösterir. Sonraki üç satır, her ürün için üç farklı izleyici türüne uyarlanan sürümleri gösterir. Bu grup türleri önceden tanımlanmaz, otomatik olarak keşfedilir. Her satır bir gruba karşılık gelir; her sütun farklı bir ürünü gösterir. Kaynak - https://arxiv.org/pdf/2602.02033

Yeni çalışmadan: farklı izleyici gruplarına yönelik kişiselleştirilmiş reklam oluşturma örnekleri, tek bir ürün farklı stillerde渲染. İlk satır orijinal ürün görsellerini gösterir. Sonraki üç satır, her ürün için üç farklı izleyici türüne uyarlanan sürümleri gösterir. Bu grup türleri önceden tanımlanmaz, otomatik olarak keşfedilir. Kaynak

Yeni çerçeve – Bir Boyut, Çok Uyarlama (OSMF) olarak adlandırılan – geniş hedefli reklamcılık ile pratikte granül kişiselleştirme arasındaki boşluğu, ürün bilinci olan kümeleme kullanarak farklı reklam görselleri oluşturarak ve görsel içeriği çeşitli demografik grupların tıklama tercihleriyle uyumlu hale getirerek kapatmayı amaçlar

Yazarlar şöyle diyor:

‘[Biz] büyük ölçekli reklam görseli oluşturma için çeşitli grupların tıklama tercihlerini uyumlu hale getiren birleşik bir çerçeve sunuyoruz.

‘OSMF, ürün bilinci olan uyarlanabilir kümeleme ile başlar, bu da kullanıcıları özelliklerine ve ürün özelliklerine göre dinamik olarak organize eder ve her grubu zengin toplu tercih özellikleriyle temsil eder.’

Karşılaştırılabilir çerçevelerle test edilen yazarlar, state-of-the-art sonuçlar elde ettiğini iddia ediyor.

Çalışma, çeşitli kohort gruplarını tanımlasa da, makale, her G grubunun hangi demografik özelliklerini temsil ettiğini belirtmiyor, ancak bunlar geleneksel pazar segmentasyonu gruplarına karşılık geliyor gibi görünüyor.

Dolayısıyla, makaledeki ve ekteki verilen çeşitli örneklerden, belirli arka planların veya aydınlatmanın neden bir kohorttan diğerine daha fazla hitap ettiğini tam olarak anlamak mümkün değildir, çünkü hiçbir kohortun özelliklerini bilmiyoruz:

Kohortlara özgü stillerde tutarlı 'mavi için erkekler, pembe için kızlar' gibi stiller yoktur - tanımlar, mevcut literatürden anlaşılacağı gibi, çok daha karmaşık ve nüanstır.

Kohortlara özgü stillerde tutarlı ‘mavi için erkekler, pembe için kızlar’ gibi stiller yoktur – tanımlar, mevcut literatürden anlaşılacağı gibi, çok daha karmaşık ve nüanstır.

Endişe verici olan, reklam hedefleme uygulamalarına karşı temkinli olanlar için, reklamda belirli görüntülerin oluşturulmasında kullanıcı başına gainedenlerin kullanılma olasılığıdır**.

The new paper is titled One Size, Many Fits: Aligning Diverse Group-Wise Click Preferences in Large-Scale Advertising Image Generation, and comes from 17 researchers across the National Laboratory of Pattern Recognition at Beijing; the ‘School of AI at UCAS’**; the Chinese e-commerce company JINGDONG; the Hong Kong University of Science and Technology at Guangzhou; and the Pattern Recognition Lab at Nanjing University of Science and Technology.

Yöntem

Sistem, uyarlanabilir kümeleme (kullanıcı özelliklerini ürünlerine verdikleri tepkilerle bağlayan bir yöntem) kullanır ve yazarların bu yaklaşıma verdiği ad Ürün Bilinci Olan Uyarlanabilir Kümeleme (PAAG)’dir.

Bu gruplar önceden belirlenmez, ancak verilerden keşfedilir.

Şartlı bir görüntü oluşturucu, Tercih Koşullu Görüntü Oluşturma (PCIG) olarak adlandırılan, her grubun profilini kullanarak, grubun muhtemel tercihlerine uygun reklam görselleri oluşturur:

OSMF, kullanıcıları ürün tercihlerine göre gruplandırır, ardından bu grup profillerini kullanarak her grubun zevkine uygun reklam görselleri oluşturur. PAAG, gruplandırma işlemini gerçekleştirir ve PCIG, her grubun tercihlerine göre görseller oluşturur.

OSMF, kullanıcıları ürün tercihlerine göre gruplandırır, ardından bu grup profillerini kullanarak her grubun zevkine uygun reklam görselleri oluşturur. PAAG, gruplandırma işlemini gerçekleştirir ve PCIG, her grubun tercihlerine göre görseller oluşturur.

Görüntü oluşturucu, Stable Diffusion‘un belirsiz bir sürümünü ve tutarlılığı sağlamak için ControlNet takımını kullanır.

İş akışında, PAAG önce kullanıcı özelliklerini ve ürünün metin ve görüntü yönlerini kodlar ve bunları birleştirmek için çapraz dikkat mekanizması kullanır ve bu da, bir kullanıcıya belirli bir reklamı tıklama olasılığını yansıtan birleşik bir tercih gömme oluşturur.

PAAG daha sonra, kullanıcı özelliklerinin ürün başlıkları ve ürün görselleriyle nasıl etkileşime girdiğini modellemektedir. Metin ve görüntü özellikleri, CLIP ve ResNet tabanlı kodlayıcılardan elde edilir ve kullanıcı özellikileri gibi cinsiyet, konum, yaş veya cihaz bir MLP aracılığıyla geçirilir, bu da ürün metin ve görüntü özelliklerine çapraz dikkat sağlar.

Sonuçlanan gömme, her kullanıcı için belirli bir ürün için tıklama olasılığını temsil eder. Bu kullanıcı-ürün tercih gömmeleri elde edildikten sonra, PAAG her ürün için kullanıcıları benzer şekilde tepki gösteren gruplara ayırarak K-Ortalama Kümeleme kullanır.

PAAG, her ürün için en iyi grup sayısını, kümelemenin ne kadar iyi ayrıldığını kontrol ederek belirler. Sadece bir grup için tek bir ortalama nokta kullanmak yerine, daha geniş tercih yelpazesini yakalamak için farklı mesafelerde birden fazla nokta örnekleme yapar.

Bu grup profilleri daha sonra grup bilinci olan çok modelli büyük dil modeli (G-MLLM) olarak adlandırılan bir modele token olarak verilir ve bu, her grubun reklam görsellerini oluşturmak için bunları kullanır.

Kullanıcı Tercihlerine Dayalı Görüntü Oluşturma

Kullanıcı tarafında, G-MLLM, hangi grup üyelerinin bir sonraki tıklamaya en olası adaylar olduğunu ve ortak özelliklerini doğal dilde nasıl tanımlayacağını öğrenir. Ürün tarafında, ürünün resmedildiği görüntüyü özetlemeyi ve her grup için ürünle uyumlu reklam tarzı başlıklar oluşturmayı öğrenir.

Model, gerçek kullanıcı davranışını yansıtmak için grup bilinci olan ödül modeli (GRM) olarak adlandırılan bir modele genişletilir. GRM, araştırmacıların kendi Gruplandırılmış Reklam Görüntü Tercihleri (GAIP) verisetini kullanarak eğitilir ve bu, aynı ürün için reklam görsellerinin hangisinin belirli bir grupta daha iyi çalıştığını belirlemek için kullanılır.

Bu ödül sinyali daha sonra ince ayar için G-MLLM’i Grup-DPO yöntemiyle öğretmek için kullanılır.

Veri ve Testler

GAIP’yi Geliştirme

Grup tabanlı reklam tercihleriyle ilgili veri setlerinin eksikliğini not eden ve önceki koleksiyonların (Kişiselleştirilmiş Çorbalar ve CG4CTR) ya çok küçük ölçekli ya da çok kötü tanımlanmış olduğunu gören araştırmacılar, kendi koleksiyonlarını, GAIP’yi geliştirdiler. Bu, bir e-ticaret platformunun “endüstriyel reklam günlüklerinden” türetilmiştir.

Günlükler, üç haftalık bir süre boyunca toplanmıştır ve her girişte, ürün görseli ve başlığı, izleyicinin profili (yaş, harcama düzeyi ve promosyonlara duyarlılık dahil) ve reklamın tıklanıp tıklanmadığı kaydedilmiştir.

Veri seti, 40 milyondan fazla kullanıcı, 2 milyon ürün ve neredeyse 10 milyon reklam görseli içerir ve ürünler arasında yüksek görsel çeşitlilik vardır.

Kullanıcılar, her ürün için PAAG tarafından farklı kümeler halinde gruplandırılmış ve her gruptaki her görsel için tıklama oranı hesaplanmıştır:

Yeni makalenin ek malzemelerinden, GAIT için bazı tanımlayıcı kriterlerin küçük bir ön izlemesi.

Yeni makalenin ek malzemelerinden, GAIT için bazı tanımlayıcı kriterlerin küçük bir ön izlemesi.

GAIP, her reklam görseli, ürün başlığı, grup gömme ve grup özel tıklama oranının birleşiminden oluşan bir dizi demet olarak oluşturulur.

Güvenilirlik için, yalnızca yeterli maruziyet olan ürünler korunur ve bu da 610.172 grup düzeyi örneğiyle sonuçlanır.

GAIP, önceki veri setlerinden önemli ölçüde daha büyüktür: çoğu önceki benchmark, ondan az kullanıcı grubunu içerirken, GAIP yaklaşık 600.000 gerçek dünya grup tercihi kaydını içerir ve bu da grup düzeyinde tercihler hakkında daha derin içgörüler sağlar.

Testler

PCIG pipeline’ini eğitmek için, araştırmacılar ResNet ve CLIP metin kodlayıcısını kullanarak görüntü ve metin özelliklerini çıkardı, ardından bunları öğrenilebilir lineer katmanlar aracılığıyla 128 boyutlu gömmelere haritaladı. Verimliliği korumak için PAAG, her ürün için beş kullanıcı grubuna sınırlıdır.

Grup gömmeleri, 15., 55. ve 95. percentil noktalarından örnekler alarak çekirdek ve periferik tercihleri yakalamak için bir yüzde tabanlı örnekleme stratejisi kullanılarak oluşturulur.

LLaVA, G-MLLM için temel model olarak kullanılır ve ön eğitim, on epoch boyunca kosinüs öğrenme zamanlaması ile 2e-6 öğrenme hızında gerçekleştirilir, bu da sekiz NVIDIA H100 GPU’sunda, her biri 80GB VRAM ile beş gün süren bir eğitim gerektirir.

GRM, GAIP’yi eşleştirilmiş ürün görüntü çiftleriyle yeniden oluşturularak eğitilir ve G-MLLM ile aynı ağırlıklarla başlatılır. Son Group-DPO aşamasında, GRM dondurulur ve G-MLLM, aynı NVIDIA kümesinde 2e-5 öğrenme hızında üç epoch boyunca LoRA ile ince ayarlanır.

İlk değerlendirme için kullanılan metriklere NDCG@5 ve AUROC dahildir. NDCG@5, her grubun aynı reklam görsellerini nasıl sıraladığını ölçer, daha düşük değerler tercihlerde daha net bir ayrıma işaret eder; AUROC, her modelin tıklanmış ve tıklanmamış içeriği ayırt etme yeteneğini değerlendirir.

Tüm metriklere 1.000 ürünün kümeleme sonuçlarından hesaplanır, yaklaşık 100.000 örnek içerir ve PAAG’i üç önceki sisteme (CACS; WIYD ve JAC) kıyaslamak için kullanılır:

Önceki yöntemlerle karşılaştırılmış tercih modelleme sonuçları. Daha düşük NDCG@5 ve daha yüksek AUROC daha iyi performansı gösterir. En iyi skorlar kalın, ikinci en iyi skorlar alt çizgili olarak gösterilir.

Önceki yöntemlerle karşılaştırılmış tercih modelleme sonuçları. Daha düşük NDCG@5 ve daha yüksek AUROC daha iyi performansı gösterir. En iyi skorlar kalın, ikinci en iyi skorlar alt çizgili olarak gösterilir.

Bu sonuçlar hakkında yazarlar şunları söylüyor:

‘[Bizim] yöntem, her iki ölçütte de üstün performans gösterir. Somut olarak, PAAG en düşük NDCG@5 (0.3066) değerini elde eder ve en iyi referans (CACS) ‘i geride bırakır, bu da etkili grup tabanlı reklam oluşturma için daha belirgin inter-grup tercih kalıpları anlamına gelir.

‘Ek olarak, PAAG en yüksek AUROC (0.6372) değerini elde eder ve en güçlü referans (WIYD) ‘e göre 0.0159’luk bir iyileşme gösterir.’

İkinci bir test turu, sistemin reklamı doğru kullanıcı gruplarına daha iyi uyarlama yeteneğini kontrol etti;

Çevrimiçi tıklama oranı karşılaştırması, gruplara özel oluşturmanın ('Bizim') tüm referansları, CAIG ve ön eğitime sahip G-MLLM dahil, daha iyi performans gösterdiğini gösterir.

Çevrimiçi tıklama oranı karşılaştırması, gruplara özel oluşturmanın (‘Bizim’) tüm referansları, CAIG ve ön eğitime sahip G-MLLM dahil, daha iyi performans gösterdiğini gösterir.

Burada, PCIG, daha eski modeller gibi CAIG ve G-MLLM’den daha güçlü tıklama oranlarına sahiptir, %5,5’lik bir iyileşme gösterir. GRM ayrıca, grup tercihlerine dayalı olarak reklamın hangisinin daha iyi çalıştığını belirleme yeteneği açısından offline olarak test edilmiştir. Tüm referansları, genel amaçlı modeller dahil, %4,7’lik bir kazançla geride bırakmıştır.

Son bir nitel test, PCIG’nin grup düzeyinde tercihleri stilindeki oluşturduğu görsellerde yansıtabildiğini değerlendirmek için yapılmıştır. Aşağıdaki şekil gibi, aynı ürün her grupta farklı bir şekilde oluşturulmuştur, renk paleti, ton ve görsel kompozisyon değişiklikleri ile:

Nitel testlerin tam sonuçları, makalenin önceki kısımlarında ön izlenmiştir.

Nitel testlerin tam sonuçları, makalenin önceki kısımlarında ön izlenmiştir.

Bu varyasyonlar, yazarlara göre, her grubun tercihlerine karşılık gelen tıklama tercihleriyle uyumludur ve bu da PCIG’nin stilistik olarak farklı çıktılar üretebileceğini, ancak ilgili ve çekici kalırken gösterir. Yazarlar şöyle diyor:

‘[PCIG], farklı kullanıcı gruplarının tıklama tercihlerine uyum sağlamak için stilistik olarak çeşitli görseller oluşturur, bu da grup tabanlı reklamcılık için ölçeklenebilirlik potansiyelini vurgular ve çeşitli kullanıcı gruplarındaki ince,细节 tercih farklılıklarını yakalamak için güçlü bir yetenek gösterir.’

Sonuç

Belki de bu projenin en ilginç yönü, aynı ürün için grup hedefli görseller arasındaki stil çıkışları arasındaki bilinmeyen korelasyondur (bu makalenin ek malzemelerinde bu ürün için birkaç sayfa daha fazla örnek vardır).

Şehrin arka planının yaşla ilgili olduğunu, yani yeni mezunların şehre başladığına ve kırsal ortamların daha varlıklı X kuşağına hitap ettiğini varsayabilir miyiz? Bu test çıktılarını bütün gün Rorschach testi gibi yorumlayabiliriz.

Bu tür sistemlerin potansiyeli, iki faktöre dayanır: içgörü ve gecikme. İçgörü, ortaya çıkan takip sistemlerinin kullanıcılarından yeterli anlamlı bilgiyi çıkarmaya devam edebilmesine ve gelecekte daha kesin, bireysel olarak hedeflenen reklamlar için zemin hazırlayabilmesine bağlıdır.

Gecikme daha büyük bir zorluk oluşturur, çünkü bu özel reklam görselleri neredeyse anında oluşturulmalı ve teslim edilmelidir; bazı yeni metin-Resim modelleri birkaç saniyede sonuç üretebilse de, bu gecikme bile gerçek zamanlı reklam artırma için çok uzun olabilir.

Mümkün bir çözüm, görselleri yerel olarak, tarayıcıların GPU’sunda üretmektir, böylece ağ gidiş dönüşleri engellenir; veya önceden bir dizi görseli oluşturup bunları istemci tarafında önbelleğe almak.

 

** Bu yön, yeni makalede atlanmıştır, tıpkı yeni AI çerçevelerinin derin sahte kullanım potansiyelinin genellikle yeni çalışmalarda sevimli hayvan figürleri (AI porn yerine) kullanılarak yumuşatılması gibi. Yine de, bu çalışmada gösterilen türden görüntüler, reklamcılar en iyi davranışlarını sergilerken, kişiselleştirilmiş görsel reklamların nasıl olabileceğini tam olarak yansıtmaz, çünkü bunlar tüketici hedefleme yöntemleriyle birleşen hızlı tepki veren AI ile birleştirildiğinde.

** Ben, ‘UCAS’ adlı kurumu tanımlayamıyorum, çünkü ‘UCAS’ genellikle iyi bilinen bir Birleşik Krallık üniversite başvuru temizleme evine karşılık gelir. Açıklamaya hoş geldiniz.

Hangi araştırmacılar, ilgili GitHub deposunda yayınlayacağını vaat ediyor.

İlk olarak 5 Şubat 2026 Perşembe günü yayınlandı.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]