Sudut Anderson
Gambar Iklan yang Dibuat AI yang Menargetkan Demografi Anda – Dan, Akhirnya, Anda?

Para pengiklan berusaha untuk menyesuaikan iklan dengan pemirsa individu untuk mengarahkan klik, dan meskipun kreatif yang disesuaikan untuk setiap orang saat ini tidak praktis, penelitian baru menunjukkan bahwa citra yang dihasilkan AI dapat segera ditargetkan secara efektif pada demografi tertentu.
Iklan yang dipersonalisasi yang ditampilkan dalam film sci-fi aksi Steven Spielberg tahun 2002 Minority Report telah meninggalkan kesan yang bertahan lama, bahkan menghantui pada budaya, dengan penggambaran yang hidup tentang billboard iklan proaktif yang mengenali orang-orang dalam kerumunan, dan berteriak pesan promosi langsung kepada mereka.
Banyak kelompok konsumen mungkin memandang pengenalan pemirsa ini sebagai mimpi buruk, dan meskipun kemajuan menuju itu diperlambat oleh dampak dari skandal Cambridge Analytica, idealnya adalah keterlibatan langsung yang sangat ditargetkan tetap menjadi tujuan yang dihargai dalam periklanan.
Pada kenyataannya, sistem yang dapat mengebor ke karakteristik pemirsa tertentu tetap dalam pengembangan – meskipun dalam kasus seperti itu, penelitian perusahaan harus mengambil langkah-langkah untuk menghormati hukum sekitar informasi yang dapat diidentifikasi secara pribadi (PII); hukum yang telah diperkuat di Eropa selama dekade terakhir, dengan perlindungan yang ditingkatkan ini menyebar ke tempat lain melalui efek Brussels.
Hai, Kamu!
Sekarang bahwa iklan dan konten pemasaran yang dihasilkan AI sedang naik daun, pengiklan harus tetap menghadapi biaya potensial dari iklan AI yang ditargetkan pada individu tertentu, di mana citra dan teks diserukan secara oportunis dan on-the-fly.
Misalnya, bahkan jika citra yang disesuaikan dapat dihasilkan sangat cepat, biaya pada skala besar akan signifikan. Selain itu, proses lelang iklan online otomatis beroperasi pada kerangka waktu kritis, millisecond-level, yang membuat konten gambar khusus pengguna menantang, untuk saat ini; dan konten video adalah prospek yang lebih jauh.
Namun, hambatan teknis yang terlibat dalam mengatasi kelompok demografi tingkat yang lebih tinggi dalam audiens berbasis web (melalui laptop, ponsel, smart TV, dll.) tidak terlalu parah – dan kolaborasi akademis/industri internasional baru ini mengusulkan cara untuk membuat citra iklan terpisah untuk demografi yang berbeda, termasuk faktor seperti usia dan lokasi:

Dari karya baru: contoh generasi iklan yang dipersonalisasi, di mana satu produk dirender dalam gaya yang berbeda untuk kelompok pemirsa yang berbeda. Sumber
Kerangka kerja baru – yang berjudul One Size, Many Fits (OSMF) – bertujuan untuk menjembatani kesenjangan antara periklanan yang ditargetkan secara luas dan personalisasi yang tidak praktis, dengan menghasilkan citra iklan yang berbeda untuk kelompok audiens yang ditemukan secara otomatis, menggunakan product-aware clustering untuk menyelaraskan konten visual dengan preferensi klik dari demografi yang berbeda
Para penulis menyatakan:
‘[Kami] mempresentasikan [kerangka kerja] yang menyelaraskan preferensi klik kelompok yang beragam dalam generasi gambar iklan skala besar.
‘OSMF dimulai dengan pengelompokan adaptif yang sadar produk, yang secara dinamis mengorganisir pengguna berdasarkan atribut mereka dan karakteristik produk, mewakili setiap kelompok dengan fitur preferensi kolektif yang kaya.’
Diuji melawan kerangka kerja yang setara, para penulis mengklaim hasil yang sangat baik.
Meskipun karya ini mengidentifikasi kelompok kohort yang beragam, makalah ini tidak spesifik tentang karakteristik demografi yang diwakili oleh setiap G pengelompokan, meskipun ini tampaknya kemungkinan besar untuk memetakan ke kelompok segmentasi pasar tradisional.
Oleh karena itu, tidak mudah untuk mengetahui, berdasarkan contoh yang diberikan dalam makalah utama dan lampiran, mengapa latar belakang atau pencahayaan tertentu akan menarik bagi satu kohort lebih dari yang lain, karena kita tidak tahu karakteristik dari kohort mana pun:

Tidak ada gaya konsisten ‘biru untuk anak laki-laki, merah muda untuk perempuan’ dan sebagainya, di seluruh gaya gambar khusus kohort, yang bisa mengungkapkan jenis orang mana yang termasuk dalam kelompok mana – definisi, seperti yang jelas dari literatur yang ada, jauh lebih kompleks dan halus.
Apa yang mungkin lebih mengkhawatirkan, bagi mereka yang waspada terhadap praktik penargetan iklan, adalah kemungkinan untuk mengeksploitasi wawasan per-pengguna dalam generasi citra tertentu dalam iklan**.
Makalah baru ini berjudul One Size, Many Fits: Aligning Diverse Group-Wise Click Preferences in Large-Scale Advertising Image Generation, dan berasal dari 17 peneliti di seluruh Laboratorium Nasional Pengenalan Pola di Beijing; ‘Sekolah AI di UCAS’**; perusahaan e-commerce Tiongkok JINGDONG; Universitas Sains dan Teknologi Hong Kong di Guangzhou; dan Laboratorium Pengenalan Pola di Universitas Sains dan Teknologi Nanjing.
Metode
Sistem ini menggunakan pengelompokan adaptif (metode yang menemukan pengelompokan alami dengan menghubungkan atribut pengguna dengan bagaimana mereka merespons produk yang berbeda) untuk mengelompokkan pengguna, berdasarkan bagaimana atribut mereka membentuk preferensi visual dalam pengaturan produk tertentu. Implementasi pendekatan ini oleh penulis disebut Product-Aware Adaptive Grouping (PAAG).
Pengelompokan ini tidak tetap sebelumnya, tetapi ditemukan dari pola dalam data.
Sebuah generator gambar kondisional, yang berjudul Preference-Conditioned Image Generation (PCIG), kemudian menggunakan profil setiap kelompok untuk membuat gambar iklan yang sesuai dengan preferensi kelompok:

OSMF mengelompokkan pengguna berdasarkan bagaimana atribut mereka membentuk preferensi produk, kemudian menggunakan profil kelompok untuk menghasilkan gambar iklan yang sesuai dengan preferensi kelompok. PAAG menangani pengelompokan, dan PCIG membuat gambar menggunakan prompt dan umpan balik yang disesuaikan dengan setiap kelompok.
Generator gambar ini menggunakan versi yang tidak ditentukan dari Stable Diffusion, bersama dengan ControlNet suite yang sesuai (yang terakhir, untuk membantu mempertahankan konsistensi di antara berbagai generasi kohort).
Dalam alur kerja, PAAG pertama kali mengkodekan hubungan antara fitur pengguna dan aspek teks dan gambar produk, menggunakan serangkaian pengkode yang didedikasikan dan mekanisme cross-attention untuk menggabungkannya menjadi embedding preferensi yang disatukan yang mencerminkan seberapa mungkin pengguna mengklik iklan tertentu.
PAAG kemudian memodelkan bagaimana kombinasi atribut pengguna yang berbeda berinteraksi dengan judul produk dan gambar produk. Fitur teks dan gambar diekstrak menggunakan CLIP dan ResNet-based encoders, dan atribut pengguna seperti jenis kelamin, lokasi, usia, atau perangkat dilewatkan melalui MLP, yang memungkinkan cross-attention atas fitur teks dan gambar produk.
Embedding yang dihasilkan mewakili keungkinan klik pengguna untuk produk tertentu dalam konteks visual tertentu. Setelah embedding preferensi pengguna-produk ini diperoleh, PAAG menggunakan K-means clustering untuk mengelompokkan pengguna yang merespons secara serupa terhadap produk tertentu.
PAAG memilih jumlah kelompok pengguna terbaik untuk setiap produk dengan memeriksa seberapa baik klaster memisahkan preferensi. Sebagai gantinya menggunakan hanya satu titik rata-rata per kelompok, itu mengambil sampel beberapa pada jarak yang berbeda untuk menangkap berbagai preferensi yang lebih luas.
Profil kelompok ini kemudian diberikan sebagai token ke group-aware multimodal large language model (G-MLLM), yang menggunakan mereka untuk menghasilkan gambar iklan yang disesuaikan dengan preferensi kelompok.
Generasi Gambar Berdasarkan Preferensi Pengguna
Di sisi pengguna, G-MLLM belajar untuk memprediksi anggota kelompok mana yang kemungkinan akan mengklik berikutnya dan bagaimana menggambarkan karakteristik umum dalam bahasa alami. Di sisi produk, ia belajar untuk merangkum produk yang ditampilkan dalam gambar dan menghasilkan kapion iklan yang sesuai dengan produk dan kelompok.
Untuk mencerminkan perilaku pengguna yang nyata, model ini diperluas menjadi group-aware reward model (GRM). GRM dilatih pada dataset Grouped Advertising Image Preference (GAIP) peneliti sendiri† (lihat di bawah) untuk membandingkan pasangan gambar untuk produk yang sama dan mengidentifikasi mana yang bekerja lebih baik dengan kelompok tertentu, menggunakan data klik yang sebenarnya.
Sinyal hadiah ini kemudian digunakan untuk fine-tune G-MLLM dengan Group-DPO, metode yang mengajarkan untuk memfavoritkan prompt yang mengarah pada keterlibatan kelompok yang lebih baik.
Data dan Tes
Mengembangkan GAIP
Mengingat kurangnya dataset yang terkait dengan preferensi periklanan berbasis kelompok, dan bahwa koleksi sebelumnya seperti Personalized Soups dan CG4CTR terlalu kecil atau tidak spesifik, peneliti mengembangkan koleksi mereka sendiri, GAIP, yang berasal dari ‘log iklan industri’ dari platform e-commerce yang tidak ditentukan.
Log ini dikumpulkan selama periode tiga minggu, dengan setiap entri mencatat gambar produk dan judul, profil pemirsa (termasuk usia, tingkat pengeluaran, dan kepekaan terhadap promosi), dan apakah iklan diklik.
Dataset ini mencakup lebih dari 40 juta pengguna, 2 juta produk, dan hampir 10 juta gambar iklan, dengan keragaman visual yang tinggi di seluruh item.
Pengguna dikelompokkan oleh PAAG menjadi klaster yang berbeda untuk setiap produk, dan tingkat klik (CTR) dihitung per gambar dalam setiap kelompok:

Dari materi suplemen makalah baru, sekilas tentang beberapa kriteria penentuan GAIT.
GAIP kemudian dibentuk sebagai sekumpulan tupel (gambar iklan, judul produk, embedding kelompok, CTR kelompok khusus) yang menghubungkan setiap gambar dan judul dengan CTR dan embedding kelompok yang melihatnya.
Untuk memastikan keandalan, hanya produk dengan eksposur yang cukup yang dipertahankan, menghasilkan dataset sebesar 610.172 sampel tingkat kelompok.
GAIP secara substansial lebih besar dari dataset sebelumnya: sementara sebagian besar benchmark sebelumnya melibatkan kurang dari sepuluh kelompok pengguna, GAIP mencakup hampir 600.000 catatan preferensi kelompok riil, menawarkan wawasan yang lebih dalam tentang preferensi tingkat kelompok.
Tes
Untuk melatih pipa PCIG, peneliti mengekstrak fitur gambar dan teks menggunakan ResNet dan pengkode teks CLIP, kemudian memetakan mereka ke embedding 128-dimensi melalui lapisan linear yang dapat dipelajari. Untuk mempertahankan efisiensi, PAAG dibatasi pada lima kelompok pengguna per produk.
Embedding kelompok dibangun menggunakan strategi sampling berbasis persentil, mengambil beberapa poin dari persentil ke-15, ke-55, dan ke-95, untuk menangkap preferensi inti dan perifer.
LLaVA digunakan sebagai backbone untuk G-MLLM, dan pelatihan awal dilakukan selama sepuluh epoch dengan jadwal pembelajaran kosinus pada tingkat pembelajaran 2e-6, memerlukan lima hari pelatihan pada klaster delapan NVIDIA H100 GPU, masing-masing dengan 80GB VRAM.
GRM dilatih dengan merekonstruksi GAIP dengan pasangan produk gambar yang cocok, kemudian diinisialisasi dengan bobot yang sama dengan G-MLLM. Selama tahap Group-DPO terakhir, GRM dibekukan, dan G-MLLM disesuaikan dengan LoRA selama tiga epoch – lagi, pada tingkat pembelajaran 2e-5, pada klaster NVIDIA yang sama.
Metrik yang digunakan untuk evaluasi pertama adalah NDCG@5 dan AUROC. NDCG@5 mengukur seberapa berbeda setiap kelompok peringkat gambar iklan yang sama, dengan nilai yang lebih rendah menunjukkan pemisahan preferensi yang lebih jelas; dan AUROC digunakan untuk mengevaluasi seberapa baik setiap model membedakan konten yang diklik dari yang tidak diklik.
Semua metrik dihitung pada hasil pengelompokan dari 1.000 produk, total sekitar 100.000 sampel, dan digunakan untuk membandingkan PAAG dengan tiga sistem sebelumnya: CACS; WIYD; dan JAC:

Hasil pemodelan preferensi dibandingkan dengan metode sebelumnya. NDCG@5 yang lebih rendah dan AUROC yang lebih tinggi menunjukkan kinerja yang lebih baik. Skor terbaik dalam cetakan tebal, skor kedua terbaik bergaris bawah.
Dari hasil ini, penulis mengomentari:
‘[Metode kami] mencapai kinerja yang unggul pada kedua metrik. Secara khusus, PAAG mencapai NDCG@5 terendah (0,3066), mengungguli baseline terbaik (CACS) , menunjukkan pola preferensi antar kelompok yang lebih berbeda untuk generasi iklan berbasis kelompok yang efektif.
‘Selain itu, PAAG mencapai AUROC tertinggi (0,6372), meningkatkan baseline terkuat (WIYD) sebesar 0,0159.’
Tes kedua memeriksa apakah sistem dapat lebih baik memasangkan iklan dengan kelompok pengguna yang tepat:

Perbandingan CTR online menunjukkan bahwa generasi yang dipersonalisasi berbasis kelompok (‘Kami’) mengungguli semua baseline, termasuk CAIG dan G-MLLM yang sudah dilatih sebelumnya.
Di sini, PCIG menunjukkan tingkat klik yang lebih kuat daripada model lama seperti CAIG dan G-MLLM, dengan perbaikan sebesar 5,5%. GRM juga diuji secara offline dengan memeriksa apakah dapat memilih iklan yang lebih baik dalam pasangan, berdasarkan preferensi kelompok. Ini mengungguli semua baseline, termasuk model umum, dengan keuntungan sebesar 4,7% atas CAIG.
Tes kualitatif terakhir dilakukan untuk mengevaluasi apakah PCIG dapat mencerminkan preferensi tingkat kelompok dalam gaya gambar yang dihasilkannya. Seperti yang ditunjukkan pada gambar di bawah, produk yang sama dirender secara berbeda untuk setiap kelompok, dengan perubahan palet, nada, dan komposisi visual:

Hasil lengkap tes kualitatif, yang dipreview sebelumnya dalam artikel.
Variasi ini sesuai, menurut penulis, dengan preferensi klik yang diinferensi untuk setiap kelompok, menunjukkan bahwa PCIG dapat menghasilkan output yang beragam secara stilistis sambil mempertahankan relevansi dan daya tarik. Penulis menyatakan:
‘[PCIG] memastikan gambar yang beragam secara stilistis untuk menampung preferensi klik dari kelompok pengguna yang berbeda, sehingga menunjukkan kemampuan yang kuat untuk menyesuaikan generasi dengan kebutuhan pengguna yang beragam dan menangkap perbedaan preferensi yang halus dan terperinci di seluruh kelompok pengguna yang beragam, menyoroti potensinya untuk generasi gambar iklan yang sadar kelompok dalam skala besar.’
Kesimpulan
Mungkin aspek yang paling menarik dari proyek ini adalah korelasi yang tidak diketahui antara gaya output di seluruh gambar yang ditargetkan kelompok untuk produk yang sama (di mana ada beberapa halaman contoh dalam materi suplemen makalah daripada yang dapat kita reproduksi di sini).
Apakah kita dapat menganggap bahwa latar belakang perkotaan terkait dengan usia, yaitu, untuk lulusan yang baru memulai, dan bahwa lingkungan pedesaan ditujukan untuk jenis Gen X yang lebih makmur yang mengidentifikasi jalan terbuka sebagai jenis ‘kebebasan terakhir’? Kita bisa menganalisis output tes ini sepanjang hari.
Potensi sistem ini bergantung pada dua faktor: wawasan dan latensi. Wawasan bergantung pada apakah sistem pelacakan yang muncul masih dapat mengekstrak informasi yang cukup bermakna dari pengguna untuk mendukung periklanan berbasis kelompok yang efektif, serta meletakkan dasar untuk iklan yang lebih tepat dan ditargetkan secara individual di masa depan.
Latensi menimbulkan tantangan yang lebih besar, karena gambar iklan khusus ini harus dihasilkan dan disampaikan hampir secara instan; meskipun beberapa model teks-ke-gambar baru dapat menghasilkan hasil dalam beberapa detik, bahkan penundaan itu mungkin terlalu lama untuk lelang iklan waktu nyata.
Satu kemungkinan solusi adalah menghasilkan gambar secara lokal, di GPU browser, menghindari perjalanan pulang pergi jaringan; atau membuat sejumlah gambar secara proaktif, yang disimpan sebelumnya di klien.
** Aspek ini dihilangkan dalam makalah baru, sama seperti potensi kerangka kerja AI baru untuk penyalahgunaan deepfake seringkali dilunakkan dengan menggunakan contoh angka hewan yang menggemaskan (bukan AI porn) dalam studi baru. Namun, jenis gambar yang ditunjukkan dalam karya ini mewakili pengiklan pada perilaku terbaik mereka, daripada menggambarkan seberapa pribadi iklan visual akhirnya bisa menjadi, karena metode penargetan konsumen bergabung dengan AI generatif responsif.
** Saya tidak dapat mengidentifikasi lembaga bernama ini, karena ‘UCAS’ umumnya mengacu pada lembaga kliring universitas UK yang terkenal. Saya menyambut klarifikasi.
† Yang peneliti janjikan untuk dirilis di repo GitHub yang terkait.
Dipublikasikan pertama kali pada hari Kamis, 5 Februari 2026












