Sudut Anderson

Penelitian Baru Mengusulkan Iklan ‘Personalisasi’ yang Sesungguhnya

Diterbitkan 2 Juni 2026

Oleh

Martin Anderson

A woman looks at a laptop displaying a news website, reacting with surprise as a banner advertisement on the page shows a smiling woman who closely resembles her.

Dalam definisi ulang ‘promosi diri’, metode baru ini menambang klik pengguna untuk membuat iklan web yang disesuaikan dengan sejarah mereka yang unik.

Meskipun biro iklan berusaha membantah gagasan bahwa saluran iklan ada yang dapat menyajikan iklan berdasarkan apa yang baru saja Anda katakan di rumah, namun sejauh ini ‘personalisasi’ yang ditunjukkan oleh iklan di situs web dan aplikasi media sosial telah mendapat perhatian dalam beberapa tahun terakhir.

Skenario ideal bagi pengiklan selalu bahwa iklan yang disajikan merupakan ‘kesesuaian yang tepat’ untuk pemirsa. Dalam batas penolakan publik tentang pelacakan online, dan langkah-langkah pencegahan yang mungkin diambil oleh pengguna untuk mencegah pelacakan tersebut, generative AI (dengan menyisihkan kekhawatiran seputar LLM iklan dalam dunia pasca-pencarian) sangat mampu menghasilkan gambar iklan dan teks dengan cepat untuk penerapan waktu nyata.

Namun, tujuan utama penelitian dan sebagian besar implementasi dalam garis ini hingga saat ini didasarkan pada statistik penggunaan agregat, sehingga iklan yang dihasilkan untuk pemirsa akan didasarkan pada kelompok kohort yang diperkirakan, bukan sejarah unik mereka.

Sekarang, kolaborasi penelitian baru antara Cina dan AS memperkenalkan sistem untuk menghasilkan gambar iklan dan teks untuk pengguna individu dengan mempelajari klik mereka sebelumnya ketika masuk ke situs, melampaui asumsi berbasis kohort yang telah mengatur sebagian besar penelitian iklan personalisasi hingga saat ini:

Contoh generasi yang menampilkan iklan yang disesuaikan secara individu. Tentu saja, tanpa konteks sejarah pengguna, dampak penuh hanya dapat dibayangkan. Sumber

Secara tidak biasa, pendekatan baru ini menghindari model difusi dan memilih arsitektur autoregresif – perbedaan utama adalah bahwa model difusi secara bertahap memperbaiki gambar dari kebisingan visual, sedangkan model autoregresif menghasilkan konten satu bagian pada satu waktu, memprediksi setiap elemen baru dari semua yang sebelumnya.

Untuk mendukung model generatif baru, penulis mengembangkan apa yang mereka klaim sebagai dataset gambar/teks skala besar pertama untuk iklan personalisasi, serta metrik baru yang dirancang untuk mengevaluasi tugas khusus ini. Dalam pengujian, mereka menemukan bahwa pendekatan mereka mengungguli baseline umum dan metode serta kerangka kerja yang ada yang saat ini menangani tantangan ini.

Taman Berpagar

Penting untuk dicatat bahwa ruang lingkup pekerjaan yang diusulkan tidak menawarkan pengiklan cara untuk menghindari langkah-langkah baru melawan pelacakan pihak ketiga, tetapi memberikan pengecer skala besar kekuatan untuk memenuhi pelanggan yang masuk dengan iklan yang terkait langsung dengan orang tersebut.

Ini tidak terbatas pada klien yang saat ini menjelajahi situs web pengecer: tergantung pada seberapa jauh pengguna telah memberikan pengecer kekuatan untuk melacak mereka di situs lain, mereka dapat ditampilkan dengan iklan yang ditargetkan di berbagai situs web yang berpartisipasi dalam lelang iklan yang digunakan oleh pengecer itu sendiri.

Jenis jangkauan iklan ini biasanya terbatas pada outlet skala besar, seperti Amazon, di Barat (dan kami mencatat bahwa pengecer Cina yang sebanding telah berpartisipasi dalam pekerjaan baru – lihat di bawah), meskipun setiap perusahaan sebanding dapat, dalam teori, menghasilkan kerangka generatif serupa.

Makalah baru ini berjudul Desain Iklan Anda: Generasi Iklan Personalisasi Gambar dan Teks dengan Model Autoregresif Terpadu, dan berasal dari 18 penulis di Universitas Sun Yat-Sen di Guangzhou, Universitas Northeastern, dan pengecer terbesar Cina, JD.com (yang terakhir memiliki akses ke sejarah dan kebiasaan pembeli). Kode telah dibuat tersedia melalui GitHub, dan titik-titik yang relevan juga dibuat tersedia.

Data dan Metode

Dataset yang dibangun untuk proyek ini berjudul Iklan Personalisasi gambar-teks (PAd1M), dan ditenagai oleh data yang disediakan oleh kontributor proyek JD.com. Penulis menyatakan:

‘Setiap produk biasanya menyediakan lebih dari sepuluh gambar dan teks kandidat, memastikan bahwa preferensi yang beragam dapat dideteksi secara penuh. Untuk memodelkan preferensi yang dapat diandalkan, kami mengumpulkan riwayat klik pengguna yang lengkap atas gambar dan teks, menyaring pengguna dengan aktivitas yang tidak cukup untuk mengurangi kebisingan.

‘Ini menghasilkan dataset 1.145.371 pengguna, dengan 18.923.555 gambar produk yang diklik dan teks, rata-rata lebih dari enam belas perilaku multimodal sejarah per pengguna.’

Untuk setiap pengguna, satu pasangan gambar-teks yang diklik sebelumnya dipilih sebagai contoh target, setelah itu produk itu sendiri diisolasi dari gambar menggunakan Grounded SAM.

Deskripsi dan poin penjualan yang disediakan penjual kemudian dilampirkan ke catatan, membuat dataset di mana setiap iklan target disertai dengan gambar produk transparan; informasi produk terstruktur; dan riwayat interaksi gambar dan teks sebelumnya, yang dimaksudkan untuk menangkap minat dan preferensi pengguna sebelumnya:

Profil pengguna dari dataset PAd1M, menampilkan iklan target di samping informasi produk yang digunakan untuk menghasilkannya, dan interaksi gambar dan teks sejarah yang digunakan untuk memodelkan preferensi pengguna.

Dataset yang dihasilkan menawarkan skala lebih dari satu juta pengguna, dan hampir 19 juta catatan gambar dan teks yang diklik, dengan penulis menyatakan bahwa koleksi ini jauh lebih besar daripada dataset personalisasi sebelumnya.

Tambahnya, data, yang tidak biasa untuk penelitian ini, menggabungkan gambar dan teks, memungkinkan preferensi pengguna dimodelkan melintasi beberapa modalitas, bukan dalam domain tunggal.

PAd1M juga menampilkan pelacakan preferensi tingkat individu; tidak seperti dataset iklan sebelumnya yang dibangun di sekitar tingkat klik agregat di seluruh kelompok besar, PAd1M menghubungkan interaksi dengan pengguna tertentu dari data JD.com.

Untuk metrik, selain pilihan standar BLEU dan ROUGE, peneliti mengembangkan pengukuran khusus yang disebut Product Background Similarity (PBS). Berdasarkan inisiatif MoCo-v3 sebelumnya, PBS dilatih pada 681.123 pasangan gambar yang menampilkan produk yang sama melawan latar belakang yang berbeda, memungkinkan metrik untuk fokus pada variasi kontekstual daripada produk itu sendiri:

Product Background Similarity (PBS) memberikan skor kesamaan yang berbeda secara signifikan untuk iklan yang berisi produk yang sama tetapi meletakkannya dalam konteks visual yang berbeda. Sebaliknya, metrik lain menghasilkan pemisahan yang jauh lebih kecil.

Selama pelatihan, setiap gambar dipasangkan dengan dirinya sendiri sebagai contoh positif, sedangkan gambar produk yang sama ditempatkan dalam pengaturan yang berbeda berfungsi sebagai contoh negatif, strategi pelatihan yang dimaksudkan untuk meningkatkan sensitivitas terhadap konteks latar belakang. Hasil evaluasi, makalah tersebut menyatakan, menunjukkan perbedaan kesamaan yang lebih besar antara latar belakang yang sesuai dan tidak sesuai daripada yang dihasilkan oleh CLIP, DINO v3, atau MoCov3 sebelumnya.

Sebagaimana ditunjukkan pada bagian kiri atas gambar di bawah*, model Unified Advertisement Generative (Uni-AdGen) peneliti menggunakan arsitektur visi-bahasa autoregresif untuk menghasilkan teks dan gambar iklan. Proses ini dipandu oleh instruksi terstruktur yang mencakup definisi tugas, dan deskripsi produk, bersama dengan poin penjualan:

Ikhtisar metode.

TOKEN delimitasi khusus mendefinisikan bagian urutan yang dicadangkan untuk salinan iklan. Setelah teks dihasilkan, token gambar yang didedikasikan memicu generasi gambar, sedangkan token gambar penutup menandai penyelesaiannya, dengan token yang dihasilkan kemudian dikirim ke decoder teks dan gambar terpisah.

Untuk gambar, decoder VQ-GAN LlamaGen digunakan untuk mengubah token gambar diskrit kembali menjadi piksel.

Dengan cara ini, arsitektur terpadu menghasilkan teks dan gambar dalam satu prediksi token berikutnya kerangka kerja, bukan mengandalkan pipeline terpisah – metode yang diadopsi untuk sistem iklan sebelumnya dengan cakupan serupa.

Selama pelatihan, model mempelajari kedua modalitas bersama-sama, dengan token teks diprediksi berdasarkan urutan input dan teks yang dihasilkan sebelumnya. Token gambar kemudian diprediksi menggunakan urutan input, teks yang dihasilkan, dan token gambar yang dihasilkan sebelumnya.

Untuk menjaga iklan yang dihasilkan tetap terkait dengan produk yang dipromosikan, Uni-AdGen menggunakan modul persepsi latar depan berdasarkan DINO v2, untuk menyuntikkan informasi dari gambar produk transparan ke dalam model autoregresif.

Pengaturan instruksi (melatih model untuk mengikuti instruksi generasi khusus produk yang dihasilkan dari deskripsi dan poin penjualan) juga digunakan untuk meningkatkan kepatuhan terhadap deskripsi dan poin penjualan yang disediakan penjual, dengan GPT-4o digunakan untuk menyaring contoh pelatihan yang tidak sesuai.

Personalisasi bergantung pada modul pemahaman preferensi kasar-ke-halus. Interaksi sejarah pertama kali disaring melalui pipeline Product Similarity Sampling (PSS) untuk memfavoritkan produk yang menyerupai item target. Catatan yang tersisa kemudian diproses oleh tahap Ekstraksi Preferensi Multimodal yang dirancang untuk mengidentifikasi elemen visual dan tekstual yang paling mungkin mencerminkan minat pengguna – dengan preferensi tersebut dimasukkan ke dalam prompt, untuk memandu generasi.

Pengujian

Penulis menyatakan bahwa pendekatan pengujian mereka berasal dari DeepSeek’s Janus-Pro 7B.

Model dilatih dengan ukuran batch empat, di bawah AdamW optimizer pada tingkat pembelajaran 5e-5. Model dasar diperhalus melalui LoRA, dengan modul persepsi latar depan dan ekstraksi preferensi multimodal sepenuhnya diperhalus (yaitu, tidak seperti LoRA, bobot model dasar diubah secara permanen).

Semua pengujian dijalankan pada NVIDIA B200 GPU dengan 192GB VRAM. Untuk generasi gambar, PickScore, ImageReward, dan ASE digunakan untuk mengukur kualitas visual, sedangkan m-BLEU dan m-ROUGE^† digunakan untuk mengevaluasi teks iklan. Evaluator manusia juga menilai realisme gambar dan kualitas tata letak, bersama dengan akurasi dan kelancaran teks, dengan semua metrik dihitung di seluruh 500 produk.

Untuk generasi gambar, baseline terdiri dari Qwen2.5-VL dan GPT-4o untuk membuat prompt latar belakang dari gambar produk, diikuti oleh ReliableAd, PosterMaker, dan Flux-Fill untuk menghasilkan iklan akhir. Perbandingan generasi teks dilakukan melawan Qwen2.5, Qwen3, dan DeepSeek-R1.

Hasil kuantitatif awal untuk generasi iklan ditunjukkan di bawah:

Kinerja pada benchmark generasi iklan umum. Uni-AdGen mencapai atau melampaui baseline generasi gambar terkuat pada kualitas estetika dan PickScore, sedangkan model gambar-teks terpadu mencapai skor m-ROUGE tertinggi di antara semua pendekatan generasi teks. Hasil evaluasi manusia tetap kompetitif di seluruh kedua modalitas.

Dari hasil ini, penulis menyatakan:

‘Metode kami mencapai kinerja terbaik dalam ImageReward dan berperingkat kedua dalam PickScore dan evaluasi manusia, menunjukkan kinerja yang unggul dalam estetika dan tingkat ketersediaan yang tinggi. Sementara ReliableAd memimpin dalam evaluasi manusia, itu tertinggal secara signifikan dalam metrik estetika. Sebaliknya, PosterMaker dan Flux-Fill menghasilkan gambar yang menarik secara visual tetapi menderita keterbatasan kegunaan yang mencolok.

‘Berkat pendekatan kontrol yang efektif, metode kami berhasil mencapai keseimbangan optimal antara konten visual dan utilitas praktis.’

Generasi iklan personalisasi dievaluasi pada 500 pengguna dengan riwayat interaksi yang tercatat, menggunakan PBS yang disebutkan sebelumnya untuk mengukur kesamaan gambar, dan BLEU dan ROUGE untuk membandingkan teks yang dihasilkan dengan produk yang sebenarnya diklik oleh pengguna.

Karena baseline iklan umum yang digunakan dalam eksperimen sebelumnya tidak dapat menggabungkan riwayat pengguna, perbandingan bergeser ke sistem yang dirancang untuk personalisasi. Untuk generasi gambar, Flux-Kontext dan Pigeon dipilih sebagai baseline. Flux-Kontext diberi grid gambar sejarah pengguna yang berdekatan dengan gambar produk target, memungkinkan preferensi sebelumnya untuk mempengaruhi generasi.

Karena Pigeon tidak mendukung penempatan produk yang dikendalikan secara asli, modul persepsi latar depan yang dikembangkan untuk Uni-AdGen diintegrasikan untuk mempertahankan konsistensi produk. Untuk generasi teks, Qwen3 dan DeepSeek-R1 digunakan, dengan deskripsi produk sejarah dimasukkan langsung ke dalam templat instruksi mereka untuk memberikan konteks khusus pengguna:

Hasil generasi iklan personalisasi. Uni-AdGen mengungguli Flux-Kontext, Pigeon, Qwen3, dan DeepSeek-R1 di seluruh metrik personalisasi yang dilaporkan, sedangkan studi ablasi menunjukkan bahwa data pengguna sejarah, Product Similarity Sampling (PSS), dan ekstraksi preferensi multimodal masing-masing memberikan keuntungan yang dapat diukur.

Di sini penulis mengomentari:

‘Hasil visual yang ditunjukkan [dalam gambar di bawah] menunjukkan bahwa Flux-Kontext gagal memahami preferensi pengguna dan tetap rentan terhadap kebisingan tingkat sampel, menghasilkan deviasi signifikan dari kebenaran, seperti item yang tidak relevan dalam gambar sepeda motor.’

Contoh generasi iklan personalisasi. Dibandingkan dengan Flux-Kontext, Pigeon, Qwen3, dan DeepSeek-R1, Uni-AdGen menghasilkan gambar yang lebih sesuai dengan gaya visual dan konteks iklan yang sebenarnya diklik oleh pengguna, sementara menghasilkan teks yang menangkap proporsi yang lebih besar dari atribut dan poin penjualan produk yang hadir dalam contoh kebenaran. Istilah yang sesuai ditebalkan dalam hijau.

Contoh kualitatif, menurut penulis, menunjukkan bahwa Flux-Kontext dan Pigeon sering menghasilkan output yang menyimpang dari karakteristik visual iklan yang sebenarnya diklik oleh pengguna; sementara teks yang dihasilkan oleh Qwen3 dan DeepSeek-R1 menghilangkan beberapa poin penjualan yang hadir dalam contoh kebenaran.

Kesimpulan

Kegunaan proyek ini sepenuhnya bergantung pada opt-in pengguna, dan memperluas jangkauan sistem ‘prediktif’ ini di luar cakupan domain yang mengontrol sejarah pengguna – dalam hal ini, JD.com – memerlukan himpunan izin pengguna yang lebih longgar, di sebagian besar wilayah.

Namun, sistem ini didasarkan pada efek jaringan skala besar yang bekerja dalam skenario seperti itu, dan pada gagasan (mungkin sedikit optimis) bahwa pengguna akan menemukan sistem rekomendasi yang benar-benar personalisasi dan bahkan presien ini berguna daripada mengganggu, setidaknya dalam konteks taman berpagar raksasa ritel.

* Ini membangun tren baru yang mengkhawatirkan dari ‘figur yang dikumpulkan’ dalam makalah penelitian, di mana ilustrasi yang sebelumnya akan menjadi 3-4 gambar yang berbeda sekarang dikumpulkan menjadi satu (untuk tujuan memenuhi pedoman pengajuan tentang panjang maksimum makalah utama) dan digunakan hanya sebagai bahan referensi, sering tanpa penjelasan yang memadai dalam keterangan yang menyertainya.

^†‘m’-prefix menunjukkan perbandingan dengan teks kandidat ganda.

Pertama dipublikasikan pada hari Selasa, 2 Juni 2026. Direvisi pukul 18:21 EET untuk memperbaiki ‘dinding’ terakhir menjadi ‘taman berpagar’ di paragraf terakhir.