Andersonův úhel

AI-generované reklamní obrázky, které cílí na vaši demografickou skupinu – a nakonec i na vás?

Published February 5, 2026

Updated April 25, 2026

Martin Anderson

Montage of AI-generated images depicting frames from an online video aimed at three different age groups. Z-Image Turbo via Krita Diffusion AI.

Inzerenti se snaží přizpůsobit reklamy jednotlivým divákům, aby zvýšili počet kliknutí, a zatímco přizpůsobení kreativních reklam pro každého člověka je v současné době nepraktické, nové výzkumy naznačují, že AI-generované obrázky by mohly být brzy účinně cíleny na konkrétní demografické skupiny.

Personalizovaná reklama, která byla součástí sci-fi akčního filmu Stevena Spielberga z roku 2002 Minority Report, zanechala trvalý, téměř děsivý dojem na kulturu, se svými živými obrazy proaktivních reklamních billboardů, které rozpoznávají lidi v davu a volají reklamní zprávy přímo na ně.

Mnohé spotřebitelské skupiny mohou považovat tento level rozpoznání diváků za noční můru, a přestože pokrok směrem k němu byl zpomalen v důsledku následků skandálu Cambridge Analytica, ideál přímého, vysoce cíleného zapojení zůstává ceněným cílem v reklamě.

Skutečností je, že systémy, které mohou proniknout k charakteristikám konkrétního diváka zůstávají v neustálém vývoji – ačkoli v takových případech musí firemní výzkum přijmout opatření k respektování zákonů týkajících se osobních identifikačních informací (PII); zákony, které byly v Evropě v posledních deseti letech posíleny, a tyto zlepšené ochrany se rozšířily do jiných míst prostřednictvím Bruselského efektu.

Ahoj, ty!

Nyní, když jsou AI-generované reklamy a marketingový obsah na vzestupu, na vzestupu, inzerenti musí nést potenciální náklady na AI-reklamy cílené na konkrétní osoby, kde jsou obrázky a text generovány oportunістicky a na místě.

Například, i kdyby mohla být vytvořena přizpůsobená obrazová reklama velmi rychle, náklady by byly významné. Kromě toho, automatické online reklamní aukční procesy fungují v kritických, milisekundových časových rámcích, což činí uživatelsky orientovaný přizpůsobený obsah obrazů výzvou, alespoň prozatím; a videoobsah je ještě vzdálenější perspektivou.

Nicméně, technické překážky spojené s adresováním vyšších úrovní demografických kohortních skupin v síťovém publika (prostřednictvím laptopů, telefonů, chytrých televizorů atd.) nejsou tak závažné – a nová mezinárodní akademicko-průmyslová spolupráce navrhuje způsob, jak vytvořit samostatné reklamní obrázky pro různé demografické skupiny, včetně faktorů, jako je věk a umístění:

Z nové práce: příklady personalizované generace reklam, kde je jeden produkt zobrazen v různých stylech pro různé typy diváků. První řádek ukazuje původní produktové obrázky. Další tři řádky ukazují verze přizpůsobené třem odlišným typům publika pro každý produkt, založené na rozdílech v charakteristikách, jako je věk, životní styl nebo estetická preference. Tyto typy skupin nejsou předem definovány, ale jsou automaticky zjištěny. Každý řádek odpovídá jedné skupině; každá sloupec ukazuje jiný produkt. Zdroj - https://arxiv.org/pdf/2602.02033

Z nové práce: příklady personalizované generace reklam, kde je jeden produkt zobrazen v různých stylech pro různé typy diváků. Zdroj

Nový rámec – nazvaný Jedna velikost, mnoho přizpůsobení (OSMF) – cílí na most mezi širokou cílenou reklamou a neprakticky jemnou personalizací, generováním různých reklamních obrázků pro automaticky zjištěné uživatelské skupiny, pomocí produktově-aware clusteringu pro sladění vizuálního obsahu s preferencemi kliknutí odlišných demografických skupin

Autoři uvádějí:

‘[My] prezentujeme sjednocený rámec, který sladění rozmanitých skupinových preferencí kliknutí v velkém měřítku generace reklamních obrázků.

‘OSMF začíná produktově-aware adaptivní skupinováním, které dynamicky organizuje uživatele na základě jejich atributů a produktových charakteristik, reprezentujících každou skupinu bohatými kolektivními preferenčními funkcemi.’

Testováno proti srovnatelným rámcům, autoři tvrdí, že dosáhli špičkových výsledků.

Ačkoli práce identifikuje rozmanité kohortní skupiny, článek není specifický ohledně toho, které demografické charakteristiky jsou reprezentovány každou G skupinou, ačkoli tyto se zdají být pravděpodobně mapovány na tradiční tržní segmentační skupiny.

Proto není snadné určit, na základě různých příkladů uvedených v hlavním článku a dodatku, proč by certain pozadí nebo osvětlení mohlo být více atraktivní pro jednu kohortu než pro jinou, protože nevíme, jaké jsou charakteristiky žádné kohorty:

Neexistují žádné konzistentní ‘modrá pro chlapce, růžová pro dívky’ atd. styly, napříč kohortně-specifickými image styly, které by mohly prozradit, jaký typ osoby patří do které skupiny – definice, jak je evidentní z existující literatury, jsou daleko více komplexní a jemné.

Co je možná více znepokojivé pro ty, kteří jsou obezřetní vůči praktikám cílení reklam, je možnost využívání per-user přehledů při generování specifických obrázků v reklamách**.

Nový článek je nazvaný Jedna velikost, mnoho přizpůsobení: Sladění rozmanitých skupinových preferencí kliknutí v velkém měřítku generace reklamních obrázků, a pochází od 17 výzkumníků napříč Národní laboratoří vzorového rozpoznávání v Pekingu; ‘Škola AI na UCAS’; čínskou e-commerce společností JINGDONG; Hongkongskou univerzitou vědy a technologie v Guangzhou; a Laboratoří vzorového rozpoznávání na Nanjing University of Science and Technology.

Metoda

Systém používá adaptivní clusterování (metodu, která nachází přirozená seskupení propojením uživatelských atributů s tím, jak reagují na různé produkty) pro seskupení uživatelů, na základě toho, jak jejich atributy formují vizuální preference v daném produktovém nastavení. Implementace autorů tohoto přístupu je nazvaná Produktově-aware adaptivní skupinování (PAAG).

Tyto seskupení nejsou pevně stanovená, ale jsou zjištěna z vzorců v datech.

Podmíněný image generátor, nazvaný Preference-Conditioned Image Generation (PCIG), pak používá profil každé skupiny pro vytvoření reklamních obrázků přizpůsobených každé skupině:

OSMF seskupuje uživatele podle toho, jak jejich atributy formují produktové preference, a poté používá tyto skupinové profily pro generování reklamních obrázků přizpůsobených každé skupině. PAAG zajišťuje seskupení, a PCIG vytváří obrázky pomocí promptů a zpětné vazby přizpůsobené každé skupině.

Image generátor využívá neurčenou verzi Stable Diffusion, spolu s vhodným ControlNet suite (druhý, pro pomoc při udržování konzistence mezi různými kohortními generacemi).

V pracovním postupu PAAG nejprve kóduje vztah mezi uživatelskými funkcemi a textovými a obrazovými aspekty produktu, pomocí sady speciálních kódovačů a cross-attention mechanismu pro jejich sloučení do sjednoceného preferenčního embeddingu, který odráží jak pravděpodobné je, že uživatel klikne na konkrétní reklamu.

PAAG poté modeluje, jak různé kombinace uživatelských atributů interagují s produkčními názvy a produkčními obrázky. Textové a obrazové funkce jsou extrahovány pomocí CLIP a ResNet-založených kódovačů, a uživatelské atributy, jako je pohlaví, umístění, věk, nebo zařízení, jsou předány MLP, které umožňují cross-attention nad produkčními textovými a obrazovými funkcemi.

Výsledný embedding reprezentuje kliknutí pravděpodobnost každého uživatele pro konkrétní produkt v konkrétním vizuálním kontextu. Jakmile jsou tyto uživatelské produktové preferenční embeddingy získány, PAAG používá K-means clustering pro seskupení uživatelů, kteří reagují podobně na konkrétní produkt.

PAAG vybírá nejlepší počet uživatelských skupin pro každý produkt kontrolou toho, jak dobře se klastry oddělují. Místo použití pouze jednoho průměrného bodu pro skupinu, PAAG vzorkuje několik bodů na různých vzdálenostech, aby zachytil širší rozsah preferencí.

Tyto skupinové profily jsou poté předány jako tokeny group-aware multimodal large language model (G-MLLM), který je používá pro generování reklamních obrázků přizpůsobených každé skupině.

Generace obrázků založená na uživatelských preferencích

Na straně uživatele G-MLLM se učí předpovídat, kteří členové skupiny jsou pravděpodobně kliknout jako další a jak popsat společné rysy v přirozeném jazyce. Na straně produktu se učí shrnout produkt zobrazený v obrázku a generovat reklamní popisky, které odpovídají jak produktu, tak skupině.

Aby odrážely skutečné uživatelské chování, model je rozšířen do group-aware reward model (GRM). GRM je trénován na vlastním Grouped Advertising Image Preference (GAIP) datasetu^† (viz níže), aby porovnal pár obrázků pro stejný produkt a určil, který z nich fungoval lépe s danou skupinou, pomocí skutečných klikacích dat.

Tento reward signál je poté použit pro fine-tuning G-MLLM s Group-DPO, metodou, která učí G-MLLM upřednostňovat prompty, které vedou k lepší skupinové angažovanosti.

Data a testy

Vývoj GAIP

Poznamenávajíce historickou absenci datových sad souvisejících s grupovými reklamními preferencemi a že předchozí sbírky, jako je Personalizované polévky a CG4CTR, jsou buď příliš malé, nebo příliš nespecifické, výzkumníci vyvinuli svou vlastní sbírku, výše zmíněnou GAIP, odvozenou z ‘průmyslových reklamních logů’ neurčené e-commerce platformy.

Logy byly shromážděny po dobu tří týdnů, přičemž každá položka zaznamenávala produktový obrázek a název, uživatelský profil (včetně věku, úrovně výdajů a citlivosti na propagaci) a zda byla reklama kliknuta.

Dataset zahrnuje více než 40 milionů uživatelů, 2 miliony produktů a téměř 10 milionů reklamních obrázků, s vysokou vizuální variabilitou napříč položkami.

Uživatelé byli seskupeni PAAG do odlišných klastrů pro každý produkt a kliknutí poměr (CTR) byl vypočten pro každou image v každé skupině:

Z nové práce, malý pohled na některé z definujících kritérií pro GAIT.

GAIP je poté vytvořena jako sada tuplů (reklamní obrázek, produktový název, skupinový embedding, skupinový CTR) párující každý obrázek a název s jeho CTR a embeddingem skupiny, která jej viděla.

Aby byla zajištěna spolehlivost, jsou uchovány pouze produkty s dostatečným expozicí, což vede k datasetu 610 172 skupinových vzorků.

GAIP je podstatně větší než předchozí benchmarky: zatímco většina předchozích benchmarků zahrnuje méně než deset uživatelských skupin, GAIP zahrnuje téměř 600 000 skutečných skupinových preferenčních záznamů, nabízejících hlubší přehled o skupinových preferencích.

Testy

Pro trénink PCIG potrubí, výzkumníci extrahovali image a textové funkce pomocí ResNet a CLIP textového kódovače, poté je mapovali na 128-rozměrné embeddingy prostřednictvím learnable lineárních vrstev. Aby byla zachována efektivita, PAAG byl omezen na pět uživatelských skupin pro každý produkt.

Skupinové embeddingy byly konstruovány pomocí percentilové vzorkovací strategie, která čerpala více bodů z 15., 55. a 95. percentilu, aby zachytila jak jádro, tak periferní preference.

LLaVA byl použit jako základní model pro G-MLLM a pre-trénování bylo provedeno po dobu deseti epoch s kosinem učebního plánu při učebním sazbě 2e-6, vyžadujícím pět dní trénování na clusteru osmi NVIDIA H100 GPU, každého s 80GB VRAM.

GRM byl trénován rekonstrukcí GAIP s párovými produkčními obrázky, poté inicializován se stejnými váhami jako G-MLLM. Během finální fáze Group-DPO, GRM byl zmrazen a G-MLLM upraven pomocí LoRA po dobu tří epoch – opět, při učebním sazbě 2e-5, na stejném NVIDIA clusteru.

Metriky používané pro první hodnocení byly NDCG@5 a AUROC. NDCG@5 měřil, jak odlišně každá skupina ohodnotila stejnou sadu reklamních obrázků, přičemž nižší hodnoty indikovaly jasnější oddělení preferencí; a AUROC byl použit pro hodnocení, jak dobře každý model rozlišoval kliknuté a nekliknuté obsahy.

Všechny metriky byly vypočteny z klastrů výsledků z 1 000 produktů, celkem asi 100 000 vzorků, a byly použity pro srovnání PAAG proti třem předchozím systémům: CACS; WIYD; a JAC:

Výsledky modelování preferencí ve srovnání s předchozími metodami. Nižší NDCG@5 a vyšší AUROC indikují lepší výkon. Nejlepší skóre jsou tučné, druhé nejlepší podtržené.

Z těchto výsledků autoři komentují:

‘[Naše] metoda dosahuje lepšího výkonu v obou metrikách. Konkrétně, PAAG dosahuje nejnižší NDCG@5 (0,3066), překonávající nejlepší benchmark (CACS), což indikuje více odlišných meziskupinových preferenčních vzorců pro efektivní skupinovou generaci reklam.

‘Kromě toho, PAAG dosahuje nejvyšší AUROC (0,6372), zlepšující se o 0,0159 ve srovnání s nejsilnějším benchmarkem (WIYD).’

Druhá série testů ověřila, zda systém může lépe přizpůsobit reklamy správným uživatelským skupinám:

Online srovnání CTR, ukazující, že skupinově personalizovaná generace (‘Ours’) překonává všechny benchmarky, včetně CAIG a pretrained G-MLLM.

Zde PCIG ukázal silnější klikací sazby než starší modely, jako je CAIG a G-MLLM, s 5,5% zlepšením. GRM byl také testován offline kontrolou, zda může správně vybrat lepší reklamu v páru, na základě skupinových preferencí. Překonal všechny benchmarky, včetně obecných modelů, s 4,7% ziskem oproti CAIG.

Konečný kvalitativní test byl proveden pro vyhodnocení, zda PCIG může odrážet skupinové preference ve stylu generovaných obrázků. Jak je ukázáno na obrázku níže, stejný produkt byl zobrazen odlišně pro každou skupinu, s změnami v paletě, tónu a vizuální kompozici:

Plné výsledky kvalitativních testů, které byly dříve ukázány v článku.

Tyto variace se shodovaly, autoři tvrdí, s odvozenými preferencemi kliknutí pro každou skupinu, ukazující, že PCIG může produkovat stylově rozmanité výstupy, zatímco zachovává relevanci a atraktivitu. Autoři uvádějí:

‘[PCIG] zajišťuje stylově rozmanité obrázky, aby přizpůsobily kliknutí preferencí odlišných uživatelských skupin, a tím prokazuje svou silnou schopnost přizpůsobit generaci skupinově-osvědčeným uživatelským požadavkům a zachytit jemné, fine-grained preference rozdíly napříč různými uživatelskými skupinami, zdůrazňující její potenciál pro skupinově-osvědčenou generaci reklamních obrázků ve velkém měřítku.’

Závěr

Možná nejzajímavější aspekt tohoto projektu je neznámá korelace mezi výstupními styly napříč skupinově-cílenými obrázky pro stejný produkt (z nichž je několik stránek více příkladů v přílohách článku než můžeme reprodukovat zde).

Můžeme předpokládat, že urbánní pozadí jsou související s věkem, tj. s absolventy, kteří začínají, a že venkovská prostředí jsou zaměřena na více prosperující generaci X, kteří identifikují otevřenou cestu jako druh “konečné svobody”? Můžeme Rorschach tyto testovací výstupy celý den.

Potenciál takových systémů spočívá na dvou faktorech: přehled a latence. Přehled závisí na tom, zda se vyvíjející sledovací systémy mohou stále extrahovat dostatečné množství významných informací z uživatelů, aby podpořily efektivní skupinově-cílenou reklamu, a zároveň položily základy pro přesnější, individuálně-cílenou reklamu v budoucnu.

Latence představuje větší výzvu, protože tyto přizpůsobené reklamní obrázky musí být generovány a doručeny téměř okamžitě; ačkoli některé nedávné text-to-image modely mohou produkovat výsledky za pouhých několik sekund, i tato zpoždění může být příliš dlouhé pro reálné reklamní aukce.

Jednou z možných řešení je produkovat obrázky místně, na GPU prohlížeče, a vyhnout se síťovým round-tripům; nebo vytvořit sadu obrázků předem, předkompilovaných na klientovi.

** Tento aspekt je vynechán v nové práci, stejně jako potenciál nových AI rámců pro hluboké podvody je často zmírněn použitím roztomilých zvířecích obrázků (místo AI porna) v nových studiích. Nicméně, typy obrázků, které jsou ukázány v práci, reprezentují inzerenty na jejich nejlepší chování, spíše než zobrazují, jak osobní vizuální reklamy by mohly být.

** Nemohu identifikovat tuto instituci, protože ‘UCAS’ obecně odpovídá dobře známému UK univerzitnímu aplikačnímu clearing-house. Vítám upřesnění.

^† Který výzkumníci slibují uvolnit na přidruženém GitHub repozitáři.

Poprvé zveřejněno ve čtvrtek, 5. února 2026

Related Topics:advertising AI image generation generative ai

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai