Kąt Andersona
Obrazki reklam generowane przez AI, ukierunkowane na Twoją demografię – I, ostatecznie, Ciebie?

Reklamodawcy dążą do dostosowania reklam do poszczególnych widzów, aby zwiększyć klikalność, a chociaż tworzenie reklam na zamówienie dla każdej osoby jest obecnie niepraktyczne, nowe badania sugerują, że obrazki generowane przez AI mogą być skutecznie ukierunkowane na określone grupy demograficzne.
Osobiste reklamy przedstawione w filmie Stevena Spielberga z 2002 roku Minority Report wywarły trwałe, nawet niepokojące wrażenie na kulturę, ze swoją żywą prezentacją proaktywnych billboardów reklamowych, które rozpoznają ludzi w tłumie i krzyczą promocyjne wiadomości bezpośrednio do nich.
Wiele grup konsumentów może postrzegać ten poziom rozpoznawania widza jako koszmar, a chociaż postępy w kierunku tego celu zostały spowolnione przez skandal związany z Cambridge Analytica scandal, idea bezpośredniego, wysoko ukierunkowanego zaangażowania pozostaje cenionym celem w reklamie.
W rzeczywistości systemy, które mogą sięgać do cech konkretnego widza pozostają w ciągłym rozwoju – chociaż w takich przypadkach badania przemysłowe muszą podjąć środki w celu poszanowania przepisów dotyczących osobistych informacji identyfikujących (PII); przepisów, które zostały wzmocnione w Europie w ciągu ostatniej dekady, a te poprawione ochrony rozprzestrzeniły się gdzie indziej za pośrednictwem efektu brukselskiego.
Cześć, Ty!
Teraz, gdy reklamy i treści marketingowe generowane przez AI są w zanadrzu, reklamodawcy muszą jednak zmierzyć się z potencjalnymi kosztami reklam AI ukierunkowanych na konkretnych jednostki, gdzie obrazki i tekst są przywoływane oportunisycznie i na poczekaniu.
Na przykład, nawet jeśli można było wygenerować obrazek bardzo szybko, koszty na dużą skalę byłyby znaczne. Dodatkowo, automatyczne procesy aukcji reklam online działają w krytycznych, milisekundowych ramach czasowych, co sprawia, że tworzenie treści obrazkowych dla użytkownika jest wyzwaniem, a treści wideo są jeszcze bardziej odległym celem.
Jednak techniczne przeszkody związane z adresowaniem wyższego poziomu grup demograficznych w sieciowej publiczności (za pośrednictwem laptopów, telefonów, smart TV itp.) nie są tak poważne – a nowe międzynarodowe współpracy akademicko-przemysłowe proponują sposób tworzenia odrębnych obrazków reklamowych dla różnych grup demograficznych, w tym takich czynników, jak wiek i lokalizacja:

Z nowej pracy: przykłady generowania reklam personalizowanych, gdzie jeden produkt jest renderowany w różnych stylach dla różnych grup widzów. Źródło
Nowy framework – zatytułowany One Size, Many Fits (OSMF) – ma na celu zmostkowanie lukę między reklamami o szerokim zasięgu a niepraktycznie szczegółową personalizacją, generując różne obrazki reklamowe dla automatycznie odkrytych grup publiczności, przy użyciu product-aware clustering, aby dopasować treści wizualne do preferencji kliknięć odrębnych grup demograficznych
Autorzy stwierdzają:
‘[Prezentujemy] zjednoczony framework, który dopasowuje różnorodne grupowe preferencje kliknięć w dużych reklamach generowanych przez AI.
‘OSMF rozpoczyna się od produktowo-zorientowanego grupowania adaptacyjnego, które dynamicznie organizuje użytkowników na podstawie ich atrybutów i cech produktu, reprezentując każdą grupę bogatymi zbiorczymi cechami preferencji.’
Przetestowano w porównaniu z innymi frameworkami, autorzy twierdzą, że uzyskali wyniki na poziomie stanu sztuki.
Chociaż praca identyfikuje różnorodne grupy demograficzne, artykuł nie określa, które cechy demograficzne reprezentuje każda G grupa, chociaż wydają się one prawdopodobnie mapowane na tradycyjne grupy segmentacji rynku.
Dlatego też nie jest łatwo powiedzieć, na podstawie różnych przykładów podanych w głównym artykule i załączniku, dlaczego pewne tła lub oświetlenie mogłyby przyciągnąć jedną grupę bardziej niż inną, ponieważ nie znamy cech żadnej grupy:

Nie ma spójnych ‘niebieskich dla chłopców, różowych dla dziewczyn’ itp. stylów wśród stylów obrazków specyficznych dla grupy, które mogłyby zdradzić, jaki typ osoby należy do której grupy – definicje, jak wynika z istniejącej literatury, są o wiele bardziej złożone i subtelne.
Co może być bardziej niepokojące dla tych, którzy są świadomi praktyk ukierunkowania reklam, jest możliwość wykorzystania wglądu w generowaniu konkretnych obrazków w reklamach**.
Nowy artykuł zatytułowany One Size, Many Fits: Aligning Diverse Group-Wise Click Preferences in Large-Scale Advertising Image Generation, pochodzi od 17 badaczy z Narodowego Laboratorium Rozpoznawania Wzorców w Pekinie; ‘Szkoły AI na UCAS’; chińskiej firmy e-commerce JINGDONG; Uniwersytetu Nauki i Technologii w Hongkongu w Kantonie; oraz Laboratorium Rozpoznawania Wzorców na Uniwersytecie Nauki i Technologii w Nanjing.
Metoda
System wykorzystuje klastering adaptacyjny (metodę, która znajduje naturalne grupy, łącząc cechy użytkowników z tym, jak reagują na różne produkty), aby pogrupować użytkowników na podstawie tego, jak ich cechy kształtują preferencje wizualne w danym produkcie. Wdrożenie tej metody przez autorów nazywa się Product-Aware Adaptive Grouping (PAAG).
Te grupy nie są ustalone z wyprzedzeniem, ale są odkrywane z wzorców w danych.
Generator obrazków warunkowych, zatytułowany Preference-Conditioned Image Generation (PCIG), wykorzystuje następnie profil każdej grupy, aby utworzyć obrazki reklamowe dopasowane do gustów każdej grupy:

OSMF grupuje użytkowników na podstawie tego, jak ich cechy kształtują preferencje produktowe, a następnie wykorzystuje te profile grup, aby wygenerować obrazki reklamowe dopasowane do gustów każdej grupy. PAAG zajmuje się grupowaniem, a PCIG tworzy obrazki przy użyciu podpowiedzi i informacji zwrotnej dostosowanych do każdej grupy.
Generator obrazków wykorzystuje niesprecyzowaną wersję Stable Diffusion, wraz z odpowiednim ControlNet suite (ten ostatni, aby pomóc w utrzymaniu spójności wśród różnych generacji kohort).
W przepływie pracy, PAAG najpierw koduje relację między cechami użytkowników a tekstowymi i obrazkowymi aspektami produktu, przy użyciu zestawu dedykowanych enkoderów i mechanizmu uwagi krzyżowej, aby połączyć je w jedną, zunifikowaną osadzoną preferencję, która odzwierciedla prawdopodobieństwo, że użytkownik kliknie na konkretną reklamę.
PAAG modeluje następnie, w jaki sposób różne kombinacje atrybutów użytkowników oddziałują z tytułami produktów i obrazkami. Cechy tekstowe i obrazkowe są wyodrębniane przy użyciu CLIP i ResNet-opartych enkoderów, a cechy użytkowników, takie jak płeć, lokalizacja, wiek lub urządzenie, są przekazywane przez MLP, co umożliwia uwagę krzyżową nad cechami produktu i obrazkami.
Wynikowa osadzona reprezentacja odzwierciedla prawdopodobieństwo kliknięcia każdego użytkownika dla konkretnego produktu w określonym kontekście wizualnym. Gdy te osadzone preferencje użytkowników są uzyskane, PAAG wykorzystuje K-means clustering, aby pogrupować użytkowników, którzy reagują podobnie na dany produkt.
PAAG wybiera najlepszą liczbę grup użytkowników dla każdego produktu, sprawdzając, jak dobrze klastry oddzielają preferencje; zamiast używać tylko jednego średniego punktu na grupę, próbuje kilka punktów w różnych odległościach, aby uchwycić szerszy zakres preferencji.
Te profile grup są następnie przekazywane jako tokeny do group-aware multimodal large language model (G-MLLM), który wykorzystuje je do generowania obrazków reklamowych dostosowanych do każdej grupy.
Generowanie obrazków na podstawie preferencji użytkowników
Po stronie użytkownika G-MLLM uczy się przewidywać, którzy członkowie grupy są prawdopodobnie kliknięci jako następni i jak opisać wspólne cechy w języku naturalnym. Po stronie produktu uczy się podsumowywać produkt wyświetlany na obrazku i generować stylowe podpisy reklam, które odpowiadają zarówno produktowi, jak i grupie.
Aby odzwierciedlić rzeczywiste zachowanie użytkowników, model jest rozszerzony do group-aware reward model (GRM). GRM jest szkolony na własnym Grouped Advertising Image Preference (GAIP) † (patrz poniżej), aby porównać pary obrazków dla tego samego produktu i określić, który z nich działał lepiej z daną grupą, przy użyciu rzeczywistych danych kliknięć.
Ten sygnał nagrody jest następnie wykorzystywany do dokształcenia G-MLLM z Group-DPO, metody, która uczy go faworyzować podpowiedzi, które prowadzą do lepszego zaangażowania na poziomie grupy.
Dane i testy
Tworzenie GAIP
Zauważając historyczny brak zbiorów danych związanych z preferencjami reklamowymi grup, oraz że poprzednie kolekcje, takie jak Personalized Soups i CG4CTR, są albo zbyt mało skalowe, albo zbyt źle określone, badacze opracowali własną kolekcję, wspomniany GAIP, pochodzący z ‘przemysłowych logów reklamowych’ niesprecyzowanej platformy e-commerce.
Logi zostały zebrane przez okres trzech tygodni, a każdy wpis rejestrował obrazek produktu i tytuł, profil widza (w tym wiek, poziom wydatków i wrażliwość na promocje) oraz czy reklama została kliknięta.
Zbiór danych obejmuje ponad 40 milionów użytkowników, 2 miliony produktów i prawie 10 milionów obrazków reklamowych, z wysoką różnorodnością wizualną wśród elementów.
Użytkownicy byli pogrupowani przez PAAG w odrębne klastry dla każdego produktu, a wskaźnik klikalności (CTR) został obliczony dla każdego obrazka w każdej grupie:

Z nowego artykułu materiału uzupełniającego, mały rzut oka na niektóre z kryteriów definiujących GAIT.
GAIP jest następnie utworzony jako zestaw krotek (obrazek reklamowy, tytuł produktu, osadzona grupa, grupowy CTR) łączący każdy obrazek i tytuł z jego CTR i osadzoną grupy, która go zobaczyła.
Aby zapewnić niezawodność, zachowano tylko produkty z wystarczającym zasięgiem, co skutkuje zbiorem danych 610 172 próbek poziomu grupy.
GAIP jest znacznie większy niż poprzednie zbiory danych: podczas gdy większość poprzednich benchmarków obejmuje mniej niż dziesięć grup użytkowników, GAIP zawiera prawie 600 000 rzeczywistych rekordów preferencji grupowych, oferując głębsze spojrzenie na preferencje na poziomie grupy.
Testy
Aby przeszkolić potok PCIG, badacze wyodrębnili cechy obrazkowe i tekstowe przy użyciu ResNet i enkodera tekstu CLIP, a następnie mapowali je na 128-wymiarowe osadzenia za pomocą uczonych warstw liniowych. Aby utrzymać wydajność, PAAG został ograniczony do pięciu grup użytkowników na produkt.
Osadzenia grup zostały utworzone przy użyciu strategii próbkowania opartej na percentylach, pobierając wiele punktów z 15., 55. i 95. percentyli, aby uchwycić zarówno rdzeń, jak i peryferie preferencji.
LLaVA został użyty jako podstawa dla G-MLLM, a pre-trenowanie przeprowadzono przez dziesięć epok z harmonogramem uczenia kosinusem przy stopy uczenia 2e-6, wymagając pięciu dni szkolenia na klastrze ośmiu procesorów NVIDIA H100, każdy z 80 GB pamięci VRAM.
GRM został przeszkolony przez odtworzenie GAIP z parą produktowych obrazków, a następnie zainicjowany z tymi samymi wagami co G-MLLM. Podczas końcowego etapu Group-DPO GRM został zamrożony, a G-MLLM został dostosowany przy użyciu LoRA przez trzy epoki – ponownie, przy stopy uczenia 2e-5, na tym samym klastrze NVIDIA.
Wyniki wykorzystano do pierwszej oceny NDCG@5 i AUROC. NDCG@5 mierzył, jak różnie każda grupa klasyfikowała te same zestawy obrazków reklamowych, z niższymi wartościami wskazującymi na jaśniejsze rozdzielenie preferencji; AUROC został wykorzystany do oceny, jak dobrze każdy model rozróżniał kliknięte od nieklikniętych treści.
Wszystkie metryki zostały obliczone na wynikach klastryzacji z 1000 produktów, łącznie około 100 000 próbek, i zostały wykorzystane do porównania PAAG z trzema poprzednimi systemami: CACS; WIYD; i JAC:

Wyniki modelowania preferencji w porównaniu z poprzednimi metodami. Niższy NDCG@5 i wyższy AUROC wskazują lepszą wydajność. Najlepsze wyniki są pogrubione, a drugie najlepsze są podkreślone.
Z tych wyników autorzy komentują:
‘[Nasza] metoda osiąga lepszą wydajność w obu metrykach. Konkretnie, PAAG osiąga najniższy NDCG@5 (0,3066), przewyższając najlepszą bazę porównawczą (CACS), co wskazuje na bardziej odrębne wzorce preferencji między grupami dla skutecznej generacji reklam na poziomie grupy.
‘Ponadto PAAG osiąga najwyższy AUROC (0,6372), poprawiając wynik w stosunku do najlepszej bazy porównawczej (WIYD) o 0,0159.’
Druga runda testów sprawdziła, czy system może lepiej dopasować reklamy do odpowiednich grup użytkowników:

Porównanie CTR online, pokazujące, że generowanie personalizowane („Nasze”) przewyższa wszystkie bazy porównawcze, w tym CAIG i wstępnie przeszkolony G-MLLM.
Tutaj PCIG wykazał silniejsze wskaźniki klikalności niż starsze modele, takie jak CAIG i G-MLLM, z poprawą o 5,5%. GRM został również przetestowany offline, sprawdzając, czy może poprawnie wybrać lepszą reklamę w parze, na podstawie preferencji grupy. Przewyższył wszystkie bazy porównawcze, w tym ogólne modele, z zyskiem 4,7% w stosunku do CAIG.
Ostateczny test jakościowy został przeprowadzony w celu oceny, czy PCIG może odzwierciedlić preferencje na poziomie grupy w stylu generowanych obrazków. Jak pokazano na poniższym rysunku, ten sam produkt został wyrenderowany inaczej dla każdej grupy, z zmianami w paletach, tonach i kompozycjach wizualnych:

Pełne wyniki testów jakościowych, zapowiedzianych wcześniej w artykule.
Te zmiany były zgodne, zdaniem autorów, z wnioskowanymi preferencjami kliknięć dla każdej grupy, pokazując, że PCIG może produkować stylistycznie zróżnicowane dane wyjściowe, zachowując przy tym istotność i atrakcyjność. Autorzy stwierdzają:
‘[PCIG] zapewnia stylistycznie zróżnicowane obrazki, aby dostosować się do preferencji kliknięć odrębnych grup użytkowników, tym samym demonstrując swoją silną zdolność do adaptacji generowania do zróżnicowanych potrzeb użytkowników i uchwycenia subtelnych, drobnych różnic preferencji wśród różnych grup użytkowników, podkreślając swój potencjał dla generowania obrazków reklamowych na poziomie grupy na dużą skalę.’
Wnioski
Być może najbardziej interesującym aspektem tego projektu jest nieznana korelacja między stylami danych wyjściowych w obrazkach ukierunkowanych na grupy dla tego samego produktu (z których jest kilka stron więcej w materiałach uzupełniających artykułu niż możemy tutaj odtworzyć).
Czy możemy założyć, że miejskie tła są związane z wiekiem, tj. z absolwentami rozpoczynającymi karierę, i że wiejskie środowiska są skierowane do bardziej zamożnych przedstawicieli pokolenia X, którzy identyfikują otwartą drogę jako rodzaj ‘ostatecznej wolności’? Można się zagłębić w te dane testowe przez cały dzień.
Potencjał takich systemów opiera się na dwóch czynnikach: wglądzie i opóźnieniu. Wgląd zależy od tego, czy pojawiające się systemy śledzące mogą nadal wyodrębnić wystarczająco istotne informacje od użytkowników, aby wesprzeć skuteczną reklamę kohortową, oraz czy mogą położyć podwaliny pod bardziej precyzyjne, ukierunkowane na indywidualne reklamy w przyszłości.
Opóźnienie stanowi większe wyzwanie, ponieważ te obrazki reklamowe muszą być generowane i dostarczane niemal natychmiast; chociaż niektóre niedawne modele tekst-obrazek mogą produkować wyniki w ciągu kilku sekund, nawet to opóźnienie może być zbyt długie dla aukcji reklam w czasie rzeczywistym.
Jednym z możliwych rozwiązań jest wygenerowanie obrazków lokalnie, na GPU przeglądarki, unikając rund-tripów sieciowych; lub utworzenie puli obrazków z wyprzedzeniem, pre-cache’owanych na kliencie.
** Ten aspekt jest pominięty w nowym artykule, podobnie jak potencjał nowych frameworków AI do głębokiej fałszywej treści jest często złagodzony przez użycie przyjaznych zwierzęcych postaci (zamiast AI pornografii) w nowych badaniach. Niemniej jednak rodzaj obrazków przedstawiony w pracy reprezentuje reklamodawców w ich najlepszym zachowaniu, raczej niż pokazując, jak bardzo osobiste wizualne reklamy mogą ostatecznie się stać, gdy metody ukierunkowania konsumentów łączą się z szybką odpowiedzią generatywnej AI.
** Nie mogę zidentyfikować tej nazwanej instytucji, ponieważ ‘UCAS’ zwykle rozwiązuje się w dobrze znanym brytyjskim biurze aplikacji uniwersyteckich. Witam wyjaśnienie.
† Który autorzy obiecują wydać w powiązanym repozytorium GitHub.
Po raz pierwszy opublikowany w czwartek, 5 lutego 2026












