Kąt Andersona

Nowe badania proponują naprawdę “personalizowaną” reklamę

Opublikowano 2 czerwca 2026

Przez

Martin Anderson

A woman looks at a laptop displaying a news website, reacting with surprise as a banner advertisement on the page shows a smiling woman who closely resembles her.

W nowej definicji “autopromocji” nowa metoda wykorzystuje kliknięcia użytkownika do tworzenia reklam internetowych dostosowanych do jego indywidualnej historii.

Mimo że agencje reklamowe są zainteresowane obaloną ideą, że istnieją kanały reklamowe, które mogą wyświetlać reklamy na podstawie tego, co użytkownik powiedział w domu, stopień “personalizacji” wykazany przez reklamy na stronach internetowych i w aplikacjach społecznościowych przyniósł nagłówki w ostatnich latach.

Idealnym scenariuszem dla reklamodawcy zawsze było to, aby wyświetlana reklama była “idealnym dopasowaniem” dla widza. W ramach ograniczeń publicznej reakcji na śledzenie online i ewentualnych środków zapobiegawczych, które użytkownik może zainstalować w celu zablokowania takiego monitorowania, generatywny AI (pomijając obawy związane z reklamą LLM w świecie po wyszukiwaniu) jest w stanie produkować obrazy reklamowe i teksty wystarczająco szybko do wdrożenia w czasie rzeczywistym.

Jednak główny kierunek badań i większość wdrożeń w tej dziedzinie do tej pory opierały się na zagregowanych statystykach użycia, tak aby reklama wygenerowana dla widza była oparta na przypuszczalnej grupie kohortowej użytkownika, a nie na jego własnej unikalnej historii.

Teraz nowe badania współpracy między Chinami a USA przedstawiają system generowania reklamowych obrazów i tekstów dla poszczególnych użytkowników poprzez naukę z ich własnych kliknięć w czasie, gdy są zalogowani na stronie, przechodząc poza założenia oparte na kohorcie, które rządziły większością badań nad personalizowaną reklamą do tej pory:

Przykłady wygenerowanych reklam dostosowanych do poszczególnych użytkowników. Oczywiście, bez kontekstu historii użytkownika, pełne znaczenie można tylko wyobrazić. Źródło

Niezwykle, nowy podejście odrzuca modele dyfuzji na rzecz autoregresyjnej architektury – główna różnica polega na tym, że modele dyfuzji stopniowo udoskonalają obraz z szumu wizualnego, podczas gdy modele autoregresyjne generują treść krok po kroku, przewidując każdy nowy element na podstawie wszystkiego, co poprzedzało.

Aby wesprzeć nowy model generatywny, autorzy opracowali to, co twierdzą, jest pierwszym dużym zestawem danych obrazów i tekstów do personalizowanej reklamy, a także nowy wskaźnik zaprojektowany do oceny tego konkretnego zadania. W testach stwierdzili, że ich podejście przewyższa zarówno ogólne punkty odniesienia, jak i istniejące metody i ramy, które obecnie rozwiązują to wyzwanie.

Walled Garden

Warto zauważyć proponowany zakres pracy, który nie oferuje reklamodawcom sposobu na obejście nowych środków przeciwko śledzeniu stron trzecich, ale raczej daje dużemu detalistowi możliwość zaludnienia zalogowanego klienta reklamami, które bezpośrednio dotyczą tej osoby.

To nie jest koniecznie ograniczone do klientów, którzy obecnie przeglądają stronę detalisty: w zależności od stopnia, w jakim użytkownik udzielił detalistowi pozwolenia na śledzenie go na innych stronach, może on być przedstawiony z celowymi reklamami na dowolnej liczbie innych stron, które uczestniczą w aukcjach reklamowych, w których detalista sam uczestniczy.

Ten rodzaj zasięgu reklamowego jest zwykle ograniczony do dużych, wysokoskalowych punktów sprzedaży, takich jak Amazon, na Zachodzie (i zauważamy, że chiński detalista o podobnej skali uczestniczył w nowej pracy – patrz poniżej), chociaż każdy podobnie duży detalista (taki jak popularna platforma społecznościowa) mógłby teoretycznie wygenerować podobną ramę generatywną.

Nowy artykuł nosi tytuł Design Your Ad: Personalized Advertising Image and Text Generation with Unified Autoregressive Models i pochodzi od 18 autorów z Sun Yat-Sen University w Guangzhou, Northeastern University i największego chińskiego detalisty, JD.com (który ma dostęp do historii i zwyczajów klientów). Kod został udostępniony za pośrednictwem GitHub, a odpowiednie punkty kontrolne zostały udostępnione również.

Dane i Metoda

Zestaw danych opracowany dla tego projektu nosi tytuł Personalized Advertising image-text (PAd1M) i jest napędzany danymi dostarczonymi przez JD.com. Autorzy stwierdzają:

‘Każdy produkt zwykle dostarcza ponad dziesięć kandydujących obrazów i tekstów, co pozwala w pełni wykryć różnorodne preferencje. Aby umożliwić niezawodne modelowanie preferencji, zbieramy pełne historie kliknięć użytkowników zarówno dla obrazów, jak i tekstów, filtrując użytkowników z niewystarczającą aktywnością, aby zmniejszyć szum.

‘To daje nam zestaw danych 1 145 371 użytkowników, z 18 923 555 klikniętych obrazów produktów i tekstów, średnio ponad szesnaście multimodalnych zachowań historycznych na użytkownika.’

Dla każdego użytkownika wybrano jeden wcześniej kliknięty parę obrazu i tekstu jako przykład docelowy, po czym sam produkt został odizolowany z obrazu przy użyciu Grounded SAM.

Opisy dostarczone przez sprzedawców i punkty sprzedaży zostały następnie dołączone do rekordu, tworząc zestaw danych, w którym każda docelowa reklama jest acompañowana przez transparentny obraz produktu; ustrukturyzowaną informację o produkcie; oraz historię wcześniejszych interakcji z obrazami i tekstami, mającą na celu uchwycenie wcześniejszych zainteresowań i preferencji użytkownika:

Profil użytkownika z zestawu danych PAd1M, pokazujący docelową reklamę obok informacji o produkcie użytej do jej wygenerowania, oraz historyczne interakcje z obrazami i tekstami użyte do modelowania preferencji użytkownika.

Wynikowy zestaw danych oferuje skalę ponad miliona użytkowników i prawie 19 milionów rekordów kliknięć obrazów i tekstów, przy czym autorzy stwierdzają, że kolekcja jest znacznie większa niż poprzednie zestawy danych personalizacji.

Ponadto dane, niezwykle w tym nurcie badań, łączą obrazy i teksty, pozwalając na modelowanie preferencji użytkowników w wielu modalnościach, a nie w jednej domenie.

PAd1M zawiera również śledzenie preferencji na poziomie indywidualnym; w przeciwieństwie do poprzednich zestawów danych reklamowych, które były budowane wokół współczynników klikalności agregowanych w dużych grupach, PAd1M łączy interakcje z konkretnymi użytkownikami z danych JD.com.

Dla wskaźników, poza standardowymi wyborami BLEU i ROUGE, badacze opracowali własny niestandardowy wskaźnik zatytułowany Podobieństwo tła produktu (PBS). Opierając się na poprzedniej inicjatywie MoCo-v3, PBS został przeszkolony na 681 123 parach obrazów przedstawiających ten sam produkt na różnych tłach, co pozwoliło wskaźnikowi skupić się na zmianach kontekstowych, a nie na samym produkcie:

Podobieństwo tła produktu (PBS) przypisuje znacznie różne wyniki podobieństwa do reklam, które zawierają ten sam produkt, ale umieszczają go w różnych kontekstach wizualnych. Odwrotnie, konkurencyjne wskaźniki produkują znacznie mniejsze rozdzielenia.

Podczas szkolenia każdy obraz został sparowany z samym sobą jako przykład pozytywny, podczas gdy obraz tego samego produktu umieszczony w innym ustawieniu służył jako przykład negatywny, strategia szkoleniowa mająca na celu zwiększenie wrażliwości na kontekst tła. Wyniki oceny, jak twierdzi artykuł, wskazują na większe różnice w podobieństwie między dopasowanymi i niedopasowanymi tłami niż te wytwarzane przez CLIP, DINO v3 lub wspomniany wcześniej MoCov3.

Jak pokazano w górnej lewej sekcji poniższego obrazu*, model Unified Advertisement Generative (Uni-AdGen) wykorzystuje autoregresyjną architekturę wizji-języka do generowania zarówno reklamowych tekstów, jak i obrazów. Proces jest kierowany przez ustrukturyzowaną instrukcję, która obejmuje definicję zadania, opis produktu oraz kluczowe punkty sprzedaży:

Przegląd metody.

Specjalne tokeny delimitujące definiują część sekwencji zarezerwowanej dla kopii reklamowej. Po wygenerowaniu tekstu specjalny token obrazu wyzwala generowanie obrazu, podczas gdy zamykający token obrazu oznacza jego zakończenie, a wygenerowane tokeny są następnie wysyłane do oddzielnych dekoderów tekstu i obrazu.

Dla obrazów dekoder VQ-GAN LlamaGen jest używany do przekonwertowania dyskretnych tokenów obrazu z powrotem w piksele.

W ten sposób zjednoczona architektura generuje tekst i obrazy w ramach jednej przewidywania następnego tokenu ramy, a nie polegając na oddzielnych potokach – metody przyjętej dla wcześniejszych systemów reklamowych o podobnym zakresie.

Podczas szkolenia model uczy się obu modalności razem, z tokenami tekstu przewidywanymi na podstawie sekwencji wejściowej i wcześniej wygenerowanego tekstu. Tokeny obrazu są następnie przewidywane przy użyciu sekwencji wejściowej, wygenerowanego tekstu i wcześniej wygenerowanych tokenów obrazu.

Aby utrzymać wygenerowane reklamy związane z promowanym produktem, Uni-AdGen wykorzystuje moduł percepcji pierwszoplanu oparty na DINO v2, aby wstrzyknąć informacje z transparentnych obrazów produktów do autoregresyjnego modelu.

Dostosowanie instrukcji (szkolenie modelu do przestrzegania instrukcji generowania produktu pochodzących z opisów i punktów sprzedaży) zostało również użyte do poprawy przestrzegania opisów i punktów sprzedaży dostarczonych przez sprzedawców, z GPT-4o używanym do filtrowania niewłaściwych przykładów szkoleniowych.

Personalizacja opierała się na moduluze zrozumienia preferencji od grubego do drobnego. Historyczne interakcje były najpierw filtrowane przez potok Próbki podobieństwa produktu (PSS), aby faworyzować produkty podobne do elementu docelowego. Pozostałe rekordy były następnie przetwarzane przez etap wyodrębniania preferencji multimodalnych zaprojektowany do identyfikacji wizualnych i tekstowych elementów, które najprawdopodobniej odzwierciedlą zainteresowania użytkownika – z tymi preferencjami wstawionymi do promtu, aby kierować generacją.

Testy

Autorzy stwierdzają, że ich podejście testowe pochodzi od DeepSeek’s Janus-Pro 7B.

Model został przeszkolony w rozmiarze partii czterech, pod optymalizatorem AdamW przy stopy uczenia 5e-5. Model bazowy został dostosowany za pomocą LoRA, z modułem percepcji pierwszoplanu i wyodrębnianiem preferencji multimodalnych w pełni dostosowanymi (tj. w przeciwieństwie do LoRA, wagi modelu bazowego zostały trwale zmienione).

Wszystkie testy zostały uruchomione na karcie graficznej NVIDIA B200 z 192 GB pamięci VRAM. Do generowania obrazów PickScore, ImageReward i ASE zostały użyte do pomiaru jakości wizualnej, podczas gdy m-BLEU i m-ROUGE^† zostały użyte do oceny tekstów reklamowych. Oceny ludzkie dodatkowo oceniły realizm obrazu i jakość układu, a także dokładność i płynność tekstu, przy czym wszystkie wskaźniki zostały obliczone dla 500 produktów.

Dla generowania obrazów punkty odniesienia składały się z Qwen2.5-VL i GPT-4o do tworzenia podpowiedzi tła z obrazów produktów, po których nastąpiły ReliableAd, PosterMaker i Flux-Fill do generowania ostatecznych reklam. Porównania generowania tekstu zostały przeprowadzone przeciwko Qwen2.5, Qwen3 i DeepSeek-R1.

Początkowe wyniki ilościowe dla generowania reklam są pokazane poniżej:

Wyniki na ogólnym benchmarku generowania reklam. Uni-AdGen dopasował lub przewyższył najmocniejsze podstawy generowania obrazów pod względem jakości estetycznej i PickScore, podczas gdy zjednoczony model obrazu i tekstu osiągnął najwyższy wynik m-ROUGE wśród wszystkich podejść generowania tekstu. Wyniki oceny ludzkiej pozostały konkurencyjne w obu modalnościach.

Z tych wyników autorzy stwierdzają:

‘[Nasza] metoda osiąga najlepszą wydajność w ImageReward i zajmuje drugie miejsce zarówno w PickScore, jak i w ocenie ludzkiej, demonstrując swoją wyższą wydajność w estetyce i dostępności. Podczas gdy ReliableAd prowadzi w ocenie ludzkiej, znacznie ustępuje w wskaźnikach estetycznych. Odwrotnie, PosterMaker i Flux-Fill generują wizualnie atrakcyjne obrazy, ale cierpią na znaczne ograniczenia użyteczności.

‘Dzięki skutecznym podejściom kontrolnym, nasza metoda z powodzeniem osiąga optymalny balans między treścią wizualną a praktyczną użytecznością.’

Personalizowana generacja reklam była oceniana na 500 użytkownikach z zarejestrowanymi historiami interakcji, przy użyciu PBS do pomiaru podobieństwa obrazu, oraz BLEU i ROUGE do porównania wygenerowanego tekstu z produktami, które użytkownicy rzeczywiście kliknęli.

Ponieważ ogólne punkty odniesienia reklamowe użyte w poprzednim eksperymencie nie mogły uwzględniać historii użytkowników, porównania zostały przeniesione do systemów zaprojektowanych z myślą o personalizacji. Dla generowania obrazów Flux-Kontext i Pigeon zostały wybrane jako punkty odniesienia. Flux-Kontext został zaopatrzony w siatkę historycznych obrazów użytkowników obok obrazu produktu docelowego, umożliwiając poprzednim preferencjom wpływ na generację.

Ponieważ Pigeon nie obsługuje natywnie kontrolowanego umieszczania produktu, moduł percepcji pierwszoplanu opracowany dla Uni-AdGen został zintegrowany w celu zachowania spójności produktu. Dla generowania tekstu Qwen3 i DeepSeek-R1 zostały użyte, z historycznymi opisami produktów wstawionymi bezpośrednio do szablonów instrukcji, aby zapewnić kontekst specyficzny dla użytkownika:

Wyniki generowania personalizowanych reklam. Uni-AdGen przewyższył Flux-Kontext, Pigeon, Qwen3 i DeepSeek-R1 we wszystkich zgłoszonych wskaźnikach personalizacji, podczas gdy studium ablacjacji wskazało, że dane historyczne użytkowników, PSS i wyodrębnianie preferencji multimodalnych każde przyniosły wymierne korzyści.

Tutaj autorzy komentują:

‘Wizualizowane wyniki [zawarte w poniższym obrazie] pokazują, że Flux-Kontext nie potrafi zrozumieć preferencji użytkownika i pozostaje podatny na szum na poziomie próbki, co skutkuje znacznym odchyleniem od prawdy, takim jak nieistotne elementy w obrazie motocykla.’

Przykłady generowania personalizowanych reklam. W porównaniu z Flux-Kontext, Pigeon, Qwen3 i DeepSeek-R1, Uni-AdGen wyprodukował obrazy, które bardziej ściśle odpowiadają stylowi wizualnemu i kontekstowi reklam, które użytkownicy rzeczywiście kliknęli, podczas gdy generowany tekst uchwycił większy odsetek atrybutów produktu i punktów sprzedaży obecnych w przykładach odniesienia. Dopasowane terminy są podświetlone na zielono.

Przykłady jakościowe, jak twierdzą autorzy, wskazują, że Flux-Kontext i Pigeon często produkowały dane wyjściowe, które odbiegały od cech wizualnych reklam, które użytkownicy wcześniej kliknęli; tymczasem tekst wygenerowany przez Qwen3 i DeepSeek-R1 pomijał niektóre punkty sprzedaży obecne w przykładach odniesienia.

Wnioski

Użyteczność tego projektu zależy całkowicie od zgody użytkownika, a rozszerzenie zasięgu tego “przewidywalnego” systemu poza zakres domeny kontrolującej historię użytkownika – w tym przypadku JD.com – wymaga jeszcze bardziej zliberalizowanego zestawu jawnych pozwolenia użytkownika, w większości terytoriów.

Jednak system opiera się na rodzaju efektu sieciowego w dużym stopniu, który występuje w takim scenariuszu, i na (może nieco optymistycznej) idei, że użytkownicy uznają ten rodzaj naprawdę personalizowanego i wręcz przewidującego systemu rekomendacji za użyteczny, a nie inwazyjny, przynajmniej w kontekście ogrodu warzywnego detalisty.

* Ten obraz buduje na nowym niepokojącym trendzie “zestawionych figur” w artykułach naukowych, w którym ilustracje, które kiedyś byłyby 3-4 oddzielnymi figurami, są zestawione w jedną (w celu przestrzegania wytycznych dotyczących maksymalnej długości głównego artykułu) i używane wyłącznie jako materiał referencyjny, często bez adekwatnego wyjaśnienia w towarzyszącej podpisie.

^†‘m’-prefix wskazuje porównanie z wieloma kandydującymi tekstami.

Po raz pierwszy opublikowane we wtorek, 2 czerwca 2026. Zmienione o 18:21 EET, aby poprawić ostatnie “wall” na “walled” w ostatnim akapicie.