Andersons vinkel

Nyt forskningsforslag foreslår rigtigt ‘personligt’ reklame

Udgivet den 2. juni 2026

Martin Anderson

A woman looks at a laptop displaying a news website, reacting with surprise as a banner advertisement on the page shows a smiling woman who closely resembles her.

I en gendefinering af ‘selvmarkedsføring’, udvikler en ny metode brugernes egne klik til at skabe skræddersyede webannoncer baseret på deres egen unikke historie.

Selvom reklamebureauer er ivrige efter at afvise idéen om, at der findes reklamekanaler, der kan servere annoncer baseret på, hvad du lige har sagt i dit hjem, har omfanget af ‘personliggørelse’ vist i annoncer på websteder og sociale medie-apps alligevel fået overskrifter i de seneste år.

Den ideelle situation for annoncørerne har altid været, at den annoncering, der vises, er en ‘præcis match’ for seeren. Inden for grænserne for offentlig modstand mod online-sporing og de forebyggende foranstaltninger, som brugeren måske har installeret mod denne overvågning, er generativ AI (bortset fra frygten om LLM-reklame i en verden efter søgning) i stand til at producere annonceringsbilleder og -tekst hurtigt nok til at blive anvendt i realtid.

Det primære formål med forskningen og de fleste gennemføringer på dette område har imidlertid været baseret på sammensat brugsstatistik, således at enhver annoncering, der genereres til en seer, ville være baseret på seerens formodede kohortgruppe snarere end deres egen unikke historie.

Nu præsenterer et nyt forskningssamarbejde mellem Kina og USA et system til at generere annonceringsbilleder og -tekst til enkeltbrugere ved at lære af deres eget klikhistorik, når de er logget ind på et websted, og gå ud over de kohortbaserede antagelser, der har styret det meste af personligt reklameforskning indtil nu:

Eksempler på individuelt tilpassede annoncer. Selvfølgelig kan den fulde effekt kun forestilles uden brugerens historie som kontekst. Kilde

Usædvanligt nok fraviger den nye metode diffusionsbaserede modeller til fordel for en autoregressiv arkitektur – den primære forskel er, at diffusionsmodeller langsomt forfiner et billede fra visuel støj, mens autoregressive modeller genererer indhold ét stykke ad gangen, hvor hver ny enhed forudsiges fra alt, der kom før.

For at støtte den nye generative model udviklede forfatterne, hvad de hævder er den første storstilede billed- og tekstdataset for personligt reklame, samt en ny målemetode designet til at evaluere denne specifikke opgave. I tests fandt de, at deres tilgang overgik både generelle baseline og eksisterende metoder og rammer, der i øjeblikket løser denne udfordring.

Indhegnet have

Det er værd at bemærke den foreslåede omfang af arbejdet, der ikke tilbyder annoncørerne en måde at omgå nye foranstaltninger mod tredjeparts-sporing, men i stedet giver en tilstrækkeligt stor detailhandler mulighed for at udstyre en logged-in kunde med annoncer, der direkte relaterer til den pågældende person.

Dette er ikke nødvendigvis begrænset til kunder, der i øjeblikket besøger detailhandlerens eget websted: afhængigt af, i hvilken udstrækning brugeren har givet detailhandleren tilladelse til at spore dem på tværs af andre websteder, kan de blive præsenteret for målrettede annoncer på ethvert antal andre websteder, der deltar i annonceringsauktioner, som detailhandleren selv bruger.

Denne type annonceringsrækkevidde tenderer til at være begrænset til store, højvolumen-outlets som Amazon i Vesten (og vi bemærker, at en tilsvarende stor kinesisk detailhandler har deltaget i det nye arbejde – se nedenfor), selvom enhver lignende stor bekymring (såsom en populær sociale medie-platform) i teorien kunne generere en lignende generativ ramme.

Den nye artikel er titlen Design din annonce: Personligt reklamebillede og -tekstgenerering med samlet autoregressiv model, og kommer fra 18 forfattere på Sun Yat-Sen University i Guangzhou, Northeastern University og Kinas største detailhandler, JD.com (sidstnævnte har adgang til kundernes historie og vaner). Koden er blevet gjort tilgængelig via GitHub, og de relevante kontrolpunkter er blevet gjort tilgængelige.

Data og metode

Datasættet, der er konstrueret til projektet, er titlen Personligt reklamebillede-tekst (PAd1M), og drives af data leveret af projektbidrager JD.com. Forfatterne skriver:

‘Hvert produkt tilbyder typisk mere end ti kandidatbilleder og -tekster, hvilket sikrer, at de forskellige præferencer kan detekteres fuldt ud. For at aktivere pålidelig præferencemodellering indsamler vi komplette klikhistorier for både billeder og tekster, og filterer brugere med utilstrækkelig aktivitet for at reducere støj.

‘Dette giver en datasæt på 1.145.371 brugere med 18.923.555 klikkede produktbilleder og -tekster, med mere end seksten multimodale historiske adfærdsmønstre per bruger.’

For hver bruger blev ét tidligere klikket billede-tekstpar valgt som måleeksempel, hvorefter produktet selv blev isoleret fra billedet ved hjælp af Grounded SAM.

Sælgerleverede beskrivelser og salgspunkter blev derefter tilføjet til optagelsen, og skabte en datasæt, hvor hver måleannonce blev ledsaget af et gennemsigtigt produktbillede; struktureret produktinformation; og en historie af tidligere billede- og tekstinteraktioner, der skulle fange brugerens tidligere interesser og præferencer:

En brugerprofil fra PAd1M-datasættet, der viser en måleannonce sammen med produktinformationen, der blev brugt til at generere den, og de historiske billede- og tekstinteraktioner, der blev brugt til at modelere brugerens præferencer.

Den resulterende datasæt tilbyder en skala på over en million brugere og næsten 19 millioner klikkede billede- og tekstoptagelser, og forfatterne skriver, at samlingen er væsentligt større end tidligere personliggørelsesdatasæt.

Dertil kombinerer data, usædvanligt for denne type forskning, både billeder og tekst, hvilket giver mulighed for at modelere brugerpræferencer på tværs af flere modaliteter, snarere end inden for en enkelt domæne.

PAd1M har også individuel præferencetracking; til forskel fra tidligere reklame datasæt, der blev bygget op omkring klik-rater samlet over store grupper, kobler PAd1M interaktioner til bestemte brugere fra JD.com-data.

For målemetoder bruger forskerne, ud over de standardvalg BLEU og ROUGE, deres egen brugerdefineret målemetode kaldet Produktbaggrundslighed (PBS). Baseret på den tidligere MoCo-v3-initiativ, blev PBS trænet på 681.123 billedepar, der viser samme produkt mod forskellige baggrunde, hvilket giver mulighed for, at målemetoden kan fokusere på kontekstuel variation snarere end produktet selv:

Produktbaggrundslighed (PBS) tildeler markant forskellige lighedsscores til annoncer, der indeholder samme produkt, men placerer det i forskellige visuelle kontekster. Omvendt producerer andre målemetoder meget mindre adskillelse.

Under træning blev hvert billede parret med sig selv som et positivt eksempel, mens et billede af samme produkt placeret i en anden indstilling fungerede som et negativt eksempel, en træningsstrategi designet til at øge følsomheden over for baggrunds kontekst. Evaluationsresultaterne, som artiklen hævder, indikerer større lighedsscoresforskelle mellem matchende og ikke-matchende baggrunde end dem, der produceres af CLIP, DINO v3 eller den ovennævnte MoCov3.

Som vist i øverste venstre del af billedet nedenfor* bruger forskernes Samlet annonceringsgenereringsmodel (Uni-AdGen) en autoregressiv visuelt-sproglig arkitektur til at generere både annonceringstekst og -billeder. Processen styres af en struktureret instruktion, der inkluderer opgavedefinitionen og en produktbeskrivelse samt salgspunkter:

Metodeoversigt.

Særskilte afgrænsningstokken definerer den del af sekvensen, der er reserveret til annonceringstekst. Efter at teksten er blevet genereret, udløser en dedikeret billedtoken billedgenerering, mens en afsluttende billedtoken markerer dens afslutning, og de genererede token herefter sendes til separate tekst- og billeddecodere.

For billeder bruges LlamaGen’s VQ-GAN-dekoder til at konvertere diskrete billedtoken tilbage til pixels.

På denne måde genererer den samlede arkitektur tekst og billeder inden for en enkelt næste-token-prædiktionsramme, snarere end at stole på separate rørledninger – den metode, der blev brugt til tidligere annoncesystemer med en lignende omfang.

Under træning lærer modellen begge modaliteter sammen, hvor teksttoken prædikes baseret på inputsekvensen og tidligere genereret tekst. Billedtoken prædikes herefter ved hjælp af inputsekvensen, den genererede tekst og tidligere genererede billedtoken.

For at holde de genererede annoncer knyttet til det promoverede produkt, bruger Uni-AdGen en foreground-perception-modul baseret på DINO v2, for at injicere information fra gennemsigtige produktbilleder ind i den autoregressive model.

Instruktionsafstemning (træning af modellen til at følge produkt-specifikke genereringsinstruktioner, der er afledt af beskrivelser og salgspunkter) blev også brugt til at forbedre overensstemmelsen med sælgerleverede beskrivelser og salgspunkter, med GPT-4o brugt til at filtrere upassende trænings eksempler.

Personliggørelse afhang af en groft-til-fint præferencemodul. Historiske interaktioner blev først filtreret gennem en Produkt Lighed Sampling (PSS)-pipeline for at favorisere produkter, der ligner måleobjektet. De resterende optagelser blev herefter behandlet af en Multimodal PræferenceEkstraktions-fase designet til at identificere de visuelle og tekstuelle elementer, der er mest sandsynligt at reflektere brugerens interesser – med disse præferencer indsættet i prompten for at guide generationen.

Tests

Forfatterne skriver, at deres testtilgang er afledt fra DeepSeek’s Janus-Pro 7B.

Modellen blev trænet med en batchstørrelse på fire under AdamW-optimeringsalgoritmen med en læringsrate på 5e-5. Den grundlæggende model blev finjusteret via LoRA, hvor foreground perception og multimodal præference-ekstraktion fuldstændigt finjusteret (dvs., til forskel fra LoRA, blev grundmodellens vægte permanent ændret).

Alle tests blev kørt på en NVIDIA B200 GPU med 192 GB VRAM. Til billedgenerering blev PickScore, ImageReward og ASE brugt til at måle visuel kvalitet, mens m-BLEU og m-ROUGE^† blev brugt til at evaluere annonceringstekst. Menneskelige evaluatorer vurderede desuden billedrealisme og layoutkvalitet samt tekstuel nøjagtighed og flyd, med alle målemetoder beregnet på tværs af 500 produkter.

For billedgenerering bestod baseline-modellerne af Qwen2.5-VL og GPT-4o til at oprette baggrundsprompts fra produktbilleder, efterfulgt af ReliableAd, PosterMaker og Flux-Fill til at generere de endelige annoncer. Tekstgenereringskomparationer blev udført mod Qwen2.5, Qwen3 og DeepSeek-R1.

Initial baseline-kvantitative resultater for annonceringsgenerering vises nedenfor:

Præstation på den generelle annonceringsgenereringsbenchmark. Uni-AdGen matchede eller overgik den stærkeste billedgenereringsbaseline på æstetisk kvalitet og PickScore, mens den samlede billed- og tekstmodel opnåede den højeste m-ROUGE-score blandt alle tekstgenererings tilgange. Menneskelige evaluationsresultater forblev konkurrencedygtige på tværs af begge modaliteter.

Af disse resultater skriver forfatterne:

‘Vores metode opnår den bedste præstation i ImageReward og rangerer som nummer to i både PickScore og menneskelig evaluering, hvilket demonstrerer dens overlegne præstation i æstetisk og høj tilgængelighed. Mens ReliableAd leder i menneskelig evaluering, falder den betragteligt bagud i æstetiske målemetoder. Omvendt genererer PosterMaker og Flux-Fill visuelt tiltalende billeder, men lider under betydelige brugervenlighedsbegrænsninger.

‘Takket være effektive kontroltilgange opnår vores metode med succes en optimal balance mellem visuelt indhold og praktisk nytte.’

Personligt annonceringsgenerering blev evaluaret på 500 brugere med registrerede interaktionshistorier, ved hjælp af den ovennævnte PBS til at måle billedlighed, og BLEU og ROUGE til at sammenligne genereret tekst med produkter, som brugerne faktisk havde klikket på.

Fordi de generelle annonceringsbaselines, der blev brugt i det foregående eksperiment, ikke kunne inkorporere brugerhistorier, blev komparationerne skiftet til systemer designet til personliggørelse. For billedgenerering blev Flux-Kontext og Pigeon valgt som baselines. Flux-Kontext blev forsynet med en grid af historiske brugerbilleder sammen med måleproduktbilledet, hvilket tillod tidligere præferencer at påvirke generationen.

Da Pigeon ikke naturligt understøtter kontrolleret produktplacering, blev den foreground-perception-modul, der blev udviklet til Uni-AdGen, integreret for at bevare produktkonsistens. For tekstgenerering blev Qwen3 og DeepSeek-R1 brugt, med historiske produktbeskrivelser indsættet direkte i deres instruktions skabeloner for at give brugerspecifik kontekst:

Personligt annonceringsgenereringsresultater. Uni-AdGen overgik Flux-Kontext, Pigeon, Qwen3 og DeepSeek-R1 på tværs af alle rapporterede personliggørelsesmålemetoder, mens ablationsstudiet indikerede, at historiske brugerdata, Produkt Lighed Sampling (PSS) og multimodal præference-ekstraktion hver bidrog med betydelige gevinster.

Her kommenterer forfatterne:

‘De visualiserede resultater [inkluderet i billedet nedenfor] viser, at Flux-Kontext ikke forstår brugerpræferencer og er følsom over for støj på niveauet, hvilket resulterer i betydelig afvigelse fra sandheden, såsom irrelevante elementer i motorcykelbilledet.’

Eksempler på personligt annonceringsgenerering. I sammenligning med Flux-Kontext, Pigeon, Qwen3 og DeepSeek-R1 producerede Uni-AdGen billeder, der bedre matchede den visuelle stil og kontekst af annoncer, som brugere faktisk havde klikket på, mens genereret tekst fangede en større proportion af produktattributter og salgspunkter, der var til stede i sandheds eksemplerne. Matchende termer er fremhævet i grøn.

De kvalitative eksempler, som forfatterne hævder, indikerer, at Flux-Kontext og Pigeon ofte producerede output, der afviger fra de visuelle karakteristika af annoncer, som brugere tidligere havde klikket på; imens tekst genereret af Qwen3 og DeepSeek-R1 udelod nogle salgspunkter, der var til stede i sandheds eksemplerne.

Konklusion

Nyttelsen af dette projekt afhænger udelukkende af brugerens accept, og udvidelse af rækkevidden af dette ‘prædiktive’ system ud over omfanget af domænet, der kontrollerer brugerhistorien – i dette tilfælde JD.com – kræver en endnu mere afslappet sæt af eksplisitte bruger tilladelser, i de fleste territorier.

Men systemet er baseret på den type hyperskala-netværkseffekt, der er i funktion i en sådan situation, og på idéen om, at brugere vil finde dette slags rigtigt personligt og endda prædiktivt anbefalingssystem nyttigt snarere end intrusivt, i det mindste inden for konteksten af en detailhandelskæmpe’s indhegnede have.

* Dette billede bygger på den bekymrende nye trend med ‘sammensatte figurer’ i forskningsartikler, hvor illustrationer, der tidligere ville have været 3-4 separate figurer, nu er sammensat i én (for at overholde indsendelsesretningslinjerne for den maksimale længde af hovedartiklen) og bruges som reference materiale, ofte uden tilstrækkelig forklaring i den tilhørende undertekst.

^†‘m’-præfiks indikerer sammenligning med multiple kandidattekster.

Først publiceret tirsdag, 2. juni 2026. Ændret 18:21 EET for at korrigere sidste ‘væg’ til ‘indhegnet’ i sidste afsnit.