Andersons hoek

Nieuw onderzoek stelt echt ‘persoonlijke’ reclame voor

Gepubliceerd op 2 juni 2026

Door

Martin Anderson

A woman looks at a laptop displaying a news website, reacting with surprise as a banner advertisement on the page shows a smiling woman who closely resembles her.

In een herdefinitie van ‘zelfpromotie’ ontwikkelt een nieuwe methode een manier om webreclame aan te bieden op basis van de klikgeschiedenis van een gebruiker, waardoor reclame kan worden aangeboden die is afgestemd op de specifieke geschiedenis van de gebruiker.

Hoewel reclamebureaus graag het idee willen weerleggen dat er advertentiefunnels bestaan die reclame kunnen aanbieden op basis van wat je thuis hebt gezegd, heeft de mate van ‘personalisatie’ die wordt getoond door advertenties op websites en sociale media-apps in de afgelopen jaren het nieuws gehaald.

Het ideale scenario voor de adverteerder is altijd geweest dat de aangeboden reclame een ‘exacte match’ is voor de kijker. Binnen de grenzen van openbare reactie op online tracking en de preventieve maatregelen die de gebruiker heeft genomen om dergelijke monitoring te voorkomen, is generatieve AI (los van de angsten rond LLM-reclame in een post-zoekwereld) in staat om reclamebeelden en -tekst snel genoeg te produceren voor real-time-implementatie.

De belangrijkste impuls van onderzoek en de meeste implementaties op dit gebied tot nu toe zijn echter gebaseerd op geaggregeerde gebruiksstatistieken, zodat elke gegenereerde reclame voor een kijker zou worden gebaseerd op de vermoede cohortgroep van de kijker, in plaats van zijn unieke geschiedenis.

Nu presenteert een nieuw onderzoeksproject tussen China en de VS een systeem voor het genereren van reclamebeelden en -tekst voor individuele gebruikers door te leren van hun eigen vorige klikken wanneer ze zijn ingelogd op een site, en gaat daarmee verder dan de cohort-gebaseerde aannamen die de meeste gepersonaliseerde reclameonderzoeken tot nu toe hebben bepaald:

Voorbeelden van gegenereerde reclame die individueel is afgestemd op de gebruiker. Natuurlijk kan de volledige impact alleen worden verbeeld zonder de geschiedenis van de gebruiker als context. Bron

Ongebruikelijk genoeg wijkt de nieuwe benadering af van diffusie-gebaseerde modellen en kiest voor een autoregressieve architectuur – het belangrijkste verschil is dat diffusiemodellen langzaam een beeld verfijnen vanuit visuele ruis, terwijl autoregressieve modellen inhoud genereren stuk voor stuk, waarbij elke nieuwe element wordt voorspeld op basis van alles wat eraan voorafging.

Om de nieuwe generatieve model te ondersteunen, ontwikkelden de auteurs wat zij claimen de eerste grote afbeelding-/tekstdataset voor gepersonaliseerde reclame te zijn, evenals een novum-metrisch ontwerp om deze specifieke taak te evalueren. In tests vonden zij dat hun benadering zowel algemene baselines als bestaande methoden en kaders overtrof die momenteel deze uitdaging aanpakken.

Walled Garden

Het is de moeite waard om de voorgestelde reikwijdte van het werk te noteren, dat adverteerders geen manier biedt om nieuwe maatregelen tegen derdepartij-tracking te omzeilen, maar in plaats daarvan een grote retailer de mogelijkheid geeft om een ingelogde klant te voorzien van reclame die direct verband houdt met die specifieke persoon.

Dit is niet noodzakelijkerwijs beperkt tot klanten die momenteel de website van de retailer bezoeken: afhankelijk van de mate waarin de gebruiker de retailer de macht heeft gegeven om hen te volgen op andere websites, kunnen zij worden geconfronteerd met gerichte reclame op elke willekeurige website die deelneemt aan advertentieveilingen die de retailer zelf gebruikt.

Deze soort reclamebereik wordt meestal beperkt tot grote, hoogvolume-outlets zoals Amazon in het Westen (en wij noteren dat een soortgelijk grote Chinese retailer heeft deelgenomen aan het nieuwe werk – zie hieronder), hoewel elke soortgelijke zorg (zoals een populaire sociale media-platform) in theorie een soortgelijk generatief kader kan creëren.

De nieuwe paper heeft de titel Ontwerp uw reclame: Gepersonaliseerde reclame-afbeelding- en tekstgeneratie met Unified Autoregressive Models en komt van 18 auteurs uit Sun Yat-Sen University in Guangzhou, Northeastern University en China’s grootste retailer, JD.com (die toegang heeft tot de geschiedenis en gewoonten van shoppers). De code is beschikbaar gesteld via GitHub, en de relevante controlepunten zijn ook beschikbaar gesteld.

Gegevens en methode

De voor het project opgebouwde dataset heeft de titel Personalized Advertising image-text (PAd1M) en wordt aangedreven door gegevens die zijn verstrekt door projectmedewerker JD.com. De auteurs verklaren:

‘Elk product levert meestal meer dan tien kandidaat-afbeeldingen en -teksten, waardoor de diverse voorkeuren volledig kunnen worden gedetecteerd. Om een betrouwbare voorkeursmodellering mogelijk te maken, verzamelen wij complete klikgeschiedenissen van gebruikers over zowel afbeeldingen als teksten, waarbij wij gebruikers met onvoldoende activiteit filteren om ruis te verminderen.

‘Dit resulteert in een dataset van 1.145.371 gebruikers, met 18.923.555 geklikte productafbeeldingen en -teksten, met een gemiddelde van meer dan zestien multimodale historische gedragingen per gebruiker.’

Voor elke gebruiker werd één eerder geklikte afbeelding-/tekstpaar geselecteerd als het doelvoorbeeld, waarna het product zelf werd geïsoleerd van de afbeelding met behulp van Grounded SAM.

Verkopers verstrekte beschrijvingen en verkooppunten werden vervolgens toegevoegd aan het record, waardoor een dataset ontstond waarin elke doelreclame werd vergezeld van een transparante productafbeelding; gestructureerde productinformatie; en een geschiedenis van eerdere afbeeldings- en tekstinteracties, bedoeld om de eerdere interesses en voorkeuren van de gebruiker te vangen:

Een gebruikersprofiel uit de PAd1M-dataset, met een doelreclame naast de productinformatie die werd gebruikt om deze te genereren, en de historische afbeeldings- en tekstinteracties die werden gebruikt om de voorkeuren van de gebruiker te modelleren.

De resulterende dataset biedt een omvang van meer dan een miljoen gebruikers en bijna 19 miljoen geklikte afbeeldingen en teksten, waarbij de auteurs verklaren dat de verzameling aanzienlijk groter is dan eerdere personalisatiedatasets.

Bovendien combineert de data, ongebruikelijk voor deze onderzoekslijn, zowel afbeeldingen als tekst, waardoor gebruikersvoorkeuren kunnen worden gemodelleerd over meerdere modaliteiten, in plaats van binnen een enkele domein.

PAd1M heeft ook individueel niveauvoorkeursvolging; in tegenstelling tot eerdere advertentiedatasets, die werden opgebouwd rond klik-door-snelheidspercentages die werden geaggregeerd over grote groepen, koppelt PAd1M interacties aan specifieke gebruikers uit de JD.com-gegevens.

Voor metrics, naast de standaardkeuzes van BLEU en ROUGE, ontwikkelden de onderzoekers hun eigen aangepaste meting genaamd Product Background Similarity (PBS). Gebaseerd op de eerdere MoCo-v3-initiatief, werd PBS getraind op 681.123 afbeeldingsparen die hetzelfde product tegen verschillende achtergronden laten zien, waardoor de meting zich kon richten op contextuele variatie in plaats van het product zelf:

Product Background Similarity (PBS) wijst duidelijk verschillende gelijkenissscores toe aan reclame die hetzelfde product bevat, maar deze plaatst in verschillende visuele contexten. Omgekeerd produceren concurrerende metrics veel kleinere scheidingen.

Tijdens de training werd elke afbeelding gekoppeld aan zichzelf als een positief voorbeeld, terwijl een afbeelding van hetzelfde product in een andere instelling fungeerde als een negatief voorbeeld, een trainingsstrategie die bedoeld was om de gevoeligheid voor achtergrondcontext te vergroten. Evaluatieresultaten, zo beweert het artikel, geven grotere gelijkenisverschillen aan tussen overeenkomende en niet-overeenkomende achtergronden dan die gegenereerd door CLIP, DINO v3, of de eerdergenoemde MoCov3.

De onderzoekers’ Unified Advertisement Generative (Uni-AdGen) model gebruikt een autoregressieve visie-taalarchitectuur om zowel reclame-tekst als -afbeeldingen te genereren. Het proces wordt geleid door een gestructureerde instructie die de taakdefinitie, een productbeschrijving en verkooppunten omvat:

Overzicht van de methode.

Speciale begrenzende tokens definiëren het deel van de sequentie dat is gereserveerd voor reclamekopie. Nadat de tekst is gegenereerd, activeert een afbeeldingstoken de afbeeldingsgeneratie, terwijl een afsluitende afbeeldingstoken deze markeert als voltooid, waarbij gegenereerde tokens vervolgens worden doorgestuurd naar afzonderlijke tekst- en afbeeldingsdecoders.

Voor afbeeldingen wordt LlamaGen’s VQ-GAN-decoder gebruikt om discrete afbeeldingstokens terug te converteren naar pixels.

Aldus genereert de unified architectuur tekst en afbeeldingen binnen een enkel next-token predictie-kader, in plaats van te vertrouwen op afzonderlijke pijpleidingen – de methode die werd geadopteerd voor eerdere advertentiesystemen met een soortgelijke reikwijdte.

Tijdens de training leert het model beide modaliteiten samen, waarbij teksttokens worden voorspeld op basis van de invoersequentie en eerder gegenereerde tekst. Afbeeldingstokens worden vervolgens voorspeld met behulp van de invoersequentie, de gegenereerde tekst en eerder gegenereerde afbeeldingstokens.

Om gegenereerde reclame te koppelen aan het gepromote product, gebruikt Uni-AdGen een foreground-perceptie-module gebaseerd op DINO v2, om informatie van transparante productafbeeldingen in het autoregressieve model te injecteren.

Instructie-afstemming (het trainen van het model om productspecifieke generatie-instructies te volgen die zijn afgeleid van beschrijvingen en verkooppunten) werd ook gebruikt om de naleving van verkopersverstrekte beschrijvingen en verkooppunten te verbeteren, met GPT-4o dat werd gebruikt om ongeschikte trainingsvoorbeelden te filteren.

Gepersonaliseerdheid steunde op een coarse-to-fine-voorkeursbegripsmodule. Historische interacties werden eerst gefilterd via een Product Similarity Sampling (PSS)-pijplijn om producten te bevorstellen die lijken op het doelitem. De resterende records werden vervolgens verwerkt door een Multimodal Preference Extraction-fase die was ontworpen om de visuele en tekstuele elementen te identificeren die waarschijnlijk het meest de gebruikersinteresses weerspiegelen – waarbij die voorkeuren werden ingevoegd in de prompt om de generatie te leiden.

Tests

De auteurs verklaren dat hun testaanpak is afgeleid van DeepSeek’s Janus-Pro 7B.

Het model werd getraind met een batchgrootte van vier, onder de AdamW-optimizer met een leer tempo van 5e-5. Het basismodel werd fijngestemd via LoRA, waarbij de foreground perceptie en multimodale voorkeursextractie volledig fijngestemd (d.w.z. in tegenstelling tot LoRA werden de basismodelgewichten permanent gewijzigd).

Alle tests werden uitgevoerd op een NVIDIA B200 GPU met 192 GB VRAM. Voor afbeeldingsgeneratie werden PickScore, ImageReward en ASE gebruikt om de visuele kwaliteit te meten, terwijl m-BLEU en m-ROUGE^† werden gebruikt om de reclame-tekst te evalueren. Menselijke evaluatoren beoordeelden bovendien de realiteit van de afbeeldingen en de lay-outkwaliteit, evenals de tekstuele nauwkeurigheid en vloeiendheid, waarbij alle metrics werden berekend over 500 producten.

Voor afbeeldingsgeneratie bestonden de baselines uit Qwen2.5-VL en GPT-4o voor het maken van achtergrondprompts van productafbeeldingen, gevolgd door ReliableAd, PosterMaker en Flux-Fill voor het genereren van de definitieve reclame. Tekstgeneratievergelijkingen werden uitgevoerd tegen Qwen2.5, Qwen3 en DeepSeek-R1.

Initiële baseline-kwantitatieve resultaten voor reclamegeneratie worden hieronder weergegeven:

Prestaties op de algemene reclamegeneratie-benchmark. Uni-AdGen kwam overeen met of overtrof de sterkste afbeeldingsgeneratie-baselines op esthetische kwaliteit en PickScore, terwijl het unified beeld- en tekstmodel de hoogste m-ROUGE-score behaalde onder alle tekstgeneratiebenaderingen. Menselijke evaluatieresultaten bleven concurrerend over beide modaliteiten.

Van deze resultaten verklaren de auteurs:

‘Onze methode behaalt de beste prestatie in ImageReward en staat op de tweede plaats in zowel PickScore als menselijke evaluatie, waarmee het zijn superieure prestatie in esthetiek en beschikbaarheid aantoont. Terwijl ReliableAd leidt in menselijke evaluatie, blijft het aanzienlijk achter in esthetische metrics. Omgekeerd genereren PosterMaker en Flux-Fill visueel aantrekkelijke afbeeldingen, maar lijden aan merkbare beperkingen in bruikbaarheid.

‘Dankzij effectieve controlebenaderingen slaagt onze methode erin om een optimale balans te bereiken tussen visuele inhoud en praktische bruikbaarheid.’

Gepersonaliseerde reclamegeneratie werd geëvalueerd op 500 gebruikers met geregistreerde interactiegeschiedenissen, met behulp van de eerdergenoemde PBS om afbeeldingsgelijkenis te meten en BLEU en ROUGE om gegenereerde tekst te vergelijken met producten die de gebruikers daadwerkelijk hadden aangeklikt.

Omdat de algemene reclamebaselines die in het vorige experiment werden gebruikt, geen gebruikersgeschiedenissen konden incorporeren, werden de vergelijkingen verschoven naar systemen die waren ontworpen voor personalisatie. Voor afbeeldingsgeneratie werden Flux-Kontext en Pigeon geselecteerd als baselines. Flux-Kontext werd voorzien van een raster van historische gebruikersafbeeldingen naast de doelproductafbeelding, waardoor eerdere voorkeuren generatie konden beïnvloeden.

Aangezien Pigeon geen gecontroleerde productplaatsing native ondersteunt, werd de foreground-perceptiemodule die voor Uni-AdGen was ontwikkeld geïntegreerd om productconsistentie te behouden. Voor tekstgeneratie werden Qwen3 en DeepSeek-R1 gebruikt, waarbij historische productbeschrijvingen rechtstreeks in hun instructiesjablonen werden ingevoegd om gebruikersspecifieke context te bieden:

Gepersonaliseerde reclamegeneratieresultaten. Uni-AdGen overtrof Flux-Kontext, Pigeon, Qwen3 en DeepSeek-R1 over alle gerapporteerde personalisatiemetrics, terwijl de afbraakstudie aangaf dat historische gebruikersgegevens, Product Similarity Sampling (PSS) en multimodale voorkeursextractie elk meetbare winsten opleverden.

Hierop merken de auteurs op:

‘De gevisualiseerde resultaten [in de onderstaande afbeelding] laten zien dat Flux-Kontext er niet in slaagt om gebruikersvoorkeuren te begrijpen en vatbaar is voor steekproefniveau-ruis, waardoor deze aanzienlijk afwijkt van de grondwaarheid, zoals de niet-relevante items in de motorfietafbeelding.’

Voorbeelden van gepersonaliseerde reclamegeneratie. In vergelijking met Flux-Kontext, Pigeon, Qwen3 en DeepSeek-R1 produceerde Uni-AdGen afbeeldingen die meer overeenkwamen met de visuele stijl en context van reclame die gebruikers daadwerkelijk hadden aangeklikt, terwijl het gegenereerde tekst ving die een groter deel van de productkenmerken en verkooppunten bevatte die aanwezig waren in de grondwaarheidsvoorbeelden. Overeenkomende termen zijn groen gemarkeerd.

De kwalitatieve voorbeelden, zo beweren de auteurs, geven aan dat Flux-Kontext en Pigeon vaak output produceren die afwijkt van de visuele kenmerken van reclame die gebruikers eerder hebben aangeklikt; in de tussentijd laat de door Qwen3 en DeepSeek-R1 gegenereerde tekst sommige verkooppunten weg die aanwezig zijn in de grondwaarheidsvoorbeelden.

Conclusie

De bruikbaarheid van dit project hangt volledig af van de opt-in van de gebruiker, en het uitbreiden van het bereik van dit ‘voorspellende’ systeem tot buiten de reikwijdte van het domein dat de gebruikersgeschiedenis controleert – in dit geval JD.com – vereist een nog ontspannener set van expliciete gebruikersmachtigingen, in de meeste gebieden.

Hoewel het systeem is gebaseerd op het soort hyperschaalnetwerkeffect dat in een dergelijke scenario werkt, en op het (misschien enigszins optimistische) idee dat gebruikers dit soort echt gepersonaliseerde en zelfs voorspellende aanbevelingssysteem nuttig zullen vinden in plaats van indringend, althans binnen de context van een retailgigant’s omheinde tuin.

* Dit beeld bouwt voort op de verontrustende nieuwe trend van ‘gecompileerde figuren’ in onderzoeksartikelen, waarin illustraties die eerder 3-4 verschillende figuren zouden zijn, worden samengevoegd tot één (met het doel om indieningsrichtlijnen te volgen over de maximale lengte van het hoofdartikel) en worden gebruikt als referentiemateriaal, vaak zonder adequate verklaring in de bijbehorende onderschrift.

^†‘m’-voorvoegsel geeft vergelijking met meerdere kandidaatteksten aan.

First published dinsdag, 2 juni 2026. Gewijzigd 18:21 EET om de laatste ‘muur’ te corrigeren naar ‘omheinde tuin’ in de laatste alinea.