Andersons Blickwinkel

Neue Forschung schlägt wirklich “personalisierte” Werbung vor

Veröffentlicht am 2. Juni 2026

Von

Martin Anderson

A woman looks at a laptop displaying a news website, reacting with surprise as a banner advertisement on the page shows a smiling woman who closely resembles her.

In einer Neubestimmung von “Selbstvermarktung” entdeckt ein neues Verfahren eine Methode, um eine Benutzers eigene Klicks zu nutzen, um maßgeschneiderte Web-Anzeigen auf der Grundlage ihrer eigenen spezifischen Geschichte zu erstellen.

Obwohl Werbeagenturen bemüht sind, die Idee zu entkräften, dass es Werbe-Kanäle gibt, die Anzeigen basierend auf dem anzeigen, was man gerade zu Hause besprochen hat, hat die “Personalisierung” von Anzeigen in Webseiten und sozialen Medien-Apps in den letzten Jahren dennoch Schlagzeilen gemacht.

Das ideale Szenario für den Werbetreibenden war immer, dass die angezeigte Anzeige ein “exakter Treffer” für den Betrachter ist. Innerhalb der Grenzen von öffentlicher Gegenwehr gegen Online-Tracking und den vorbeugenden Maßnahmen, die der Benutzer gegen solches Tracking installiert hat, ist generative KI (abgesehen von Ängsten um LLM-Werbung in einer post-search-Welt) durchaus in der Lage, Anzeigenbilder und -texte schnell genug für eine Echtzeit-Verwendung zu produzieren.

Die Hauptarbeit der Forschung und die meisten Umsetzungen in diesem Bereich basieren jedoch bisher auf aggregierten Nutzungszahlen, so dass jede für einen Betrachter generierte Anzeige auf der Basis der vermuteten Kohortengruppe des Betrachters und nicht auf seiner eigenen einzigartigen Geschichte basiert.

Jetzt präsentiert eine neue Forschungszusammenarbeit zwischen China und den USA ein System zur Erstellung von Werbebildern und -texten für einzelne Benutzer, indem sie aus deren eigenen vergangenen Klicks lernt, wenn sie auf einer Website angemeldet sind, und geht damit über die kohortenbasierten Annahmen hinaus, die bisher die meisten personalisierten Werbeforschungen bestimmt haben:

Beispiele für individuell maßgeschneiderte Anzeigen. Ohne die Geschichte des Benutzers als Kontext kann die volle Wirkung nur erahnt werden. Quelle

Unüblicherweise vermeidet der neue Ansatz diffusionsbasierte Modelle und bevorzugt stattdessen eine autoregressive Architektur – der Hauptunterschied besteht darin, dass Diffusionsmodelle allmählich ein Bild aus visuellem Rauschen verfeinern, während autoregressive Modelle Inhalte Stück für Stück generieren, indem sie jedes neue Element aus allem vorherigen vorhersagen.

Um das neue generative Modell zu unterstützen, entwickelten die Autoren, was sie als erste groß angelegte Bild-Text-Datenbank für personalisierte Werbung bezeichnen, sowie eine neue Metrik, die speziell für diese Aufgabe entwickelt wurde. In Tests fanden sie heraus, dass ihr Ansatz sowohl allgemeine Vergleichsbasen als auch bestehende Methoden und Rahmenbedingungen übertraf, die diese Herausforderung bisher angegangen sind.

Umzäuntes Gelände

Es ist erwähnenswert, dass der vorgeschlagene Umfang der Arbeit nicht dazu dient, Werbetreibenden eine Möglichkeit zu bieten, neue Maßnahmen gegen das Tracking von Drittanbietern zu umgehen, sondern stattdessen einem ausreichend großen Einzelhändler die Möglichkeit gibt, einem angemeldeten Kunden Anzeigen zu präsentieren, die direkt mit dieser spezifischen Person in Zusammenhang stehen.

Dies ist nicht unbedingt auf Kunden beschränkt, die derzeit die Website des Einzelhändlers besuchen: Abhängig von dem Umfang, in dem der Benutzer dem Einzelhändler die Erlaubnis erteilt hat, ihn über andere Websites hinweg zu verfolgen, kann er mit gezielten Anzeigen auf einer beliebigen Anzahl von Websites konfrontiert werden, die am Werbeauktionsprozess des Einzelhändlers teilnehmen.

Diese Art von Werbereichweite ist in der Regel auf große, umfangreiche Unternehmen wie Amazon in Westeuropa beschränkt (und wir stellen fest, dass ein analog großer chinesischer Einzelhändler an der neuen Arbeit beteiligt war – siehe unten), obwohl jedes ähnlich große Unternehmen (wie eine beliebte soziale Medien-Plattform) theoretisch ein ähnliches generatives Framework erstellen könnte.

Die neue Arbeit trägt den Titel Entwerfen Sie Ihre Anzeige: Personalisierte Werbungsbild- und Texterstellung mit vereinheitlichten autoregressiven Modellen und stammt von 18 Autoren der Sun Yat-Sen-Universität in Guangzhou, der Northeastern University und Chinas größtem Einzelhändler JD.com (letzterer hat Zugang zu den Einkaufsgewohnheiten und -verhaltensweisen der Kunden). Der Code ist über GitHub verfügbar, und die relevanten Checkpoints sind ebenfalls verfügbar.

Daten und Methode

Die für das Projekt erstellte Datenbank trägt den Titel Personalisierte Werbungsbild-Text (PAd1M) und wird von Daten unterstützt, die von dem Projektmitarbeiter JD.com bereitgestellt werden. Die Autoren erklären:

‘Jedes Produkt bietet in der Regel mehr als zehn Kandidatenbilder und -texte, um sicherzustellen, dass die vielfältigen Vorlieben vollständig erfasst werden. Um ein zuverlässiges Vorliebenmodell zu ermöglichen, sammeln wir vollständige Klickhistorien über Bilder und Texte, filtern Benutzer mit unzureichender Aktivität aus, um Rauschen zu reduzieren.

‘Dies ergibt eine Datenbank von 1.145.371 Benutzern mit 18.923.555 geklickten Produktbildern und -texten, mit durchschnittlich mehr als sechzehn multimodalen historischen Verhaltensweisen pro Benutzer.’

Für jeden Benutzer wurde ein zuvor geklicktes Bild-Text-Paar als Zielbeispiel ausgewählt, danach wurde das Produkt selbst aus dem Bild mithilfe von Grounded SAM isoliert.

Verkäufer bereitgestellte Beschreibungen und Verkaufspunkte wurden dann der Aufzeichnung hinzugefügt, wodurch eine Datenbank entstand, in der jede Zielanzeige von einem transparenten Produktbild, strukturierten Produktinformationen und einer Geschichte früherer Bild- und Textinteraktionen begleitet wird, die darauf abzielen, die vorherigen Interessen und Vorlieben des Benutzers zu erfassen:

Ein Benutzerprofil aus der PAd1M-Datenbank, das eine Zielanzeige neben den Produktinformationen zeigt, die zur Erstellung verwendet wurden, und den historischen Bild- und Textinteraktionen, die zur Modellierung der Vorlieben des Benutzers verwendet wurden.

Die resultierende Datenbank bietet eine Größe von über einer Million Benutzern und fast 19 Millionen geklickten Bild- und Textaufzeichnungen, wobei die Autoren erklären, dass die Sammlung wesentlich größer ist als vorherige Personalisierungsdatenbanken.

Zusätzlich kombiniert die Datenbank, ungewöhnlich für diese Forschungsrichtung, sowohl Bilder als auch Texte, wodurch Benutzervorlieben über mehrere Modalitäten hinweg modelliert werden können, anstatt innerhalb einer einzelnen Domäne.

PAd1M verfügt auch über eine individualisierte Vorliebenverfolgung; im Gegensatz zu vorherigen Werbedatenbanken, die um Klickraten aggregiert über große Gruppen herum gebaut wurden, verknüpft PAd1M Interaktionen mit spezifischen Benutzern aus den JD.com-Daten.

Als Metriken wurden neben den Standardwahlen von BLEU und ROUGE die Forscher ihre eigene benutzerdefinierte Messung mit dem Titel Produkt-Hintergrund-Ähnlichkeit (PBS) entwickelt. Basierend auf der vorherigen MoCo-v3-Initiative wurde PBS auf 681.123 Bildpaaren trainiert, die das gleiche Produkt vor unterschiedlichen Hintergründen zeigen, wodurch die Metrik auf kontextuelle Variationen anstatt des Produkts selbst fokussiert:

Produkt-Hintergrund-Ähnlichkeit (PBS) weist deutlich unterschiedliche Ähnlichkeitsscores für Anzeigen zu, die das gleiche Produkt enthalten, aber es in unterschiedlichen visuellen Kontexten platzieren. Im Gegensatz dazu erzeugen konkurrierende Metriken viel kleinere Trennungen.

Während des Trainings wurde jedes Bild mit sich selbst als positives Beispiel gepaart, während ein Bild des gleichen Produkts in einem anderen Umfeld als negatives Beispiel diente, eine Trainingsstrategie, die darauf abzielt, die Empfindlichkeit gegenüber dem Hintergrundkontext zu erhöhen. Bewertungsergebnisse, so behauptet die Arbeit, zeigen größere Ähnlichkeitsunterschiede zwischen übereinstimmenden und nicht übereinstimmenden Hintergründen als die von CLIP, DINO v3 oder dem erwähnten MoCov3 erzeugt.

Wie in der oberen linken Section des Bildes unten* gezeigt, verwendet das vereinigte Werbe-Generierungsmodell (Uni-AdGen) eine autoregressive Bild-Text-Architektur, um sowohl Werbe-Texte als auch -Bilder zu generieren. Der Prozess wird von einer strukturierten Anweisung geleitet, die die Aufgabendefinition, eine Produktbeschreibung und Verkaufspunkte umfasst:

Übersicht über die Methode.

Spezielle Trennzeichen definieren den Teil der Sequenz, der für die Werbe-Kopie reserviert ist. Nachdem der Text generiert wurde, löst ein dediziertes Bild-Token die Bildgenerierung aus, während ein schließendes Bild-Token deren Abschluss markiert, wobei die generierten Token anschließend an separate Text- und Bild-Decoder gesendet werden.

Bei Bildern wird der VQ-GAN-Decoder von LlamaGen verwendet, um diskrete Bild-Tokens zurück in Pixel umzuwandeln.

Auf diese Weise generiert die vereinigte Architektur Texte und Bilder innerhalb eines einzigen next-Token-Vorhersagemodells, anstatt auf separate Pipelines zu vertrauen – die Methode, die für frühere Werbesysteme mit einem ähnlichen Umfang verwendet wurde.

Während des Trainings lernt das Modell beide Modalitäten zusammen, wobei Text-Tokens auf der Eingabesequenz und zuvor generierten Texten basieren. Bild-Tokens werden dann unter Verwendung der Eingabesequenz, des generierten Textes und zuvor generierter Bild-Tokens vorhergesagt.

Um die generierten Anzeigen an das beworbene Produkt zu binden, verwendet Uni-AdGen ein Foreground-Wahrnehmungsmodul basierend auf DINO v2, um Informationen aus transparenten Produktbildern in das autoregressive Modell einzuspeisen.

Anweisungstuning (das Trainieren des Modells, um produktspezifische Generierungsanweisungen abgeleitet von Beschreibungen und Verkaufspunkten zu befolgen) wurde ebenfalls verwendet, um die Einhaltung verkäuferbereitgestellter Beschreibungen und Verkaufspunkte zu verbessern, wobei GPT-4o verwendet wurde, um unpassende Trainingsbeispiele zu filtern.

Die Personalisierung basierte auf einem groben bis feinen Vorliegensverständnis-Modul. Historische Interaktionen wurden zunächst durch eine Produkt-Ähnlichkeits-Stichproben-Pipeline gefiltert, um Produkte zu bevorzugen, die dem Zielartikel ähneln. Die verbleibenden Aufzeichnungen wurden dann von einer Multimodalen Vorliegensextraktions-Stufe verarbeitet, die darauf abzielte, die visuellen und textlichen Elemente zu identifizieren, die am wahrscheinlichsten die Interessen des Benutzers widerspiegeln – wobei diese Vorlieben in die Aufforderung eingefügt wurden, um die Generierung zu leiten.

Tests

Die Autoren erklären, dass ihr Testansatz von DeepSeek’s Janus-Pro 7B abgeleitet ist.

Das Modell wurde bei einer Batch-Größe von vier unter dem AdamW-Optimizer bei einer Lernrate von 5e-5 trainiert. Das Basis-Modell wurde über LoRA fein abgestimmt, wobei das Foreground-Wahrnehmungs- und multimodale Vorliegens-Extraktions-Modul vollständig fein abgestimmt wurde (d. h. im Gegensatz zu LoRA wurden die Basis-Modell-Gewichte dauerhaft geändert).

Alle Tests wurden auf einem NVIDIA B200-GPU mit 192 GB VRAM durchgeführt. Für die Bildgenerierung wurden PickScore, ImageReward und ASE verwendet, um die visuelle Qualität zu messen, während m-BLEU und m-ROUGE^† verwendet wurden, um die Werbe-Texte zu bewerten. Menschliche Bewerter bewerteten zusätzlich die Bildrealität und die Layout-Qualität sowie die textliche Genauigkeit und Flüssigkeit, wobei alle Metriken über 500 Produkte berechnet wurden.

Bei der Bildgenerierung bestanden die Vergleichsbasen aus Qwen2.5-VL und GPT-4o für die Erstellung von Hintergrund-Prompts aus Produktbildern, gefolgt von ReliableAd, PosterMaker und Flux-Fill für die Generierung der endgültigen Anzeigen. Text-Generierungsvergleiche wurden gegen Qwen2.5, Qwen3 und DeepSeek-R1 durchgeführt.

Anfängliche Vergleichs-Quantenergebnisse für die Anzeigen-Generierung sind unten aufgeführt:

Leistung auf dem allgemeinen Werbe-Generierungs-Benchmark. Uni-AdGen entsprach oder übertraf die stärksten Bild-Generierungs-Vergleichsbasen in Bezug auf ästhetische Qualität und PickScore, während das vereinigte Bild- und Text-Modell den höchsten m-ROUGE-Score unter allen Text-Generierungsansätzen erreichte. Die Ergebnisse der menschlichen Bewertung blieben wettbewerbsfähig über beide Modalitäten hinweg.

Von diesen Ergebnissen erklären die Autoren:

‘Unsere Methode erzielt die beste Leistung bei ImageReward und belegt den zweiten Platz bei PickScore und menschlicher Bewertung, was ihre überlegene Leistung in Bezug auf Ästhetik und Verfügbarkeit zeigt. Während ReliableAd bei der menschlichen Bewertung führt, liegt es bei ästhetischen Metriken deutlich zurück. Andererseits generieren PosterMaker und Flux-Fill visuell ansprechende Bilder, leiden aber unter deutlichen Nutzbarkeitsbeschränkungen.

‘Dank effektiver Kontrollansätze erreicht unsere Methode erfolgreich ein optimales Gleichgewicht zwischen visuellem Inhalt und praktischer Nützlichkeit.’

Personalisierte Anzeigen-Generierung wurde an 500 Benutzern mit aufgezeichneten Interaktionsgeschichten bewertet, wobei die oben genannte PBS verwendet wurde, um die Bildähnlichkeit zu messen, und BLEU und ROUGE, um die generierten Texte mit Produkten zu vergleichen, die die Benutzer tatsächlich geklickt hatten.

Weil die allgemeinen Werbe-Vergleichsbasen, die in dem vorherigen Experiment verwendet wurden, keine Benutzer-Geschichten einbeziehen konnten, wurden die Vergleiche zu Systemen verschoben, die für die Personalisierung konzipiert waren. Für die Bildgenerierung wurden Flux-Kontext und Pigeon als Vergleichsbasen ausgewählt. Flux-Kontext wurde mit einem Raster historischer Benutzerbilder neben dem Ziel-Produktbild bereitgestellt, um vorherige Vorlieben die Generierung zu beeinflussen.

Da Pigeon keine kontrollierte Produktplatzierung nativ unterstützt, wurde das Foreground-Wahrnehmungs-Modul, das für Uni-AdGen entwickelt wurde, integriert, um die Produktkonsistenz zu bewahren. Für die Text-Generierung wurden Qwen3 und DeepSeek-R1 verwendet, wobei historische Produktbeschreibungen direkt in ihre Anweisungsvorlagen eingefügt wurden, um benutzerspezifischen Kontext bereitzustellen:

Personalisierte Anzeigen-Generierungs-Ergebnisse. Uni-AdGen übertraf Flux-Kontext, Pigeon, Qwen3 und DeepSeek-R1 bei allen gemeldeten Personalisierungsmetriken, während die Ablationsstudie darauf hindeutete, dass historische Benutzerdaten, Produkt-Ähnlichkeits-Stichproben und multimodale Vorliegens-Extraktion jeweils messbare Gewinne beitrugen.

Hier kommentieren die Autoren:

‘Die visualisierten Ergebnisse [in dem Bild unten] zeigen, dass Flux-Kontext die Benutzervorlieben nicht versteht und anfällig für stichprobenbezogenes Rauschen ist, was zu einer erheblichen Abweichung von der Wahrheit führt, wie z. B. die irrelevanten Elemente im Motorrad-Bild.’

Beispiele für personalisierte Anzeigen-Generierung. Im Vergleich zu Flux-Kontext, Pigeon, Qwen3 und DeepSeek-R1 produzierte Uni-AdGen Bilder, die dem visuellen Stil und Kontext von Anzeigen, die Benutzer tatsächlich geklickt hatten, näher kamen, während es Texte generierte, die einen größeren Anteil der Produktattribute und Verkaufspunkte in den Ground-Truth-Beispielen erfassten. Übereinstimmende Begriffe sind grün hervorgehoben.

Die qualitativen Beispiele, so behaupten die Autoren, zeigen, dass Flux-Kontext und Pigeon oft Ausgaben produzierten, die von den visuellen Merkmalen von Anzeigen abwichen, die Benutzer zuvor geklickt hatten; während die von Qwen3 und DeepSeek-R1 generierten Texte einige Verkaufspunkte ausließen, die in den Ground-Truth-Beispielen vorhanden waren.

Schlussfolgerung

Die Nützlichkeit dieses Projekts hängt vollständig von der Zustimmung des Benutzers ab, und die Erweiterung des Umfangs dieses “prädiktiven” Systems über den Bereich der Domäne hinaus, die die Benutzerhistorie kontrolliert – in diesem Fall JD.com – erfordert eine noch entspanntere Menge ausdrücklicher Benutzerberechtigungen, in den meisten Territorien.

Das System basiert jedoch auf dem Hyperskale-Netzwerkeffekt, der in einem solchen Szenario wirkt, und auf der (vielleicht slightly hoffnungsvollen) Idee, dass Benutzer dieses wirklich personalisierte und sogar vorausschauende Empfehlungssystem nützlich und nicht aufdringlich finden, zumindest im Kontext des “umzäunten Gartens” eines Einzelhandelsriesen.

* Dieses Bild basiert auf der beunruhigenden neuen Trend von “zusammengefassten Abbildungen” in Forschungsarbeiten, bei denen Abbildungen, die früher 3-4 separate Abbildungen wären, zu einer zusammengefasst werden (um den Richtlinien für die maximale Länge des Hauptartikels zu entsprechen) und als Referenzmaterial verwendet werden, oft ohne angemessene Erklärung in der begleitenden Bildunterschrift.

^†‘m’-Präfix zeigt einen Vergleich mit mehreren Kandidatentexten an.

Erstveröffentlicht am Dienstag, den 2. Juni 2026. Geändert am 18:21 EET, um das letzte “wall” in der letzten Zeile zu “walled” zu korrigieren.