Andersons Blickwinkel

KI-generierte Anzeigenbilder, die auf Ihre Zielgruppe abzielen – und schließlich auf Sie?

mm
Montage of AI-generated images depicting frames from an online video aimed at three different age groups. Z-Image Turbo via Krita Diffusion AI.

Werbetreibende zielen darauf ab, Anzeigen an einzelne Zuschauer anzupassen, um Klicks zu erzielen, und obwohl maßgeschneiderte Kreativinhalte für jeden Menschen derzeit nicht praktikabel sind, deutet neue Forschung darauf hin, dass KI-generierte Bilder bald effektiv auf bestimmte Demografien abgestimmt werden könnten.

 

Die personalisierte Werbung in Steven Spielbergs Science-Fiction-Actionfilm Minderheit Bericht aus dem Jahr 2002 hat einen nachhaltigen, fast unheimlichen Eindruck auf die Kultur hinterlassen, mit ihrer lebendigen Darstellung von proaktiven Werbeplakaten, die Menschen in Menschenmengen erkennen und ihnen direkte Werbebotschaften zurufen.

Viele Verbrauchergruppen könnten diese Ebene der Zuschauererkennung als Albtraum betrachten, und obwohl der Fortschritt in diese Richtung durch die Folgen des Cambridge-Analytica-Skandals verlangsamt wurde, bleibt das Ziel der direkten, hochgradig zielgerichteten Ansprache ein begehrtes Ziel in der Werbung.

Tatsächlich bleiben Systeme, die auf die Merkmale eines bestimmten Zuschauers herunterbrechen können, ständig in Entwicklung – obwohl in solchen Fällen die Unternehmensforschung Maßnahmen ergreifen muss, um Gesetze rund um personenbezogene Daten (PII) zu respektieren; Gesetze, die in Europa über das letzte Jahrzehnt gestärkt wurden, mit diesen verbesserten Schutzmaßnahmen, die über den Brüsseler Effekt verbreitet wurden.

Hallo, du!

Jetzt, da KI-generierte Anzeigen und Marketinginhalte auf dem Vormarsch sind, sind, müssen Werbetreibende den potenziellen Kosten von KI-Anzeigen, die auf bestimmte Individuen abzielen, wo das Bild und der Text opportunistisch und in Echtzeit generiert werden, gegenüberstehen.

Beispielsweise würde selbst dann, wenn ein maßgeschneidertes Bild sehr schnell generiert werden könnte, der Aufwand im großen Maßstab erheblich sein. Darüber hinaus operieren automatische Online-Werbeauktionsprozesse in kritischen Zeiträumen von Millisekunden, was benutzerseitige individuelle Bildinhalte herausfordernd macht; und Videoinhalte sind ein noch ferneres Ziel.

Die technischen Hindernisse, die mit der Ansprache höherer demografischer Kohortengruppen in einer netzgestützten Zielgruppe (via Laptops, Smartphones, Smart-TVs usw.) verbunden sind, sind jedoch nicht so gravierend – und eine neue internationale akademisch-industrielle Zusammenarbeit schlägt vor, separate Werbebilder für verschiedene Demografien zu erstellen, einschließlich Faktoren wie Alter und Standort:

Aus der neuen Arbeit: Beispiele für personalisierte Werbebildgenerierung, bei der ein einzelnes Produkt in verschiedenen Stilen für verschiedene Zuschauergruppen dargestellt wird. Die erste Zeile zeigt die ursprünglichen Produktbilder. Die nächsten drei Zeilen zeigen Versionen, die an drei verschiedene Zuschauergruppen pro Produkt angepasst sind, basierend auf Unterschieden in Merkmalen wie Alter, Lebensstil oder ästhetischer Vorliebe. Diese Gruppentypen sind nicht vordefiniert, sondern werden automatisch erkannt. Jede Zeile entspricht einer Gruppe; jede Spalte zeigt ein anderes Produkt. Quelle - https://arxiv.org/pdf/2602.02033

Aus der neuen Arbeit: Beispiele für personalisierte Werbebildgenerierung, bei der ein einzelnes Produkt in verschiedenen Stilen für verschiedene Zuschauergruppen dargestellt wird. Die erste Zeile zeigt die ursprünglichen Produktbilder. Die nächsten drei Zeilen zeigen Versionen, die an drei verschiedene Zuschauergruppen pro Produkt angepasst sind, basierend auf Unterschieden in Merkmalen wie Alter, Lebensstil oder ästhetischer Vorliebe. Diese Gruppentypen sind nicht vordefiniert, sondern werden automatisch erkannt.

Das neue Framework – betitelt One Size, Many Fits (OSMF) – zielt darauf ab, die Lücke zwischen breit gefächertem Werben und unrealistisch granularer Personalisierung zu schließen, indem verschiedene Werbebilder für automatisch entdeckte Zuschauergruppen generiert werden, unter Verwendung von produktbewusster Clustering, um visuellen Inhalt mit den Klickpräferenzen unterschiedlicher Demografien in Einklang zu bringen.

Die Autoren erklären:

‘[Wir] präsentieren [ein] einheitliches Framework, das diverse gruppenweite Klickpräferenzen in der groß angelegten Werbebildgenerierung in Einklang bringt.

‘OSMF beginnt mit produktbewusster adaptiver Gruppierung, die Benutzer dynamisch basierend auf ihren Attributen und Produktmerkmalen organisiert, wobei jede Gruppe durch reiche kollektive Präferenzmerkmale dargestellt wird.’

Im Vergleich zu anderen Frameworks behaupten die Autoren Spitzenleistungen.

Obwohl die Arbeit diverse Kohortengruppen identifiziert, ist die Veröffentlichung nicht spezifisch hinsichtlich der demografischen Merkmale, die durch jede G-Gruppierung dargestellt werden, wobei diese wahrscheinlich auf traditionelle Marktsegmentierungsgruppen abgebildet werden.

Daher ist es nicht leicht zu erkennen, basierend auf den verschiedenen Beispielen in der Hauptveröffentlichung und dem Anhang, warum bestimmte Hintergründe oder Beleuchtung einer Kohorte mehr ansprechen als einer anderen, da wir die Merkmale keiner Kohorte kennen:

Es gibt keine konsistenten 'blau für Jungen, rosa für Mädchen' usw. Stile, über kohortenspezifische Bildstile, die verraten könnten, welche Art von Person in welche Gruppe gehört – die Definitionen, wie aus der bestehenden Literatur hervorgeht, sind viel komplexer und subtiler.

Es gibt keine konsistenten ‘blau für Jungen, rosa für Mädchen’ usw. Stile, über kohortenspezifische Bildstile, die verraten könnten, welche Art von Person in welche Gruppe gehört – die Definitionen, wie aus der bestehenden Literatur hervorgeht, sind viel komplexer und subtiler.

Was vielleicht besorgniserregender für diejenigen ist, die Werbezielpraktiken misstrauen, ist die Möglichkeit, per-Benutzer-Einblicke bei der Generierung spezifischer Bildinhalte in Anzeigen auszunutzen**.

Die neue Veröffentlichung trägt den Titel One Size, Many Fits: Aligning Diverse Group-Wise Click Preferences in Large-Scale Advertising Image Generation und stammt von 17 Forschern aus dem Nationalen Mustererkennungslabor in Peking; der ‘Schule für KI an der UCAS’; dem chinesischen E-Commerce-Unternehmen JINGDONG; der Universität für Wissenschaft und Technologie in Hongkong in Guangzhou; und dem Mustererkennungslabor der Nanjing-Universität für Wissenschaft und Technologie.

Methode

Das System verwendet adaptive Clustering (eine Methode, die natürliche Gruppierungen findet, indem Benutzereigenschaften mit deren Reaktion auf verschiedene Produkte verknüpft), um Benutzer zu gruppieren, basierend auf wie deren Eigenschaften visuelle Präferenzen in einem bestimmten Produktszenario prägen. Die Implementierung dieses Ansatzes durch die Autoren wird Produktbewusste Adaptive Gruppierung (PAAG) genannt.

Diese Gruppierungen sind nicht im Voraus festgelegt, sondern werden aus Mustern in den Daten abgeleitet.

Ein bedingter Bildgenerator, betitelt Präferenzbedingte Bildgenerierung (PCIG), verwendet dann jedes Gruppenprofil, um Werbebilder zu erstellen, die den Geschmack der Gruppe entsprechen:

OSMF gruppieren Benutzer basierend auf wie deren Eigenschaften Produktpräferenzen prägen, dann verwendet es diese Gruppenprofile, um Werbebilder zu generieren, die den Geschmack jeder Gruppe entsprechen. PAAG übernimmt die Gruppierung, und PCIG erstellt die Bilder unter Verwendung von Prompts und Feedback, das auf jede Gruppe abgestimmt ist.

Das OSMF-Framework gruppieren Benutzer basierend auf wie deren Eigenschaften Produktpräferenzen prägen, dann verwendet es diese Gruppenprofile, um Werbebilder zu generieren, die den Geschmack jeder Gruppe entsprechen. PAAG übernimmt die Gruppierung, und PCIG erstellt die Bilder unter Verwendung von Prompts und Feedback, das auf jede Gruppe abgestimmt ist.

Der Bildgenerator nutzt eine nicht spezifizierte Version von Stable Diffusion zusammen mit einem geeigneten ControlNet-Set (letzteres, um die Konsistenz zwischen den verschiedenen Kohortengenerierungen zu gewährleisten).

Im Arbeitsablauf kodiert PAAG zunächst die Beziehung zwischen Benutzereigenschaften und sowohl Text- als auch Bildaspekten des Produkts, unter Verwendung eines Satzes dedizierter Encoder und eines Cross-Attention-Mechanismus, um sie in eine einheitliche Präferenz-Einbettung zu überführen, die wie wahrscheinlich ein Benutzer auf eine bestimmte Anzeige klickt widerspiegelt.

PAAG modelliert dann, wie unterschiedliche Kombinationen von Benutzereigenschaften mit sowohl Produkttiteln als auch Produktbildern interagieren. Text- und Bildmerkmale werden unter Verwendung von CLIP und ResNet-basierten Encodern extrahiert, und Benutzereigenschaften wie Geschlecht, Standort, Alter oder Gerät werden durch ein MLP geleitet, das Cross-Attention über Produkttext- und Bildmerkmale ermöglicht.

Die resultierende Einbettung repräsentiert die Klickwahrscheinlichkeit jedes Benutzers für ein bestimmtes Produkt in einem bestimmten visuellen Kontext. Sobald diese Benutzer-Produkt-Präferenz-Einbettungen erhalten sind, verwendet PAAG K-Means-Clustering, um Benutzer zu gruppieren, die auf ein bestimmtes Produkt ähnlich reagieren.

PAAG wählt die beste Anzahl von Benutzergruppen für jedes Produkt aus, indem es überprüft, wie gut die Cluster voneinander getrennt sind. Anstatt nur einen Durchschnittspunkt pro Gruppe zu verwenden, werden mehrere Punkte in verschiedenen Entfernungen ausgewählt, um einen breiteren Bereich von Präferenzen abzudecken.

Diese Gruppenprofile werden dann als Token an das gruppenbewusste multimodale große Sprachmodell (G-MLLM) übergeben, das sie verwendet, um Werbebilder zu generieren, die auf jede Gruppe zugeschnitten sind.

Bildgenerierung basierend auf Benutzervorlieben

Auf der Benutzerseite lernt G-MLLM, vorherzusagen, welche Gruppenmitglieder als Nächstes klicken und wie die gemeinsamen Merkmale in natürlicher Sprache beschrieben werden. Auf der Produktseite lernt es, das in einem Bild dargestellte Produkt zusammenzufassen und Werbe-Style-Untertitel zu generieren, die sowohl zum Artikel als auch zur Gruppe passen.

Um reales Benutzerverhalten widerzuspiegeln, wird das Modell in ein gruppenbewusstes Belohnungsmodell (GRM) erweitert. GRM wird auf dem eigenen Grouped Advertising Image Preference (GAIP)-Datensatz der Forscher trainiert, um Paare von Bildern für dasselbe Produkt zu vergleichen und zu bestimmen, welches besser mit einer bestimmten Gruppe funktioniert, unter Verwendung von echten Klick-Durch-Klick-Daten.

Dieses Belohnungssignal wird dann verwendet, um G-MLLM mit Group-DPO fein abzustimmen, einer Methode, die es lehrt, Prompts zu bevorzugen, die zu besserer Gruppenebene-Engagement führen.

Daten und Tests

Entwicklung von GAIP

Da es an Datensätzen zu gruppenspezifischen Werbepräferenzen mangelt und frühere Sammlungen wie Personalisierte Suppen und CG4CTR entweder zu klein sind oder zu schlecht spezifiziert sind, entwickelten die Forscher ihren eigenen Datensatz, den oben genannten GAIP, der aus den ‘industriellen Werbeprotokollen’ einer nicht spezifizierten E-Commerce-Plattform abgeleitet wurde.

Die Protokolle wurden über einen Zeitraum von drei Wochen gesammelt, wobei jeder Eintrag das Produktbild und den Titel, das Profil des Zuschauers (einschließlich Alter, Ausgabeniveau und Empfindlichkeit gegenüber Werbung) und ob die Anzeige angeklickt wurde, aufzeichnete.

Der Datensatz umfasst über 40 Millionen Benutzer, 2 Millionen Produkte und fast 10 Millionen Werbebilder, mit hoher visueller Vielfalt zwischen den Artikeln.

Benutzer wurden von PAAG in unterschiedliche Cluster für jedes Produkt gruppiert, und die Klickrate (CTR) wurde pro Bild innerhalb jeder Gruppe berechnet:

Aus dem Zusatzmaterial der neuen Veröffentlichung, ein kurzer Blick auf einige der definierenden Kriterien für GAIT.

Aus dem Zusatzmaterial der neuen Veröffentlichung, ein kurzer Blick auf einige der definierenden Kriterien für GAIT.

GAIP wird dann als Satz von Tupeln (Werbebild, Produkttitel, Gruppen-Einbettung, gruppenspezifische CTR) gebildet, der jedes Bild und jeden Titel mit seiner CTR und der Einbettung der Gruppe, die es gesehen hat, in Verbindung bringt.

Um Zuverlässigkeit zu gewährleisten, werden nur Produkte mit ausreichender Beliebtheit beibehalten, was zu einem Datensatz von 610.172 Gruppenebenen-Stichproben führt.

GAIP ist wesentlich größer als frühere Datensätze: Während die meisten früheren Benchmarks weniger als zehn Benutzergruppen umfassen, enthält GAIP fast 600.000 reale gruppenweite Präferenznachweise, was tiefere Einblicke in gruppenweite Präferenzen bietet.

Tests

Um die PCIG-Pipeline zu trainieren, extrahierten die Forscher Bild- und Textmerkmale unter Verwendung von ResNet und dem CLIP-Text-Encoder, dann kartierten sie sie auf 128-dimensionale Einbettungen über lernbare lineare Schichten. Um Effizienz zu gewährleisten, wurde PAAG auf fünf Benutzergruppen pro Produkt beschränkt.

Die Gruppeneinbettungen wurden unter Verwendung einer percentilenbasierten Stichprobenerhebungsstrategie konstruiert, bei der mehrere Punkte aus den 15., 55. und 95. Percentilen gezogen wurden, um sowohl Kern- als auch Randpräferenzen zu erfassen.

LLaVA wurde als Rückgrat für G-MLLM verwendet, und das Vortraining wurde über zehn Epochen mit einem Kosinus-Lernalgorithmus bei einer Lernrate von 2e-6 durchgeführt, was eine beeindruckende fünf Tage Training auf einem Cluster von acht NVIDIA H100-GPUs mit jeweils 80 GB VRAM erforderte.

GRM wurde trainiert, indem GAIP mit passenden Produktbildpaaren rekonstruiert und dann mit den gleichen Gewichten wie G-MLLM initialisiert wurde. Während der finalen Group-DPO-Phase wurde GRM eingefroren, und G-MLLM fein abgestimmt mit LoRA für drei Epochen – erneut bei einer Lernrate von 2e-5, auf demselben NVIDIA-Cluster.

Die für die erste Bewertung verwendeten Metriken waren NDCG@5 und AUROC. NDCG@5 maß, wie unterschiedlich jede Gruppe dieselbe Menge an Werbebildern bewertete, wobei niedrigere Werte eine klarere Trennung der Präferenzen anzeigten; und AUROC wurde verwendet, um zu bewerten, wie gut jedes Modell zwischen angeklickten und nicht angeklickten Inhalten unterscheiden konnte.

Alle Metriken wurden auf Clustering-Ergebnissen von 1.000 Produkten berechnet, was etwa 100.000 Stichproben umfasst, und wurden verwendet, um PAAG mit drei vorherigen Systemen zu vergleichen: CACS; WIYD; und JAC:

Präferenzmodellierungs-Ergebnisse im Vergleich zu vorherigen Methoden. Niedrigere NDCG@5- und höhere AUROC-Werte zeigen bessere Leistung. Die besten Ergebnisse sind fett, die zweitbesten unterstrichen.

Präferenzmodellierungs-Ergebnisse im Vergleich zu vorherigen Methoden. Niedrigere NDCG@5- und höhere AUROC-Werte zeigen bessere Leistung. Die besten Ergebnisse sind fett, die zweitbesten unterstrichen.

Zu diesen Ergebnissen äußern die Autoren:

‘[Unsere] Methode erzielt eine überlegene Leistung bei beiden Metriken. Konkret erreicht PAAG den niedrigsten NDCG@5-Wert (0,3066), wodurch es CACS übertrifft, was auf unterschiedliche intergruppale Präferenzmuster für eine effektive gruppenweise Werbebildgenerierung hinweist.

‘Darüber hinaus erreicht PAAG den höchsten AUROC-Wert (0,6372), was eine Verbesserung von 0,0159 gegenüber dem stärksten Vergleichswert (WIYD) darstellt.’

Ein zweiter Testzyklus überprüfte, ob das System besser geeignet war, Anzeigen an die richtigen Benutzergruppen anzupassen;

Online-CTR-Vergleich, der zeigt, dass gruppenpersonalisierte Generierung ('Unsere') alle Vergleichswerte, einschließlich CAIG und vortrainiertem G-MLLM, übertrifft.

Online-CTR-Vergleich, der zeigt, dass gruppenpersonalisierte Generierung (‘Unsere’) alle Vergleichswerte, einschließlich CAIG und vortrainiertem G-MLLM, übertrifft.

Dabei zeigte PCIG höhere Klickraten als ältere Modelle wie CAIG und G-MLLM, mit einer Verbesserung von 5,5 %. GRM wurde auch offline getestet, indem überprüft wurde, ob es die bessere Anzeige in einem Paar basierend auf Gruppenpräferenzen auswählen konnte. Es übertraf alle Vergleichswerte, einschließlich allgemeiner Modelle, mit einem Gewinn von 4,7 % gegenüber CAIG.

Ein abschließender qualitativer Test wurde durchgeführt, um zu bewerten, ob PCIG gruppenweite Präferenzen in der Stilistik der generierten Bilder widerspiegeln konnte. Wie in der folgenden Abbildung gezeigt, wurde das gleiche Produkt für jede Gruppe unterschiedlich dargestellt, mit Änderungen in der Farbpalette, dem Ton und der visuellen Komposition:

Vollständige Ergebnisse der qualitativen Tests, die zuvor in dem Artikel vorgestellt wurden.

Vollständige Ergebnisse der qualitativen Tests, die zuvor in dem Artikel vorgestellt wurden.

Diese Variationen stimmten, so behaupten die Autoren, mit den abgeleiteten Klickpräferenzen für jede Gruppe überein, was zeigt, dass PCIG stilistisch unterschiedliche Ausgaben produzieren kann, während es Relevanz und Attraktivität bewahrt. Die Autoren erklären:

‘[PCIG] stellt sicher, dass stilistisch vielfältige Bilder die Klickpräferenzen unterschiedlicher Benutzergruppen widerspiegeln, wodurch es seine starke Fähigkeit unter Beweis stellt, die Generierung an heterogene Benutzeranforderungen anzupassen und feine, differenzierte Präferenzunterschiede zwischen verschiedenen Benutzergruppen zu erfassen, was sein Potenzial für gruppenbewusste Werbebildgenerierung im großen Maßstab unterstreicht.’

Schlussfolgerung

Vielleicht ist das faszinierendste Aspekt dieses Projekts die unbekannte Korrelation zwischen Ausgabestilen über gruppenorientierte Bilder für dasselbe Produkt (von denen es im Anhang der Veröffentlichung mehrere Seiten gibt als hier wiedergegeben werden können).

Können wir annehmen, dass städtische Hintergründe mit dem Alter zusammenhängen, d. h. mit Absolventen, die gerade erst anfangen, und dass ländliche Umgebungen auf prosperierende Gen-X-Typen abzielen, die die offene Straße als eine Art ‘letzte Freiheit’ identifizieren? Man kann diese Testausgaben den ganzen Tag lang wie ein Rorschach-Test interpretieren.

Das Potenzial solcher Systeme hängt von zwei Faktoren ab: Einblick und Latenz. Der Einblick hängt davon ab, ob aufkommende Tracking-Systeme immer noch genügend sinnvolle Informationen von Benutzern extrahieren können, um effektive kohortenbasierte Werbung zu unterstützen, und ob sie gleichzeitig den Grundstein für präzisere, individuell zielgerichtete Anzeigen in der Zukunft legen.

Die Latenz stellt eine größere Herausforderung dar, da diese benutzerdefinierten Anzeigenbilder fast in Echtzeit generiert und ausgeliefert werden müssen; obwohl einige neuere Text-zu-Bild-Modelle Ergebnisse in nur wenigen Sekunden liefern können, könnte selbst diese Verzögerung zu lang für Echtzeit-Werbeauktionen sein.

Ein möglicher Ausweg besteht darin, die Bilder lokal auf dem Browser-GPU zu erzeugen, ohne Netzwerk-Roundtrips, oder eine Reihe von Bildern im Voraus zu erstellen und sie auf dem Client vorzucachen.

 

** Dieser Aspekt wird in der neuen Veröffentlichung ausgelassen, ähnlich wie die potenzielle Missbrauchsmöglichkeit neuer KI-Frameworks für Deepfakes oft durch die Verwendung von niedlichen Tierfiguren (anstatt KI-Pornos) in neuen Studien abgemildert wird. Dennoch stellen die in der Arbeit gezeigten Bildinhalte Werbetreibende in ihrem besten Verhalten dar, anstatt zu zeigen, wie persönlich visuelle Anzeigen letztendlich werden könnten, wenn Verbraucherzielmethoden mit schneller KI-Generierung zusammenarbeiten.

** Ich kann diese benannte Institution nicht identifizieren, da ‘UCAS’ normalerweise auf eine bekannte britische Universitätsanmelde- und Abwicklungsstelle hinweist. Ich begrüße Klarstellungen.

Die Forscher versprechen, dies im zugehörigen GitHub-Repository zu veröffentlichen.

Erstveröffentlicht am Donnerstag, den 5. Februar 2026

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.