Andersons Blickwinkel

Vorbereitung auf Werbung in Large Language Models

mm
Source: ChatGPT-4o and https://commons.wikimedia.org/wiki/File:Microsoft_Surface_Laptop_7.jpg

Neue Forschungsergebnisse zeigen, wie Werbeanzeigen bald direkt in ChatGPT-ähnliche Antworten eingebettet werden könnten – nicht als Banner oder Pop-ups, sondern in die Antwort selbst integriert. Ein neuer Benchmark testet, wie gut diese werbeinjektionsfähigen Antworten hilfreich, glaubwürdig und profitabel sein können und möglicherweise einen Kompromiss zwischen einem akzeptablen Benutzererlebnis und Click-through-Raten erfordern.

 

Da die weit verbreitete und wachsende Popularität von Large Language Models die traditionellen Werbemethoden untergräbt, die das Internet fast seit seiner Entstehung angetrieben haben, wird jeder, der mit den Marktstrategien von Venture-Kapitalisten vertraut ist, sich fragen, wie lange AI-Chatbots noch in der Lage sein werden, Werbeinhalte in ihren Antworten zu vermeiden.

Da Netflix und eine wachsende Liste von Streaming-Diensten zeigen, gewinnt die traditionelle Strategie der Kabel-Ära, die paid Subscriptions mit eingebetteter Werbung (oft als Mittel zur Senkung der Kosten für den Verbraucher gerechtfertigt) wieder an Fahrt; und der Trend zur direkten Einbindung von Werbeanzeigen in LLM-Ausgaben beginnt weniger spekulativ zu werden und mehr wie eine natürliche Anpassung an dieses Modell.

Aus dem Paper 'Online Advertisements with LLMs: Opportunities and Challenges', ein ziemlich repräsentatives Beispiel für den Übergang, den die meisten Menschen erwarten, wenn LLMs monetarisiert werden. Quelle: https://www.sigecom.org/exchanges/volume_22/2/FEIZI.pdf

Aus dem Paper ‘Online Advertisements with LLMs: Opportunities and Challenges’, ein ziemlich repräsentatives Beispiel für den Übergang, den die meisten Menschen erwarten, wenn LLMs monetarisiert werden. Quelle: https://www.sigecom.org/exchanges/volume_22/2/FEIZI.pdf

Die Aussicht, Werbeanzeigen in einem Medium einzubinden, das bereits mit Glaubwürdigkeitsproblemen zu kämpfen hat, mag voreilig erscheinen; doch der Umfang der Investitionen in generative KI in den letzten zwölf Monaten lässt darauf schließen, dass der Markt derzeit nicht von einer vorsichtigen oder umsichtigen Haltung geprägt ist; und mit größeren Spielern wie OpenAI, die möglicherweise übermäßig verschuldet sind und eine frühe Rendite auf massive Investitionen benötigen, deutet die Geschichte darauf hin, dass die Flitterwochen der werbefreien Ausgaben bald vorbei sein könnten.

GEM-Bench

Mit diesem Klima und diesen Geschäftszielen im Hinterkopf bietet ein interessantes neues Paper aus Singapur den ersten Benchmark für AI-Chatbot-Schnittstellen und neue quantifizierbare Metriken für das, was sich als eines der explosivsten Werbemärkte in 100 Jahren erweisen könnte.

Vielleicht optimistisch, nehmen die Autoren an, dass es eine saubere Trennung zwischen “wahrer” Inhalte und Werbeinhalten gibt, wo die “Ablenkung” von Standardantworten in Marketingkopie leicht zu erkennen ist:

Beispiele für die Art von Werbeeinbindung, die unter zwei im Paper untersuchten Modellen eintreten könnte. Quelle: https://arxiv.org/pdf/2509.14221

Beispiele für die Art von Werbeeinbindung, die unter zwei im Paper untersuchten Modellen eintreten könnte. Quelle: https://arxiv.org/pdf/2509.14221

Es bleibt abzuwarten, ob Werbetreibende selbst versuchen werden, ihre Werbeinhalte subtiler in die Ausgaben einzubinden, als in den Beispielen des Papiers gezeigt.

Die Forscher identifizieren Generative Engine Marketing (GEM) als neues Framework für die Monetarisierung von LLM-basierten Chatbots, indem relevante Werbeanzeigen direkt in generierte Antworten eingebettet werden.

Das Paper führt Ad-Injected Response (AIR) als zentrale Herausforderung in GEM ein und argumentiert, dass bestehende Benchmarks schlecht geeignet sind, um es zu untersuchen. Um diese Lücke zu füllen, führen sie den ersten Benchmark ein, der speziell für diesen Zweck entwickelt wurde.

GEM-Bench besteht aus drei kuratierten Datensätzen, die Chatbot- und Suchmaschinenszenarien umfassen. Es enthält auch eine Metrik-Ontologie, die dazu dient, multiple Aspekte der Benutzerzufriedenheit und -bindung zu bewerten, sowie eine Suite von Basismethoden, die in einem modularen Multi-Agenten-Framework implementiert sind.

Die Autoren behaupten, dass einfache promptbasierte Methoden respektable Engagement-Metriken wie erhöhte Click-through-Raten (CTR) erzielen können, diese jedoch die Benutzerzufriedenheit verschlechtern. Im Gegensatz dazu zeigen Ansätze, die Werbeanzeigen in vorab generierte, werbefreie Antworten einfügen, Verbesserungen in Vertrauen und Antwortqualität – jedoch auf Kosten höherer Rechenkosten.

Diese Kompromisse, so das Paper, unterstreichen die Notwendigkeit effektiverer und effizienterer Techniken zur Einbindung von Werbeanzeigen in generierte Ausgaben.

Die neue Arbeit trägt den Titel GEM-Bench: A Benchmark for Ad-Injected Response Generation within Generative Engine Marketing und stammt von vier Forschern der National University of Singapore.

Method

Der Ansatz für Generative Engine Marketing (GEM) basiert auf den Grundprinzipien von Search Engine Marketing (SEM). Traditionelles SEM funktioniert, indem Anfragen an Werbeanzeigen über eine mehrstufige Pipeline verknüpft werden, in der Werbetreibende auf Schlüsselwörter bieten; das System identifiziert, welche Anfragen Werbeanzeigen auslösen; das System schätzt, wie wahrscheinlich jede Werbeanzeige angeklickt wird; und dann werden die Plätze durch eine Auktion zugewiesen, die Gebote mit vorhergesagter Bindung ausgleicht.

Im Gegensatz dazu passt der GEM-Ansatz diese Stufen an LLMs an, aber steht vor neuen Herausforderungen an jedem Schritt: Es gibt keine festen Werbeplätze, so dass das System entscheiden muss, ob eine Anfrage eine Werbeanzeige aufnehmen kann und wo sie in den freien Text eingefügt werden soll; die Schätzung von Click-through-Raten wird ohne strukturierte Layouts schwieriger; und Relevanz muss gegen Benutzerzufriedenheit ausbalanciert werden, da die Werbeanzeigen direkt in die Ausgaben des Modells eingebettet werden und nicht als eigenständige Kopie serviert werden.

Ein Baseline, der in der Arbeit untersucht wird, Ad-Chat, stellt eine einfache Methode dar, bei der Werbeinhalte in das System-Prompt vor der Modellgenerierung eingefügt werden. Dies bedeutet, dass das Modell eine Antwort mit der bereits eingebetteten Werbeanzeige produziert, die von einem vorab geladenen Agenda geleitet wird.

Der andere Ansatz, Ad-LLM, wurde von den Autoren als Teil des neuen Benchmarks entwickelt. Ad-LLM verfolgt einen modularen Ansatz, indem zunächst eine saubere, werbefreie Antwort generiert wird; eine relevante Werbeanzeige ausgewählt wird; der beste Einfügepunkt basierend auf semantischer Fluss identifiziert wird; und schließlich die Ausgabe so umgeschrieben wird, dass die Werbeanzeige nahtlos integriert wird:

Vergleich zwischen Ad-Chat und der Methode 'Ad-LLM' der Autoren. Ad-Chat injiziert Werbeanzeigen über das System-Prompt vor der Generierung, mit begrenzter Platzierungskontrolle. Ad-LLM trennt Antwortgenerierung und Werbeeinbindung, wählt Einfügepunkte basierend auf semantischer Fluss aus und verfeinert das Ergebnis. Beide werden mit GEM-Bench-Metriken für Zufriedenheit und Bindung bewertet

Vergleich zwischen Ad-Chat und der Methode ‘Ad-LLM’ der Autoren. Ad-Chat injiziert Werbeanzeigen über das System-Prompt vor der Generierung, mit begrenzter Platzierungskontrolle. Ad-LLM trennt Antwortgenerierung und Werbeeinbindung, wählt Einfügepunkte basierend auf semantischer Fluss aus und verfeinert das Ergebnis. Beide werden mit GEM-Bench-Metriken für Zufriedenheit und Bindung bewertet.

Während Ad-Chat billiger und manchmal überzeugender ist, neigt es dazu, Vertrauen und Genauigkeit zu verringern. Ad-LLM erzielt bessere Ergebnisse bei Benutzerzufriedenheitsmetriken, jedoch auf Kosten höherer Rechenkosten.

Daten

Für die AIR-Generierung wurden zwei Arten von Datensätzen initial generiert: ein Benutzeranfrage-Set (Benutzer) und eine Werbe-Datenbank (AdDB).

Da Benutzeranfragen Werbemöglichkeiten in den Antworten des LLMs definieren, kann das “Werbekontingent” in diesen Antworten gesagt werden, obwohl dies nicht nur durch die Anwendbarkeit der Benutzeranfrage, sondern auch durch den Umfang bestimmt wird, in dem das System seinen eigenen Regeln über die Balance zwischen Integrität und Werbeimperativen gehorcht.

In jedem Fall werden die Werbeanzeigen nur in Antworten erscheinen, auch wenn (siehe Schema oben) Benutzeranfragen möglicherweise heimlich zur Unterstützung des Werbeinjektionsprozesses ergänzt werden.

Für das Chatbot-Szenario konstruierten die Autoren zwei Anfrage-Datensätze: MT-Human und LM-Market.

MT-Human wurde aus dem humanistischen Teil von MT-Bench gezogen, einem Benchmark für LLMs, und enthält Fragen, die Werbeinhalte aufnehmen können.

LM-Market wurde aus über einer halben Million realer ChatGPT-Anfragen erstellt, die von LMSYS-Chat-1M gesammelt wurden, gefiltert für englischsprachige Marketing-bezogene Anfragen und nach Themen gruppiert, die mit semantischen Einbettungen verwendet werden.

In beiden Fällen wurden die endgültigen Anfragen durch eine mehrstufige Pipeline kombiniert, die automatisierte Clustering, LLM-Bewertung und menschliche Verifizierung umfasst, mit dem Ziel, Anfragen zu identifizieren, bei denen die Einbindung von Werbeinhalten natürlich und plausibel wäre.

Um die Qualität der werbeinjektionsfähigen Antworten zu bewerten, definiert GEM eine Messontologie, die sowohl Benutzerzufriedenheit als auch Bindung umfasst. Dies umfasst quantitative Metriken wie Antwortfluss, Kohärenz und Click-through-Rate, sowie qualitative Standards wie Vertrauen, Genauigkeit und Natürlichkeit – Metriken, die darauf abzielen, wie gut eine Werbeanzeige in eine Antwort passt und wie wahrscheinlich Benutzer sie wahrnehmen und interagieren.

Bezüglich “Natürlichkeit” besagt das Paper:

‘[Natürlichkeit] misst, in welchem Umfang die Werbeeinbindung den Fluss und die Natürlichkeit der Konversation stört, basierend auf Unterbrechung und Authentizität. Unterbrechung untersucht, ob die Werbeanzeige ein “Sprung heraus” oder “abruptes” Gefühl während des Lesens erzeugt, das den kontinuierlichen Fokus des Benutzers auf das Thema unterbricht.

‘Authentizität bewertet, ob die Werbeanzeige den “menschlichen Touch” oder die “natürliche Fluss” der Konversation untergräbt, was die Antwort steif, formelhaft und weniger authentisch erscheinen lässt.’

Um ein traditionelles Suchmaschinenszenario für die Testphase zu erstellen, erstellten die Autoren einen Datensatz mit dem Titel CA-Prod aus dem AdsCVLR-Kommerzcorpus, das 300.000 Anfrage-Werbe-Paare enthält, jedes bestehend aus einem Schlüsselwort, Metadaten und einer manuellen Markierung, die die Relevanz kennzeichnet:

Aus dem ursprünglichen Quellen-Paper, Beispiele aus dem AdsCVLR-Datensatz, der Material für die Tests der Autoren lieferte. Quelle: http://www.jdl.link/doc/2011/20221224_AdsCVLR.pdf

Aus dem ursprünglichen Quellen-Paper, Beispiele aus dem AdsCVLR-Datensatz, der Material für die Tests der Autoren lieferte. Quelle: http://www.jdl.link/doc/2011/20221224_AdsCVLR.pdf

Records mit fehlenden Feldern wurden entfernt, und nur Anfragen, die sowohl positive als auch negative Werbeanzeigen enthielten (siehe Bild oben für Beispiele), wurden beibehalten.

Um die Daten zu verfeinern, wurden Werbeanzeigen in sechs thematische Gruppen (Rasen- und Gartengeräte, Slip-on-Schuhe, Haushaltsgegenstände, Nahrungsergänzungsmittel, Android-Geräte und Damenkleider) gruppiert, indem semantische Einbettungen und K-Means-Clustering verwendet wurden.

Anfragen wurden dann den Themen zugeordnet, basierend auf ihren positiven Werbeanzeigen, wobei zu spärlich oder dicht besetzte Mengen ausgeschlossen wurden, bevor 120 Anfragen und 2.215 eindeutige Produkte für den Benchmark ausgewählt wurden.

Tests

Um zu bewerten, wie gut die verschiedenen Werbeeinjektionsstrategien funktionierten, ging der Benchmark drei Kernfragen nach: Wie effektiv war jede Methode über die definierten Zufriedenheits- und Bindungsmetriken? Wie könnten die internen Designentscheidungen innerhalb von Ad-LLM die Ergebnisse beeinflussen? Und wie würde sich die Rechenkosten vergleichen?

Die Autoren bewerteten Ad-Chat und drei Varianten des Ad-LLM-Pipelines, von denen jede sich in der Art und Weise unterschied, wie Werbeanzeigen abgerufen wurden (entweder aus dem Prompt oder aus der generierten Antwort) und ob die endgültige Ausgabe für Flüssigkeit umgeschrieben wurde.

Alle Methoden wurden mit doubao-1-5-lite-32k als Basis-Modell und mit gpt-4.1-mini bewertet.

Effektivität von Ad-Chat und Ad-LLM-Varianten über die MT-Human-, LM-Market- und CA-Prod-Datensätze. Quantitative Metriken umfassen Antwortfluss (RF), Antwortkohärenz (RC), Werbe-Fluss (AF), Werbekohärenz (AC), Injektionsrate (IR), Click-through-Rate (CTR) und Gesamtpunktzahl. Qualitative Metriken umfassen Genauigkeit, Natürlichkeit, Persönlichkeit, Vertrauen, Beachtung, Klick(-durch)-Rate und Gesamtleistung.

Effektivität von Ad-Chat und Ad-LLM-Varianten über die MT-Human-, LM-Market- und CA-Prod-Datensätze. Quantitative Metriken umfassen Antwortfluss (RF), Antwortkohärenz (RC), Werbe-Fluss (AF), Werbekohärenz (AC), Injektionsrate (IR), Click-through-Rate (CTR) und Gesamtpunktzahl. Qualitative Metriken umfassen Genauigkeit, Natürlichkeit, Persönlichkeit, Vertrauen, Beachtung, Klick(-durch)-Rate und Gesamtleistung.

Über alle drei Datensätze hinweg erzeugte Ad-LLM bessere Ergebnisse als Ad-Chat bei beiden Zufriedenheits- und Bindungsmetriken. Wie in der Ergebnistabelle oben gezeigt, verbesserte die beste Ad-LLM-Variante Ad-Chat um 8,4, 1,5 und 3,8 Prozent bei den Gesamtpunktzahlen; und um 10,7, 10,4 und 8,6 Prozent bei den qualitativen Metriken für MT-Human, LM-Market und CA-Prod.

Die Autoren stellen fest:

‘Diese Ergebnisse zeigen, dass die Generierung einer rohen Antwort und die anschließende Werbeeinjektion eine bessere Antwortqualität ergeben im Vergleich zum einfacheren Ansatz, der sich ausschließlich auf System-Prompt-Injektion verlässt.

‘Für spezifische Benutzerzufriedenheits- und Bindungsdimensionen zeigt Ad-Chat konsistent eine erhebliche Leistungslücke im Vergleich zu Ad-LLM-Lösungen über alle drei Datensätze hinweg, insbesondere in Dimensionen wie Genauigkeit, Persönlichkeit und Vertrauen.’

Weiterhin zeigte Ad-LLM seine stärksten Gewinne in Genauigkeit, Persönlichkeit und Vertrauen, wobei es Ad-Chat um bis zu 17,6%, 23,3% und 17,2% übertraf. Laut dem Paper könnten diese Unterschiede darauf zurückzuführen sein, dass Ad-Chat System-Prompts verwendet, um das Modell in Richtung personalisierter und werbeorientierter Sprache zu lenken – was die Autoren als “Verkaufs-ähnlichen” Ton bezeichnen, der Genauigkeit und Vertrauen verringert.

Ad-Chat erzeugte auch niedrigere Injektionsraten, selbst wenn es auf Anfragen bewertet wurde, die für Werbesuitabilität ausgewählt wurden, und die Autoren führen dies auf die Abhängigkeit von promptbasierten Hinweisen zurück (die sie als schwierig zu kontrollieren beschreiben).

Im Suchmaschinenszenario jedoch erzielte Ad-Chat eine um 8,6% höhere Click-through-Rate, was das Paper als Vorteil des Einsatzes eines LLM zur Produktkandidatenermittlung gegenüber der alleinigen Verwendung semantischer Einbettungen interpretiert:

Vergleich der Gesamtleistungspunktzahlen über vier Judge-Modelle (GPT-4.1-mini, Qwen-max, claude-3-5-haiku, kimi-k2) für Ad-Chat und drei Ad-LLM-Varianten (GI-R, GIR-R, GIR-P) auf den MT-Human-, LM-Market- und CA-Prod-Datensätzen. Während die Punktzahlen je nach Judge variieren, übertrifft Ad-LLM konsistent Ad-Chat über alle Bedingungen hinweg.

Vergleich der Gesamtleistungspunktzahlen über vier Judge-Modelle (GPT-4.1-mini, Qwen-max, claude-3-5-haiku, kimi-k2) für Ad-Chat und drei Ad-LLM-Varianten (GI-R, GIR-R, GIR-P) auf den MT-Human-, LM-Market- und CA-Prod-Datensätzen. Während die Punktzahlen je nach Judge variieren, übertrifft Ad-LLM konsistent Ad-Chat über alle Bedingungen hinweg.

Die zweite Ergebnistabelle (oben) zeigt, dass Ad-LLM-Lösungen auf allen drei Datensätzen konsistent besser abschneiden als Ad-Chat über vier Judge-Modelle; GPT-4.1-mini; Qwen-max; Claude-3-5-haiku; und Kimi-k2.

Diese Judge-Modelle wurden ausgewählt, um sich von dem Basis-Modell doubao-1-5-lite-32k zu unterscheiden, um Voreingenommenheit durch Modell-Familien-Zuordnung zu reduzieren. GIR-R belegte in jedem Fall den ersten oder zweiten Platz, was auf eine breite Übereinstimmung unter den Judge-Modellen über die Überlegenheit von Ad-LLM hinweist. Die Aufschlüsselung nach einzelnen qualitativen Dimensionen folgt eng dem Muster, das in den vorherigen Ergebnissen (oben) zu sehen ist.

Um zu schließen, merkt das Paper an, dass sowohl Ad-Chat als auch Ad-LLM höhere Ressourcen als die innovativeren und effektiveren Modelle erfordern und dass die Notwendigkeit, LLM-Agenten in dieser Art von Transaktion zu verwenden, einen erheblichen Overhead darstellen könnte. Obwohl man sich vorstellen könnte, dass Latenzprobleme (normalerweise kritisch in Werbeszenarien) durch den Einsatz von LLMs dieser Art auftreten könnten (was jedoch im Paper nicht speziell angesprochen wird).

In jedem Fall erwies sich die Implementierung der Ad-Chat-Strategie (die obere Zeile im früheren Schema) als diejenige mit der höchsten Click-through-Rate, obwohl sie auch die höchsten mit LLM verbundenen Kosten hatte.

Schlussfolgerung

Obwohl es nicht überraschend ist, dass die Literatur spekuliert, wie LLMs Werbung tragen können, gibt es tatsächlich sehr wenig öffentlich verfügbare Forschung zu diesem Thema; dies macht das aktuelle Paper und das, was man vernünftigerweise als seinen Vorgänger betrachten kann, zu interessanten Lektüren.

Wer je mit einer Werbeabteilung oder beim Verkauf von Inventar gearbeitet hat, weiß, dass Werbetreibende immer mehr wollen – idealerweise, dass Werbeanzeigen als faktischer Inhalt präsentiert werden, völlig ununterscheidbar vom Hauptinhaltsstrom; und sie werden einen erheblichen Aufpreis dafür zahlen (neben dem Host, der damit seine Glaubwürdigkeit und sein Ansehen bei Lesern und anderen Interessengruppen riskiert).

Daher wird es interessant sein, den Umfang zu sehen, in dem die werbelastigen Kodizille, die in den beiden Papieren vorgestellt werden, möglicherweise Anreize haben, weiter nach oben in einer LLM-Antwort zu kriechen und näher an die “Nutzbarmachung” heranzukommen. Erstveröffentlichung am Donnerstag, den 18. September 2025.

 

Erstveröffentlichung am Donnerstag, den 18. September 2025

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.