Künstliche Intelligenz

Identifizierung von gesponsertem Inhalt auf Nachrichten-Websites mit Machine Learning

Published November 11, 2021

Updated April 26, 2026

Martin Anderson

Forscher aus den Niederlanden haben eine neue Machine-Learning-Methode entwickelt, die in der Lage ist, gesponserten oder anderweitig bezahlten Inhalt innerhalb von Nachrichtenplattformen mit einer Genauigkeit von über 90 % zu unterscheiden, als Reaktion auf das wachsende Interesse von Werbetreibenden an “nativen” Werbeformaten, die schwer von “echten” journalistischen Inhalten zu unterscheiden sind.

Die neue Studie, betitelt Unterscheidung zwischen kommerziellem und redaktionellem Inhalt in Nachrichten, stammt von Forschern der Universität Leiden.

Kommerzielle (rot) und redaktionelle (blau) Sub-Graphen, die aus der Analyse der Daten hervorgehen. Quelle: https://arxiv.org/pdf/2111.03916.pdf

Die Autoren bemerken, dass obwohl seriöse Publikationen, die leichter Bedingungen an Werbetreibende stellen können, einen vernünftigen Versuch unternehmen, “Partner-Inhalte” von der allgemeinen Nachrichten- und Analyseflut zu unterscheiden, die Standards langsam aber unaufhaltsam in Richtung verstärkter Integration zwischen redaktionellen und kommerziellen Teams in einer Ausgabe verschoben werden, was sie als beunruhigende und negative Tendenz betrachten.

‘Die Fähigkeit, Inhalte zu verbergen, freiwillig oder unfreiwillig, und die Wahrscheinlichkeit, dass Anzeigen nicht als solche erkannt werden, auch wenn sie ordnungsgemäß gekennzeichnet sind, ist erheblich. Werbetreibende nennen es native [Werbung] aus einem Grund.’

Einige aktuelle Beispiele für native Werbung, die verschieden als ‘Partner-Inhalt’, ‘Marken-Inhalt’ und viele andere Bezeichnungen bezeichnet werden, die darauf abzielen, die Unterscheidung zwischen nativer und kommerziell platzierten Inhalten in journalistischen Plattformen subtil zu verschleiern.

Die Arbeit wurde im Rahmen einer umfassenderen Untersuchung zur vernetzten Nachrichtenkultur am ACED Reverb Channel in Amsterdam durchgeführt, das sich auf datengetriebene Analyse von sich entwickelnden journalistischen Trends konzentriert.

Datenerfassung

Um Quelldaten für das Projekt zu entwickeln, verwendeten die Autoren 1.000 Artikel und 1.000 Anzeigen aus vier niederländischen Nachrichten-Websites und klassifizierten sie basierend auf ihren textuellen Merkmalen. Da die Datenmenge relativ bescheiden war, vermeiden die Autoren groß angelegte Ansätze wie BERT und bewerteten stattdessen die Wirksamkeit klassischerer Machine-Learning-Rahmenwerke, einschließlich Support Vector Machine (SVM), LinearSVC, Decision Tree, Random Forest, K-Nearest Neighbor (K-NN), Stochastic Gradient Descent (SGD) und Naïve Bayes.

Der Reverb-Channel-Korpus konnte die 1.000 notwendigen “geraden” Artikel liefern, aber die Autoren mussten Anzeigen direkt von den vier niederländischen Websites scrape. Die erhaltenen Daten sind verfügbar in begrenzter Form (aufgrund von Urheberrechtsbedenken) auf GitHub, zusammen mit einigen der Python-Code, der zur Erfassung und Bewertung der Daten verwendet wurde.

Die vier untersuchten Publikationen waren die politisch konservative Nu.nl, die fortschrittlichere Telegraaf, NRC und das Wirtschaftsjournal De Ondernemer. Jede Publikation war gleichmäßig in den Daten vertreten.

Es war notwendig, potenzielle “Leaker” im Lexikon, das durch die Forschung gebildet wurde, zu identifizieren und abzuziehen – Wörter, die in beiden Arten von Inhalten mit wenig Unterscheidung zwischen ihrer Häufigkeit und Verwendung auftauchen könnten, um klare Muster für wirklich native und gesponserte Inhalte zu etablieren.

Ergebnisse

Über die getesteten Methoden zur Identifizierung hinweg wurden die besten Ergebnisse durch SVM, linearSVC, Random Forest und SGD erzielt. Daher gingen die Forscher dazu über, SVM in weiterer Analyse zu verwenden.

Der beste Modellansatz für die Extraktion von Klassifizierungen über den Korpus hinaus übertraf 90 % Genauigkeit, obwohl die Forscher bemerken, dass das Erhalten einer klaren Klassifizierung schwieriger wird, wenn es um B2B-orientierte Publikationen geht, bei denen die lexikalische Überlappung zwischen wahrgenommenem “echten” und “gesponsertem” Inhalt übermäßig ist – vielleicht weil der native Stil der Geschäftssprache bereits subjektiver ist als die allgemeine Berichterstattung und Analysekonventionen und leichter eine Agenda verbergen kann.

t-Distributed Stochastic Neighbor Embedding (t-SNE)-Plots für die Trennung von echten und gesponserten Inhalten über die vier Publikationen hinweg.

Ist gesponserter Inhalt “Fake News”?

Die Forschung der Autoren legt nahe, dass ihr Projekt neu in dem Feld der Nachrichten-Inhaltsanalyse ist. Rahmenwerke, die in der Lage sind, gesponserten Inhalt zu identifizieren, könnten den Weg zu jährlichen Überwachungen des Gleichgewichts zwischen objektiver Journalismus und der wachsenden Menge an “nativer Werbung” ebnen, die in fast dem gleichen Kontext in den meisten Publikationen sitzt, mit den gleichen visuellen Hinweisen (CSS-Stylesheets und andere Formatierungen) wie allgemeine Inhalte.

In einem bestimmten Sinne ist das häufige Fehlen offensichtlicher Kontexte für gesponserten Inhalt ein Teilgebiet der Studie von “Fake News”. Obwohl die meisten Verleger die Notwendigkeit erkennen, “Kirche und Staat” zu trennen, und die Verpflichtung, den Lesern klare Trennungen zwischen bezahlten und organisch erzeugten Inhalten zu bieten, haben die Realitäten der post-print-Journalistik und die erhöhte Abhängigkeit von Werbetreibenden die Abwertung von Sponsoren-Hinweisen zu einer feinen Kunst in der UI-Psychologie gemacht. Manchmal sind die Belohnungen für die Ausführung von gesponserten Inhalten verlockend genug, um ein großes optisches Desaster zu riskieren.

Im Jahr 2015 bot die soziale Medien- und Wettbewerbs-Benchmark-Plattform Quintly eine AI-basierte Erkennungsmethode an, um zu bestimmen, ob ein Beitrag auf Facebook gesponsert ist, mit einem Genauigkeitsgrad von 96 %. Im folgenden Jahr behauptete eine Studie der University of Georgia, dass die Art und Weise, wie Verleger die Erklärung von gesponserten Inhalten handhaben, ‘komplizenhaft mit Täuschung’ sein könne.

Im Jahr 2017 bemerkte MediaShift, eine Organisation, die den Schnittpunkt zwischen Medien und Technologie untersucht, die wachsende Ausdehnung, in der die New York Times ihre Betriebe durch ihr Marken-Inhalts-Studio, T Brand Studio, monetarisiert, mit abnehmenden Transparenzgraden um gesponserten Inhalt, mit dem stillschweigenden Ergebnis, dass Leser nicht leicht erkennen können, ob Inhalte organisch erzeugt werden oder nicht.

Im Jahr 2020 entwickelte eine weitere Forschungsinitiative aus den Niederlanden Machine-Learning-Klassifizierer, um automatisch russische staatlich finanzierte Nachrichten in serbischen Nachrichtenplattformen zu identifizieren. Weiterhin wurde geschätzt, dass Forbes’ “Medien-Inhaltslösungen” 2019 40 % seines Gesamtumsatzes durch BrandVoice ausmachten, das Inhalts-Studio, das der Verleger 2010 startete.