Connect with us

Kunstmatige intelligentie

Het identificeren van gesponsorde inhoud op nieuwswebsites met machine learning

mm

Onderzoekers uit Nederland hebben een nieuwe machine learning-methode ontwikkeld die in staat is om gesponsorde of anderszins betaalde inhoud binnen nieuwsplatforms te onderscheiden, met een nauwkeurigheid van meer dan 90%, als antwoord op de groeiende interesse van adverteerders in ‘native’ advertentievormen die moeilijk te onderscheiden zijn van ‘echte’ journalistieke output.

De nieuwe paper, getiteld Het onderscheiden van commerciële van redactionele inhoud in nieuws, komt van onderzoekers aan de Universiteit Leiden.

Commerciële (rode) en redactionele (blauwe) sub-grafen die ontstaan uit de analyse van de gegevens. Source: https://arxiv.org/pdf/2111.03916.pdf

Commerciële (rode) en redactionele (blauwe) sub-grafen die ontstaan uit de analyse van de gegevens. Source: https://arxiv.org/pdf/2111.03916.pdf

De auteurs stellen vast dat hoewel meer serieuze publicaties, die gemakkelijker voorwaarden kunnen stellen aan adverteerders, een redelijke inspanning zullen leveren om ‘partnerinhoud’ te onderscheiden van de algemene stroom van nieuws en analyse, de normen langzaam maar onherroepelijk verschuiven naar een grotere integratie tussen redactionele en commerciële teams op een uitgeverij, wat zij een alarmerende en negatieve trend vinden.

‘De mogelijkheid om inhoud te verhullen, vrijwillig of onvrijwillig, en de waarschijnlijkheid dat advertorials niet worden herkend als zodanig, zelfs als ze correct zijn gelabeld, is aanzienlijk. Marketeers noemen het native [adverteren] om een reden.’

Enkele huidige voorbeelden van native advertenties, die verschillend worden genoemd 'partnerinhoud', 'merkinhoud' en vele andere benamingen die zijn ontworpen om de scheiding tussen native en commercieel geplaatste inhoud in journalistieke platforms subtiel te verhullen.

Enkele huidige voorbeelden van native advertenties, die verschillend worden genoemd ‘partnerinhoud’, ‘merkinhoud’ en vele andere benamingen die zijn ontworpen om de scheiding tussen native en commercieel geplaatste inhoud in journalistieke platforms subtiel te verhullen.

Het onderzoek werd uitgevoerd als onderdeel van een bredere onderzoek naar netwerknieuwscultuur bij de ACED Reverb Channel, gevestigd in Amsterdam, die zich richt op gegevensgestuurde analyse van evoluerende journalistieke trends.

Het verzamelen van gegevens

Om brondata voor het project te ontwikkelen, gebruikten de auteurs 1.000 artikelen en 1.000 advertorials van vier Nederlandse nieuwsuitgevers en classificeerden ze op basis van hun tekstuele kenmerken. Aangezien de dataset relatief bescheiden was in omvang, vermieden de auteurs grootschalige benaderingen zoals BERT en evalueerden in plaats daarvan de effectiviteit van meer klassieke machine learning-kaders, waaronder Support Vector Machine (SVM), LinearSVC, Decision Tree, Random Forest, K-Nearest Neighbor (K-NN), Stochastic Gradient Descent (SGD) en Naïve Bayes.

De Reverb Channel-corpus kon de 1.000 benodigde ‘rechte’ artikelen leveren, maar de auteurs moesten advertorials rechtstreeks van de vier Nederlandse websites scrapen. De verkregen gegevens zijn beschikbaar in beperkte vorm (vanwege auteursrechtelijke bezwaren) op GitHub, samen met enkele van de Python-code die werd gebruikt om de gegevens te verkrijgen en te evalueren.

De vier publicaties die werden bestudeerd, waren de politiek conservatieve Nu.nl, de meer progressieve Telegraaf, NRC en het zakentijdschrift De Ondernemer. Elke publicatie was evenredig vertegenwoordigd in de gegevens.

Het was noodzakelijk om potentiële ‘lekkers’ in de lexicon die door het onderzoek werd gevormd te identificeren en te disconteren – woorden die zowel in gesponsorde als in niet-gesponsorde inhoud konden voorkomen met weinig onderscheid in hun frequentie en gebruik, om duidelijke patronen voor echt native en gesponsorde inhoud vast te stellen.

Resultaten

Over de geteste methoden voor identificatie werden de beste resultaten behaald met SVM, linearSVC, Random Forest en SGD. Derhalve gingen de onderzoekers verder met het gebruik van SVM in verdere analyse.

De beste modelaanpak voor het extraheren van classificatie over het corpus overschreed 90% nauwkeurigheid, hoewel de onderzoekers opmerken dat het verkrijgen van een duidelijke classificatie moeilijker wordt bij het omgaan met B2B-georiënteerde publicaties, waar de lexicon-overlap tussen waargenomen ‘echte’ en ‘gesponsorde’ inhoud excessief is – misschien omdat de native stijl van bedrijfstaal al meer subjectief is dan de algemene stroom van verslaggeving en analyseconventies, en gemakkelijker een agenda kan verhullen.

t-Distributed Stochastic Neighbor Embedding (t-SNE) plots voor de scheiding van echte en gesponsorde inhoud over de vier publicaties.

t-Distributed Stochastic Neighbor Embedding (t-SNE) plots voor de scheiding van echte en gesponsorde inhoud over de vier publicaties.

Is gesponsorde inhoud ‘nepnieuws’?

Het onderzoek van de auteurs suggereert dat hun project nieuw is in het veld van nieuwsinhoudanalyse. Kaders die in staat zijn om gesponsorde inhoud te identificeren, kunnen de weg vrijmaken voor het ontwikkelen van jaar-op-jaar monitoring van het evenwicht tussen objectieve journalistiek en de groeiende hoeveelheid ‘native advertenties’ die in bijna hetzelfde context in de meeste publicaties zitten, met het gebruik van dezelfde visuele hints (CSS-stijlbladen en andere opmaak) als algemene inhoud.

In een zeker opzicht is het frequente gebrek aan duidelijke context voor gesponsorde inhoud een subveld van de studie van ‘nepnieuws’. Hoewel de meeste uitgevers erkennen dat er een noodzaak is om een scheiding te maken tussen ‘kerk en staat’, en de verplichting om lezers te voorzien van duidelijke scheidingen tussen betaalde en organisch gegenereerde inhoud, hebben de realiteiten van de post-print journalistieke scene en de toegenomen afhankelijkheid van adverteerders de de-emfasering van gesponsorde indicatoren omgezet in een fijne kunst in UI-psychologie. Soms zijn de beloningen van het uitvoeren van gesponsorde inhoud verleidelijk genoeg om een grote optische ramp te riskeren.

In 2015 bood de sociale media- en benchmarkingplatform Quintly een AI-gebaseerde detectiemethode aan om te bepalen of een bericht op Facebook gesponsord is, met een nauwkeurigheidspercentage van 96%. Het jaar daarop beweerde een onderzoek van de Universiteit van Georgia dat de manier waarop uitgevers omgaan met de verklaring van gesponsorde inhoud ‘compliciet met bedrog’ kan zijn.

In 2017 observeerde MediaShift, een organisatie die de kruispunt van media en technologie onderzoekt, dat de New York Times zijn operaties steeds meer monitort via zijn branded content studio, T Brand Studio, met een dalende niveau van transparantie rond gesponsorde inhoud, met het stilzwijgende intentionele resultaat dat lezers niet gemakkelijk kunnen zien of inhoud al dan niet organisch gegenereerd is.

In 2020 ontwikkelde een ander onderzoeksinitiatief uit Nederland machine learning-classificatoren om automatisch te identificeren Russische staatsgefinancierde nieuwsberichten die in Servische nieuwsplatforms verschijnen. Bovendien werd geschat in 2019 dat de ‘media content solutions’ van Forbes 40% van de totale omzet vertegenwoordigen via BrandVoice, het content studio dat door de uitgever in 2010 werd gelanceerd.

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.