Connect with us

Kunstig intelligens

Identifisering av sponsede innhold på nyhetssider med maskinlæring

mm

Forskere fra Nederland har utviklet en ny maskinlæringsmetode som kan skille mellom sponsede eller betalte innhold på nyhetsplattformer, med en nøyaktighet på over 90%, som svar på den økende interessen fra annonserere i ‘native’ annonseringsformater som er vanskelige å skille fra ‘ekte’ journalistiske utgangspunkt.

Den nye artikkelen, med tittelen Å skille kommersielt fra redaksjonelt innhold i nyheter, kommer fra forskere ved Leiden Universitet.

Kommersielle (røde) og redaksjonelle (blå) sub-graffer som kommer fra analyse av dataene. Kilde: https://arxiv.org/pdf/2111.03916.pdf

Kommersielle (røde) og redaksjonelle (blå) sub-graffer som kommer fra analyse av dataene. Kilde: https://arxiv.org/pdf/2111.03916.pdf

Forfatterne observerer at selv om mer seriøse publikasjoner, som kan dikte betingelser for annonserere, vil gjøre en rimelig innsats for å skille ‘partnerinnhold’ fra generell nyhets- og analysestrøm, er standardene langsomt men uavbrutt skiftende til økt integrasjon mellom redaksjonelle og kommersielle team på en utgivelse, som de betrakter som en alarmerende og negativ trend.

‘Evnen til å forkle innhold, villig eller ufrivillig, og sannsynligheten for at annonseringsinnhold ikke gjenkjennes som sådan, selv om de er korrekt merket, er betydelig. Markedsførerne kaller det native [annonsering] av en grunn.’

Noen nåværende eksempler på native annonsering, som kalles 'partnerinnhold', 'merkeinnhold' og mange andre betegnelser designet for å skjule skillet mellom native og kommersielt plassert innhold i journalistiske plattformer.

Noen nåværende eksempler på native annonsering, som kalles ‘partnerinnhold’, ‘merkeinnhold’ og mange andre betegnelser designet for å skjule skillet mellom native og kommersielt plassert innhold i journalistiske plattformer.

Arbeidet ble gjennomført som en del av en bredere undersøkelse av nettverksnyhetskultur ved ACED Reverb Channel, basert i Amsterdam, som konsentrerer seg om data-drevet analyse av utviklingstrender i journalistikk.

Å samle inn data

For å utvikle kilde-data for prosjektet, brukte forfatterne 1 000 artikler og 1 000 annonseringsinnhold fra fire nederlandske nyhetsutgivelser og klassifiserte dem basert på deres tekstlige egenskaper. Ettersom datasettet var relativt beskjedent i størrelse, unngikk forfatterne høyskala-tilnærminger som BERT, og evaluerte i stedet effektiviteten av mer klassiske maskinlærings-rammeverk, inkludert Support Vector Machine (SVM), LinearSVC, Decision Tree, Random Forest, K-Nearest Neighbor (K-NN), Stochastic Gradient Descent (SGD) og Naïve Bayes.

Reverb-kanalen kunne levere de 1 000 nødvendige ‘rette’ artiklene, men forfatterne måtte skrape annonseringsinnhold direkte fra de fire nederlandske nettstedene som var med. De innhentede dataene er tilgjengelige i begrenset form (på grunn av opphavsrettsproblemer) på GitHub, sammen med noen av Python-koden som ble brukt til å innhente og evaluere dataene.

De fire publikasjonene som ble studert, var det politisk konservative Nu.nl, det mer progressive Telegraaf, NRC og forretningsbladet De Ondernemer. Hver publikasjon var like representert i dataene.

Det var nødvendig å identifisere og diskontere potensielle ‘lekkasjer’ i leksikonet som ble dannet av forskningen – ord som kunne forekomme i både typer innhold med liten forskjell i frekvens og bruk, for å etablere klare mønster for ekte native og sponsede innhold.

Resultater

Over de metoder som ble testet for identifisering, ble de beste resultatene oppnådd av SVM, linearSVC, Random Forest og SGD. Derfor fortsatte forskerne å bruke SVM i videre analyse.

Den beste modelltilnærmingen for å trekke ut klassifisering over korpusen oversteg 90% nøyaktighet, selv om forskerne merker at å oppnå en klar klassifisering blir vanskeligere når det gjelder B2B-orienterte publikasjoner, hvor den leksikalske overlappen mellom oppfattet ‘ekte’ og ‘sponsede’ innhold er overveldende – kanskje fordi den native stilen i forretnings språk allerede er mer subjektiv enn den generelle strømmen av rapportering og analysekonvensjoner, og kan lettere skjule en agenda.

t-Distributed Stochastic Neighbor Embedding (t-SNE) plots for å skille ekte og sponsede innhold over de fire publikasjonene.

t-Distributed Stochastic Neighbor Embedding (t-SNE) plots for å skille ekte og sponsede innhold over de fire publikasjonene.

Er sponsede innhold ‘falske nyheter’?

Forskerne mener at deres prosjekt er nytt i feltet for nyhetsinnholdsanalyse. Rammer som kan identifisere sponsede innhold kan åpne veien for å utvikle år-for-år-overvåking av balansen mellom objektiv journalistikk og den økende andelen ‘native annonsering’ som sitter i nesten samme kontekst i de fleste publikasjoner, med samme visuelle signaler (CSS-stylesheets og andre formatering) som generell innhold.

På en måte er den hyppige mangelen på åpen kontekst for sponsede innhold en underfelt av studiet av ‘falske nyheter’. Selv om de fleste utgivere erkjenner behovet for å skille ‘kirke og stat’, og plikten til å gi lesere klare skillelinjer mellom betalt og organisk generert innhold, har realitetene i den post-trykte journalistiske scenen og økt avhengighet av annonserere, gjort nedtoningen av sponsede indikatorer til en fin kunst i UI-psykologi. Noen ganger er belønningene for å kjøre sponsede innhold tilstrekkelig til å risikere en stor optisk katastrofe.

I 2015 tilbød den sosiale medie- og konkurransebenchmark-plattformen Quintly en AI-basert deteksjonsmetode for å bestemme om et innlegg på Facebook er sponsede, med en påstand om en nøyaktighetsrate på 96%. Året etter, hevdet en studie fra University of Georgia at måten utgivere håndterer erklæringen av sponsede innhold kan være ‘medskyldig i bedrag’.

I 2017 observerte MediaShift, en organisasjon som undersøker skjæringspunktet mellom media og teknologi, at New York Times øker sin kommersielle virksomhet gjennom sitt merkeinnholdsstudio, T Brand Studio, med påstand om at nivået av åpenhet rundt sponsede innhold er synkende, med den underforståtte hensikten at lesere ikke lett kan se om innhold er organisk generert eller ikke.

I 2020 utviklet et annet forskningsinitiativ fra Nederland maskinlæringsklassifikatorer for å automatisk identifisere russisk statlig finansiert nyheter som vises i serbiske nyhetsplattformer. Videre ble det estimert i 2019 at Forbes’ ‘media content solutions’ står for 40% av deres totale inntekter gjennom BrandVoice, innholdsstudioet som ble lansert av utgiveren i 2010.

Forfatter på maskinlæring, domeneekspert på menneskesynthese. Tidligere leder for forskningsinnhold på Metaphysic.ai.