Inteligența artificială
Identificarea conținutului sponsorizat în site-urile de știri cu învățare automată

Cercetătorii din Olanda au dezvoltat o nouă metodă de învățare automată capabilă să distingă conținutul sponsorizat sau plătit în cadrul platformelor de știri, cu o precizie de peste 90%, ca răspuns la interesul tot mai mare al agenților de publicitate pentru formatele publicitare „native” care sunt dificil de distins de producția jurnalistică „reală”.
Noul hârtie, intitulat Distingerea conținutului comercial de conținut editorial în Știri, vine de la cercetătorii de la Universitatea Leiden.

Sub-grafice comerciale (roșu) și editoriale (albastru) care reies din analiza datelor. Sursă: https://arxiv.org/pdf/2111.03916.pdf
Autorii observă că, deși publicațiile mai serioase, care pot dicta mai ușor termeni agenților de publicitate, vor depune eforturi rezonabile pentru a distinge „conținutul partenerilor” de fluxul general de știri și analize, standardele se schimbă lent, dar inexorabil, către o integrare sporită între echipele editoriale și cele comerciale ale unei publicații, ceea ce consideră o tendință alarmantă și negativă.
„Capacitatea de a deghiza conținutul, vrând sau invrând, și probabilitatea ca advertorialele să nu fie recunoscute ca atare, chiar dacă sunt etichetate corespunzător, sunt semnificative. Marketerii o numesc [publicitate] nativă dintr-un motiv anume.”

Câteva exemple actuale de publicitate nativă, denumite în mod divers „conținut partener”, „conținut de marcă” și multe alte denumiri concepute pentru a ascunde subtil distincția dintre conținutul nativ și cel plasat comercial pe platformele jurnalistice.
Lucrarea a fost realizată ca parte a unei investigații mai ample asupra culturii de știri în rețea la ACED Reverb Channel, cu sediul în Amsterdam, care se concentrează pe analiza bazată pe date a tendințelor jurnalistice în evoluție.
Obținerea datelor
Pentru a dezvolta date sursă pentru proiect, autorii au folosit 1,000 de articole și 1,000 de reviste publicitare de la patru posturi de știri olandeze și le-au clasificat pe baza caracteristicilor lor textuale. Deoarece setul de date a fost relativ modest ca dimensiune, autorii au evitat abordări la scară înaltă, cum ar fi BERT, și au evaluat în schimb eficacitatea cadrelor de învățare automată mai clasice, inclusiv Suport Vector Machine (SVM), LinearSVC, Arborele de Decizii, Pădurea întâmplătoare, K-Cel mai apropiat vecin (K-NN), Coborâre cu gradient stocastic (SGD) și Naive Bayes.
Corpusul Reverb Channel a reușit să furnizeze cele 1,000 de articole „directe” necesare, dar autorii au trebuit să extragă advertoriale direct de pe cele patru site-uri web olandeze prezentate. Datele obținute sunt disponibil în formă limitată (din cauza problemelor legate de drepturile de autor) la GitHub, împreună cu o parte din codul Python utilizat pentru obținerea și evaluarea datelor.
Cele patru publicații studiate au fost cele politic conservatoare Nu.nl, cu atât mai progresiv Telegraaf, NST, și jurnalul de afaceri De Ondernemer. Fiecare publicație a fost reprezentată în mod egal în date.
A fost necesar să se identifice și să se ignore potențialele „scurgeri de informații” din lexiconul format de cercetare – cuvinte care ar putea apărea în ambele tipuri de conținut cu o mică distincție între frecvența și utilizarea lor, pentru a stabili tipare clare pentru conținutul nativ autentic și cel sponsorizat.
REZULTATE
Din cadrul metodelor testate pentru identificare, cele mai bune rezultate au fost obținute prin SVM, linearSVC, Random Forest și SGD. Prin urmare, cercetătorii au continuat să utilizeze SVM în analize ulterioare.
Cea mai bună abordare model pentru extragerea clasificării în întregul corpus a depășit o precizie de 90%, deși cercetătorii observă că obținerea unei clasificări clare devine mai dificilă atunci când se lucrează cu publicații orientate B2B, unde suprapunerea lexicală dintre conținutul perceput ca fiind „real” și cel „sponsorizat” este excesivă – probabil pentru că stilul nativ al limbajului de afaceri este deja mai subiectiv decât convențiile generale de raportare și analiză și poate ascunde mai ușor o agendă.

t-Incorporare stocastică distribuită vecină (t-SNE) parcele pentru separarea conținutului real și sponsorizat în cele patru publicații.
Este conținutul sponsorizat „știri false”?
Cercetările autorilor sugerează că proiectul lor este inovator în domeniul analizei conținutului știrilor. Cadrele capabile să identifice conținutul sponsorizat ar putea deschide calea către dezvoltarea monitorizării anuale a echilibrului dintre jurnalismul obiectiv și segmentul tot mai mare de „publicitate nativă”, care se află aproape în același context în majoritatea publicațiilor, utilizând aceleași indicii vizuale (foi de stil CSS și alte formatări) ca și conținutul general.
Într-un anumit sens, lipsa frecventă a unui context evident pentru conținutul sponsorizat devine un subdomeniu al studiului „știrilor false”. Deși majoritatea editorilor recunosc necesitatea separării „bisericii de stat” și obligația de a oferi cititorilor diferențe clare între conținutul plătit și cel generat organic, realitățile scenei jurnalistice post-print și dependența crescută de agenții de publicitate au transformat deaccentuarea indicatorilor sponsorizați într-o artă plastică în psihologia interacțiunii cu utilizatorii. Uneori, recompensele difuzării de conținut sponsorizat sunt suficient de tentante pentru a risca... dezastru optic major.
În 2015, rețelele sociale și platforma competitivă de benchmarking Quintly au oferit o detectare bazată pe inteligență artificială. metodă pentru a determina dacă o postare pe Facebook este sponsorizată, pretinzând o rată de acuratețe de 96%. În anul următor, a studiu de la Universitatea din Georgia a susținut că modul în care editorii gestionează declarația conținutului sponsorizat ar putea fi „complice la înșelăciune”.
În 2017, MediaShift, o organizație care examinează intersecția dintre media și tehnologie, observate măsura tot mai mare în care New York Times își monetizează operațiunile prin studioul său de conținut de marcă, T Brand Studio, pretinzând niveluri de transparență în scădere în ceea ce privește conținutul sponsorizat, cu rezultatul tacit intenționat că cititorii nu pot spune cu ușurință dacă conținutul este sau nu generat organic.
În 2020, o altă inițiativă de cercetare din Țările de Jos a dezvoltat clasificatoare pentru învățarea automată identifica automat Știri finanțate de stat rusești care apar pe platformele de știri sârbe. Mai departe, a fost estimativ În 2019, „soluțiile de conținut media” ale Forbes reprezintă 40% din veniturile sale totale prin BrandVoice, studioul de conținut lansat de editor în 2010.