Connect with us

Inteligență artificială

Identificarea conținutului sponsorizat pe site-urile de știri cu ajutorul învățării automate

mm

Cercetători din Țările de Jos au dezvoltat o nouă metodă de învățare automată care poate distinge conținutul sponsorizat sau plătit în cadrul platformelor de știri, cu o acuratețe de peste 90%, ca răspuns la interesul tot mai mare al publicitarilor pentru formatele de publicitate “native” care sunt greu de diferențiat de producția jurnalistică “reală”.

Noul articol, intitulat Distingerea conținutului comercial de cel editorial în știri, provine de la cercetători de la Universitatea Leiden.

Subgrafuri comerciale (roșu) și editoriale (albastru) care apar în urma analizei datelor. Sursă: https://arxiv.org/pdf/2111.03916.pdf

Subgrafuri comerciale (roșu) și editoriale (albastru) care apar în urma analizei datelor. Sursă: https://arxiv.org/pdf/2111.03916.pdf

Autorii observă că, deși publicațiile mai serioase, care pot dicta termenii publicitarilor, vor face eforturi rezonabile pentru a distinge “conținutul partener” de știrile și analizele generale, standardele se schimbă încet dar inexorabil către o integrare crescută între echipele editoriale și comerciale ale unei publicații, pe care le consideră o tendință alarmantă și negativă.

‘Capacitatea de a masca conținutul, conștient sau inconștient, și probabilitatea ca articolele publicitare să nu fie recunoscute ca atare, chiar dacă sunt etichetate corespunzător, este semnificativă. Publicitarilor le place să o numească publicitate “native” pentru un motiv.’

Exemple actuale de publicitate “native”, numite și “conținut partener”, “conținut de marcă” și alte denumiri care urmăresc să obscureze subtil distincția dintre conținutul “native” și cel plasat comercial în platformele jurnalistice.

Lucrarea a fost realizată ca parte a unei investigații mai ample privind cultura știrilor în rețea la ACED Reverb Channel, cu sediul în Amsterdam, care se concentrează pe analiza datelor privind tendințele jurnalistice în evoluție.

Obținerea datelor

Pentru a dezvolta datele sursă pentru proiect, autorii au utilizat 1.000 de articole și 1.000 de articole publicitare de la patru publicații olandeze de știri și le-au clasificat pe baza caracteristicilor textuale. Deoarece setul de date a fost relativ modest ca mărime, autorii au evitat abordările la scară largă, cum ar fi BERT, și au evaluat în schimb eficacitatea cadrului de învățare automată mai clasic, inclusiv Support Vector Machine (SVM), LinearSVC, Decision Tree, Random Forest, K-Nearest Neighbor (K-NN), Stochastic Gradient Descent (SGD) și Naïve Bayes.

Corpusul Reverb Channel a putut furniza cele 1.000 de articole “drepte” necesare, dar autorii au trebuit să extragă articolele publicitare direct de pe cele patru site-uri olandeze de știri. Datele obținute sunt disponibile în formă limitată (din cauza problemelor de drepturi de autor) pe GitHub, împreună cu unele dintre codurile Python utilizate pentru a obține și evalua datele.

Cele patru publicații studiate au fost publicația conservatoare Nu.nl, publicația progresistă Telegraaf, NRC și revista de afaceri De Ondernemer. Fiecare publicație a fost reprezentată în mod egal în date.

A fost necesar să se identifice și să se discounteze potențialii “scurgeri” în lexicul format de cercetare – cuvinte care ar putea apărea în ambele tipuri de conținut cu puțină distincție între frecvența și utilizarea lor, pentru a stabili tipare clare pentru conținutul “native” și sponsorizat.

Rezultate

În cadrul metodelor testate pentru identificare, cele mai bune rezultate au fost obținute de SVM, linearSVC, Random Forest și SGD. Prin urmare, cercetătorii au procedat la utilizarea SVM în analizele ulterioare.

Cel mai bun model de abordare pentru extragerea clasificării pe întregul corpus a depășit 90% acuratețe, deși cercetătorii notează că obținerea unei clasificări clare devine mai dificilă atunci când se lucrează cu publicații orientate către B2B, unde suprapunerea lexicală dintre conținutul “real” și “sponsorizat” perceput este excesivă – poate pentru că stilul “native” al limbajului de afaceri este deja mai subiectiv decât convențiile generale de raportare și analiză și poate ascunde mai ușor o agendă.

Ploturi t-Distributed Stochastic Neighbor Embedding (t-SNE) pentru separarea conținutului real și sponsorizat pe cele patru publicații.

Ploturi t-Distributed Stochastic Neighbor Embedding (t-SNE) pentru separarea conținutului real și sponsorizat pe cele patru publicații.

Este conținutul sponsorizat “știri false”?

Cercetarea autorilor sugerează că proiectul lor este nou în domeniul analizei conținutului de știri. Cadrele capabile să identifice conținutul sponsorizat ar putea deschide calea pentru dezvoltarea unui monitorizări anuale a echilibrului dintre jurnalismul obiectiv și tranșa tot mai mare de “publicitate nativă” care se află în același context în majoritatea publicațiilor, utilizând aceleași indicii vizuale (fișiere CSS și alte formate) ca și conținutul general.

Într-un anumit sens, lipsa frecventă a unui context evident pentru conținutul sponsorizat este în curs de a deveni un subdomeniu al studiului “știrilor false”. Deși majoritatea publicațiilor recunosc nevoia de separare a “bisericii și statului” și obligația de a oferi cititorilor diviziuni clare între conținutul plătit și cel generat organic, realitățile scenei jurnalistice post-tipărită și dependența crescută de publicitari au transformat sublinierea indicatorilor de sponsorizare într-o artă fină în psihologia UI. Uneori, recompensele pentru rularea conținutului sponsorizat sunt suficient de tentante pentru a risca un dezastru optic major.

În 2015, platforma de social media și benchmarking competitiv Quintly a oferit o metodă de detectare bazată pe IA pentru a determina dacă o postare pe Facebook este sponsorizată, afirmând o rată de acuratețe de 96%. Anul următor, un studiu de la Universitatea din Georgia a susținut că modul în care publicațiile gestionează declarația de conținut sponsorizat poate fi ‘complici la înșelăciune’.

În 2017, MediaShift, o organizație care examinează intersecția dintre mass-media și tehnologie, a observat extinderea tot mai mare a New York Times pentru a-și monetiza operațiunile prin studio-ul său de conținut de marcă, T Brand Studio, afirmând niveluri tot mai scăzute de transparență în jurul conținutului sponsorizat, cu rezultatul tacit intenționat că cititorii nu pot determina ușor dacă conținutul este generat organic sau nu.

În 2020, o altă inițiativă de cercetare din Țările de Jos a dezvoltat clasificatori de învățare automată pentru a identifica automat știrile finanțate de statul rus care apar în platformele de știri sârbe. Mai mult, s-a estimat în 2019 că “soluțiile de conținut media” ale Forbes reprezintă 40% din veniturile sale totale prin BrandVoice, studio-ul de conținut lansat de publicație în 2010.

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.