škrbina Prepoznavanje sponzoriranog sadržaja na stranicama s vijestima pomoću strojnog učenja - Unite.AI
Povežite se s nama

Umjetna inteligencija

Prepoznavanje sponzoriranog sadržaja na stranicama s vijestima pomoću strojnog učenja

mm
Ažurirano on

Istraživači iz Nizozemske razvili su novu metodu strojnog učenja koja je sposobna razlikovati sponzorirani ili na neki drugi način plaćeni sadržaj unutar platformi za vijesti, s točnošću većom od 90%, kao odgovor na sve veći interes oglašivača za 'nativne' formate oglašavanja koje je teško razlikovati od 'pravog' novinarskog produkta.

Novo papir, Pod naslovom Razlikovanje reklamnog od uredničkog sadržaja u vijestima, dolazi od istraživača sa Sveučilišta Leiden.

Komercijalni (crveni) i urednički (plavi) podgrafovi koji proizlaze iz analize podataka. Izvor: https://arxiv.org/pdf/2111.03916.pdf

Komercijalni (crveni) i urednički (plavi) podgrafovi koji proizlaze iz analize podataka. Izvor: https://arxiv.org/pdf/2111.03916.pdf

Autori primjećuju da iako će ozbiljnije publikacije, koje mogu lakše diktirati uvjete oglašivačima, uložiti razumne napore da razlikuju 'partnerski sadržaj' od općeg niza vijesti i analiza, standardi se polako, ali neumoljivo pomiču prema većoj integraciji između uredničkog i komercijalne ekipe na outlet, što smatraju alarmantnim i negativnim trendom.

'Sposobnost prikrivanja sadržaja, voljno ili nevoljno, i vjerojatnost da reklamni sadržaji ne budu prepoznati kao takvi, čak i ako su pravilno označeni, značajni su. Marketinški stručnjaci to s razlogom nazivaju izvornim [reklamiranjem].'

Neki aktualni primjeri izvornog oglašavanja, koji se različito nazivaju "partnerski sadržaj", "brand sadržaj" i mnogi drugi nazivi osmišljeni da suptilno prikriju razliku između izvornog i komercijalno plasiranog sadržaja na novinarskim platformama.

Neki aktualni primjeri izvornog oglašavanja, koji se različito nazivaju "partnerski sadržaj", "brand sadržaj" i mnogi drugi nazivi osmišljeni da suptilno prikriju razliku između izvornog i komercijalno plasiranog sadržaja na novinarskim platformama.

Rad je proveden u sklopu šireg istraživanja kulture umreženih vijesti na ACED reverb kanal, sa sjedištem u Amsterdamu, koja se usredotočuje na analizu novih novinarskih trendova temeljenu na podacima.

Prikupljanje podataka

Kako bi razvili izvorne podatke za projekt, autori su upotrijebili 1,000 članaka i 1,000 reklama iz četiriju nizozemskih novinskih kuća i klasificirali ih na temelju njihovih tekstualnih značajki. Budući da je skup podataka bio relativno skromne veličine, autori su izbjegli pristupe visoke razine kao što je BERT i umjesto toga procijenili su učinkovitost klasičnijih okvira strojnog učenja, uključujući Potporni vektorski stroj (SVM), LinearSVC, Stablo odlučivanja, Slučajna šuma, K-najbliži susjed (K-NN), Stohastički gradijentni silazak (SGD) i Naivni Bayes.

Korpus Reverb Channela uspio je opskrbiti 1,000 potrebnih 'pravih' članaka, ali su autori morali izvući reklame izravno s četiri prikazane nizozemske web stranice. Dobiveni podaci su dostupan u ograničenom obliku (zbog problema s autorskim pravima) na GitHubu, zajedno s dijelom Python koda korištenog za dobivanje i procjenu podataka.

Četiri proučavane publikacije bile su politički konzervativne Nu.nl, što progresivniji telegraf, NRC, i poslovni dnevnik De Ondernemer. Svaka je publikacija bila jednako zastupljena u podacima.

Bilo je potrebno identificirati i odbaciti potencijalne 'procurile' u leksikonu formiranom istraživanjem – riječi koje bi se mogle pojaviti u obje vrste sadržaja s malom razlikom između njihove učestalosti i upotrebe, kako bi se uspostavili jasni obrasci za istinski izvorni i sponzorirani sadržaj.

Rezultati

Među metodama testiranim za identifikaciju, najbolje rezultate dobili su SVM, linearSVC, Random Forest i SGD. Stoga su istraživači nastavili koristiti SVM u daljnjoj analizi.

Najbolji pristup modelu za izdvajanje klasifikacije u cijelom korpusu premašio je 90% točnosti, iako istraživači primjećuju da dobivanje jasne klasifikacije postaje teže kada se radi o B2B orijentiranim publikacijama, gdje je leksičko preklapanje između percipiranog 'stvarnog' i 'sponzoriranog' sadržaja. pretjerano – možda zato što je izvorni stil poslovnog jezika već subjektivniji od općeg niza konvencija o izvješćivanju i analizi i može lakše prikriti plan.

t-Distributed Stochastic Neighbor Embedding (t-SNE) crta za odvajanje stvarnog i sponzoriranog sadržaja u četiri publikacije.

t-distribuirano stohastičko ugrađivanje susjeda (t-SNE) planove za odvajanje stvarnog i sponzoriranog sadržaja u četiri publikacije.

Je li sponzorirani sadržaj 'lažna vijest'?

Istraživanja autora sugeriraju da je njihov projekt novina u području analize sadržaja vijesti. Okviri koji mogu identificirati sponzorirani sadržaj mogli bi utrti put razvoju iz godine u godinu praćenja ravnoteže između objektivnog novinarstva i rastuće tranše 'nativnog oglašavanja' koje se nalazi u gotovo istom kontekstu u većini publikacija, koristeći iste vizualne znakove ( CSS stilske tablice i drugo oblikovanje) kao opći sadržaj.

U određenom smislu, česti nedostatak očitog konteksta za sponzorirani sadržaj pojavljuje se kao potpodručje proučavanja 'lažnih vijesti'. Iako većina izdavača prepoznaje potrebu za odvajanjem 'crkve i države' i obvezu da čitateljima pruže jasnu podjelu između plaćenog i organski generiranog sadržaja, stvarnost postprint novinarske scene i povećana ovisnost o oglašivačima promijenili su smanjivanje naglaska sponzoriranih pokazatelja u likovnu umjetnost u psihologiji korisničkog sučelja. Ponekad su nagrade od pokretanja sponzoriranog sadržaja dovoljno primamljive da riskirate a velika optička katastrofa.

Godine 2015. društveni mediji i konkurentska benchmarking platforma Quintly ponudili su otkrivanje temeljeno na umjetnoj inteligenciji način kako bi se utvrdilo je li objava na Facebooku sponzorirana, tvrdeći stopu točnosti od 96%. Sljedeće godine, a učiti sa Sveučilišta Georgia ustvrdio je da bi način na koji izdavači postupaju s deklaracijom o sponzoriranom sadržaju mogao biti 'suučesnik u obmani'.

U 2017. MediaShift, organizacija koja ispituje raskrižje između medija i tehnologije, promatranom sve veći stupanj u kojem New York Times monetizira svoje operacije putem svog brendiranog studija sadržaja, T Brand Studio, tvrdeći da su razine transparentnosti oko sponzoriranog sadržaja sve manje, s prešutno namjernim rezultatom da čitatelji ne mogu lako reći je li sadržaj organski generiran ili nije.

Godine 2020. još jedna istraživačka inicijativa iz Nizozemske razvila je klasifikatore strojnog učenja za automatski identificirati Vijesti koje financira ruska država pojavljuju se na srbijanskim novinskim platformama. Nadalje, bilo je procijenjen u 2019. da Forbesova 'rješenja za medijski sadržaj' čine 40% njegovih ukupnih prihoda putem BrandVoicea, sadržaja studija koji je izdavač pokrenuo 2010.