tunggul Ngidentipikasi Eusi Sponsor dina Situs Warta Kalayan Pembelajaran Mesin - Unite.AI
Connect with kami

Kacerdasan buatan

Ngidentipikasi Eusi Sponsor dina Situs Warta Kalayan Pembelajaran Mesin

mm
diropéa on

Panaliti ti Walanda parantos ngembangkeun metode pembelajaran mesin énggal anu tiasa ngabédakeun kontén anu disponsoran atanapi anu dibayar dina platform warta, dugi ka akurasi langkung ti 90%, pikeun ngaréspon kana paningkatan minat pangiklan dina format iklan 'asli' anu hese ngabédakeun tina kaluaran jurnalistik 'nyata'.

nu anyar keretas, judulna Ngabédakeun Komersial sareng Eusi Redaksi dina Warta, asalna ti peneliti di Universitas Leiden.

Sub-grafik komérsial (beureum) sareng redaksi (biru) muncul tina analisis data. Sumber: https://arxiv.org/pdf/2111.03916.pdf

Sub-grafik komérsial (beureum) sareng redaksi (biru) muncul tina analisis data. Sumber: https://arxiv.org/pdf/2111.03916.pdf

Nu nulis niténan yén sanajan publikasi leuwih serius, nu bisa leuwih gampang ngarahkeunnana istilah ka advertisers, bakal nyieun usaha lumrah pikeun ngabedakeun 'eusi pasangan' tina ngajalankeun umum warta jeung analisis, standar anu lalaunan tapi inexorably shifting kana ngaronjat integrasi antara redaksi. sarta tim komérsial on hiji outlet, nu maranéhna nganggap hiji trend alarming jeung négatip.

'Kamampuhan pikeun nyamur eusi, daék atawa teu daék, sarta kamungkinan yén advertorials teu dipikawanoh kitu sanajan leres dilabélan signifikan. Marketers nelepon eta pituin [iklan] pikeun alesan.'

Sababaraha conto iklan pituin ayeuna, anu disebat 'content partner', 'content brand', sareng seueur sebutan sanésna anu dirarancang pikeun sacara halus teu jelas ngabédakeun antara eusi asli sareng anu ditempatkeun komersil dina platform jurnalistik.

Sababaraha conto iklan pituin ayeuna, anu disebat 'content partner', 'content brand', sareng seueur sebutan sanésna anu dirarancang pikeun sacara halus teu jelas ngabédakeun antara eusi asli sareng anu ditempatkeun komersil dina platform jurnalistik.

Karya ieu dilaksanakeun salaku bagian tina panalungtikan lega kana budaya warta networked di ACED Reverb Channel, dumasar di Amsterdam, nu concentrates on analisis data-disetir tren jurnalistik ngembang.

Meunangkeun Data

Pikeun ngembangkeun data sumber pikeun proyék éta, pangarang ngagunakeun 1,000 artikel sareng 1,000 advertorial ti opat toko warta Walanda sareng ngagolongkeunana dumasar kana fitur tékstualna. Kusabab set datana ukuranana rada sederhana, panulis ngahindarkeun pendekatan skala luhur sapertos BERT, sareng ngevaluasi efektivitas kerangka pembelajaran mesin anu langkung klasik, kalebet. Rojongan Mesin Véktor (SVM), LinearSVC, Kaputusan Kaputusan, Leuweung Acak, K-Tatangga Pangdeukeutna (K-NN), Stokastik Gradién turunan (SGD) jeung Naïve Bayes.

Korpus Reverb Channel tiasa nyayogikeun 1,000 tulisan 'lurus' anu diperyogikeun, tapi pangarang kedah ngikis advertorial langsung tina opat situs web Walanda anu ditampilkeun. Data anu dicandak nyaéta kasadia dina bentuk kawates (kusabab masalah hak cipta) di GitHub, sareng sababaraha kode Python anu dianggo pikeun nyandak sareng ngaevaluasi data.

Opat publikasi anu ditalungtik nyaéta konservatif politis Nu.nl, beuki maju telegrap, NRC, jeung jurnal bisnis De Ondernemer. Unggal publikasi ieu sarua digambarkeun dina data.

Ieu diperlukeun pikeun ngaidentipikasi jeung diskon poténsi 'leakers' dina léksikon dibentuk ku panalungtikan - kecap nu bisa muncul dina duanana jenis eusi kalawan saeutik bédana antara frékuénsi sarta pamakéan maranéhanana, guna nyieun pola jelas keur eusi asli asli jeung disponsoran.

Results

Sakuliah métode diuji pikeun idéntifikasi, hasil pangalusna dicandak ku SVM, linearSVC, Random Forest jeung SGD. Kituna panalungtik proceeded ngagunakeun SVM dina analisis salajengna.

Pendekatan model pangalusna pikeun ékstraksi klasifikasi sakuliah korpus ngaleuwihan akurasi 90%, sanajan peneliti dicatet yén meunangkeun klasifikasi jelas jadi leuwih hese lamun kaayaan publikasi B2B-berorientasi, dimana tumpang tindihna leksikal antara ditanggap 'nyata' jeung 'disponsoran' eusi. kaleuleuwihan - meureun kusabab gaya basa bisnis asli parantos langkung subjektif tibatan konvénsi ngalaporkeun sareng analisa umum, sareng tiasa langkung gampang nyumputkeun agenda.

t-Distributed Stochastic Neighbor Embedding (t-SNE) plot pikeun misahkeun eusi nyata jeung disponsoran sakuliah opat publikasi.

t-Distributed Stochastic Neighbor Embedding (t-SNE) plot pikeun misahkeun eusi nyata jeung disponsoran sakuliah opat publikasi.

Naha Eusi Sponsor 'Warta Palsu'?

Panalungtikan pangarang nunjukkeun yén proyék maranéhanana mangrupa novel dina widang analisis eusi warta. Kerangka anu tiasa ngaidentipikasi kontén anu disponsoran tiasa muka jalan pikeun ngembangkeun ngawaskeun taun-taun kasaimbangan antara jurnalisme objektif sareng tranche ngembang 'iklan asli' anu aya dina kontéks anu ampir sami dina kalolobaan publikasi, nganggo petunjuk visual anu sami ( CSS stylesheets jeung pormat sejenna) salaku eusi umum.

Dina rasa anu tangtu, sering kurangna kontéks anu jelas pikeun kontén anu disponsoran muncul salaku sub-widang ulikan ngeunaan 'warta palsu'. Padahal sabagéan ageung penerbit ngakuan kabutuhan pikeun misahkeun 'garéja sareng nagara', sareng kawajiban pikeun nyayogikeun pamiarsa kalayan ngabagi anu jelas antara eusi anu dibayar sareng anu dihasilkeun sacara organik, realitas pamandangan jurnalistik pasca-print, sareng ningkat gumantungna kana pangiklan, parantos ngancik. de-tekenan indikator disponsoran kana seni rupa dina psikologi UI. Kadang-kadang ganjaran ngajalankeun eusi disponsoran cukup pikabitaeun resiko a musibah optik utama.

Dina 2015 média sosial sareng platform benchmarking kalapa Quintly nawiskeun deteksi berbasis AI metode pikeun nangtukeun lamun hiji pos on Facebook disponsoran, ngaku hiji laju akurasi 96%. Taun saterusna, a diajar ti Universitas Georgia contended yén cara penerbit nanganan deklarasi eusi disponsoran bisa jadi 'complicate kalawan tipuan'.

Dina 2017 MediaShift, hiji organisasi anu nalungtik simpang antara média jeung téhnologi, observasi extent tumuwuh nu New York Times monetizes operasi na ngaliwatan studio eusi branded na, T Brand Studio, ngaku tingkat diminishing transparansi sabudeureun eusi disponsoran, kalawan hasil tacitly ngahaja yén pamiarsa teu bisa kalayan gampang ngabejaan naha atawa henteu eusi dihasilkeun sacara organik.

Taun 2020, prakarsa panilitian sanés ti Walanda ngembangkeun klasifikasi mesin learning pikeun otomatis ngaidentipikasi Warta anu dibiayaan nagara Rusia muncul dina platform warta Serbia. Salajengna, éta ditaksir dina 2019 yén Forbes 'solusi eusi media' akun pikeun 40% tina total pendapatan na ngaliwatan BrandVoice, studio eusi dibuka ku penerbit dina 2010.