Kecerdasan buatan

Mengidentifikasi Konten yang Disponsori di Situs Berita dengan Machine Learning

Published November 11, 2021

Updated April 26, 2026

Martin Anderson

Peneliti dari Belanda telah mengembangkan metode machine learning baru yang mampu membedakan konten yang disponsori atau dibayar lainnya dalam platform berita, dengan akurasi lebih dari 90%, sebagai respons atas minat yang meningkat dari pengiklan dalam format iklan ‘native’ yang sulit dibedakan dari ‘output jurnalistik yang sebenarnya’.

Penelitian baru paper, berjudul Membedakan Konten Komersial dari Konten Editorial di Berita, berasal dari peneliti di Leiden University.

Sub-graf komersial (merah) dan editorial (biru) yang muncul dari analisis data. Source: https://arxiv.org/pdf/2111.03916.pdf

Penulis mengamati bahwa meskipun publikasi yang lebih serius, yang dapat lebih mudah menentukan syarat untuk pengiklan, akan membuat upaya yang wajar untuk membedakan ‘konten mitra’ dari berita dan analisis umum, standar tersebut perlahan-lahan tetapi tak terelakkan bergeser ke integrasi yang lebih besar antara tim editorial dan komersial di sebuah outlet, yang mereka anggap sebagai tren yang mengkhawatirkan dan negatif.

‘Kemampuan untuk menyamar konten, dengan atau tanpa sengaja, dan kemungkinan bahwa advertorial tidak dikenali sebagai tersebut bahkan jika diberi label yang tepat adalah signifikan. Pemasar menyebutnya iklan native untuk sebuah alasan.’

Beberapa contoh iklan native saat ini, yang disebut ‘konten mitra’, ‘konten merek’, dan banyak nama lain yang dirancang untuk mengaburkan perbedaan antara konten native dan konten yang ditempatkan secara komersial di platform jurnalistik.

Penelitian ini dilakukan sebagai bagian dari penyelidikan yang lebih luas tentang budaya berita yang terjaring di ACED Reverb Channel, yang berbasis di Amsterdam, yang berkonsentrasi pada analisis data tentang tren jurnalistik yang berkembang.

Mengumpulkan Data

Untuk mengembangkan data sumber untuk proyek ini, penulis menggunakan 1.000 artikel dan 1.000 advertorial dari empat outlet berita Belanda dan mengklasifikasikannya berdasarkan fitur teksnya. Karena dataset relatif kecil, penulis menghindari pendekatan skala besar seperti BERT, dan sebagai gantinya mengevaluasi efektivitas kerangka machine learning yang lebih klasik, termasuk Support Vector Machine (SVM), LinearSVC, Decision Tree, Random Forest, K-Nearest Neighbor (K-NN), Stochastic Gradient Descent (SGD) dan Naïve Bayes.

Korpus Reverb Channel dapat menyediakan 1.000 artikel ‘lurus’ yang diperlukan, tetapi penulis harus mengumpulkan advertorial secara langsung dari empat situs web Belanda yang ditampilkan. Data yang diperoleh tersedia dalam bentuk terbatas (karena kekhawatiran hak cipta) di GitHub, bersama dengan beberapa kode Python yang digunakan untuk mengumpulkan dan mengevaluasi data.

Keempat publikasi yang dipelajari adalah Nu.nl yang konservatif, Telegraaf yang lebih progresif, NRC, dan jurnal bisnis De Ondernemer. Setiap publikasi memiliki perwakilan yang sama dalam data.

Diperlukan untuk mengidentifikasi dan menghilangkan ‘leaker’ potensial dalam leksikon yang dibentuk oleh penelitian – kata-kata yang mungkin muncul dalam kedua jenis konten dengan sedikit perbedaan dalam frekuensi dan penggunaan, untuk membangun pola yang jelas untuk konten native dan disponsori yang sebenarnya.

Hasil

Di seluruh metode yang diuji untuk identifikasi, hasil terbaik diperoleh oleh SVM, linearSVC, Random Forest dan SGD. Oleh karena itu, peneliti melanjutkan untuk menggunakan SVM dalam analisis lebih lanjut.

Pendekatan model terbaik untuk mengekstrak klasifikasi di seluruh korpus melebihi 90% akurasi, meskipun peneliti mencatat bahwa mendapatkan klasifikasi yang jelas menjadi lebih sulit ketika menangani publikasi yang berorientasi B2B, di mana tumpang tindih leksikal antara konten ‘sebenarnya’ dan ‘disponsori’ berlebihan – mungkin karena gaya bahasa bisnis yang sudah lebih subjektif daripada konvensi pelaporan dan analisis umum, dan dapat lebih mudah menyembunyikan agenda.

Plot t-Distributed Stochastic Neighbor Embedding (t-SNE) untuk pemisahan konten sebenarnya dan disponsori di seluruh empat publikasi.

Apakah Konten yang Disponsori ‘Berita Palsu’?

Penelitian penulis ini menunjukkan bahwa proyek mereka adalah yang pertama dalam bidang analisis konten berita. Kerangka yang mampu mengidentifikasi konten yang disponsori dapat membuka jalan untuk mengembangkan pemantauan tahunan tentang keseimbangan antara jurnalistik objektif dan konten ‘iklan native’ yang tumbuh yang duduk hampir dalam konteks yang sama di sebagian besar publikasi, menggunakan petunjuk visual yang sama (CSS stylesheets dan formatting lainnya) seperti konten umum.

Dalam arti tertentu, kurangnya konteks yang jelas untuk konten yang disponsori muncul sebagai sub-lapangan dari studi ‘berita palsu’. Meskipun sebagian besar penerbit mengakui kebutuhan untuk pemisahan ‘gereja dan negara’, dan kewajiban untuk memberikan pembaca dengan divisi yang jelas antara konten yang dibayar dan konten yang dihasilkan secara organik, kenyataan dari adegan jurnalistik pasca-cetak, dan ketergantungan yang meningkat pada pengiklan, telah mengubah penekanan pada indikator yang disponsori menjadi seni halus dalam psikologi UI. Terkadang imbalan dari menjalankan konten yang disponsori cukup menggoda untuk mengambil risiko bencana optik besar.

Pada 2015, platform media sosial dan benchmarking kompetitif Quintly menawarkan metode deteksi berbasis AI untuk menentukan apakah postingan di Facebook disponsori, dengan tingkat akurasi 96%. Tahun berikutnya, sebuah studi dari University of Georgia berpendapat bahwa cara penerbit menangani deklarasi konten yang disponsori dapat ‘bersalah dengan penipuan’.

Pada 2017, MediaShift, sebuah organisasi yang mengeksaminasi persimpangan antara media dan teknologi, mengamati sejauh mana The New York Times memonetisasi operasinya melalui studio konten mereknya, T Brand Studio, dengan klaim bahwa tingkat transparansi sekitar konten yang disponsori menurun, dengan hasil yang disengaja bahwa pembaca tidak dapat dengan mudah mengetahui apakah konten dihasilkan secara organik atau tidak.

Pada 2020, sebuah inisiatif penelitian lain dari Belanda mengembangkan klasifikasi machine learning untuk mengidentifikasi secara otomatis berita yang didanai oleh negara Rusia yang muncul di platform berita Serbia. Selanjutnya, diperkirakan pada 2019 bahwa ‘solusi konten media’ Forbes menyumbang 40% dari total pendapatannya melalui BrandVoice, studio konten yang diluncurkan oleh penerbit pada 2010.