заглушки Виявлення спонсорованого контенту на новинних сайтах за допомогою машинного навчання - Unite.AI
Зв'язатися з нами

Штучний Інтелект

Виявлення спонсорованого вмісту на новинних сайтах за допомогою машинного навчання

mm
оновлений on

Дослідники з Нідерландів розробили новий метод машинного навчання, який здатний розрізняти спонсорований або інший платний контент на новинних платформах з точністю понад 90%, у відповідь на зростаючий інтерес рекламодавців до «рідних» рекламних форматів, які важко розпізнати. відрізняти від «справжньої» журналістської продукції.

Новий папір, Під назвою Відрізнення рекламного від редакційного вмісту в новинах, походить від дослідників з Лейденського університету.

Комерційні (червоний) і редакційний (синій) підграфіки, отримані в результаті аналізу даних. Джерело: https://arxiv.org/pdf/2111.03916.pdf

Комерційні (червоний) і редакційний (синій) підграфіки, отримані в результаті аналізу даних. Джерело: https://arxiv.org/pdf/2111.03916.pdf

Автори зауважують, що хоча серйозніші видання, яким легше диктувати умови рекламодавцям, докладуть розумних зусиль, щоб відрізнити «контент партнера» від загального випуску новин і аналітики, стандарти повільно, але невблаганно зміщуються до посилення інтеграції між редакційними і комерційних колективів на аутлет, що вони вважають тривожною та негативною тенденцією.

«Здатність маскувати вміст, свідомо чи мимовільно, і ймовірність того, що рекламні ролики не будуть розпізнані як такі, навіть якщо вони належним чином позначені, є значною. Маркетологи неспроста називають це нативною [рекламою].

Кілька актуальних прикладів нативної реклами, яку по-різному називають «контентом партнера», «вмістом бренду» та багатьма іншими найменуваннями, розробленими для того, щоб тонко приховати різницю між нативним і комерційним вмістом на журналістських платформах.

Кілька актуальних прикладів нативної реклами, яку по-різному називають «контентом партнера», «вмістом бренду» та багатьма іншими найменуваннями, розробленими для того, щоб тонко приховати різницю між нативним і комерційним вмістом на журналістських платформах.

Робота була виконана в рамках ширшого дослідження культури мережевих новин на Канал реверберації ACED, яка базується в Амстердамі та зосереджується на аналізі змінених журналістських тенденцій на основі даних.

Отримання даних

Щоб розробити вихідні дані для проекту, автори використали 1,000 статей і 1,000 рекламних матеріалів із чотирьох голландських ЗМІ та класифікували їх на основі їхніх текстових особливостей. Оскільки набір даних був відносно скромним за розміром, автори уникали високомасштабних підходів, таких як BERT, і натомість оцінювали ефективність більш класичних фреймворків машинного навчання, у тому числі Підтримка векторної машини (SVM), ЛінійнийSVC, Дерево рішень, Випадковий ліс, K-найближчий сусід (К-НН), Стохастичний градієнтний спуск (SGD) і Наївний Байєс.

Корпус Reverb Channel зміг надати 1,000 необхідних «прямих» статей, але авторам довелося скидати рекламні ролики безпосередньо з чотирьох представлених голландських веб-сайтів. Отримані дані є доступний в обмеженій формі (через проблеми з авторським правом) на GitHub разом із частиною коду Python, який використовується для отримання та оцінки даних.

Чотири досліджувані видання були політично консервативними Nu.nl, тим прогресивніше Телеграфний, NRC, та діловий журнал Підприємець. Кожна публікація була однаково представлена ​​в даних.

Необхідно було виявити й усунути потенційних «витоків» у лексиконі, сформованому дослідженням – слова, які могли з’являтися в обох типах вмісту з невеликою різницею між їх частотою та використанням, щоб встановити чіткі шаблони для справді рідного та спонсорованого вмісту.

результати

Серед методів, протестованих для ідентифікації, найкращі результати отримали SVM, linearSVC, Random Forest і SGD. Тому дослідники продовжили використовувати SVM у подальшому аналізі.

Найкращий модельний підхід для виділення класифікації в усьому корпусі перевищив 90% точності, хоча дослідники відзначають, що отримати чітку класифікацію стає важче, коли мова йде про B2B-орієнтовані публікації, де лексичне збіг між сприйнятим «реальним» і «спонсорованим» вмістом є надмірний – можливо, тому, що рідний стиль ділової мови вже є більш суб’єктивним, ніж загальна система звітності та аналізу, і може легше приховати порядок денний.

t-Distributed Stochastic Neighbor Embedding (t-SNE) графіки для поділу реального та спонсорованого вмісту між чотирма публікаціями.

t-розподілене стохастичне вбудовування сусідів (t-SNE) сюжети для розділення реального та спонсорованого контенту між чотирма публікаціями.

Чи є спонсорований вміст «фейковими новинами»?

Дослідження авторів показують, що їхній проект є новим у сфері аналізу контенту новин. Фреймворки, здатні ідентифікувати спонсорований контент, можуть прокласти шлях до розвитку щорічного моніторингу балансу між об’єктивною журналістикою та зростаючою часткою «нативної реклами», яка в більшості публікацій знаходиться майже в тому самому контексті, використовуючи однакові візуальні підказки ( таблиці стилів CSS та інше форматування) як загальний вміст.

У певному сенсі часта відсутність очевидного контексту для спонсорованого контенту стає підсферою дослідження «фейкових новин». Хоча більшість видавців визнають необхідність відокремлення «церкви від держави», а також зобов’язання надати читачам чіткий розподіл між платним і органічно створеним контентом, реалії пост-друкованої журналістської сцени та підвищена залежність від рекламодавців змінили зменшення акценту на спонсорованих індикаторах у образотворчому мистецтві в психології UI. Іноді винагорода від розміщення спонсорованого контенту досить спокуслива, щоб ризикнути велика оптична катастрофа.

У 2015 році соціальні мережі та конкурентоспроможна платформа порівняльного аналізу Quintly запропонували виявлення на основі ШІ метод щоб визначити, чи є допис у Facebook спонсором, стверджуючи, що точність становить 96%. Наступного року а вчитися з Університету Джорджії стверджував, що спосіб, яким видавці обробляють декларацію про спонсорований вміст, може бути «співучасть в обмані».

У 2017 році MediaShift, організація, яка вивчає перетин медіа та технологій, спостерігається зростаюча міра, якою New York Times монетизує свою діяльність через свою брендовану контент-студію T Brand Studio, заявляючи про зниження рівня прозорості спонсорованого контенту, з мовчазним навмисним результатом того, що читачі не можуть легко визначити, чи є контент органічно створеним.

У 2020 році інша дослідницька ініціатива з Нідерландів розробила класифікатори машинного навчання автоматично ідентифікувати Російські державні новини з’являються на сербських новинних платформах. Далі, це було оцінка у 2019 році «рішення для медіа-контенту» Forbes приносять 40% його загального доходу через BrandVoice, контент-студію, запущену видавцем у 2010 році.