Изкуствен интелект

Идентифициране на спонсорирано съдържание в новинарски сайтове с машинно обучение

Обновено on Декември 9, 2022

Изследователи от Холандия са разработили нов метод за машинно обучение, който е способен да разграничава спонсорирано или по друг начин платено съдържание в рамките на новинарски платформи с точност над 90%, в отговор на нарастващия интерес от страна на рекламодателите към „родни“ рекламни формати, които са трудни за различават от „истинската“ журналистическа продукция.

Новото хартия, озаглавена Разграничаване на рекламното от редакционното съдържание в новините, идва от изследователи от университета в Лайден.

Търговски (червени) и редакционни (сини) подграфики, произтичащи от анализа на данните. Източник: https://arxiv.org/pdf/2111.03916.pdf

Авторите отбелязват, че въпреки че по-сериозните публикации, които могат по-лесно да диктуват условията на рекламодателите, ще положат разумни усилия да разграничат „партньорското съдържание“ от общия набор от новини и анализи, стандартите бавно, но неумолимо се изместват към повишена интеграция между редакционните и търговски екипи на аутлет, което смятат за тревожна и негативна тенденция.

„Способността за прикриване на съдържание, волно или неволно, и вероятността рекламните материали да не бъдат разпознати като такива, дори ако са правилно етикетирани, е значителна. Маркетолозите го наричат естествена [реклама] с причина.“

Някои актуални примери за нативна реклама, наричана по различен начин „партньорско съдържание“, „съдържание на марката“ и много други наименования, предназначени да прикрият едва доловимо разграничението между нативно и комерсиално пуснато съдържание в журналистическите платформи.

Работата е извършена като част от по-широко разследване на културата на мрежовите новини в ACED канал за реверберация, със седалище в Амстердам, който се концентрира върху базиран на данни анализ на развиващите се журналистически тенденции.

Получаване на данни

За да разработят изходни данни за проекта, авторите са използвали 1,000 статии и 1,000 реклами от четири холандски новинарски издания и са ги класифицирали въз основа на техните текстови характеристики. Тъй като наборът от данни беше сравнително скромен по размер, авторите избегнаха високомащабни подходи като BERT и вместо това оцениха ефективността на по-класически рамки за машинно обучение, включително Поддържаща векторна машина (SVM), LinearSVC, Дърво на решенията, Случайна гора, K-най-близкият съсед (K-NN), Стохастичен градиентен спускане (SGD) и Наивен Байес.

Корпусът на Reverb Channel успя да предостави необходимите 1,000 „прави“ статии, но авторите трябваше да изтрият реклами директно от четирите представени холандски уебсайта. Получените данни са на разположение в ограничена форма (поради проблеми с авторските права) в GitHub, заедно с част от кода на Python, използван за получаване и оценка на данните.

Четирите изследвани публикации са политически консервативни Nu.nl, толкова по-прогресивно Телеграф, NRC, и бизнес дневника Предприемачът. Всяка публикация е еднакво представена в данните.

Беше необходимо да се идентифицират и премахнат потенциалните „лийкове“ в лексикона, образуван от изследването – думи, които може да се появят и в двата типа съдържание с малка разлика между тяхната честота и употреба, за да се установят ясни модели за истинско местно и спонсорирано съдържание.

Резултати

Сред методите, тествани за идентификация, най-добрите резултати са получени от SVM, linearSVC, Random Forest и SGD. Следователно изследователите продължиха да използват SVM в по-нататъшен анализ.

Най-добрият моделен подход за извличане на класификация в целия корпус надхвърля 90% точност, въпреки че изследователите отбелязват, че получаването на ясна класификация става по-трудно, когато се работи с B2B-ориентирани публикации, където лексикалното припокриване между възприеманото „реално“ и „спонсорирано“ съдържание е прекомерно – може би защото родният стил на бизнес език вече е по-субективен от общия набор от конвенции за докладване и анализ и може по-лесно да прикрие дневен ред.

t-Distributed Stochastic Neighbor Embedding (t-SNE) графики за разделяне на реално и спонсорирано съдържание в четирите публикации.

t-разпределено стохастично вграждане на съсед (t-SNE) сюжети за разделяне на реално и спонсорирано съдържание в четирите публикации.

„Фалшиви новини“ ли е спонсорираното съдържание?

Изследванията на авторите показват, че техният проект е нов в областта на анализа на новинарското съдържание. Рамки, способни да идентифицират спонсорирано съдържание, биха могли да проправят пътя към развитието на годишно наблюдение на баланса между обективната журналистика и нарастващия транш от „местна реклама“, която се намира в почти същия контекст в повечето публикации, използвайки едни и същи визуални знаци ( CSS таблици със стилове и друго форматиране) като общо съдържание.

В известен смисъл честата липса на очевиден контекст за спонсорирано съдържание се очертава като подполе на изследването на „фалшивите новини“. Въпреки че повечето издатели признават необходимостта от отделяне на „църквата от държавата“ и задължението да предоставят на читателите ясни разграничения между платено и органично генерирано съдържание, реалностите на следпечатната журналистическа сцена и повишената зависимост от рекламодателите се обърнаха премахването на акцента върху спонсорираните индикатори в изящно изкуство в психологията на потребителския интерфейс. Понякога наградите от поддържането на спонсорирано съдържание са достатъчно изкушаващи, за да рискувате a голяма оптична катастрофа.

През 2015 г. социалните медии и конкурентната платформа за сравнителен анализ Quintly предложиха базирано на AI откриване метод за да се определи дали публикация във Facebook е спонсорирана, като се твърди, че степента на точност е 96%. На следващата година, a проучване от Университета на Джорджия твърди, че начинът, по който издателите се справят с декларацията за спонсорирано съдържание, може да бъде „съучастничество в измама“.

През 2017 г. MediaShift, организация, която изследва пресечната точка между медии и технологии, наблюдаваното нарастващата степен, в която New York Times монетизира операциите си чрез своето брандирано студио за съдържание, T Brand Studio, претендирайки за намаляващи нива на прозрачност около спонсорираното съдържание, с мълчаливо умишлен резултат, че читателите не могат лесно да разберат дали съдържанието е органично генерирано или не.

През 2020 г. друга изследователска инициатива от Холандия разработи класификатори за машинно обучение, за да идентифицира автоматично Руски държавно финансирани новини се появяват в сръбските новинарски платформи. Освен това беше прогнозна през 2019 г., че „решенията за медийно съдържание“ на Forbes представляват 40% от общите приходи чрез BrandVoice, студиото за съдържание, стартирано от издателя през 2010 г.