talón Identificación de contenido patrocinado en sitios de noticias con aprendizaje automático - Unite.AI
Contáctanos

Inteligencia artificial

Identificación de contenido patrocinado en sitios de noticias con aprendizaje automático

mm
Actualizado on

Investigadores de los Países Bajos han desarrollado un nuevo método de aprendizaje automático que es capaz de distinguir contenido patrocinado o pago dentro de plataformas de noticias, con una precisión de más del 90%, en respuesta al creciente interés de los anunciantes por formatos publicitarios "nativos" que son difíciles de distinguir de la producción periodística "real".

El nuevo , Titulado Distinguir el contenido comercial del editorial en las noticias, proviene de investigadores de la Universidad de Leiden.

Subgráficos comerciales (rojo) y editoriales (azul) que surgen del análisis de los datos. Fuente: https://arxiv.org/pdf/2111.03916.pdf

Subgráficos comerciales (rojo) y editoriales (azul) que surgen del análisis de los datos. Fuente: https://arxiv.org/pdf/2111.03916.pdf

Los autores observan que aunque las publicaciones más serias, que pueden dictar términos más fácilmente a los anunciantes, harán un esfuerzo razonable para distinguir el "contenido de socios" de la corriente general de noticias y análisis, los estándares están cambiando lenta pero inexorablemente hacia una mayor integración entre editorial y equipos comerciales en un punto de venta, lo que consideran una tendencia alarmante y negativa.

“La capacidad de disfrazar el contenido, de forma voluntaria o involuntaria, y la probabilidad de que los publirreportajes no se reconozcan como tales, incluso si están debidamente etiquetados, es significativa. Los especialistas en marketing lo llaman [publicidad] nativa por una razón.'

Algunos ejemplos actuales de publicidad nativa, denominada de diversas formas "contenido de socios", "contenido de marca" y muchas otras denominaciones diseñadas para oscurecer sutilmente la distinción entre contenido nativo y colocado comercialmente en plataformas periodísticas.

Algunos ejemplos actuales de publicidad nativa, denominada de diversas formas "contenido de socios", "contenido de marca" y muchas otras denominaciones diseñadas para oscurecer sutilmente la distinción entre contenido nativo y colocado comercialmente en plataformas periodísticas.

El trabajo se llevó a cabo como parte de una investigación más amplia sobre la cultura de noticias en red en el Canal de reverberación ACED, con sede en Ámsterdam, que se concentra en el análisis basado en datos de las tendencias periodísticas en evolución.

Adquisición de datos

Para desarrollar datos fuente para el proyecto, los autores utilizaron 1,000 artículos y 1,000 publirreportajes de cuatro medios de comunicación holandeses y los clasificaron según sus características textuales. Dado que el conjunto de datos tenía un tamaño relativamente modesto, los autores evitaron enfoques de gran escala como BERT y, en cambio, evaluaron la eficacia de marcos de aprendizaje automático más clásicos, incluidos Máquinas de vectores soporte (MVS), SVC lineal, Árbol de decisión, Bosque al azar, K-vecino más cercano (K-NN), Descenso de gradiente estocástico (EUR) y Bayes ingenuo.

El corpus de Reverb Channel fue capaz de proporcionar los 1,000 artículos "directos" necesarios, pero los autores tuvieron que raspar los publirreportajes directamente de los cuatro sitios web holandeses presentados. Los datos obtenidos son Hoy Disponibles en forma limitada (debido a problemas de derechos de autor) en GitHub, junto con parte del código de Python utilizado para obtener y evaluar los datos.

Las cuatro publicaciones estudiadas fueron las de política conservadora Nu.nl, cuanto más progresista Telegraaf, NRC, y el diario de negocios El emprendedor. Cada publicación estuvo igualmente representada en los datos.

Era necesario identificar y descartar posibles "fugas" en el léxico formado por la investigación: palabras que podrían aparecer en ambos tipos de contenido con poca distinción entre su frecuencia y uso, para establecer patrones claros para el contenido patrocinado y genuinamente nativo.

Resultados

Entre los métodos probados para la identificación, los mejores resultados se obtuvieron con SVM, linearSVC, Random Forest y SGD. Por lo tanto, los investigadores procedieron a utilizar SVM en análisis posteriores.

El mejor enfoque de modelo para extraer la clasificación en todo el corpus superó el 90% de precisión, aunque los investigadores señalan que obtener una clasificación clara se vuelve más difícil cuando se trata de publicaciones orientadas a B2B, donde la superposición léxica entre el contenido "real" percibido y el "patrocinado" es excesivo, tal vez porque el estilo nativo del lenguaje comercial ya es más subjetivo que el funcionamiento general de las convenciones de informes y análisis, y puede ocultar más fácilmente una agenda.

Gráficos t-Distributed Stochastic Neighbor Embedding (t-SNE) para la separación del contenido real y patrocinado en las cuatro publicaciones.

Incrustación de vecinos estocásticos distribuidos en t (t-SNE) parcelas para la separación de contenido real y patrocinado a través de las cuatro publicaciones.

¿Es el contenido patrocinado 'noticias falsas'?

La investigación de los autores sugiere que su proyecto es novedoso en el campo del análisis de contenido de noticias. Los marcos capaces de identificar el contenido patrocinado podrían allanar el camino para desarrollar un seguimiento año tras año del equilibrio entre el periodismo objetivo y el tramo creciente de 'publicidad nativa' que se encuentra casi en el mismo contexto en la mayoría de las publicaciones, utilizando las mismas señales visuales ( hojas de estilo CSS y otros formatos) como contenido general.

En cierto sentido, la frecuente falta de contexto evidente para los contenidos patrocinados está emergiendo como un subcampo del estudio de las 'noticias falsas'. Aunque la mayoría de los editores reconocen la necesidad de separar 'la iglesia y el estado', y la obligación de proporcionar a los lectores divisiones claras entre el contenido pagado y el generado orgánicamente, las realidades de la escena periodística posterior a la impresión y la mayor dependencia de los anunciantes han convertido la reducción del énfasis de los indicadores patrocinados en un arte fino en la psicología de la interfaz de usuario. A veces, las recompensas de ejecutar contenido patrocinado son lo suficientemente tentadoras como para arriesgar un gran desastre óptico.

En 2015, la plataforma de evaluación comparativa competitiva y de redes sociales Quintly ofreció una detección basada en IA Método para determinar si una publicación en Facebook está patrocinada, afirmando una tasa de precisión del 96%. Al año siguiente, un estudio de la Universidad de Georgia sostuvo que la forma en que los editores manejan la declaración de contenido patrocinado podría ser 'cómplice del engaño'.

En 2017, MediaShift, una organización que examina la intersección entre los medios y la tecnología, observado el grado cada vez mayor en que el New York Times monetiza sus operaciones a través de su estudio de contenido de marca, T Brand Studio, alegando niveles decrecientes de transparencia en torno al contenido patrocinado, con el resultado tácitamente intencional de que los lectores no pueden saber fácilmente si el contenido se genera orgánicamente o no.

En 2020, otra iniciativa de investigación de los Países Bajos desarrolló clasificadores de aprendizaje automático para identificar automáticamente Noticias financiadas por el estado ruso que aparecen en plataformas de noticias serbias. Además, fue estimado en 2019 que las 'soluciones de contenido de medios' de Forbes representan el 40% de sus ingresos totales a través de BrandVoice, el estudio de contenido lanzado por el editor en 2010.