Inteligência artificial

Identificando Conteúdo Patrocinado em Sites de Notícias com Aprendizado de Máquina

Published November 11, 2021

Updated April 5, 2026

Martin Anderson

Pesquisadores da Holanda desenvolveram um novo método de aprendizado de máquina capaz de distinguir conteúdo patrocinado ou pago dentro de plataformas de notícias, com precisão de mais de 90%, em resposta ao crescente interesse de anunciantes em formatos de publicidade “nativa” que são difíceis de distinguir do “verdadeiro” conteúdo jornalístico.

O novo artigo, intitulado Distinguindo Conteúdo Comercial de Conteúdo Editorial em Notícias, vem de pesquisadores da Universidade de Leiden.

Sub-gráficos comerciais (vermelho) e editoriais (azul) surgindo da análise dos dados. Fonte: https://arxiv.org/pdf/2111.03916.pdf

Os autores observam que, embora publicações mais sérias, que possam facilmente ditar termos para anunciantes, façam um esforço razoável para distinguir “conteúdo de parceiro” do geral de notícias e análise, os padrões estão mudando lentamente, mas inexoravelmente, para uma maior integração entre equipes editoriais e comerciais em uma publicação, o que consideram uma tendência alarmante e negativa.

‘A capacidade de disfarçar conteúdo, voluntariamente ou não, e a probabilidade de que anúncios sejam reconhecidos como tal, mesmo que devidamente rotulados, é significativa. Os marketers chamam de publicidade nativa por um motivo.’

Alguns exemplos atuais de publicidade nativa, variadamente chamados de ‘conteúdo de parceiro’, ‘conteúdo de marca’ e muitas outras designações projetadas para obscurecer sutilmente a distinção entre conteúdo nativo e comercial em plataformas jornalísticas.

O trabalho foi realizado como parte de uma investigação mais ampla sobre a cultura de notícias em rede no ACED Reverb Channel, sediado em Amsterdã, que se concentra em análise de tendências jornalísticas em evolução.

Adquirindo Dados

Para desenvolver dados de origem para o projeto, os autores usaram 1.000 artigos e 1.000 anúncios de quatro sites de notícias holandeses e os classificaram com base em suas características textuais. Como o conjunto de dados era relativamente modesto em tamanho, os autores evitaram abordagens de grande escala, como BERT, e, em vez disso, avaliaram a eficácia de frameworks de aprendizado de máquina mais clássicos, incluindo Support Vector Machine (SVM), LinearSVC, Decision Tree, Random Forest, K-Nearest Neighbor (K-NN), Stochastic Gradient Descent (SGD) e Naïve Bayes.

O corpus do Reverb Channel pôde fornecer os 1.000 artigos “diretos” necessários, mas os autores tiveram que raspar anúncios diretamente dos quatro sites holandeses apresentados. Os dados obtidos estão disponíveis em forma limitada (devido a preocupações de direitos autorais) no GitHub, juntamente com alguns dos códigos Python usados para obter e avaliar os dados.

Os quatro veículos de comunicação estudados foram o conservador Nu.nl, o mais progressista Telegraaf, NRC e o jornal de negócios De Ondernemer. Cada publicação foi igualmente representada nos dados.

Foi necessário identificar e descontar potenciais “vazamentos” no léxico formado pela pesquisa – palavras que podem aparecer em ambos os tipos de conteúdo com pouca distinção entre sua frequência e uso, a fim de estabelecer padrões claros para conteúdo nativo e patrocinado genuíno.

Resultados

Entre os métodos testados para identificação, os melhores resultados foram obtidos por SVM, linearSVC, Random Forest e SGD. Portanto, os pesquisadores procederam a usar SVM em análises adicionais.

A melhor abordagem de modelo para extrair classificação em todo o corpus ultrapassou 90% de precisão, embora os pesquisadores observem que obter uma classificação clara se torna mais difícil ao lidar com publicações orientadas para B2B, onde a sobreposição lexical entre o conteúdo “real” e “patrocinado” é excessiva – talvez porque o estilo nativo da linguagem empresarial já é mais subjetivo do que o geral de convenções de relatórios e análises, e pode mais facilmente ocultar uma agenda.

Gráficos de t-Distributed Stochastic Neighbor Embedding (t-SNE) para separação de conteúdo real e patrocinado em todo os quatro veículos de comunicação.

O Conteúdo Patrocinado é ‘Notícia Falsa’?

A pesquisa dos autores sugere que seu projeto é inovador no campo de análise de conteúdo de notícias. Estruturas capazes de identificar conteúdo patrocinado podem abrir caminho para o desenvolvimento de monitoramento ano a ano do equilíbrio entre jornalismo objetivo e a crescente fatia de “publicidade nativa” que se encontra quase no mesmo contexto na maioria das publicações, usando as mesmas dicas visuais (folhas de estilo CSS e outros formatos) que o conteúdo geral.

Em certo sentido, a frequente falta de contexto óbvio para conteúdo patrocinado está surgindo como um sub-campo de estudo de “notícias falsas”. Embora a maioria dos editores reconheça a necessidade de separação de “igreja e estado”, e a obrigação de fornecer aos leitores divisões claras entre conteúdo pago e gerado organicamente, as realidades da cena jornalística pós-impressa e o aumento da dependência de anunciantes transformaram a ênfase em indicadores patrocinados em uma arte fina na psicologia da UI. Às vezes, as recompensas de executar conteúdo patrocinado são tentadoras o suficiente para arriscar um desastre óptico importante.

Em 2015, a plataforma de mídia social e benchmarking competitivo Quintly ofereceu um método de detecção baseado em IA para determinar se uma postagem no Facebook é patrocinada, alegando uma taxa de precisão de 96%. No ano seguinte, um estudo da Universidade da Geórgia argumentou que a forma como os editores lidam com a declaração de conteúdo patrocinado pode ser ‘cúmplice da decepção’.

Em 2017, a MediaShift, uma organização que examina a interseção entre mídia e tecnologia, observou a crescente extensão com que o New York Times monetiza suas operações por meio de seu estúdio de conteúdo de marca, T Brand Studio, alegando níveis decrescentes de transparência em torno de conteúdo patrocinado, com o resultado tácito intencional de que os leitores não possam facilmente dizer se o conteúdo é gerado organicamente ou não.

Em 2020, outra iniciativa de pesquisa da Holanda desenvolveu classificadores de aprendizado de máquina para identificar automaticamente notícias financiadas pelo estado russo aparecendo em plataformas de notícias sérvias. Além disso, foi estimado em 2019 que o estúdio de conteúdo da Forbes, ‘media content solutions’, responde por 40% de sua receita total por meio da BrandVoice, o estúdio de conteúdo lançado pelo editor em 2010.