Intelligenza artificiale

Identificazione di Contenuti Sponsorizzati in Siti di Notizie con Machine Learning

Published November 11, 2021

Updated April 5, 2026

Martin Anderson

I ricercatori dei Paesi Bassi hanno sviluppato un nuovo metodo di machine learning in grado di distinguere contenuti sponsorizzati o comunque pagati all’interno di piattaforme di notizie, con un’accuratezza superiore al 90%, in risposta all’interesse crescente degli inserzionisti per formati di pubblicità “native” difficili da distinguere da quelli “reali” di output giornalistico.

Il nuovo paper, intitolato Distinguishing Commercial from Editorial Content in News, proviene da ricercatori dell’Università di Leiden.

Commercial (red) and editorial (blue) sub-graphs emerging from analysis of the data. Source: https://arxiv.org/pdf/2111.03916.pdf

Gli autori osservano che sebbene le pubblicazioni più serie, che possono più facilmente dettare condizioni agli inserzionisti, facciano un ragionevole sforzo per distinguere il “contenuto partner” dal generale flusso di notizie e analisi, gli standard stanno lentamente ma inesorabilmente spostandosi verso un’integrazione crescente tra team editoriali e commerciali in un’outlet, che considerano una tendenza allarmante e negativa.

‘La capacità di mascherare i contenuti, volontariamente o involontariamente, e la probabilità che gli articoli pubblicitari non vengano riconosciuti come tali anche se etichettati correttamente è significativa. I marketer li chiamano pubblicità “native” per una ragione.’

Alcuni esempi attuali di pubblicità nativa, variamente chiamati ‘contenuto partner’, ‘contenuto di marca’ e molti altri appellativi progettati per oscurare sottilmente la distinzione tra contenuto nativo e contenuto commercialmente posizionato in piattaforme giornalistiche.

Il lavoro è stato condotto nell’ambito di una più ampia indagine sulla cultura delle notizie in rete al canale ACED Reverb, con sede ad Amsterdam, che si concentra sull’analisi dei dati delle tendenze giornalistiche in evoluzione.

Acquisizione dei Dati

Per sviluppare i dati di origine per il progetto, gli autori hanno utilizzato 1.000 articoli e 1.000 articoli pubblicitari da quattro outlet di notizie olandesi e li hanno classificati in base alle loro caratteristiche testuali. Poiché il set di dati era relativamente modesto in termini di dimensioni, gli autori hanno evitato approcci su larga scala come BERT e hanno invece valutato l’efficacia di framework di machine learning più classici, tra cui Support Vector Machine (SVM), LinearSVC, Decision Tree, Random Forest, K-Nearest Neighbor (K-NN), Stochastic Gradient Descent (SGD) e Naïve Bayes.

Il corpus del canale Reverb è stato in grado di fornire i 1.000 articoli “diretti” necessari, ma gli autori hanno dovuto estrarre gli articoli pubblicitari direttamente dai quattro siti web olandesi presentati. I dati ottenuti sono disponibili in forma limitata (a causa di problemi di copyright) su GitHub, insieme a parte del codice Python utilizzato per ottenere e valutare i dati.

Le quattro pubblicazioni studiate sono state la conservatrice Nu.nl, la più progressista Telegraaf, NRC e la rivista di business De Ondernemer. Ogni pubblicazione è stata rappresentata in modo uguale nei dati.

È stato necessario identificare e scontare potenziali “leakers” nel lessico formato dalla ricerca – parole che potrebbero apparire in entrambi i tipi di contenuto con poca distinzione tra la loro frequenza e utilizzo, al fine di stabilire modelli chiari per contenuti nativi e sponsorizzati veramente.

Risultati

Tra i metodi testati per l’identificazione, i migliori risultati sono stati ottenuti da SVM, linearSVC, Random Forest e SGD. Pertanto, i ricercatori hanno proceduto a utilizzare SVM in ulteriori analisi.

L’approccio del modello migliore per l’estrazione della classificazione nel corpus ha superato il 90% di accuratezza, sebbene i ricercatori notino che ottenere una classificazione chiara diventa più difficile quando si ha a che fare con pubblicazioni orientate B2B, dove l’overlap lessicale tra contenuto “reale” e “sponsorizzato” percepito è eccessivo – forse perché lo stile nativo del linguaggio aziendale è già più soggettivo del generale flusso di notizie e convenzioni di analisi, e può più facilmente nascondere un’agenda.

t-Distributed Stochastic Neighbor Embedding (t-SNE) plots for separation of real and sponsored content across the four publications.

Il Contenuto Sponsorizzato è “Notizie False”?

La ricerca degli autori suggerisce che il loro progetto è innovativo nel campo dell’analisi dei contenuti di notizie. I framework in grado di identificare contenuti sponsorizzati potrebbero aprire la strada allo sviluppo di un monitoraggio anno per anno dell’equilibrio tra giornalismo oggettivo e la crescente quota di “pubblicità nativa” che si trova quasi nello stesso contesto nella maggior parte delle pubblicazioni, utilizzando gli stessi segnali visivi (fogli di stile CSS e altri formati) del contenuto generale.

In un certo senso, la frequente mancanza di contesto ovvio per i contenuti sponsorizzati sta emergendo come un sottocampo dello studio delle “notizie false”. Sebbene la maggior parte degli editori riconosca la necessità di separare “chiesa e stato” e l’obbligo di fornire ai lettori divisioni chiare tra contenuto pagato e contenuto generato organicamente, le realtà della scena giornalistica post-stampa e la crescente dipendenza dagli inserzionisti hanno trasformato la sottolineatura di indicatori sponsorizzati in un’arte raffinata nella psicologia dell’interfaccia utente. A volte, i vantaggi dell’esecuzione di contenuti sponsorizzati sono abbastanza allettanti da rischiare un disastro ottico importante.

Nel 2015, la piattaforma di social media e benchmarking competitivo Quintly ha offerto un metodo di rilevamento basato sull’intelligenza artificiale per determinare se un post su Facebook è sponsorizzato, affermando un tasso di accuratezza del 96%. L’anno successivo, uno studio dell’Università della Georgia ha sostenuto che il modo in cui gli editori gestiscono la dichiarazione di contenuti sponsorizzati potrebbe essere ‘complice della deception’.

Nel 2017, MediaShift, un’organizzazione che esamina l’intersezione tra media e tecnologia, ha osservato la crescente estensione con cui il New York Times monetizza le sue operazioni attraverso il suo studio di contenuto di marca, T Brand Studio, affermando livelli di trasparenza diminuiti intorno ai contenuti sponsorizzati, con il risultato intenzionale che i lettori non possano facilmente capire se il contenuto è generato organicamente o meno.

Nel 2020, un’altra iniziativa di ricerca dai Paesi Bassi ha sviluppato classificatori di machine learning per identificare automaticamente notizie finanziate dallo stato russo apparse in piattaforme di notizie serbe. Inoltre, è stato stimato nel 2019 che il “content studio” di Forbes, BrandVoice, lanciato dal publisher nel 2010, rappresenti il 40% del suo fatturato totale.