Τεχνητή νοημοσύνη

Αναγνώριση Χορηγούμενου Περιεχομένου σε Ιστοτόπους Ειδήσεων με Μηχανική Μάθηση

Published November 11, 2021

Updated April 26, 2026

Martin Anderson

Ερευνητές από τις Κάτω Χώρες έχουν αναπτύξει eine νέα μέθοδο μηχανικής μάθησης που είναι ικανή να διακρίνει χορηγούμενο ή αλλιώς πληρωμένο περιεχόμενο εντός πλατφορμών ειδήσεων, με ακρίβεια μεγαλύτερη του 90%, ως απάντηση στο αυξανόμενο ενδιαφέρον των διαφημιζομένων για μορφές ‘εγγενών’ διαφήμισης που είναι δύσκολο να διακρίνουν από ‘πραγματικό’ δημοσιογραφικό αποτέλεσμα.

Οι ερευνητές από το Πανεπιστήμιο του Λέιντεν έχουν δημοσιεύσει μια νέα μελέτη, με τίτλο Διακρίνοντας Εμπορικό από Ειδησεογραφικό Περιεχόμενο σε Ειδήσεις.

Εμπορικά (κόκκινα) και ειδησεογραφικά (μπλε) υπογράφους που προκύπτουν από την ανάλυση των δεδομένων. Πηγή: https://arxiv.org/pdf/2111.03916.pdf

Οι συγγραφείς παρατηρούν ότι mặc dù πιο σοβαρές εκδόσεις, οι οποίες μπορούν να ορίσουν εύκολα τους όρους προς τους διαφημιζομένους, θα κάνουν μια λογική προσπάθεια να διακρίνουν το ‘χορηγούμενο περιεχόμενο’ από τη γενική ροή ειδήσεων και ανάλυσης, τα πρότυπα μετατοπίζονται αργά αλλά αναπόφευκτα προς αυξημένη ολοκλήρωση μεταξύ των ειδησεογραφικών και εμπορικών ομάδων σε μια έξοδο, η οποία θεωρούν μια ανησυχητική και αρνητική τάση.

‘Η ικανότητα να μασκαρεύει το περιεχόμενο, εθελοντικά ή ανεπίθυμα, και η πιθανότητα ότι τα διαφημιστικά δεν αναγνωρίζονται ως τέτοια ακόμη και αν έχουν σωστά επισημανθεί είναι σημαντική. Οι διαφημιστές το λένε εγγενές [διαφήμιση] για ένα λόγο.’

Ορισμένα τρέχοντα παραδείγματα εγγενών διαφημίσεων, που ονομάζονται ‘χορηγούμενο περιεχόμενο’, ‘brand περιεχόμενο’ και πολλά άλλα ονόματα που σχεδιαστούν για να αποκρύπτουν τη διάκριση μεταξύ εγγενών και εμπορικά τοποθετημένου περιεχομένου σε δημοσιογραφικές πλατφόρμες.

Το έργο πραγματοποιήθηκε ως μέρος μιας ευρύτερης έρευνας για τον πολιτισμό των δικτυωμένων ειδήσεων στο ACED Reverb Channel, που εδρεύει στο Άμστερνταμ, το οποίο επικεντρώνεται στην ανάλυση δεδομένων των εξελισσόμενων δημοσιογραφικών τάσεων.

Αποκτάοντας Δεδομένα

Για να αναπτύξουν πηγή δεδομένων για το έργο, οι συγγραφείς χρησιμοποίησαν 1.000 άρθρα και 1.000 διαφημιστικά από τέσσερις ολλανδικές ειδησεογραφικές εκδόσεις και τα κατηγοριοποίησαν βάσει των κειμενικών τους χαρακτηριστικών.既然 το σύνολο δεδομένων ήταν σχετικά μικρό σε μέγεθος, οι συγγραφείς απέφυγαν προσεγγίσεις μεγάλης κλίμακας όπως το BERT, και αντίθετα αξιολόγησαν την αποτελεσματικότητα πιο κλασικών πλαισίων μηχανικής μάθησης, συμπεριλαμβανομένων Support Vector Machine (SVM), LinearSVC, Decision Tree, Random Forest, K-Nearest Neighbor (K-NN), Stochastic Gradient Descent (SGD) και Naïve Bayes.

Το Reverb Channel corpus ήταν σε θέση να παρέχει τα 1.000 απαραίτητα ‘καθαρά’ άρθρα, αλλά οι συγγραφείς έπρεπε να απομακρύνουν τα διαφημιστικά απευθείας από τις τέσσερις ολλανδικές ιστοσελίδες. Τα ληφθέντα δεδομένα είναι διαθέσιμα σε περιορισμένη μορφή (λόγω προβλημάτων πνευματικών δικαιωμάτων) στο GitHub, μαζί με κάποιο από τον κώδικα Python που χρησιμοποιήθηκε για να ληφθούν και να αξιολογηθούν τα δεδομένα.

Οι τέσσερις εκδόσεις που μελετήθηκαν ήταν η πολιτικά συντηρητική Nu.nl, η πιο προοδευτική Telegraaf, NRC, και το επιχειρηματικό περιοδικό De Ondernemer. Κάθε έκδοση ήταν ισότιμα αντιπροσωπευμένη στα δεδομένα.

Ήταν αναγκαίο να αναγνωριστούν και να αποκλειστούν πιθανές ‘διαρροές’ στο λεξικό που σχηματίστηκε από την έρευνα – λέξεις που θα μπορούσαν να εμφανιστούν και στα δύο είδη περιεχομένου με μικρή διάκριση μεταξύ της συχνότητας και της χρήσης τους, για να καθοριστούν σαφείς μοτίβα για πραγματικά εγγενή και χορηγούμενο περιεχόμενο.

Αποτελέσματα

Σε όλες τις μεθόδους που δοκιμάστηκαν για αναγνώριση, τα καλύτερα αποτελέσματα επιτεύχθηκαν από το SVM, linearSVC, Random Forest και SGD. Έτσι, οι ερευνητές προχώρησαν στην χρήση του SVM σε περαιτέρω ανάλυση.

Η καλύτερη προσέγγιση μοντέλου για την εξαγωγή ταξινόμησης σε όλο το corpus υπερέβη την ακρίβεια του 90%, αν και οι ερευνητές σημειώνουν ότι η απόκτηση μιας σαφούς ταξινόμησης γίνεται πιο δύσκολη όταν ασχολείται με εκδόσεις προσανατολισμένες σε επιχειρήσεις, όπου η λεξική επικάλυψη μεταξύ του αντιλαμβανόμενου ‘πραγματικού’ και ‘χορηγούμενου’ περιεχομένου είναι υπερβολική – ίσως επειδή ο εγγενής τρόπος της επιχειρηματικής γλώσσας είναι ήδη πιο υποκειμενικός από τη γενική ροή αναφορών και συμβάσεων ανάλυσης, και μπορεί να αποκρύψει πιο εύκολα ένα πρόγραμμα.

t-Distributed Stochastic Neighbor Embedding (t-SNE) plots για τη διάκριση πραγματικού και χορηγούμενου περιεχομένου στις τέσσερις εκδόσεις.

Είναι το Χορηγούμενο Περιεχόμενο ‘Ψευδείς Ειδήσεις’;

Η έρευνα των συγγραφέων υποδηλώνει ότι το έργο τους είναι καινοτόμο στο πεδίο της ανάλυσης περιεχομένου ειδήσεων. Πλαίσια που είναι ικανά να αναγνωρίζουν χορηγούμενο περιεχόμενο θα μπορούσαν να ανοίξουν το δρόμο για την ανάπτυξη ετήσιων ελέγχων για την ισορροπία μεταξύ αντικειμενικής δημοσιογραφίας και της αυξανόμενης ποσότητας ‘εγγενών διαφημίσεων’ που κάθεται σχεδόν στο ίδιο контέκστ σε meisten εκδόσεις, χρησιμοποιώντας τα ίδια οπτικά σήματα (CSS stylesheets και άλλα στυλ) όπως το γενικό περιεχόμενο.

Σε ένα συγκεκριμένο βαθμό, η συχνή έλλειψη σαφούς контέκστ για χορηγούμενο περιεχόμενο εμφανίζεται ως υποπεδίο της μελέτης των ‘ψευδών ειδήσεων’. Αν και οι περισσότεροι εκδότες αναγνωρίζουν την ανάγκη για διαχωρισμό του ‘εκκλησίας και του κράτους’, και την υποχρέωση να παρέχουν στους αναγνώστες σαφείς διαχωριστικές γραμμές μεταξύ πληρωμένου και αυθόρμητα παραγόμενου περιεχομένου, οι πραγματικότητες της μετα-εκτυπωτικής δημοσιογραφικής σκηνής και η αυξημένη εξάρτηση από τους διαφημιζομένους έχουν μετατρέψει την ελαφρά έμφαση των χορηγούμενων δεικτών σε μια καλή τέχνη στην ψυχολογία του UI. Μερικές φορές, τα οφέλη της εκτέλεσης χορηγούμενου περιεχομένου είναι इतनά ελκυστικά που να κινδυνεύουν να κάνουν ένα μεγάλο οπτικό ατύχημα.

Το 2015, η πλατφόρμα κοινωνικών μέσων και ανταγωνιστικής αξιολόγησης Quintly πρόσφερε μια μεθοδολογία ανίχνευσης με βάση το AI για να καθορίσει εάν μια ανάρτηση στο Facebook είναι χορηγούμενη, ισχυριζόμενη einen ακρίβειας 96%. Το επόμενο έτος, μια μελέτη από το Πανεπιστήμιο της Τζόρτζια υποστήριξε ότι ο τρόπος με τον οποίο οι εκδότες χειρίζονται την δήλωση του χορηγούμενου περιεχομένου θα μπορούσε να είναι ‘συμπράττοντας με την απάτη’.

Το 2017, η MediaShift, một οργανισμός που εξετάζει το giao điểm μεταξύ μέσων και τεχνολογίας, παρατήρησε την αυξανόμενη έκταση με την οποία οι New York Times монетизιруют τις επιχειρήσεις τους μέσω του στούντιο χορηγούμενου περιεχομένου, T Brand Studio, ισχυριζόμενη μειούμενη διαφάνεια γύρω από το χορηγούμενο περιεχόμενο, με το σιωπηρό αποτέλεσμα ότι οι αναγνώστες δεν μπορούν εύκολα να καταλάβουν εάν το περιεχόμενο είναι αυθόρμητο ή όχι.

Το 2020, μια άλλη έρευνα από τις Κάτω Χώρες ανέπτυξε ταξινομητές μηχανικής μάθησης για να αναγνωρίσουν αυτόματα το κρατικό χρηματοδοτούμενο ρωσικό περιεχόμενο που εμφανίζεται σε σερβικές πλατφόρμες ειδήσεων. Περαιτέρω, было εκτιμηθεί το 2019 ότι το ‘studio περιεχομένου λύσεων’ της Forbes αντιστοιχεί στο 40% του συνολικού εσόδου της μέσω της BrandVoice, του στούντιο περιεχομένου που εκκίνησε η εκδότρια το 2010.

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]