Connect with us

Andersons vinkel

AI kan hjælpe med at identificere ‘pink slime’ nyheder

mm
AI-generated illustration featuring two 'perfect' and typical US-style newsreaders in a news anchor room – an older male and younger blonde female both Caucasian, with robots and technicians in the background. Z-Image, Firefly 3, et al.

Agenda-drevne meningsdannende medier, designet mere til at påvirke offentlig mening end til at tjene offentligheden, kan være sværere at spotte, hvis AI bruges til at gøre dem lyde mere originale og rationelle. Så kapløbet er i gang for at holde pace i ‘pink slime detection’ spillet.

 

Den finansiering af traditionelle lokale medier over de sidste tyve år, både på grund af udviklingen i medietrends og – ligeledes – på grund af US regeringspolitik, har efterladt en tomrum i regional rapportering, som er blevet ivrigt overtaget af partisan organisationer bruger AI til at drive deres dagsordener.

For at sætte begrebet ‘partisan’ i perspektiv (givet, at ingen nyhedsorganisation er uden politiske tendenser af en slags), taler vi om olieselskaber, der driver regionale nyhedssteder fra fjerne lokaliteter, uden nogen rigtige lokale ressourcer, men med en opgave til at forsvare selskabets offentlige rygte; politisk motiverede nyhedssteder bereft of any revenue stream gearing op før valg; og hele netværk af pro-republikanske nyhedssteder lignende fremkommer fra ingensteds, tæt på afstemningstidspunktet.

I 2024 blev det estimeret, at AI-drevne pink slime nyheder havde endelig overhalet ægte nyhedssteder; på det tidspunkt fandt en australsk undersøgelse, at 41% af forbrugerne foretrak pink slime kilder over ‘ægte’ kilder.

Denne type skjult valgkamp, kan det hævdes, har udviklet sig fra en mere mørk kunst til en eksistensiel trussel mod demokrati (med hensyn til politisk motiverede udgivere) og til offentlighedens tillid til rimelige standarder for fairhed i rapporteringen.

Derfor ville metoder til at skelne karakteristika for pink slime udgivere og broadcastere fra mere traditionelle medieorganisationer være af stor hjælp i at forstå, hvem spillerne og drivkræfterne er i den nuværende informationsklima.

Som det står, er tropierne og skabelonerne for ægte nyhedsorganisationer meget lette at efterligne, og AI gør det muligt at udgive på en billig og nuværende måde, ved at bruge mange af de samme tricks der bliver brugt af budget-strukne ‘gammel medie’ udgivere og broadcastere.

Signal og støj

En ny undersøgelse fra USA behandler dette problem, ved at undersøge den voksende brug af Large Language Models til at gøre pink slime websites lyde mindre generiske og lette at spotte, og ved at oprette en læringsramme designet til at holde pace med udviklingen i pink slime (PS) output.

Titlen Exposing Pink Slime Journalism: Linguistic Signatures and Robust Detection Against LLM-Generated Threats, den nye arbejde kommer fra fem forskere på University of Texas.

Den nye arbejde undersøger, hvordan masseproducerede PS lokale nyhedsartikler adskiller sig fra legitime rapportering, med fokus på deres afhængighed af korte, repetitive strukturer og skabeloner med minimal variation; og forfatterne bemærker, at PS artikler tenderer til at genbruge identiske skabeloner designet til at manipulere offentlig mening, med appeller til emotion øverst i indholdet:

Fra den nye artikel - multiple udgivere offentliggør næsten identiske artikler med kun lokalitetsdetaljer ændret, hvilket afslører en kopier-og-lim-strategi brugt til at masseproducere indhold, der ligner legitime lokale nyheder. Kilde - https://arxiv.org/pdf/2512.05331

Fra den nye artikel – multiple udgivere offentliggør næsten identiske artikler med kun lokalitetsdetaljer ændret, hvilket afslører en kopier-og-lim-strategi brugt til at masseproducere indhold, der ligner legitime lokale nyheder. Kilde

Traditionelle detectionsmodeller trænet på disse træk performer godt mod denne type indhold, men fejler, når artiklerne er omskrevet ved hjælp af AI chatbots til at se mere naturlige eller sofistikerede ud.

Forfatternes egne tests indikerer, at selv små stilistiske ændringer introduceret af store sprogmodeller kan reducere detectionsnøjagtigheden med op til 40%. For at imødegå dette, foreslår de en kontinuerlig lærings ramme, der træner detectionsmodeller på både originale og AI-omskrevne artikler, for at tilpasse sig skiftende sprogmønstre.

Metode

For at etablere data til projektet, brugte forfatterne Pink Slime Dataset, der indeholder 7,9 millioner artikler, der dækker 1.093 udgivere i perioden 2021-2023, hvorfra de fik 9.472 pink slime artikler efter filtrering. De brugte også LIAR dataset, der indeholder annoterede falske nyheder, samt NELA-GT-2021 samlingen, der indeholder kun US artikler*.

For at forberede deres trænings- og testsett, brugte forfatterne først T-distributed Stochastic Neighbor Embedding (t-SNE) algoritmen til at reducere artikel embeddings til to dimensioner. De anvendte derefter dataklusteringalgoritmen Density-Based-Spatial-Clustering-of-Applications-with-Noise (DBSCAN) til at isolere kluster af lignende pink-slime artikler.

Hver kluster blev behandlet som en gruppe af relaterede historier, mange af dem følger stadig den samme skabelon, på trods af en bevidst indsats for at adressere duplikater.

For at forhindre lignende artikler i at dukke op i både trænings- og testsett, blev hele kluster valgt tilfældigt, med 80% brugt til træning og 20% til test. Fordi de legitime nyhedsartikler ikke dannede klare kluster, blev en tilfældig split anvendt i stedet.

Denne proces blev gentaget tre gange, for at sikre konsistens, og for at reducere sampling bias.

Karakteristika af Pink Slime

Kommenterende på de karakteristiske træk af PS vs. regulær nyheder, hævder forskerne, at PS-stil lokale nyhedsartikler er betydeligt kortere og enklere end legitime rapportering, med en gennemsnit på færre end ni sætninger per artikel.

En højere proportion af simple sætninger og en tungere afhængighed af adjektiver er yderligere kendetegn for pink slime, ifølge artiklen, og indikerer en forkærlighed for repetitive, emotionelt ladede sprog.

Lexical rigdom blev målt ved hjælp af Root-Type-Token Ratio (RTTR), og fundet at være betydeligt lavere i PS artiklerne, der også viste færre unikke nounfraser.

Disse mønstre indikerer en begrænset vokabular og en formel stil, i modsætning til legitime lokale nyheder, der kendetegnes af komplekse part-of-speech mønstre bygget op omkring hjælpeverber, pronominer og konjunktioner. I stedet favoriserer de falske artikler grundlæggende noun-præpositionsstrukturer, med hyppig brug af punktum-baserede trigrams, hvilket antyder en mindre formel, mere fragmenteret skrivestil.

Tests

For at undersøge associationerne mellem forskellige typer nyhedsartikler, baseret på sprog- og strukturtræk, blev embeddings genereret ved hjælp af 435-million parameter stella_en_400M_v5 model, og reduceret med Principal Component Analysis (PCA) og t-SNE til visualisering.

Når projiceret ind i to dimensioner, dannede de falske lokale nyhedsartikler små, tætte kluster, hver svarende til snævert fokuserede emner som kriminalitetsstatistik, aktieopdateringer eller velgørenhedsdonationer:

Klusteringmønstre fra en t-SNE-projektion afslører, at pink slime artikler danner tætte, repetitive grupperinger, mens legitime nyheder viser bredere, mere varierede distributioner i overensstemmelse med emne- og stildiversitet.

Klusteringmønstre fra en t-SNE-projektion afslører, at pink slime artikler danner tætte, repetitive grupperinger, mens legitime nyheder viser bredere, mere varierede distributioner i overensstemmelse med emne- og stildiversitet.

Som vi kan se, til en vis grad, i visualiseringen ovenfor, antyder dette mønster en rigid, skabelon-drevet format, med minimal variation mellem artikler.

Interessant nok, artikler betegnet som ‘falske nyheder’ afveg fra den falske lokale indhold, og viste en distribution mere i overensstemmelse med ægte nyheder, hvilket indikerer, at masseproducerede lokale falske nyheder måske ikke blot er mindre sande, men også mekanisk forskellige i form og sammensætning.

I modsætning hertil danner ‘legitime’ lokale nyheder færre og mere spredte kluster, i overensstemmelse med mere divers sprog og emnevalg, mens nationale nyhedsartikler viser endnu større spredning, reflekterende bredere emnevalg og løsere stilistisk konsistens.

Funktionssammenligninger mellem legitime lokale nyheder og pink slime indhold, der angiver, at PS artikler er kortere, bruger enklere sætningsstrukturer, indeholder flere adjektiver, viser lavere lexical rigdom, favoriserer grundlæggende part-of-speech trigrams og indeholder færre unikke nounfraser.

Funktionssammenligninger mellem legitime lokale nyheder og pink slime indhold, der angiver, at PS artikler er kortere, bruger enklere sætningsstrukturer, indeholder flere adjektiver, viser lavere lexical rigdom, favoriserer grundlæggende part-of-speech trigrams og indeholder færre unikke nounfraser.

Detektion

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.