Andersons vinkel
Hvad AI kan fortælle os om skjulte dagsordener i nyhederne

ChatGPT-lignende modeller bliver trænet til at detektere, hvad en nyhedsartikel virkelig mener om et emne – selv når denne holdning er begravet under citater, rammer eller (nogle gange uforsætligt) ‘neutralitet’. Ved at bryde artiklerne op i segmenter som overskrifter, indledninger og citater, lærer et nyt system at spotte bias, selv i langform professionel journalistik.
Evnen til at forstå en forfatters eller talers sande synspunkt – en stræben, der i litteraturen er kendt som holdningsdetektion – løser et af de mest vanskelige fortolkningsproblemer i sprog: at udlede intentionen fra indhold, der måske er designet til at skjule eller forkaste den.
Fra Jonathan Swifts Et beskedent forslag til nyere optrædener af politiske skikkelser, der låner polemikken fra deres ideologiske modstandere, er overfladen af en udtalelse ikke længere en pålidelig indikator for dens intention; opblomstringen af ironi, trolling, desinformation og strategisk tvetydighed har gjort det sværere end nogensinde at fastslå, hvilken side en tekst faktisk står på, eller om den overhovedet står på noget.
Ofte bærer det, der ikke er sagt, lige så meget vægt som det, der er sagt, og blot at vælge at dække et emne kan signalere forfatterens position.
Det gør opgaven med automatisk holdningsdetektion usædvanligt udfordrende, da et effektivt detektionssystem ikke blot skal mærke isolerede sætninger som ‘støttende’ eller ‘modsigende’, men også skal iterere gennem lag af mening, hvor små signaler vejes mod formen og driften af hele artiklen; og dette er sværere i langform journalistik, hvor tone kan skifte, og hvor mening sjældent udtrykkes åbent.
Forandringsagenter
For at løse nogle af disse problemer har forskere i Sydkorea udviklet et nyt system kaldet JOA-ICL (Journalistisk vejledt Agentic In-Context Learning) til detektion af holdningen i langform nyhedsartikler.

Kernearbejdet bag JoA-ICL er, at artikel-niveau holdning er afledt ved at aggregere segment-niveau forudsigelser produceret af en separat sprogmodel agent. Kilde: https://arxiv.org/pdf/2507.11049
I stedet for at dømme en artikel som en helhed, bryder JOA-ICL den op i strukturelle dele (overskrift, indledning, citater og konklusion) og tildeles hver af disse en mindre model, som mærker segmentet som støttende, modsigende eller neutral.
Disse lokale forudsigelser overføres til en større model, som bruger dem til at bestemme artiklens samlede holdning.
Metoden blev testet på en nyt sammenstillet koreansk dataset, der indeholder 2.000 nyhedsartikler annoteret for både artikel-niveau og segment-niveau holdning. Hver artikel var mærket med input fra en journalistisk ekspert, der reflekterer, hvordan holdning er fordelt over strukturen af professionel nyhedsformidling.
Ifølge artiklen overgår JOA-ICL både prompt-baserede og fintuned baselines, og demonstrerer en særlig styrke i detektion af støttende holdninger (som modeller med en lignende ambition ofte misser). Metoden var også effektiv, da den blev anvendt på et tysk dataset under ensartede betingelser, hvilket indikerer, at dens principper potentielt er resistente over for sprogformer.
Forfatterne skriver:
‘Eksperimenter viser, at JOA-ICL overgår eksisterende holdningsdetektionsmetoder, og fremhæver fordelene ved segment-niveau agentur i at fange den samlede position af langform nyhedsartikler.”
Den nye artikel er titlen Journalistisk vejledt Agentic In-Context Learning for Nyheds Stance Detektion, og kommer fra forskellige fakulteter på Seoul’s Soongsil University samt KAIST’s Graduate School of Future Strategy.
Metode
En del af udfordringen med AI-forstærket holdningsdetektion er logistisk og relateret til, hvor meget signal en maskinelæringsmodel kan fastholde og samle på én gang, på den nuværende tilstand af kunsten.
Nyhedsartikler tenderer til at undgå direkte udtalelser af mening, og i stedet anvender en implicit eller antaget holdning, signaleret gennem valg om, hvilke kilder der citeres, hvordan narrativen er rammet, og hvilke detaljer der udelades, blandt mange andre overvejelser.
Even når en artikel tager en klar position, er signalet ofte spredt over teksten, med forskellige segmenter, der peger i forskellige retninger. Da sprogmodeller (LM’er) stadig kæmper med begrænsede kontekstvinduer, kan dette gøre det svært for modellerne at vurderere holdning på samme måde, som de gør med kortere indhold (såsom tweets og andre kortform sociale medier), hvor forholdet mellem teksten og målet er mere eksplicit.
Derfor falder standardtilgange ofte kort, når de anvendes på fuldlængde journalistik; et tilfælde, hvor tvetydighed er en funktion snarere end en fejl.
Artiklen skriver:
‘For at løse disse udfordringer foreslår vi en hierarkisk modeltilgang, der først afleder holdningen på niveauet for mindre diskursenheder (f.eks. afsnit eller sektioner), og herefter integrerer disse lokale forudsigelser for at bestemme artiklens samlede holdning.
‘Dette ramme er designet til at fastholde lokal kontekst og fange spredte holdnings-signaler i vurderingen af, hvordan forskellige dele af en nyhedshistorie bidrager til dens samlede position på et emne.’
For dette formål samlede forfatterne en ny dataset kaldet K-NEWS-STANCE, der er hentet fra koreansk nyhedsdækning mellem juni 2022 og juni 2024. Artiklerne blev først identificeret gennem BigKinds, en regeringsstøttet metadata-tjeneste drevet af Korea Press Foundation, og fuldteksterne blev hentet via Naver News aggregator API. Den endelige dataset bestod af 2.000 artikler fra 31 udgivere, der dækker 47 nationale emner.
Hver artikel blev annoteret to gange: en gang for dens samlede holdning over for et givent emne, og igen for individuelle segmenter; specifikt overskrift, indledning, konklusion og direkte citater.
Annotationen blev ledet af journalistisk ekspert Jiyoung Han, der også er artiklens tredje forfatter, og som vejledte processen gennem brugen af etablerede signaler fra mediestudier, såsom kildevalg, leksikalsk ramme og mønstre af citater. Ved disse midler blev i alt 19.650 segment-niveau holdningsmærker erhvervet.
For at sikre, at artiklerne indeholdt meningsfulde synspunkts-signaler, blev hver artikel først klassificeret efter genre, og kun de, der var mærket som analyse eller mening (hvor subjektiv ramme er mere sandsynlig at finde), blev brugt til holdningsannotation.
To trænede annotatorer mærkede alle artikler og fik instruktion om at konsultere relaterede artikler, hvis holdningen var uklar, med uenigheder, der blev løst gennem diskussion og yderligere gennemgang.

Eksempler på indgange fra K-NEWS-STANCE-datasettet, oversat til engelsk. Kun overskrift, indledning og citater vises; fuld tekst er udeladt. Markering indikerer holdningsmærker for citater, med blå for støttende og rød for modsigende. Se venligst den citerede kilde-PDF for en klarere fremstilling.
JoA-ICL
I stedet for at behandle en artikel som en enkelt blok tekst, deler forfatternes foreslåede system den op i nøglestrukturelle dele: overskrift, indledning, citater og konklusion, og tildeles hver af disse en sprogmodelagent, som mærker segmentet som støttende, modsigende eller neutral.
Disse lokale forudsigelser overføres til en anden agent, som afgør artiklens samlede holdning, med de to agenter koordineret af en controller, der forbereder prompte og indsamler resultaterne.
Således tilpasser JoA-ICL in-context learning (hvor modellen lærer af eksempler i prompten) til den måde, hvorpå professionelle nyhedshistorier skrives, ved at bruge segment-vidende prompte i stedet for en enkelt generisk input.
(Venligst bemærk, at de fleste eksempler og illustrationer i artiklen er lange og svære at reproducerer læseligt i en online-artikel. Vi beder læseren om at se den originale kilde-PDF)
Data og tests
I tests brugte forskerne macro F1 og nøjagtighed til at evaluere præstationen, hvor resultaterne blev gennemsnittet over ti kørsler med tilfældige frø fra 42 til 51 og rapporteret standardfejl. Træningsdata blev brugt til at fintune baseline-modeller og segment-niveau agenter, med few-shot prøver valgt gennem ligningssøgning ved hjælp af KLUE-RoBERTa-large.
Tests blev kørt over tre RTX A6000 GPU’er (hver med 48 GB VRAM), ved hjælp af Python 3.9.19, PyTorch 2.5.1, Transformers 4.52.0 og vLLM 0.8.5.
GPT-4o-mini, Claude 3 Haiku og Gemini 2 Flash blev anvendt via API, ved en temperatur på 1,0 og med maksimalt antal tokens sat til 1000 for chain-of-thought prompte, og 100 for andre.
For fuld fintuning af Exaone-3.5-2.4B blev AdamW optimizeren brugt ved en læringsrate på 5e-5, med 0,01 vægtforfald, 100 varmeopstarts-trin og med data trænet i 10 epoker ved en batchstørrelse på 6.
For baselines brugte forfatterne RoBERTa, fintuned for artikel-niveau holdningsdetektion; Chain-of-Thought (CoT) Embeddings, en alternativ tilpasning af RoBERTa for den tildelte opgave; LKI-BART, en encoder-decoder-model, der tilføjer kontekstuel viden fra en stor sprogmodel ved at prompte den med både input-teksten og den ønskede holdningsmærke; og PT-HCL, en metode, der bruger kontrastiv læring til at adskille generelle funktioner fra dem, der er specifikke for målet:

Præstation af hver model på K-NEWS-STANCE-testsettet for samlet holdningsprædiktion. Resultaterne vises som macro F1 og nøjagtighed, med den øverste score i hver gruppe i fed skrift.
JOA-ICL opnåede den bedste samlede præstation over både nøjagtighed og macro F1, en fordel, der var tydelig over alle tre model-baggrunde, der blev testet: GPT-4o-mini, Claude 3 Haiku og Gemini 2 Flash.
Den segment-baserede metode overgik konsekvent alle andre tilgange, med, som forfatterne bemærker, en bemærkelsesværdig fordel i detektion af støttende holdninger, en almindelig svaghed i lignende modeller.
Baseline-modellerne opnåede dårligere resultater overordnet. RoBERTa og Chain-of-Thought-varianten kæmpede med nuancerede tilfælde, mens PT-HCL og LKI-BART klarede sig bedre, men stadig lå efter JOA-ICL over de fleste kategorier. Den mest nøjagtige enkeltresultat kom fra JOA-ICL (Claude), med 64,8% macro F1 og 66,1% nøjagtighed.
Billedet nedenfor viser, hvor ofte modellerne fik hver mærke korrekt eller forkert:

Forvirringsmatricer, der sammenligner baseline og JoA-ICL, viser, at begge metoder kæmper mest med at detektere ‘støttende’ holdninger.
JoA-ICL gjorde bedre overordnet end baseline, med flere korrekte mærker i hver kategori. Begge modeller kæmpede dog mest med støttende artikler, og baseline misklassificerede næsten halvdelen, ofte forvekslende dem med neutrale.
JoA-ICL gjorde færre fejl, men viste samme mønster, og understregede, at ‘positive’ holdninger er sværere for modeller at spotte.
For at teste, om JOA-ICL fungerer ud over rammerne af det koreanske sprog, kørte forfatterne det på CheeSE, et tysk dataset for artikel-niveau holdningsdetektion. Da CheeSE mangler segment-niveau mærker, brugte forskerne fjernsupervision, hvor hvert segment blev tildelt det samme holdningsmærke som den fulde artikel.

Holdningsdetektionsresultater på det tyske CheeSE-dataset. JoA-ICL forbedrer konsekvent over zero-shot prompting over alle tre LLM’er og overgår fintuned baselines, med Gemini-2.0-flash, der giver den stærkeste samlede præstation.
Selv under disse ‘støjende’ betingelser overgik JoA-ICL både fintuned modeller og zero-shot prompting. Af de tre testede baggrunde gav Gemini-2.0-flash de bedste resultater.
Konklusion
Få opgaver i maskinlæring er mere politisk ladet end holdningsprædiktion; og alligevel håndteres det ofte på en kold, mekanisk måde, mens mere opmærksomhed gives til mindre komplekse emner i generativ AI, såsom video- og billedskabelse, som udløser langt højere overskrifter.
Den mest opmuntrende udvikling i det nye koreanske arbejde er, at det tilbyder en betydelig bidrag til analyse af fuldlængde indhold, snarere end tweets og kortform sociale medier, hvis antændende effekter hurtigere bliver glemt end en afhandling, essay eller andet væsentligt arbejde.
En bemærkelsesværdig undtagelse i det nye arbejde og (så vidt jeg kan se) i holdningsprædiktionssamlingen generelt er manglen på overvejelser om hyperlinks, der ofte står i stedet for citater som valgfrie ressourcer for læsere til at lære mere om et emne; dog må det være klart, at valget af sådanne URL’er potentielt er meget subjektivt og endda politisk.
Det er dog klart, at jo mere prestigefyldt en udgivelse er, desto mindre sandsynligt er det, at den vil inkludere nogen links overhovedet, der leder læseren væk fra værtsdomænet; dette, sammen med andre forskellige SEO-brug og misbrug af hyperlinks, gør dem mere vanskelige at kvantificere end eksplicitte citater, titler eller andre dele af en artikel, der måske bevidst eller ubevidst søger at påvirke læserens mening.
Først udgivet onsdag, 16. juli 2025












