Andersons vinkel

Vad AI kan berÀtta oss om dolda agendor i nyheter

mm
ChatGPT-4o and Firefly.

Modeller i ChatGPT-stil tränas för att upptäcka vad en nyhetsartikel verkligen tycker om ett ämne – även när den åsikten är begravd under citat, ramverk eller (ibland oärlig) ‘neutralitet’. Genom att bryta ner artiklar i segment som rubriker, inledningar och citat, lär sig ett nytt system att upptäcka partiskhet även i långformigt professionellt journalistiskt arbete.

 

Förmågan att förstå en författares eller talares verkliga synsätt – ett företag som i litteraturen kallas ståndpunktsdetektering – hanterar ett av de svåraste tolkningsproblemen i språk: att utvinna avsikten från innehåll som kan vara utformat för att dölja eller fördunkla den.

Från Jonathan Swifts Ett beskedligt förslag till nyliga framträdanden av politiska aktörer som lånar polemik från sina ideologiska motståndare, är ytan på ett uttalande inte längre en tillförlitlig indikator på dess avsikt; uppkomsten av ironi, trolling, desinformation och strategisk tvetydighet har gjort det svårare än någonsin att fastställa vilken sida en text faktiskt intar, eller om den intar någon ståndpunkt alls.

Ofta bär det som inte sägs lika stor vikt som det som uttrycks, och valet att täcka ett ämne kan signalera författarens ståndpunkt.

Detta gör uppgiften att automatiskt upptäcka ståndpunkter ovanligt utmanande, eftersom ett effektivt system för ståndpunktsdetektering måste göra mer än att markera isolerade meningar som ‘stödjande’ eller ‘motstående’: i stället måste det iterera genom lager av mening, vägande små ledtrådar mot den övergripande artikeln; och detta är svårare i långformigt journalistiskt arbete, där tonen kan skifta och åsikter sällan uttrycks öppet.

Agenter för förändring

För att hantera några av dessa frågor har forskare i Sydkorea utvecklat ett nytt system som kallas JOA-ICL (Journalistiskt vägledande agentbaserat inkontextuell inlärning) för att upptäcka ståndpunkten i långformiga nyhetsartiklar.

KÀrntanken bakom JOA-ICL Àr att artikelspecifik stÄndpunkt hÀrleds genom att aggregera segment-specifika förutsÀgelser som produceras av en separat sprÄkmodellagent.. KÀlla: https://arxiv.org/pdf/2507.11049

Kärntanken bakom JoA-ICL är att artikelspecifik ståndpunkt härleds genom att aggregera segment-specifika förutsägelser som produceras av en separat språkmodellagent. Källa: https://arxiv.org/pdf/2507.11049

I stället för att bedöma en artikel som en helhet, delar JOA-ICL den in i strukturella delar (rubrik, inledning, citat och slutsats) och tilldelar var och en av dessa en mindre modell som märker segmentet som stödjande, motstående eller neutral.

Dessa lokala förutsägelser skickas sedan till en större modell som använder dem för att bestämma artikeln övergripande ståndpunkt.

Metoden testades på en nytt sammanställd koreansk dataset som innehåller 2 000 nyhetsartiklar annoterade för både artikelspecifik och segment-specifik ståndpunkt. Varje artikel märktes med indata från en journalistisk expert, som reflekterar hur ståndpunkten fördelas över den professionella nyhetsrapporteringens struktur.

Enligt artikeln presterar JOA-ICL bättre än både promptbaserade och finjusterade baslinjer, och visar särskild styrka i att upptäcka stödjande ståndpunkter (som modeller med liknande ambitioner tenderar att missa). Metoden visade sig också vara effektiv när den tillämpades på en tysk dataset under matchade förhållanden, vilket tyder på att dess principer potentiellt är resistenta mot språkformer.

Författarna påstår:

‘Experiment visar att JOA-ICL presterar bättre än befintliga metoder för ståndpunktsdetektering, och lyfter fram fördelarna med segment-specifik agentbaserad inlärning för att fånga den övergripande positionen för långformiga nyhetsartiklar.”

Den nya artikeln heter Journalistiskt vägledande agentbaserad inkontextuell inlärning för nyhetsståndpunktsdetektering, och kommer från olika fakulteter vid Seoul’s Soongsil University, samt KAIST’s Graduate School of Future Strategy.

Metod

En del av utmaningen med AI-förstärkt ståndpunktsdetektering är logistisk, och relaterad till hur mycket signal en maskinlärningsmodell kan behålla och samla in samtidigt, på den nuvarande state-of-the-art-nivån.

Nyhetsartiklar tenderar att undvika direkta uttalanden om åsikt, och förlitar sig i stället på en implicit eller antagen ståndpunkt, signalerad genom val av källor att citera, hur berättelsen ramas in, och vilka detaljer som utelämnas, bland många andra överväganden.

Även när en artikel tar en tydlig position, är signalen ofta spridd över texten, med olika segment som pekar i olika riktningar. Eftersom språkmodeller (LM) fortfarande kämpar med begränsade kontextfönster, kan detta göra det svårt för modeller att bedöma ståndpunkt på samma sätt som de gör med kortare innehåll (såsom tweets och annat kortformigt socialt media), där relationen mellan texten och målet är mer explicit.

Därför fungerar standardtillvägagångssätt ofta inte när de tillämpas på fullständig journalistik; ett fall där tvetydighet är en funktion snarare än en brist.

Artikeln påstår:

‘För att hantera dessa utmaningar föreslår vi en hierarkisk modellansats som först härleder ståndpunkten på nivån för mindre diskursenheter (t.ex. stycken eller avsnitt), och därefter integrerar dessa lokala förutsägelser för att bestämma artikeln övergripande ståndpunkt.

‘Detta ramverk är utformat för att behålla lokal kontext och fånga spridda ståndpunktsledtrådar vid bedömning av hur olika delar av en nyhetshistoria bidrar till dess övergripande position på ett ämne.’

För detta ändamål sammanställde författarna en ny dataset som heter K-NEWS-STANCE, dragen från koreansk nyhetsbevakning mellan juni 2022 och juni 2024. Artiklarna identifierades först genom BigKinds, en regeringsbackad metadata-tjänst som drivs av Korea Press Foundation, och fulltexter hämtades med hjälp av Naver News-aggregator-API. Den slutliga dataseten bestod av 2 000 artiklar från 31 utgivare, som täckte 47 nationellt relevanta frågor.

Varje artikel annoterades två gånger: en gång för dess övergripande ståndpunkt gentemot ett visst ämne, och en gång för enskilda segment; specifikt rubriken, inledningen, slutsatsen och direkta citat.

Annoteringen leddes av journalisten Jiyoung Han, som också är artikelförfattarens tredje författare, som vägledde processen med hjälp av etablerade ledtrådar från mediestudier, såsom källval, lexikal ramning och mönster för citering. Genom dessa medel erhölls totalt 19 650 segment-specifika ståndpunktsmärken.

För att säkerställa att artiklarna innehöll meningsfulla ståndpunktsignaleringar, klassificerades varje artikel först efter genre, och endast de som märktes som analys eller åsikt (där subjektiv ramning är mer sannolik att hittas) användes för ståndpunktsannotering.

Två tränade annotatorer märkte alla artiklar, och instruerades att konsultera relaterade artiklar om ståndpunkten var oklar, med oenigheter som löstes genom diskussion och ytterligare granskning.

Exempel pÄ poster frÄn K-NEWS-STANCE-dataset, översatt till engelska. Endast rubrik, inledning och citat visas; fullstÀndig brödtext utelÀmnas. Markering indikerar stÄndpunktsmÀrken för citat, med blÄtt för stödjande och rött för motstÄende. Se den citerade kÀll-URL för en tydligare Ätergivning.

Exempel på poster från K-NEWS-STANCE-dataset, översatt till engelska. Endast rubrik, inledning och citat visas; fullständig brödtext utelämnas. Markering indikerar ståndpunktsmärken för citat, med blått för stödjande och rött för motstående. Se den citerade käll-URL för en tydligare återgivning.

JoA-ICL

I stället för att behandla en artikel som en enda block av text, delar författarnas föreslagna system den in i nyckelstrukturerade delar: rubrik, inledning, citat och slutsats, och tilldelar var och en av dessa en språkmodellagent som märker segmentet som stödjande, motstående eller neutral.

Dessa lokala förutsägelser skickas sedan till en andra agent som bestämmer artikeln övergripande ståndpunkt, med de två agenterna koordinerade av en kontroller som förbereder prompten och samlar in resultaten.

Således anpassar JOA-ICL inkontextuell inlärning (där modellen lär sig från exempel i prompten) till hur professionella nyhetsberättelser skrivs, med segment-medvetna prompter i stället för en enda generisk inmatning.

(Observera att de flesta exempel och illustrationer i artikeln är långa och svåra att reproducera tydligt i en online-artikel. Vi ber läsaren att undersöka den ursprungliga käll-URL)

Data och tester

I tester använde forskarna makro F1 och noggrannhet för att utvärdera prestanda, och beräknade genomsnittliga resultat över tio körningar med slumpmässiga frön från 42 till 51 och rapporterade standardfel. Träningsdata användes för att finjustera baslinjemodeller och segment-specifika agenter, med fåskottsexempel valda genom likhetsökning med KLUE-RoBERTa-large.

Tester kördes på tre RTX A6000 GPU:er (var och en med 48 GB VRAM), med Python 3.9.19, PyTorch 2.5.1, Transformers 4.52.0 och vLLM 0.8.5.

GPT-4o-mini, Claude 3 Haiku och Gemini 2 Flash användes via API, vid en temperatur på 1,0 och med maxtoken inställd på 1000 för kedje-tanke-prompt och 100 för andra.

För fullständig finjustering av Exaone-3.5-2.4B användes AdamW-optimeraren vid en inlärningshastighet på 5e-5, med 0,01 viktminskning, 100 uppvärmningssteg och med datan tränad i 10 epoker vid en batchstorlek på 6.

För baslinjer använde författarna RoBERTa, finjusterad för artikelspecifik ståndpunktsdetektering; Chain-of-Thought (CoT) Embeddings, en alternativ finjustering av RoBERTa för den tilldelade uppgiften; LKI-BART, en encoder-decoder-modell som lägger till kontextuell kunskap från en stor språkmodell genom att prompta den med både indata-texten och den avsedda ståndpunktsmärkningen; och PT-HCL, en metod som använder kontrastiv inlärning för att separera allmänna funktioner från de som är specifika för målfrågan:

Prestanda för varje modell pÄ K-NEWS-STANCE-testuppsÀttningen för övergripande stÄndpunktsförutsÀgelse. Resultat visas som makro F1 och noggrannhet, med den högsta poÀngen i varje grupp i fetstil.

Prestanda för varje modell på K-NEWS-STANCE-testuppsättningen för övergripande ståndpunktsförutsägelse. Resultat visas som makro F1 och noggrannhet, med den högsta poängen i varje grupp i fetstil.

JOA-ICL uppnådde den bästa övergripande prestandan över både noggrannhet och makro F1, en fördel som var tydlig över alla tre modellryggar som testades: GPT-4o-mini, Claude 3 Haiku och Gemini 2 Flash.

Den segmentbaserade metoden presterade konsekvent bättre än alla andra tillvägagångssätt, med, som författarna observerar, en anmärkningsvärd fördel i att upptäcka stödjande ståndpunkter, en vanlig svaghet i liknande modeller.

Baslinjemodellerna presterade sämre överlag. RoBERTa och Chain-of-Thought-varianten kämpade med nyanserade fall, medan PT-HCL och LKI-BART presterade bättre, men fortfarande halkade efter JOA-ICL över de flesta kategorier. Det mest precisa enskilda resultatet kom från JOA-ICL (Claude), med 64,8 % makro F1 och 66,1 % noggrannhet.

Bilden nedan visar hur ofta modellerna fick varje märke rätt eller fel:

Förvirringsmatriser som jÀmför baslinjen och JoA-ICL, som visar att bÄda metoderna kÀmpar mest med att upptÀcka 'stödjande' stÄndpunkter.

Förvirringsmatriser som jämför baslinjen och JoA-ICL, som visar att båda metoderna kämpar mest med att upptäcka ‘stödjande’ ståndpunkter.

JOA-ICL presterade bättre överlag än baslinjen, och fick fler märken rätt i varje kategori. Men båda modellerna kämpade mest med stödjande artiklar, och baslinjen missklassificerade nästan hälften, och förväxlade ofta dessa med neutrala.

JOA-ICL gjorde färre misstag, men visade samma mönster, och bekräftade att ‘positiva’ ståndpunkter är svårare för modeller att upptäcka.

För att testa om JOA-ICL fungerar bortom den koreanska språkformen, körde författarna det på CheeSE, en tysk dataset för artikelspecifik ståndpunktsdetektering. Eftersom CheeSE saknar segment-specifika märken, använde forskarna avlägsen övervakning, där varje segment tilldelades samma ståndpunktsmärke som den fullständiga artikeln.

StÄndpunktsdetekteringsresultat pÄ den tysksprÄkiga CheeSE-dataseten. JoA-ICL förbÀttrar konsekvent över nollskottspromptning över alla tre LLM:er och presterar bÀttre Àn finjusterade baslinjer, med Gemini-2.0-flash som ger den starkaste övergripande prestandan.

Ståndpunktsdetekteringsresultat på den tyskspråkiga CheeSE-dataseten. JoA-ICL förbättrar konsekvent över nollskottspromptning över alla tre LLM:er och presterar bättre än finjusterade baslinjer, med Gemini-2.0-flash som ger den starkaste övergripande prestandan.

Även under dessa ‘bullriga’ förhållanden presterade JOA-ICL bättre än både finjusterade modeller och nollskottspromptning. Av de tre modellryggarna som testades gav Gemini-2.0-flash de bästa resultaten.

Slutsats

Få uppgifter i maskinlärning är mer politiskt laddade än ståndpunktsdetektering; men det hanteras ofta på ett kallt, mekaniskt sätt, medan mer uppmärksamhet ges till mindre komplexa frågor i generativ AI, såsom video- och bildskapande, som utlöser mycket högljuddare rubriker.

Den mest uppmuntrande utvecklingen i det nya koreanska arbetet är att det erbjuder en betydande bidrag till analys av fullständigt innehåll, snarare än tweets och kortformigt socialt media, vars incitamenteffekter är mer snabbt glömda än en avhandling, essä eller annat betydande verk.

En anmärkningsvärd utelämnande i det nya arbetet och (så långt jag kan se) i ståndpunktsdetekteringskorpusen i allmänhet är bristen på övervägande av hyperlänkar, som ofta står i för citat som valfria resurser för läsare att lära sig mer om ett ämne; men det måste vara tydligt att valet av sådana URL:er är potentiellt mycket subjektivt och till och med politiskt.

Detta sagt, ju mer prestigefyllt en publikation är, desto mindre sannolikt är det att den kommer att innehålla alla länkar alls som leder läsaren bort från värd-domänen; detta, tillsammans med olika andra SEO-användningar och missbruk av hyperlänkar, gör dem svårare att kvantifiera än explicita citat, titlar eller andra delar av en artikel som kan söka, medvetet eller inte, att påverka läsarens åsikt. Första publiceringen var onsdag, 16 juli 2025

Författare pÄ maskinlÀrande, domÀnspecialist inom mÀnsklig bildsyntes. Före detta chef för forskningsinnehÄll pÄ Metaphysic.ai.