Verbind je met ons

Anderson's hoek

Wat AI ons kan vertellen over verborgen agenda's in het nieuws

mm
ChatGPT-4o en Firefly.

Er worden ChatGPT-stijlmodellen getraind om te detecteren wat een nieuwsartikel is werkelijk denkt na over een onderwerp – zelfs wanneer dat standpunt bedolven wordt onder citaten, framing of (soms onoprechte) 'neutraliteit'. Door artikelen op te splitsen in segmenten zoals koppen, leads en citaten, leert een nieuw systeem vooringenomenheid te herkennen, zelfs in lange professionele journalistiek.

 

Het vermogen om het ware standpunt van een schrijver of spreker te begrijpen – een streven dat in de literatuur bekend staat als standdetectie – pakt een van de moeilijkste interpretatieproblemen in taal aan: het afleiden van de intentie uit inhoud die ontworpen is om die intentie te verbergen of te verdoezelen.

Van Jonathan Swift's Een bescheiden voorstel, tot recente optredens van politieke acteurs het lenen van de polemieken van hun ideologische tegenstanders is het oppervlak van een verklaring niet langer een betrouwbare indicator van de intentie ervan; de opkomst van ironie, trollen, desinformatie en strategische ambiguïteit heeft het moeilijker dan ooit gemaakt om precies te bepalen op welke kant een tekst eigenlijk terechtkomt, of of het überhaupt landt.

Vaak is datgene wat niet gezegd wordt even belangrijk als datgene wat wel gezegd wordt. Alleen al door een bepaald onderwerp te behandelen, kan de auteur zijn standpunt kenbaar maken.

Dat maakt de taak van automatische standpuntdetectie buitengewoon uitdagend, omdat een effectief detectiesysteem meer moet doen dan afzonderlijke zinnen als 'ondersteunend' of 'contradictoir' markeren: het moet in plaats daarvan door betekenislagen heen itereren en kleine aanwijzingen afwegen tegen de vorm en strekking van het hele artikel. Dit is moeilijker in lange journalistieke teksten, waar de toon kan veranderen en waar meningen zelden openlijk worden geuit.

Agenten voor verandering

Om een aantal van deze problemen aan te pakken, hebben onderzoekers in Zuid-Korea een nieuw systeem ontwikkeld, genaamd JOA-ICL (Journalistiek-gestuurd agentisch in-context leren) om de positie van lange nieuwsartikelen te detecteren.

Het kernidee achter JOA-ICL is dat de houding op artikelniveau wordt afgeleid door het samenvoegen van voorspellingen op segmentniveau die zijn geproduceerd door een afzonderlijke taalmodelagent. Bron: https://arxiv.org/pdf/2507.11049

Het basisidee achter JoA-ICL is dat het standpunt op artikelniveau wordt afgeleid door het samenvoegen van voorspellingen op segmentniveau die door een afzonderlijke taalmodelagent worden geproduceerd. Bron: https://arxiv.org/pdf/2507.11049

In plaats van een artikel als geheel te beoordelen, splitst JOA-ICL het op in structurele onderdelen (kop, inleiding, citaten en conclusie) en wijst een kleiner model toe om elk onderdeel te labelen. Deze lokale voorspellingen worden vervolgens doorgegeven aan een groter model, dat ze gebruikt om de algehele positie van het artikel te bepalen.

De methode werd getest op een recent samengestelde Koreaanse dataset met 2,000 nieuwsartikelen, geannoteerd op zowel artikel- als segmentniveau. Elk artikel werd voorzien van een label met input van een journalistieke expert, wat weerspiegelde hoe standpunten verdeeld zijn over de structuur van professionele nieuwsredactie.

Volgens het artikel presteert JOA-ICL beter dan zowel prompt-gebaseerde als verfijnde basislijnen, en toont het een bijzondere kracht in het detecteren van ondersteunende posities (die modellen met een vergelijkbaar bereik vaak missen). De methode bleek ook effectief bij toepassing op een Duitse dataset onder gematchte omstandigheden, wat aangeeft dat de principes ervan potentieel bestand zijn tegen taalvormen.

De auteurs stellen:

Experimenten tonen aan dat JOA-ICL beter presteert dan bestaande methoden voor standpuntdetectie, wat de voordelen van agentschap op segmentniveau bij het vastleggen van de algehele positie van lange nieuwsartikelen benadrukt.

Ocuco's Medewerkers nieuw papier is getiteld Journalistiek-geleid agentisch in-context leren voor het detecteren van nieuwsstandpuntenen is afkomstig van verschillende faculteiten van de Soongsil Universiteit in Seoul en de Graduate School of Future Strategy van KAIST.

Methode

Een deel van de uitdaging van AI-ondersteunde standdetectie is logistiek van aard en heeft te maken met de hoeveelheid signaal die een machine learning-systeem op hetzelfde moment kan vasthouden en verzamelen, met de huidige stand van de techniek.

Nieuwsartikelen vermijden vaak directe meningsuitingen en vertrouwen in plaats daarvan op een stilzwijgend or uitgegaan van standpunt, dat tot uiting komt in keuzes over welke bronnen worden geciteerd, hoe het verhaal wordt gekaderd en welke details worden weggelaten, naast vele andere overwegingen.

Zelfs wanneer een artikel een duidelijke positie inneemt, is het signaal vaak verspreid over de tekst, waarbij verschillende segmenten in verschillende richtingen wijzen. Omdat taalmodellen (LM's) nog steeds moeite hebben met beperkte contextvensters, dit kan het voor modellen lastig maken om een standpunt te beoordelen op de manier waarop ze dat doen met kortere content (zoals tweets en andere korte sociale media), waarbij de relatie tussen de tekst en de doelgroep explicieter is.

Standaardbenaderingen schieten dan ook vaak tekort als ze worden toegepast op volledige journalistiek; in zo'n geval is dubbelzinnigheid eerder een kenmerk dan een tekortkoming.

In de krant staat:

Om deze uitdagingen aan te pakken, stellen we een hiërarchische modelleringsaanpak voor. Daarin wordt eerst het standpunt op het niveau van kleinere discourseenheden (bijvoorbeeld paragrafen of secties) afgeleid en worden vervolgens deze lokale voorspellingen geïntegreerd om het algemene standpunt van het artikel te bepalen.

'Dit raamwerk is ontworpen om de lokale context te behouden en verspreide standpunten vast te leggen bij het beoordelen hoe verschillende onderdelen van een nieuwsverhaal bijdragen aan het algehele standpunt over een kwestie.'

Met dit doel voor ogen hebben de auteurs een nieuwe dataset samengesteld met de titel K-NIEUWS-STANDPUNT, afkomstig uit de Koreaanse nieuwsverslaggeving tussen juni 2022 en juni 2024. Artikelen werden voor het eerst geïdentificeerd via Grote soorten, een door de overheid ondersteunde metadatadienst die wordt beheerd door de Korea Press Foundation, en de volledige teksten werden opgehaald met behulp van de Naver News-aggregator-API. De uiteindelijke dataset bestond uit 2,000 artikelen van 31 media, die 47 nationaal relevante onderwerpen behandelden.

Elk artikel werd tweemaal van aantekeningen voorzien: een keer voor het algemene standpunt ten opzichte van een bepaald onderwerp, en nog een keer voor individuele segmenten; specifiek de opschrift, leiden, conclusieen directe citaten.

De annotatie werd geleid door journalistiekdeskundige Jiyoung Han, tevens de derde auteur van het artikel, die het proces begeleidde door het gebruik van vastgestelde aanwijzingen uit mediastudies, zoals bronselectie, lexicale framingen citaatpatronen. Op deze manier werden in totaal 19,650 positielabels op segmentniveau verkregen.

Om er zeker van te zijn dat de artikelen zinvolle standpunten bevatten, werd elk artikel eerst op genre geclassificeerd. Alleen de artikelen die waren gelabeld als analyse of mening (waarbij subjectieve invalshoeken waarschijnlijker zijn) werden gebruikt voor standpuntannotatie.

Twee getrainde annotatoren voorzagen alle artikelen van een label en kregen de opdracht om de gerelateerde artikelen te raadplegen als het standpunt onduidelijk was. Eventuele meningsverschillen werden opgelost door middel van discussie en aanvullende beoordeling.

Voorbeelditems uit de K-NEWS-STANCE-dataset, vertaald naar het Engels. Alleen de kop, inleiding en citaten worden weergegeven; de volledige tekst is weggelaten. Markeringen geven de standpuntlabels voor citaten aan, met blauw voor ondersteunend en rood voor oppositioneel. Raadpleeg de PDF met de geciteerde bron voor een duidelijkere weergave.

Voorbeelditems uit de K-NEWS-STANCE-dataset, vertaald naar het Engels. Alleen de kop, inleiding en citaten worden weergegeven; de volledige tekst is weggelaten. Markeringen geven de standpuntlabels voor citaten aan, met blauw voor ondersteunend en rood voor oppositioneel. Raadpleeg de PDF met de geciteerde bron voor een duidelijkere weergave.

JoA-ICL

In plaats van een artikel als één tekstblok te behandelen, verdeelt het door de auteurs voorgestelde systeem het in belangrijke structurele onderdelen: kop, inleiding, citaten en conclusie. Elk van deze onderdelen wordt toegewezen aan een taalmodelagent, die het segment labelt als ondersteunende, oppositioneelof neutraal.

Deze lokale voorspellingen worden doorgegeven aan een tweede agent die het algemene standpunt van het artikel bepaalt. De twee agenten worden gecoördineerd door een controller die de prompts voorbereidt en de resultaten verzamelt.

JoA-ICL past daarom in-context leren (waarbij het model leert van voorbeelden in de prompt) aan op de manier waarop professionele nieuwsverhalen worden geschreven, waarbij segmentbewuste prompts worden gebruikt in plaats van één enkele generieke invoer.

(Houd er rekening mee dat de meeste voorbeelden en illustraties in het artikel lang en moeilijk leesbaar zijn om te reproduceren in een online artikel. We verzoeken de lezer daarom dringend de originele bron (PDF) te raadplegen.)

Gegevens en testen

Bij tests gebruikten de onderzoekers macro F1 en nauwkeurigheid om de prestaties te evalueren, waarbij de resultaten over tien runs worden gemiddeld met willekeurige seed-waarden van 42 tot 51 en de standaardfout wordt gerapporteerd. Trainingsgegevens werden gebruikt om fine-tunen basismodellen en agenten op segmentniveau, met paar schot monsters geselecteerd via gelijkenisonderzoek met behulp van KLUE-RoBERTa-groot.

Tests werden uitgevoerd op drie RTX A6000 GPU's (elk met 48 GB VRAM), met behulp van Python 3.9.19, PyTorch 2.5.1, Transformers 4.52.0 en vLLM 0.8.5.

GPT-4o-mini, Claude 3 Haikuen Gemini 2 Flitser werden gebruikt via API, op een temperatuur- van 1.0 en met een maximum aantal tokens ingesteld op 1000 voor gedachteketen-prompts, en 100 voor anderen.

Voor volledige fijnafstemming van Exaone-3.5-2.4B Adam W optimizer werd gebruikt op een 5e-5 leersnelheid, met 0.01 gewichtsverval, 100 warming-up stappen, en met de gegevens getraind voor 10 tijdperken een seriegrootte van 6.

Voor de basislijnen gebruikten de auteurs RoBERTa, verfijnd voor detectie van standpunten op artikelniveau; Chain-of-Thought (CoT)-inbeddingen, een alternatieve afstemming van RoBERTa voor de toegewezen taak; LKI-BART, een encoder-decodermodel dat contextuele kennis uit een groot taalmodel toevoegt door het te vragen om zowel de invoertekst als het beoogde standpuntlabel; en PT-HCL, een methode die gebruik maakt van contrastief leren om algemene kenmerken te onderscheiden van de kenmerken die specifiek zijn voor het doelprobleem:

Prestaties van elk model in de K-NEWS-STANCE-testset voor algehele standvoorspelling. Resultaten worden weergegeven als macro F1 en nauwkeurigheid, met de hoogste score in elke groep vetgedrukt.

Prestaties van elk model in de K-NEWS-STANCE-testset voor algehele standvoorspelling. Resultaten worden weergegeven als macro F1 en nauwkeurigheid, met de hoogste score in elke groep vetgedrukt.

JOA-ICL behaalde de beste algehele prestatie op het gebied van zowel nauwkeurigheid als macro F1, een voordeel dat in alle drie de geteste modelbackbones duidelijk zichtbaar is: GPT-4o-mini, Claude 3 Haiku en Gemini 2 Flash.

De segmentgebaseerde methode presteerde consistent beter dan alle andere benaderingen. De auteurs merkten op dat de methode een duidelijke voorsprong had bij het detecteren van ondersteunende standpunten, een veelvoorkomend zwak punt van vergelijkbare modellen.

Baselinemodellen presteerden over het algemeen slechter. RoBERTa- en Chain-of-Thought-varianten hadden moeite met genuanceerde gevallen, terwijl PT-HCL en LKI-BART het beter deden, maar in de meeste categorieën nog steeds achterbleven bij JOA-ICL. Het meest accurate enkelvoudige resultaat kwam van JOA-ICL (Claude), met 64.8% macro F1 en 66.1% nauwkeurigheid.

De afbeelding hieronder laat zien hoe vaak de modellen elk label goed of fout hadden:

Verwarringsmatrices vergelijken de basislijn en JoA-ICL, waaruit blijkt dat beide methoden de meeste moeite hebben met het detecteren van 'ondersteunende' standpunten.

Verwarringsmatrices vergelijken de basislijn en JoA-ICL, waaruit blijkt dat beide methoden de meeste moeite hebben met het detecteren van 'ondersteunende' houdingen.

JoA-ICL deed het over het algemeen beter dan de baseline, met meer correcte labels in elke categorie. Beide modellen hadden echter de meeste moeite met ondersteunende artikelen, en de baseline classificeerde bijna de helft verkeerd, vaak ten onrechte aangezien voor neutrale artikelen.

JoA-ICL maakte minder fouten, maar liet hetzelfde patroon zien. Dit onderstreept dat 'positieve' standpunten moeilijker te herkennen zijn voor modellen.

Om te testen of JoA-ICL ook buiten de grenzen van de Koreaanse taal werkt, hebben de auteurs het op een computer uitgevoerd. Kaas, een Duitse dataset voor positiedetectie op artikelniveau. Omdat CheeSE geen labels op segmentniveau heeft, gebruikten de onderzoekers toezicht op afstand, waarbij aan elk segment hetzelfde standpunt werd toegekend als aan het volledige artikel.

Resultaten van standdetectie in de Duitstalige CheeSE-dataset. JoA-ICL presteert consistent beter dan zero-shot prompting in alle drie de LLM's en overtreft verfijnde basislijnen, waarbij Gemini-2.0-flash de sterkste algehele prestatie levert.

Resultaten van standdetectie in de Duitstalige CheeSE-dataset. JoA-ICL presteert consistent beter dan zero-shot prompting in alle drie de LLM's en overtreft verfijnde basislijnen, waarbij Gemini-2.0-flash de sterkste algehele prestatie levert.

Zelfs onder deze 'ruisrijke' omstandigheden presteerde JoA-ICL beter dan zowel de fijnafgestelde modellen als de zero-shot prompting. Van de drie geteste backbones gaf de Gemini-2.0-flitser de beste resultaten.

Conclusie

Er zijn weinig taken binnen machinaal leren die politiek geladener zijn dan standvoorspelling. Toch wordt dit vaak op een koude, mechanische manier gedaan, terwijl er binnen generatieve AI meer aandacht wordt besteed aan minder complexe zaken, zoals het maken van video's en afbeeldingen, die veel meer aandacht krijgen in de krantenkoppen.

De meest bemoedigende ontwikkeling in het nieuwe Koreaanse werk is dat het een belangrijke bijdrage levert aan de analyse van volledige lengte inhoud, in plaats van tweets en korte berichten op sociale media, waarvan de brandende gevolgen sneller worden vergeten dan een verhandeling, essay of ander belangrijk werk.

Een opvallende omissie in het nieuwe werk en (voor zover ik kan nagaan) in het corpus van de voorspelling van de stand in het algemeen is het gebrek aan aandacht voor hyperlinks, die vaak dienen als optionele bronnen voor lezers om meer over een onderwerp te weten te komen. Het moet echter duidelijk zijn dat de keuze van dergelijke URL's potentieel zeer subjectief en zelfs politiek is.

Dat gezegd hebbende, hoe prestigieuzer de publicatie, hoe minder waarschijnlijk dat het zal omvatten alle links die de lezer wegleiden van het hostdomein. Dit, samen met diverse andere vormen van SEO-gebruik en misbruik van hyperlinks, maakt ze moeilijker te kwantificeren dan expliciete citaten, titels of andere onderdelen van een artikel die, bewust of onbewust, de mening van de lezer proberen te beïnvloeden.

 

Eerste publicatie woensdag 16 juli 2025

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd van onderzoeksinhoud bij Metaphysic.ai.
Persoonlijke site: martinanderson.ai
Contact: [e-mail beveiligd]
Twitter: @manders_ai