Andersons vinkel

Hva AI kan fortelle oss om skjulte agendaer i nyhetene

mm
ChatGPT-4o and Firefly.

ChatGPT-liknende modeller blir trent for å detektere hva en nyhetsartikkel virkelig mener om et tema – selv når denne holdningen er skjult under sitater, rammer eller (av og til uærlig) ‘nøytralitet’. Ved å bryte artikler inn i segmenter som overskrifter, innledninger og sitater, lærer et nytt system å spore fordommer selv i langformige profesjonelle journalistikk.

 

Evnen til å forstå en forfatters eller talers virkelige synspunkt – et mål som i litteraturen er kjent som holdningsdeteksjon – løser ett av de vanskeligste tolkningsproblemer i språk: å skille hensikten fra innhold som kan være designet for å skjule eller forkaste den.

Fra Jonathan Swifts Et beskjedent forslag til nylige forestillinger av politiske skikkelser som låner polemikk fra deres ideologiske motstandere, er overflaten av en uttalelse ikke lenger en pålitelig indikator for dens hensikt; økningen av ironi, trolling, desinformasjon og strategisk tvetydighet har gjort det vanskeligere enn noen gang å fastslå hvilken side en tekst faktisk står på, eller om den står på noen side overhodet.

Ofte bærer det som ikke blir sagt like mye vekt som det som blir sagt, og å velge å dekke et tema kan signalisere forfatterens posisjon.

Dette gjør oppgaven med automatisk holdningsdeteksjon usedvanlig utfordrende, siden et effektivt deteksjonssystem må gjøre mer enn å merke enkeltsetninger som ‘støttende’ eller ‘motstridende’: i stedet må det iterere gjennom lag av mening, veie små signaler mot formen og driften av hele artikkelen; og dette er vanskeligere i langformige journalistikk, hvor tone kan skifte og hvor mening sjelden uttrykkes åpent.

Endringsagenter

For å løse noen av disse problemene, har forskere i Sør-Korea utviklet et nytt system kalt JOA-ICL (Journalistikk-basert Agens-in-Context Learning) for å detektere holdningen til langformige nyhetsartikler.

Kjerneteorien bak JOA-ICL er at artikkel-nivå-holdning er inferert ved å aggregere segment-nivå-prediksjoner produsert av en separat språkmodell-agent.. Kilde: https://arxiv.org/pdf/2507.11049

Kjerneteorien bak JoA-ICL er at artikkel-nivå-holdning er inferert ved å aggregere segment-nivå-prediksjoner produsert av en separat språkmodell-agent. Kilde: https://arxiv.org/pdf/2507.11049

I stedet for å dømme en artikkel som en helhet, deler JOA-ICL den inn i strukturelle deler (overskrift, innledning, sitater og konklusjon) og tilordner hver av disse til en mindre modell som merker hver enkelt som støttende, motstridende eller nøytral.

Disse lokale prediksjoner overføres til en større modell, som bruker dem til å bestemme artikkelens totale holdning.

Ifølge artikkelen, utgjør JOA-ICL en bedre ytelse enn både prompt-baserte og finjusterte baseline-modeller, og viser særlig styrke i å detektere støttende holdninger (som modeller med lignende ambisjoner ofte overseer). Metoden har også vist seg å være effektiv når den ble brukt på et tysk datasett under like forhold, noe som indikerer at dens prinsipper potensielt er motstandsdyktige mot språkformer.

Forfatterne skriver:

‘Eksperimenter viser at JOA-ICL overgår eksisterende holdningsdeteksjonsmetoder, og understreker fordelen med segment-nivå-agens i å fange den totale posisjonen til langformige nyhetsartikler.”

Den nye artikkelen heter Journalistikk-basert Agens-in-Context Learning for Nyhets Holdningsdeteksjon, og kommer fra ulike fakulteter ved Seoul’s Soongsil University, samt KAIST’s Graduate School of Future Strategy.

Metode

En del av utfordringen med AI-forsterket holdningsdeteksjon er logistisk, og relatert til hvor mye signal et maskinlæringssystem kan beholde og samle inn på én gang, på nåværende stand av kunnskap.

Nyhetsartikler unngår ofte å uttrykke direkte meninger, og baserer seg i stedet på en implisitt eller antatt holdning, signalisert gjennom valg om hvilke kilder å sitere, hvordan narrativen er rammet, og hva detaljer som utelates, blant mange andre overveielser.

Even om en artikkel tar en klar posisjon, er signalet ofte spredt over teksten, med ulike segmenter som peker i ulike retninger. Siden språkmodeller (LM) fortsatt sliter med begrensede kontekstvinduer, kan dette gjøre det vanskelig for modellene å vurdere holdning på samme måte som de gjør med kortere innhold (slik som tweets og andre kortformige sosiale medier), hvor forholdet mellom teksten og målet er mer eksplisitt.

Derfor faller standardtilnærminger ofte kort når de brukes på full-lengde journalistikk; et tilfelle hvor tvetydighet er en egenskap snarere enn en feil.

Artikkelen sier:

‘For å løse disse utfordringene, foreslår vi en hierarkisk modelltilnærming som først infererer holdningen på lavere diskursenheter (f.eks. paragrafer eller seksjoner), og deretter integrerer disse lokale prediksjonene for å bestemme artikkelenes totale holdning.

‘Dette rammeverket er designet for å beholde lokal kontekst og fange spredte holdnings-signal i vurderingen av hvordan ulike deler av en nyhetshistorie bidrar til dens totale posisjon på et tema.’

For å nå dette, samlet forfatterne en ny datasett kalt K-NEWS-STANCE, hentet fra koreansk nyhetsdekning mellom juni 2022 og juni 2024. Artikler ble først identifisert gjennom BigKinds, en regjeringsbacket metadata-tjeneste operert av Korea Press Foundation, og fulltekster ble hentet ved hjelp av Naver News aggregator API. Den endelige datasett bestod av 2000 artikler fra 31 utgivelser, som dekket 47 nasjonalt relevante temaer.

Hver artikkel ble annotert to ganger: en gang for dens totale holdning til et gitt tema, og en gang for enkeltsegmenter; spesifikt overskrift, innledning, konklusjon og direkte sitater.

Annoteringen ble ledet av journalisteksperten Jiyoung Han, også artikkelenes tredje forfatter, som guidet prosessen gjennom etablerte signaler fra mediestudier, som kildevalg, leksikalsk ramming og mønster av sitater. Ved disse midlene ble totalt 19 650 segment-nivå-holdningsmerker oppnådd.

For å sikre at artiklene inneholdt meningsfulle synspunktsignal, ble hver artikkel først klassifisert etter sjanger, og bare de som var merket som analyse eller mening (hvor subjektiv ramming er mer sannsynlig å finnes) ble brukt til holdningsannotering.

To trente annotatorer merket alle artikler, og ble instruert til å konsultere relaterte artikler hvis holdningen var uklar, med uenigheter løst gjennom diskusjon og ytterligere gjennomgang.

Eksempler på innganger fra K-NEWS-STANCE-datasettet, oversatt til engelsk. Bare overskrift, innledning og sitater vises; fulltekst utelates. Markering indikerer holdningsmerker for sitater, med blå for støttende og rød for motstridende. Vennligst se den oppgitte kilde-PDF for en tydeligere gjengivelse.

Eksempler på innganger fra K-NEWS-STANCE-datasettet, oversatt til engelsk. Bare overskrift, innledning og sitater vises; fulltekst utelates. Markering indikerer holdningsmerker for sitater, med blå for støttende og rød for motstridende. Vennligst se den oppgitte kilde-PDF for en tydeligere gjengivelse.

JoA-ICL

I stedet for å behandle en artikkel som en enkelt blokk tekst, deler forfatternes foreslåtte system den inn i nøkkelstrukturelle deler: overskrift, innledning, sitater og konklusjon, og tilordner hver av disse til en språkmodell-agent som merker segmentet som støttende, motstridende eller nøytral.

Disse lokale prediksjoner overføres til en annen agent som bestemmer artikkelens totale holdning, med de to agentene koordinert av en kontroller som forbereder promptene og samler inn resultater.

Slik tilpasser JoA-ICL kontekstlæring (hvor modellen lærer fra eksempler i prompten) til måten profesjonelle nyhetshistorier er skrevet, ved å bruke segment-merksame prompter i stedet for en enkelt generisk inndata.

(Vennligst merke at de fleste eksemplene og illustrasjonene i artikkelen er lange og vanskelige å gjengi tydelig i en nettartikkel. Vi ber derfor leseren om å undersøke den opprinnelige kilde-PDF)

Data og tester

I tester, brukte forskerne makro F1 og nøyaktighet for å evaluere ytelse, og gjennomsnittlig resultater over ti kjøringer med tilfeldige frø fra 42 til 51 og rapporterte standardfeil. Treningdata ble brukt til å finjustere baseline-modeller og segment-nivå-agenter, med få-skudd-eksempler valgt gjennom likhetssøk med KLUE-RoBERTa-large.

Tester ble kjørt over tre RTX A6000-GPUer (hver med 48 GB VRAM), ved hjelp av Python 3.9.19, PyTorch 2.5.1, Transformers 4.52.0 og vLLM 0.8.5.

GPT-4o-mini, Claude 3 Haiku og Gemini 2 Flash ble brukt via API, ved en temperatur på 1,0 og med maksimalt antall symboler satt til 1000 for tanke-kjede-prompting, og 100 for andre.

For full finjustering av Exaone-3.5-2.4B, ble AdamW-optimeringsalgoritmen brukt ved en læringsrate på 5e-5 og med 0,01 vektfordampning, 100 varmeprosesser og med data trent i 10 epoker ved en batch-størrelse på 6.

For baseline-modeller, brukte forfatterne RoBERTa, finjustert for artikkel-nivå-holdningsdeteksjon; Tanke-kjede-embeddings, en alternativ finjustering av RoBERTa for den tilordnede oppgaven; LKI-BART, en encoder-decoder-modell som legger til kontekstuell kunnskap fra en stor språkmodell ved å prompte den med både inndata-teksten og den ønskede holdningslabelen; og PT-HCL, en metode som bruker kontrastiv læring for å skille generelle egenskaper fra de som er spesifikke for målet:

Ytelse for hver modell på K-NEWS-STANCE-testsettet for total holdningsprediksjon. Resultater vises som makro F1 og nøyaktighet, med den øverste scoren i hver gruppe i uthevet skrift.

Ytelse for hver modell på K-NEWS-STANCE-testsettet for total holdningsprediksjon. Resultater vises som makro F1 og nøyaktighet, med den øverste scoren i hver gruppe i uthevet skrift.

JOA-ICL oppnådde den beste totale ytelsen over både nøyaktighet og makro F1, en fordel som var synlig over alle tre modell-bakgrunner testet: GPT-4o-mini, Claude 3 Haiku og Gemini 2 Flash.

Segment-basert metode overgikk konsekvent alle andre tilnærminger, med, som forfatterne observerer, en merkbart fordel i å detektere støttende holdninger, en vanlig svakhet i lignende modeller.

Baseline-modeller hadde dårligere resultat overhodet. RoBERTa og tanke-kjede-variantene hadde vanskeligheter med nyanserte tilfeller, mens PT-HCL og LKI-BART hadde bedre resultater, men fortsatt lå bak JOA-ICL over de fleste kategorier. Det mest nøyaktige enkeltresultatet kom fra JOA-ICL (Claude), med 64,8 % makro F1 og 66,1 % nøyaktighet.

Bildet under viser hvor ofte modellene fikk hver label riktig eller feil:

Forvirringsmatriser som sammenligner baseline og JoA-ICL, og viser at begge metoder sliter mest med å detektere 'støttende' holdninger.

Forvirringsmatriser som sammenligner baseline og JoA-ICL, og viser at begge metoder sliter mest med å detektere ‘støttende’ holdninger.

JoA-ICL gjorde færre feil enn baseline-modellen, og viste samme mønster, og understreker at ‘positive’ holdninger er vanskeligere for modeller å spore.

For å teste om JOA-ICL fungerer utenfor grensene for det koreanske språket, kjørte forfatterne det på CheeSE, et tysk datasett for artikkel-nivå-holdningsdeteksjon. Ettersom CheeSE mangler segment-nivå-merker, brukte forskerne fjernovervåking, hvor hver segment ble tildelt samme holdningslabel som hele artikkelen.

Holdningsdeteksjonsresultater på det tyske CheeSE-datasettet. JoA-ICL forbedrer konsekvent over null-skudd-prompting over alle tre LLM-er og overgår finjusterte baseline-modeller, med Gemini-2.0-flash som gir den sterkeste totale ytelsen.

Holdningsdeteksjonsresultater på det tyske CheeSE-datasettet. JoA-ICL forbedrer konsekvent over null-skudd-prompting over alle tre LLM-er og overgår finjusterte baseline-modeller, med Gemini-2.0-flash som gir den sterkeste totale ytelsen.

Konklusjon

Få oppgaver i maskinlæring er mer politisk ladde enn holdningsprediksjon; likevel behandles det ofte på en kald, mekanisk måte, mens mer oppmerksomhet blir gitt til mindre komplekse problemer i generativ AI, som video- og bildeoppretting, som utløser mye høyere overskrifter.

Den mest oppmuntrende utviklingen i det nye koreanske arbeidet er at det tilbyr en betydelig bidrag til analyse av full-lengde-innhold, snarere enn tweets og kortformige sosiale medier, hvis incitament-effekter ofte blir raskt glemt enn en avhandling, essay eller annet betydelig arbeid.

En merkbart utelating i det nye arbeidet og (så langt jeg kan se) i holdningsdeteksjonskorpuset generelt er mangelen på overveielser om hyperlenker, som ofte står i for sitater som valgfrie ressurser for lesere til å lære mer om et tema; likevel må det være klart at valget av slike URL-er potensielt er svært subjektivt og også politisk.

Det er merket at de mest prestisjefylte publikasjonene er mindre sannsynlig å inkludere noen lenker som helst som guider leseren vekk fra vertsdomenet; dette, sammen med andre SEO-bruk og misbruk av hyperlenker, gjør dem vanskeligere å kvantifisere enn eksplisitte sitater, titler eller andre deler av en artikkel som kan søke å påvirke lesers mening, bevisst eller ubevisst.

 

Først publisert onsdag, 16. juli 2025

Forfatter på maskinlæring, domeneekspert på menneskesynthese. Tidligere leder for forskningsinnhold på Metaphysic.ai.