Andersons Blickwinkel
Was AI über versteckte Absichten in den Nachrichten erzählen kann

ChatGPT-ähnliche Modelle werden trainiert, um zu erkennen, was ein Nachrichtenartikel wirklich über ein Thema denkt – sogar wenn diese Haltung unter Zitaten, Framing oder (manchmal unaufrichtiger) “Neutralität” versteckt ist. Durch die Aufteilung von Artikeln in Segmente wie Überschriften, Leitartikel und Zitaten lernt ein neues System, Voreingenommenheit sogar in langen professionellen journalistischen Texten zu erkennen.
Die Fähigkeit, die wahre Meinung eines Schriftstellers oder Sprechers zu verstehen – ein Ziel, das in der Literatur als Stance-Erkennung bekannt ist – löst eines der schwierigsten interpretativen Probleme in der Sprache: die Absicht aus Inhalten zu gewinnen, die möglicherweise darauf ausgelegt sind, sie zu verstecken oder zu verschleiern.
Von Jonathan Swifts Ein bescheidener Vorschlag bis hin zu jüngsten Auftritten von politischen Akteuren, die die Polemik ihrer ideologischen Gegner übernehmen, ist die Oberfläche einer Aussage kein zuverlässiger Indikator für ihre Absicht; der Aufstieg von Ironie, Trolling, Desinformation und strategischer Ambiguität hat es schwieriger gemacht als je zuvor, zu bestimmen, auf welcher Seite ein Text tatsächlich steht oder ob er überhaupt eine Position einnimmt.
Oftmals wiegt das, was ungesagt bleibt, genauso viel wie das, was ausgesprochen wird, und die bloße Entscheidung, ein Thema zu behandeln, kann die Position des Autors signalisieren.
Das macht die Aufgabe der automatischen Stance-Erkennung ungewöhnlich herausfordernd, da ein effektives Erkennungssystem mehr tun muss, als isolierte Sätze als “unterstützend” oder “oppositionell” zu markieren: Stattdessen muss es durch Schichten von Bedeutung iterieren, kleine Hinweise gegen die Form und den Verlauf des gesamten Artikels abwägen; und dies ist in der Langform-Journalistik schwieriger, wo der Ton sich ändern und die Meinung selten direkt ausgedrückt wird.
Agenten für Veränderung
Um einige dieser Probleme anzugehen, haben Forscher in Südkorea ein neues System namens JOA-ICL (Journalismus-gesteuertes Agentic In-Context Learning) für die Erkennung der Haltung von Langform-Nachrichtenartikeln entwickelt.

Die Kernidee hinter JoA-ICL ist, dass die Artikel-Haltung durch die Aggregation von Segment-Haltungsvorhersagen ermittelt wird, die von einem separaten Sprachmodell-Agenten produziert werden. Quelle: https://arxiv.org/pdf/2507.11049
Statt einen Artikel als Ganzes zu beurteilen, teilt JOA-ICL ihn in strukturelle Teile (Überschrift, Leitartikel, Zitate und Schluss) auf und weist jedem davon ein kleineres Modell zu, das den Abschnitt als unterstützend, oppositionell oder neutral markiert.
Diese lokalen Vorhersagen werden an ein größeres Modell weitergeleitet, das die Gesamthaltung des Artikels bestimmt, wobei die beiden Modelle von einem Controller koordiniert werden, der die Prompts vorbereitet und die Ergebnisse sammelt.
Laut dem Papier übertrifft JOA-ICL sowohl prompt-basierte als auch fein abgestimmte Baselines, insbesondere bei der Erkennung unterstützender Haltungen (die Modelle mit ähnlichem Umfang oft verpassen). Die Methode erwies sich auch als effektiv, als sie auf ein deutsches Dataset unter gleichen Bedingungen angewendet wurde, was darauf hindeutet, dass ihre Prinzipien potenziell widerstandsfähig gegenüber Sprachformen sind.
Die Autoren erklären:
‘Experimente zeigen, dass JOA-ICL bestehende Stance-Erkennungsmethoden übertrifft, und unterstreichen die Vorteile der Segment-Haltung in der Erfassung der Gesamtposition von Langform-Nachrichtenartikeln.”
Das neue Papier trägt den Titel Journalismus-gesteuertes Agentic In-Context Learning für die Nachrichten-Stance-Erkennung und stammt von verschiedenen Fakultäten der Soongsil-Universität in Seoul sowie der KAIST-Graduiertenschule für zukünftige Strategie.
Methode
Ein Teil der Herausforderung der AI-gestützten Stance-Erkennung ist logistischer Natur und hängt mit der Menge an Signalen zusammen, die ein maschinelles Lernsystem zu einem bestimmten Zeitpunkt behalten und verarbeiten kann, im aktuellen Stand der Technik.
News-Artikel tendieren dazu, direkte Meinungsäußerungen zu vermeiden und stattdessen eine implizite oder angenommene Haltung zu signalisieren, die durch Auswahl der Quellen, die narrative Rahmenbedingungen und die Details, die weggelassen werden, unter vielen anderen Überlegungen zum Ausdruck kommt.
Sogar wenn ein Artikel eine klare Position einnimmt, ist das Signal oft über den Text verstreut, wobei verschiedene Segmente in verschiedene Richtungen weisen. Da Sprachmodelle (LMs) immer noch mit begrenzten Kontextfenstern kämpfen, kann dies es schwierig machen, die Haltung in der gleichen Weise zu bewerten, wie es bei kürzeren Inhalten (wie Tweets und anderen kurzen sozialen Medien) der Fall ist, wo die Beziehung zwischen dem Text und dem Ziel expliziter ist.
Daher fallen Standardansätze oft kurz, wenn sie auf vollständige Journalismus angewendet werden; ein Fall, in dem Ambiguität eher ein Merkmal als ein Fehler ist.
Das Papier erklärt:
‘Um diese Herausforderungen anzugehen, schlagen wir einen hierarchischen Modellierungsansatz vor, der zunächst die Haltung auf der Ebene kleinerer Diskurs-Einheiten (z. B. Absätze oder Abschnitte) ableitet und diese lokalen Vorhersagen dann integriert, um die Gesamthaltung des Artikels zu bestimmen.
‘Dieses Framework ist darauf ausgelegt, den lokalen Kontext zu bewahren und verstreute Haltungshinweise bei der Bewertung zu erfassen, wie verschiedene Teile einer Nachrichtengeschichte zu ihrer Gesamtposition beitragen.’
Um dies zu erreichen, haben die Autoren ein neues Dataset mit dem Titel K-NEWS-STANCE zusammengestellt, das aus koreanischen Nachrichtenberichten zwischen Juni 2022 und Juni 2024 besteht. Die Artikel wurden zunächst durch BigKinds identifiziert, einen von der Korea Press Foundation betriebenen Metadatendienst, und die Volltexte wurden mithilfe der Naver News-Aggregator-API abgerufen. Das endgültige Dataset umfasste 2.000 Artikel aus 31 Quellen, die 47 national relevante Themen abdeckten.
Jeder Artikel wurde zweimal annotiert: einmal für seine Gesamthaltung gegenüber einem bestimmten Thema und erneut für einzelne Segmente; insbesondere die Überschrift, Leitartikel, Schluss und direkte Zitate.
Die Annotierung wurde von der Journalismus-Expertin Jiyoung Han geleitet, die auch die dritte Autorin des Papiers ist und den Prozess durch die Verwendung etablierter Hinweise aus den Medienstudien leitete, wie Quellenauswahl, lexikalische Rahmenbedingungen und Zitiermuster. Durch diese Mittel wurden insgesamt 19.650 Segment-Haltungsmarken erhalten.
Um sicherzustellen, dass die Artikel sinnvolle Haltungssignale enthielten, wurde jeder Artikel zunächst nach Genre klassifiziert, und nur diejenigen, die als Analyse oder Meinung (wo subjektive Rahmenbedingungen wahrscheinlicher sind) markiert wurden, wurden für die Haltungsanalyse verwendet.
Zwei ausgebildete Annotatoren markierten alle Artikel und wurden angewiesen, im Falle unklarer Haltungen auf verwandte Artikel zu verweisen, wobei Meinungsverschiedenheiten durch Diskussion und weitere Überprüfung gelöst wurden.

Beispiel-Einträge aus dem K-NEWS-STANCE-Dataset, ins Englische übersetzt. Nur die Überschrift, der Leitartikel und die Zitate werden gezeigt; der vollständige Text wird weggelassen. Hervorhebungen zeigen Haltungsmarken für Zitate, mit blau für unterstützend und rot für oppositionell. Bitte verweisen Sie auf die zitierte Quelle für eine klarere Darstellung.
JoA-ICL
Anstatt einen Artikel als einzelnen Textblock zu behandeln, teilt das vorgeschlagene System des Autors ihn in wichtige strukturelle Teile auf: Überschrift, Leitartikel, Zitate und Schluss, und weist jedem davon ein Sprachmodell-Agent zu, der den Abschnitt als unterstützend, oppositionell oder neutral markiert.
Diese lokalen Vorhersagen werden an einen zweiten Agenten weitergeleitet, der die Gesamthaltung des Artikels bestimmt, wobei die beiden Agenten von einem Controller koordiniert werden, der die Prompts vorbereitet und die Ergebnisse sammelt.
JoA-ICL passt das in-context-Lernen (wo das Modell aus Beispielen im Prompt lernt) an die Art an, wie professionelle Nachrichtengeschichten geschrieben werden, indem es segment-bewusste Prompts anstelle eines einzelnen generischen Eingabewerts verwendet.
(Bitte beachten Sie, dass die meisten Beispiele und Abbildungen in dem Papier lang und schwierig zu reproduzieren sind. Wir bitten den Leser, das Original-PDF zu konsultieren)
Daten und Tests
In Tests verwendeten die Forscher Makro-F1 und Genauigkeit, um die Leistung zu bewerten, indem sie die Ergebnisse über zehn Läufe mit zufälligen Samen von 42 bis 51 mittelten und den Standardfehler meldeten. Die Trainingsdaten wurden verwendet, um fein abgestimmte Modelle und Segment-Modell-Agenten zu trainieren, wobei few-shot-Proben durch Similaritätssuche unter Verwendung von KLUE-RoBERTa-large ausgewählt wurden.
Die Tests wurden auf drei RTX A6000-GPUs (jeweils mit 48 GB VRAM) durchgeführt, unter Verwendung von Python 3.9.19, PyTorch 2.5.1, Transformers 4.52.0 und vLLM 0.8.5.
GPT-4o-mini, Claude 3 Haiku und Gemini 2 Flash wurden über eine API mit einer Temperatur von 1,0 und maximal 1000 Token für Chain-of-Thought-Prompts und 100 für andere verwendet.
Für die vollständige Feinabstimmung von Exaone-3.5-2.4B wurde der AdamW-Optimizer mit einer Lernrate von 5e-5 und 0,01 Gewichtsabnahme verwendet, mit 100 Warm-up-Schritten und mit den Daten, die für 10 Epochen bei einem Batch-Größe von 6 trainiert wurden.
Für die Baselines verwendeten die Autoren RoBERTa, fein abgestimmt für die Artikel-Haltungserkennung; Chain-of-Thought (CoT) Embeddings, eine alternative Abstimmung von RoBERTa für die zugewiesene Aufgabe; LKI-BART, ein Encoder-Decoder-Modell, das kontextuelles Wissen aus einem großen Sprachmodell durch Prompting mit dem Eingabetext und der beabsichtigten Haltungsmarke hinzufügt; und PT-HCL, eine Methode, die kontrastives Lernen verwendet, um allgemeine Merkmale von denen zu trennen, die spezifisch für das Zielthema sind:

Leistung jedes Modells im K-NEWS-STANCE-Testset für die Gesamthaltungsvorhersage. Ergebnisse werden als Makro-F1 und Genauigkeit angezeigt, wobei der beste Wert in jeder Gruppe fett gedruckt ist.
JOA-ICL erzielte die beste Gesamtleistung bei sowohl Genauigkeit als auch Makro-F1, ein Vorteil, der bei allen drei getesteten Modell-Grundlagen deutlich wurde: GPT-4o-mini, Claude 3 Haiku und Gemini 2 Flash.
Die segmentbasierte Methode übertraf konsistent alle anderen Ansätze, wobei die Autoren eine bemerkenswerte Überlegenheit bei der Erkennung unterstützender Haltungen feststellten, ein häufiger Schwachpunkt in ähnlichen Modellen.
Die Baseline-Modelle schnitten insgesamt schlechter ab. RoBERTa und Chain-of-Thought-Varianten hatten Schwierigkeiten mit nuancierten Fällen, während PT-HCL und LKI-BART besser abschnitten, aber immer noch hinter JOA-ICL zurückblieben. Das genaueste einzelne Ergebnis kam von JOA-ICL (Claude), mit 64,8 % Makro-F1 und 66,1 % Genauigkeit.
Das folgende Bild zeigt, wie oft die Modelle jede Marke richtig oder falsch klassifizierten:

Verwirrungs-Matrizen, die die Baseline und JoA-ICL vergleichen und zeigen, dass beide Methoden am meisten Schwierigkeiten haben, unterstützende Haltungen zu erkennen.
JoA-ICL schnitt insgesamt besser ab als die Baseline, indem es mehr Marken richtig klassifizierte, und zwar in jeder Kategorie. Beide Modelle hatten jedoch am meisten Schwierigkeiten mit unterstützenden Artikeln, und die Baseline klassifizierte fast die Hälfte falsch, oft als neutral.
JoA-ICL machte weniger Fehler, zeigte jedoch das gleiche Muster, was bestätigt, dass “positive” Haltungen für Modelle schwerer zu erkennen sind.
Um zu testen, ob JOA-ICL über die Grenzen der koreanischen Sprache hinausgeht, führten die Autoren es auf CheeSE an, einem deutschen Dataset für die Artikel-Haltungserkennung. Da CheeSE keine Segment-Haltungsmarken enthält, verwendeten die Forscher ferne Aufsicht, wobei jedem Segment die gleiche Haltungsmarke zugewiesen wurde wie dem gesamten Artikel.

Haltungserkennungsergebnisse auf dem deutschen CheeSE-Dataset. JoA-ICL verbessert konsistent die Null-Shot-Ausgabe über alle drei LLMs und übertrifft fein abgestimmte Baselines, wobei Gemini-2.0-Flash die stärkste Gesamtleistung liefert.
Auch unter diesen “lauten” Bedingungen übertraf JoA-ICL sowohl fein abgestimmte Modelle als auch Null-Shot-Ausgaben. Von den drei getesteten Modell-Grundlagen lieferte Gemini-2.0-Flash die besten Ergebnisse.
Schlussfolgerung
Wenige Aufgaben im maschinellen Lernen sind politischer aufgeladen als die Haltungsvorhersage; und dennoch wird sie oft in kalten, mechanischen Begriffen behandelt, während mehr Aufmerksamkeit anderen weniger komplexen Themen in der generativen KI gewidmet wird, wie Video- und Bildschaffung, die lauter Schlagzeilen auslösen.
Die ermutigendste Entwicklung in der neuen koreanischen Arbeit ist, dass sie einen bedeutenden Beitrag zur Analyse von vollständigen Inhalten leistet, anstatt nur Tweets und kurze soziale Medien, deren aufwühlende Auswirkungen schneller vergessen werden als eine Abhandlung, ein Essay oder ein anderes bedeutendes Werk.
Ein bemerkenswerter Mangel in der neuen Arbeit und (soweit ich erkennen kann) im Stance-Erkennungs-Korpus im Allgemeinen ist der Mangel an Berücksichtigung von Hyperlinks, die oft als Zitate für optionale Ressourcen für Leser dienen, um mehr über ein Thema zu erfahren; es muss jedoch klar sein, dass die Auswahl solcher URLs potenziell sehr subjektiv und sogar politisch sein kann.
Das bedeutet, dass die prestigeträchtigste Publikation, desto unwahrscheinlicher ist, irgendwelche Links zu enthalten, die den Leser von der Host-Domain wegleiten; dies, zusammen mit verschiedenen anderen SEO-Anwendungen und Missbräuchen von Hyperlinks, macht sie schwieriger zu quantifizieren als explizite Zitate, Titel oder andere Teile eines Artikels, die bewusst oder unbewusst versuchen, die Meinung des Lesers zu beeinflussen.
Erstveröffentlicht am Mittwoch, 16. Juli 2025












