Sudut Anderson

Apa yang AI Bisa Ceritakan Kita tentang Agenda Tersembunyi dalam Berita

mm
ChatGPT-4o and Firefly.

Model-model seperti ChatGPT sedang dilatih untuk mendeteksi apa yang sebenarnya dipikirkan sebuah artikel berita tentang sebuah isu – bahkan ketika posisi tersebut dikubur di bawah kutipan, kerangka, atau ‘kenetralan’ yang kadang-kadang tidak tulus. Dengan memecah artikel menjadi segmen seperti judul, lead, kutipan, dan kesimpulan, sebuah sistem baru belajar untuk mendeteksi bias bahkan dalam jurnalisme profesional berformat panjang.

 

Kemampuan untuk memahami pandangan sebenarnya dari seorang penulis atau pembicara – sebuah upaya yang dikenal dalam literatur sebagai deteksi posisi – menangani salah satu masalah interpretatif paling sulit dalam bahasa: memahami niat dari konten yang mungkin dirancang untuk menyembunyikan atau mengaburkannya.

Dari A Modest Proposal karya Jonathan Swift, hingga penampilan baru-baru ini oleh aktor politik yang meminjam polemik dari lawan ideologis mereka, permukaan sebuah pernyataan tidak lagi menjadi indikator yang dapat diandalkan dari niatnya; munculnya ironi, trolling, disinformasi, dan ambiguitas strategis telah membuatnya lebih sulit dari sebelumnya untuk menentukan posisi teks yang sebenarnya, atau apakah itu memiliki posisi sama sekali.

Seringkali, apa yang tidak dikatakan memiliki bobot yang sama dengan apa yang dikatakan, dan hanya memilih untuk menutupi sebuah topik dapat menandakan posisi penulis.

Hal ini membuat tugas deteksi posisi otomatis menjadi sangat menantang, karena sistem deteksi yang efektif perlu melakukan lebih dari sekadar menandai kalimat yang terisolasi sebagai ‘mendukung’ atau ‘menentang’: sebaliknya, itu harus mengulangi lapisan makna, menimbang sinyal kecil melawan bentuk dan arah keseluruhan artikel; dan ini lebih sulit dalam jurnalisme berformat panjang, di mana nada mungkin berubah dan opini mungkin jarang dinyatakan secara langsung.

Agen Perubahan

Untuk menangani beberapa masalah ini, peneliti di Korea Selatan telah mengembangkan sebuah sistem baru yang disebut JOA-ICL (Pembelajaran Kontekstual Agensi yang Dipandu Jurnalisme) untuk mendeteksi posisi artikel berita berformat panjang.

Gagasan inti di balik JOA-ICL adalah bahwa posisi artikel-level diperkirakan dengan menggabungkan prediksi level-segmen yang dihasilkan oleh agen model bahasa terpisah.. Sumber: https://arxiv.org/pdf/2507.11049

Gagasan inti di balik JoA-ICL adalah bahwa posisi artikel-level diperkirakan dengan menggabungkan prediksi level-segmen yang dihasilkan oleh agen model bahasa terpisah. Sumber: https://arxiv.org/pdf/2507.11049

Sebagai gantinya untuk menghakimi sebuah artikel sebagai satu kesatuan, JOA-ICL memecahnya menjadi bagian struktural (judul, lead, kutipan, dan kesimpulan) dan menugaskan model yang lebih kecil untuk menandai setiap bagian. Prediksi lokal ini kemudian diteruskan ke model yang lebih besar, yang menggunakan prediksi tersebut untuk menentukan posisi artikel secara keseluruhan.

Metode ini diuji pada dataset Korea baru yang disusun, yang berisi 2.000 artikel berita yang diberi label untuk posisi artikel-level dan segmen-level. Setiap artikel diberi label dengan input dari ahli jurnalisme, mencerminkan bagaimana posisi didistribusikan di seluruh struktur penulisan berita profesional.

Menurut makalah, JOA-ICL outperforms baik baseline yang berbasis prompt dan fine-tuned, menunjukkan kekuatan khusus dalam mendeteksi posisi yang mendukung (yang model dengan cakupan serupa cenderung melewatkan). Metode ini juga terbukti efektif ketika diterapkan pada dataset Jerman di bawah kondisi yang sesuai, menunjukkan bahwa prinsip-prinsipnya berpotensi tahan terhadap bentuk bahasa.

Para penulis menyatakan:

‘Eksperimen menunjukkan bahwa JOA-ICL outperforms metode deteksi posisi yang ada, menyoroti manfaat dari keagenan level-segmen dalam menangkap posisi keseluruhan artikel berita berformat panjang.”

Makalah baru ini berjudul Pembelajaran Kontekstual Agensi yang Dipandu Jurnalisme untuk Deteksi Posisi Berita, dan berasal dari berbagai fakultas di Universitas Soongsil Seoul, serta Sekolah Pascasarjana Strategi Masa Depan KAIST.

Metode

Bagian dari tantangan deteksi posisi yang ditingkatkan dengan AI adalah logistik, dan terkait dengan seberapa banyak sinyal yang dapat ditahan dan dikumpulkan oleh sistem pembelajaran mesin pada satu waktu, pada tingkat kecanggihan saat ini.

Artikel berita cenderung menghindari pernyataan langsung tentang opini, bergantung pada implisit atau yang diasumsikan posisi, yang ditandai melalui pilihan tentang sumber mana yang dikutip, bagaimana narasi dibingkai, dan apa detail yang ditinggalkan, di antara banyak pertimbangan lainnya.

Even ketika sebuah artikel mengambil posisi yang jelas, sinyalnya seringkali tersebar di seluruh teks, dengan segmen yang berbeda menunjuk ke arah yang berbeda. Karena model bahasa (LM) masih bergelut dengan jendela konteks yang terbatas, ini dapat membuatnya sulit bagi model untuk menilai posisi dengan cara yang sama seperti konten yang lebih pendek (seperti tweet dan media sosial lainnya), di mana hubungan antara teks dan target lebih eksplisit.

Oleh karena itu, pendekatan standar seringkali gagal ketika diterapkan pada jurnalisme penuh; sebuah kasus di mana ambiguitas adalah fitur daripada kelemahan.

Makalah menyatakan:

‘Untuk menangani tantangan ini, kami mengusulkan pendekatan pemodelan hierarkis yang pertama kali menginfer posisi pada tingkat unit wacana yang lebih kecil (misalnya, paragraf atau bagian), dan kemudian mengintegrasikan prediksi lokal ini untuk menentukan posisi keseluruhan artikel.

‘Kerangka ini dirancang untuk mempertahankan konteks lokal dan menangkap sinyal posisi yang tersebar dalam menilai bagaimana berbagai bagian dari sebuah cerita berita berkontribusi pada posisi keseluruhan tentang sebuah isu.’

Untuk tujuan ini, para penulis menyusun dataset baru yang disebut K-NEWS-STANCE, yang diambil dari liputan berita Korea antara Juni 2022 dan Juni 2024. Artikel pertama kali diidentifikasi melalui BigKinds, layanan metadata yang didukung pemerintah yang dioperasikan oleh Yayasan Pers Korea, dan teks lengkap diperoleh menggunakan API agregator Berita Naver. Dataset akhir terdiri dari 2.000 artikel dari 31 outlet, yang mencakup 47 isu yang relevan secara nasional.

Setiap artikel diberi label dua kali: sekali untuk posisi keseluruhan terhadap isu tertentu, dan sekali lagi untuk segmen individu; khususnya judul, lead, kesimpulan, dan kutipan langsung.

Pelabelan dipimpin oleh ahli jurnalisme Jiyoung Han, juga penulis ketiga makalah, yang memandu proses melalui penggunaan petunjuk yang mapan dari studi media, seperti pemilihan sumber, pembingkaian leksikal, dan pola kutipan. Dengan cara ini, total 19.650 label posisi level-segmen diperoleh.

Untuk memastikan artikel tersebut mengandung sinyal pandangan yang bermakna, setiap artikel pertama kali diklasifikasikan menurut genre, dan hanya mereka yang diberi label sebagai analisis atau opini (di mana pembingkaian subjektif lebih mungkin ditemukan) yang digunakan untuk pelabelan posisi.

Dua pelabel yang terlatih melabel semua artikel, dan diminta untuk mengkonsultasikan artikel terkait jika posisi tidak jelas, dengan perselisihan yang diselesaikan melalui diskusi dan tinjauan tambahan.

Entri sampel dari dataset K-NEWS-STANCE, diterjemahkan ke dalam bahasa Inggris. Hanya judul, lead, dan kutipan yang ditampilkan; teks tubuh penuh dihilangkan. Pemberian warna menunjukkan label posisi untuk kutipan, dengan biru untuk mendukung dan merah untuk menentang. Silakan merujuk ke sumber PDF yang dikutip untuk perenderan yang lebih jelas.

Entri sampel dari dataset K-NEWS-STANCE, diterjemahkan ke dalam bahasa Inggris. Hanya judul, lead, dan kutipan yang ditampilkan; teks tubuh penuh dihilangkan. Pemberian warna menunjukkan label posisi untuk kutipan, dengan biru untuk mendukung dan merah untuk menentang. Silakan merujuk ke sumber PDF yang dikutip untuk perenderan yang lebih jelas.

JoA-ICL

Daripada memperlakukan sebuah artikel sebagai satu blok teks, sistem yang diusulkan oleh penulis membaginya menjadi bagian struktural utama: judul, lead, kutipan, dan kesimpulan, menugaskan setiap bagian tersebut ke agen model bahasa, yang menandai segmen sebagai mendukung, menentang, atau netral.

Prediksi lokal ini kemudian diteruskan ke agen kedua yang menentukan posisi artikel secara keseluruhan, dengan kedua agen yang koordinasi oleh kontroler yang mempersiapkan prompt dan mengumpulkan hasil.

Dengan demikian, JoA-ICL menyesuaikan pembelajaran kontekstual (di mana model belajar dari contoh dalam prompt) untuk mencocokkan cara penulisan cerita berita profesional, menggunakan prompt yang sadar segmen daripada input generik tunggal.

(Perlu diingat bahwa sebagian besar contoh dan ilustrasi dalam makalah ini panjang dan sulit untuk direproduksi dengan jelas dalam artikel online. Oleh karena itu, kami mohon pembaca untuk memeriksa sumber PDF asli)

Data dan Pengujian

Dalam pengujian, peneliti menggunakan macro F1 dan akurasi untuk mengevaluasi kinerja, merata-ratakan hasil selama sepuluh kali dengan biji acak dari 42 hingga 51 dan melaporkan kesalahan standar. Data pelatihan digunakan untuk fine-tune model baseline dan agen level-segmen, dengan sampel few-shot dipilih melalui pencarian kesamaan menggunakan KLUE-RoBERTa-large.

Pengujian dilakukan di atas tiga RTX A6000 GPU (masing-masing dengan 48GB VRAM), menggunakan Python 3.9.19, PyTorch 2.5.1, Transformers 4.52.0, dan vLLM 0.8.5.

GPT-4o-mini, Claude 3 Haiku, dan Gemini 2 Flash digunakan melalui API, pada suhu 1,0 dan dengan token maksimum 1000 untuk prompt chain-of-thought, dan 100 untuk yang lain.

Untuk fine-tuning penuh Exaone-3.5-2.4B, optimizer AdamW digunakan pada tingkat pembelajaran 5e-5, dengan 0,01 pengurangan bobot, 100 langkah pemanasan, dan dengan data yang dilatih selama 10 epoch pada ukuran batch 6.

Untuk baseline, penulis menggunakan RoBERTa, fine-tuned untuk deteksi posisi artikel-level; Chain-of-Thought (CoT) Embeddings, penyetelan ulang RoBERTa untuk tugas yang ditugaskan; LKI-BART, model encoder-decoder yang menambahkan pengetahuan kontekstual dari model bahasa besar dengan memprompts input teks dan label posisi yang diinginkan; dan PT-HCL, metode yang menggunakan pembelajaran kontrastif untuk memisahkan fitur umum dari fitur yang spesifik untuk isu target:

Kinerja setiap model pada set pengujian K-NEWS-STANCE untuk prediksi posisi keseluruhan. Hasil ditampilkan sebagai macro F1 dan akurasi, dengan skor teratas dalam setiap kelompok dalam tebal.

Kinerja setiap model pada set pengujian K-NEWS-STANCE untuk prediksi posisi keseluruhan. Hasil ditampilkan sebagai macro F1 dan akurasi, dengan skor teratas dalam setiap kelompok dalam tebal.

JOA-ICL mencapai kinerja terbaik secara keseluruhan di kedua akurasi dan macro F1, keunggulan yang jelas di semua tiga backbone model yang diuji: GPT-4o-mini, Claude 3 Haiku, dan Gemini 2 Flash.

Metode berbasis segmen secara konsisten outperforms semua pendekatan lain, dengan, para penulis mengamati, keunggulan yang signifikan dalam mendeteksi posisi yang mendukung, kelemahan umum dalam model serupa.

Model baseline memiliki kinerja yang lebih buruk secara keseluruhan. RoBERTa dan varian Chain-of-Thought mengalami kesulitan dengan kasus yang halus, sementara PT-HCL dan LKI-BART berkinerja lebih baik, tetapi masih kalah dengan JOA-ICL di sebagian besar kategori. Hasil akurasi tunggal yang paling akurat berasal dari JOA-ICL (Claude), dengan 64,8% macro F1 dan 66,1% akurasi.

Gambar di bawah menunjukkan seberapa sering model tersebut mendapatkan label yang benar atau salah:

Matriks kebingungan yang membandingkan baseline dan JoA-ICL, menunjukkan bahwa kedua metode tersebut mengalami kesulitan paling besar dalam mendeteksi posisi 'mendukung'.

Matriks kebingungan yang membandingkan baseline dan JoA-ICL, menunjukkan bahwa kedua metode tersebut mengalami kesulitan paling besar dalam mendeteksi posisi ‘mendukung’.

JOA-ICL berkinerja lebih baik secara keseluruhan daripada baseline, mendapatkan lebih banyak label yang benar di setiap kategori. Namun, kedua model tersebut mengalami kesulitan paling besar dengan artikel yang mendukung, dan baseline salah mengklasifikasikan hampir setengahnya, sering kali menganggapnya sebagai netral.

JOA-ICL membuat lebih sedikit kesalahan, tetapi menunjukkan pola yang sama, memperkuat bahwa ‘posisi positif’ lebih sulit untuk model untuk mendeteksi.

Untuk menguji apakah JOA-ICL bekerja di luar batasan bahasa Korea, penulis menjalankannya pada CheeSE, dataset Jerman untuk deteksi posisi artikel-level. Karena CheeSE tidak memiliki label level-segmen, penulis menggunakan pengawasan jauh, di mana setiap segmen diberi label yang sama dengan artikel secara keseluruhan.

Hasil deteksi posisi pada dataset CheeSE bahasa Jerman. JoA-ICL secara konsisten meningkatkan prompt zero-shot di semua tiga LLM dan outperforms baseline yang fine-tuned, dengan Gemini-2.0-flash memberikan kinerja terbaik secara keseluruhan.

Hasil deteksi posisi pada dataset CheeSE bahasa Jerman. JoA-ICL secara konsisten meningkatkan prompt zero-shot di semua tiga LLM dan outperforms baseline yang fine-tuned, dengan Gemini-2.0-flash memberikan kinerja terbaik secara keseluruhan.


Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.