Sudut Anderson

Bahkan AI Dasar Sekarang Dapat Menulis Berita yang Mirip dengan Tulisan Manusia

Published April 9, 2026

Martin Anderson

AI-generated illustration: a stylized orthographic illustration depicting a woman seated at her home office desk reading a laptop, and a cut-away diagram depicting 'Schrodinger's news source' - a box with a robot writing an article, partitioned from a human writing an article. Each has a stylized journalist appearance. The idea being conveyed is that until you actually know who wrote the piece the woman is reading, it could have been a human or a robot. GPT-1.5

Penelitian baru menunjukkan bahwa bahkan model AI lokal kecil sekarang dapat menulis berita yang tidak dapat dibedakan oleh orang-orang dari jurnalisme nyata, mencocokkan sistem teratas, dan meninggalkan pembaca tidak dapat mengetahui siapa yang menulis apa.

Menurut kolaborasi penelitian baru antara Jerman dan Perancis, manusia tidak dapat mengetahui apakah sebuah artikel berita ditulis oleh AI atau manusia – bahkan ketika itu ditulis oleh model sumber terbuka yang dapat diunduh dan dijalankan pada komputer desktop konsumen rata-rata.

Dalam indikasi lain bahwa AI kecil sedang naik daun, survei 2.318 penilaian yang dikumpulkan dari 1.054 peserta dalam portal studi akademis khusus menemukan bahwa pembaca manusia tidak dapat mengidentifikasi asal sebuah artikel pada tingkat yang lebih tinggi dari kesempatan, bahkan ketika itu dihasilkan oleh model yang relatif sederhana dengan hanya tujuh miliar parameter, termasuk Mistral dan Llama varian:

Mean source and authenticity scores for LLMs tested. GPT-4o’s 200 billion parameters do not massively exceed the 7B parameters of smaller models. Those tested for the study were Gemma 7B, Phi-3 Mini, LLaMA-2 13B, Mistral 7B, GPT-4o, and GPT-3.5. Source

Penulis kembali ke subjek yang mereka teliti pertama kali pada rilis 2024 Berkat atau kutukan? Survei tentang Dampak AI Generatif pada Berita Palsu. Temuan-temuan itu sendiri adalah hasil baru dari proyek yang lebih besar yang pertama kali diumumkan pada Januari, dan menggunakan kerangka kerja JudgeGPT online partisipatif milik penulis.

Featherweight Power

Berjudul Apakah Manusia Dapat Mengenali? Studi Dua Sumbu tentang Persepsi Manusia terhadap Berita yang Dihasilkan LLM, dan berasal dari tiga peneliti di Universitas Ilmu Terapan Frankfurt dan unit penelitian IRISA di Nantes, penelitian baru ini membuat perbedaan penting antara ‘berita palsu’ dan ‘berita yang ditulis AI’ (karena berita palsu dapat ditulis oleh orang, atau oleh AI, dan dua aspek ini tidak harus sinonim).

Namun, mungkin aspek yang paling menarik adalah kesimpulan makalah bahwa model kecil termasuk Mistral 7B dan Gemma 7B dapat, dengan hanya tujuh miliar parameter, mengalahkan model seperti ChatGPT (4o) dengan 200 miliar parameter:

‘Model terbuka dengan hanya 7B parameter menghasilkan teks yang dinilai tidak berbeda dari output GPT-4o, menunjukkan bahwa kemampuan untuk menghasilkan teks yang tidak dapat dibedakan dari manusia tidak lagi terbatas pada model terdepan.’

Namun, ‘berita yang dihasilkan AI’ dapat mewakili banyak jenis kolaborasi manusia-AI, dari pengecekan ejaan hingga pengalihan upaya penuh, dan penelitian ini tidak menjelaskan secara pasti jenis konten AI yang dihasilkan untuk tes tersebut (meskipun menjelaskan metodologi untuk menghasilkannya – lihat di bawah).

Metode

Untuk peserta yang terlibat dengan platform JudgeGPT, setiap fragmen berita dinilai menggunakan kerangka kerja dua sumbu di mana mereka memberikan tiga penilaian independen pada slider kontinu 0-100:

Antarmuka pengguna JudgeGPT, di mana penilai menilai materi berdasarkan atribut sumber; keaslian; dan kesadaran topik. Silakan merujuk ke makalah sumber untuk resolusi yang lebih baik.

Penilaian sumber menangkap apakah sebuah passage tampak seperti ditulis mesin atau manusia; penilaian keaslian, apakah itu dianggap palsu atau sah; dan kesadaran topik, seberapa baik pembaca mengenal subjek.

Skala kontinu digunakan bukan skala Likert, untuk menangkap derajat kepastian lebih akurat, dan untuk mendukung analisis statistik, termasuk korelasi Pearson dan pengelompokan.

Fragmen teks yang dihasilkan mesin dihasilkan oleh kerangka kerja RogueGPT milik penulis, arsitektur feeder untuk JudgeGPT. RogueGPT mengatur kontribusi dari enam Model Bahasa Besar (LLM): ChatGPT-4; ChatGPT-3.5; ChatGPT-4o; LLaMA-2 13B; Gemma 7B; dan Mistral 7B.

Prompt berbasis persona digunakan untuk menghasilkan teks, dan generasi AI didasarkan pada topik berita nyata, dan diperiksa oleh manusia.

Sebaliknya, fragmen yang ditulis oleh manusia diambil dari ‘sumber berita yang mapan’ dan ‘basis data informasi’ yang tidak ditentukan.