Kecerdasan buatan

Model Penulisan Generatif Berbasis AI Sering ‘Menyalin dan Menempel’ Data Sumber

Published November 19, 2021

Updated April 28, 2026

Martin Anderson

Penulis drama dan pengusaha Amerika Wilson Mizner sering dikutip dengan terkenal mengatakan ‘Ketika Anda mencuri dari satu penulis, itu plagiarisme; jika Anda mencuri dari banyak, itu penelitian’.

Serupa, asumsi sekitar generasi baru sistem penulisan kreatif berbasis AI adalah bahwa jumlah besar data yang diberikan kepada mereka pada tahap pelatihan telah menghasilkan abstraksi yang sebenarnya dari konsep dan ide tingkat tinggi; bahwa sistem ini memiliki kebijaksanaan yang diperoleh dari ribuan penulis yang berkontribusi, dari mana AI dapat merumuskan penulisan inovatif dan asli; dan bahwa mereka yang menggunakan sistem tersebut dapat yakin bahwa mereka tidak secara tidak sengaja melakukan plagiarisme-by-proxy.

Asumsi ini ditantang oleh sebuah makalah baru dari konsorsium penelitian (termasuk divisi penelitian AI Facebook dan Microsoft), yang menemukan bahwa model bahasa generatif berbasis pembelajaran mesin seperti seri GPT ‘terkadang menyalin bahkan kalimat yang sangat panjang’ ke dalam output asli mereka, tanpa atribusi.

Dalam beberapa kasus, penulis mencatat, GPT-2 akan menduplikat lebih dari 1.000 kata dari set pelatihan dalam outputnya.

Makalah tersebut berjudul Seberapa banyak model bahasa menyalin dari data pelatihan mereka? Mengevaluasi kebaruan linguistik dalam generasi teks menggunakan RAVEN, dan merupakan kolaborasi antara Universitas Johns Hopkins, Microsoft Research, Universitas New York, dan Facebook AI Research.

RAVEN

Studi ini menggunakan pendekatan baru yang disebut RAVEN (RAtingVErbalNovelty), sebuah akronim yang telah diubah dengan menghibur untuk mencerminkan villain burung dalam sebuah puisi klasik:

‘Akronim ini merujuk pada “The Raven” oleh Edgar Allan Poe, di mana narator bertemu dengan seekor burung gagak yang berteriak “Nevermore!” berulang-ulang. Narator tidak dapat mengetahui apakah burung gagak hanya mengulangi apa yang pernah dikatakan oleh manusia, atau jika ia membuat ucapan sendiri (mungkin dengan menggabungkan never dan more)—ketidakpastian dasar yang sama yang ditangani oleh makalah kami.’

Temuan dari makalah baru ini datang dalam konteks pertumbuhan besar untuk sistem penulisan konten AI yang berusaha untuk menggantikan tugas editing ‘sederhana’, dan bahkan untuk menulis konten panjang. Salah satu sistem menerima $21 juta dalam pendanaan seri A awal minggu ini.

Peneliti mencatat bahwa ‘GPT-2 terkadang menduplikat kalimat pelatihan yang lebih dari 1.000 kata panjang.‘ (penekanan mereka), dan bahwa sistem bahasa generatif mempropagasi kesalahan linguistik dalam data sumber.

Model bahasa yang dipelajari di bawah RAVEN adalah seri GPT hingga GPT-2 (penulis tidak memiliki akses pada saat itu ke GPT-3), Transformer, Transformer-XL, dan LSTM.

Kebaruan

Makalah tersebut mencatat bahwa GPT-2 menciptakan infleksi gaya Bush 2 seperti ‘Swissified’, dan turunan seperti ‘IKEA-ness’, menciptakan kata-kata baru tersebut (yang tidak muncul dalam data pelatihan GPT-2) berdasarkan prinsip linguistik yang diperoleh dari ruang dimensi tinggi yang dibentuk selama pelatihan.

Hasilnya juga menunjukkan bahwa ‘74% kalimat yang dihasilkan oleh Transformer-XL memiliki struktur sintaksis yang tidak ada dalam kalimat pelatihan’, menunjukkan, seperti yang dinyatakan oleh penulis, ‘model bahasa neural tidak hanya mengingat; sebaliknya, mereka menggunakan proses produktif yang memungkinkan mereka untuk menggabungkan bagian-bagian yang familiar dengan cara baru.’

Jadi secara teknis, generalisasi dan abstraksi seharusnya menghasilkan teks inovatif dan baru.

Duplikasi Data Mungkin Menjadi Masalah

Makalah tersebut menyatakan bahwa kutipan panjang dan verbatim yang dihasilkan oleh sistem Generasi Bahasa Alami (NLG) dapat menjadi ‘terbakar’ seluruhnya ke dalam model AI karena teks sumber asli diulangi beberapa kali dalam dataset yang belum dide-duplikasi dengan baik.

Meskipun proyek penelitian lain telah menemukan bahwa duplikasi teks lengkap dapat terjadi bahkan jika teks sumber hanya muncul sekali dalam dataset, penulis mencatat bahwa proyek tersebut memiliki arsitektur konseptual yang berbeda dari sistem AI pembangkit konten yang umum.

Penulis juga mengamati bahwa mengubah komponen dekoding dalam sistem generasi bahasa dapat meningkatkan kebaruan, tetapi menemukan dalam tes bahwa ini terjadi dengan biaya kualitas output.

Masalah lebih lanjut muncul karena dataset yang memicu algoritma pembangkit konten menjadi semakin besar. Selain memperburuk masalah sekitar keterjangkauan dan viabilitas pra-pengolahan data, serta jaminan kualitas dan de-duplikasi data, banyak kesalahan dasar tetap dalam data sumber, yang kemudian menjadi dipropagasi dalam output konten oleh AI.

Penulis mencatat*:

‘Peningkatan ukuran set pelatihan baru-baru ini membuatnya sangat kritis untuk memeriksa kebaruan karena besarnya set pelatihan ini dapat mematahkan intuisi kita tentang apa yang diharapkan terjadi secara alami. Sebagai contoh, beberapa pekerjaan terkenal dalam bahasa akuisisi bergantung pada asumsi bahwa bentuk kata kerja reguler tidak teratur (misalnya, becomed, teached) tidak muncul dalam pengalaman pembelajar, sehingga jika pembelajar menghasilkan kata-kata tersebut, mereka harus baru bagi pembelajar.

‘Namun, ternyata bahwa untuk semua 92 kata kerja tidak teratur dasar dalam bahasa Inggris, bentuk reguler yang salah muncul dalam set pelatihan GPT-2.’

Lebih Banyak Kurasi Data Diperlukan

Makalah tersebut menyatakan bahwa perhatian lebih harus diberikan pada kebaruan dalam formulasi sistem bahasa generatif, dengan penekanan khusus pada memastikan bahwa bagian ‘denganheld’ dari data (bagian dari data sumber yang disisihkan untuk menguji seberapa baik algoritma telah menilai tubuh data yang dilatih) sesuai untuk tugas.

‘Dalam pembelajaran mesin, sangat penting untuk mengevaluasi model pada set tes yang diwithheld. Karena sifat terbuka dari generasi teks, teks yang dihasilkan oleh model mungkin disalin dari set pelatihan, dalam hal ini tidak diwithheld—jadi menggunakan data tersebut untuk mengevaluasi model (misalnya, untuk kohesi atau gramatikalitas) tidak valid.’

Penulis juga menyatakan bahwa perhatian lebih juga diperlukan dalam produksi model bahasa karena efek Eliza, sebuah sindrom yang diidentifikasi pada tahun 1966 yang mengidentifikasi “kecenderungan orang untuk membaca pemahaman yang lebih besar daripada yang dibenarkan ke dalam string simbol—terutama kata-kata—yang disusun oleh komputer”.

* Konversi saya dari kutipan inline ke tautan

Martin Anderson

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.

Unite.AI

Model Penulisan Generatif Berbasis AI Sering ‘Menyalin dan Menempel’ Data Sumber

RAVEN

Kebaruan

Duplikasi Data Mungkin Menjadi Masalah

Lebih Banyak Kurasi Data Diperlukan

You may like