potongan Masalah Plagiarisme: Bagaimana Model AI Generatif Mereproduksi Konten Berhak Cipta - Unite.AI
Terhubung dengan kami

Kecerdasan Buatan

Masalah Plagiarisme: Bagaimana Model AI Generatif Mereproduksi Konten Berhak Cipta

mm

Diterbitkan

 on

plagiarisme-dalam-AI

Kemajuan pesat dalam AI generatif telah memicu kegembiraan mengenai potensi kreatif teknologi ini. Namun model-model canggih ini juga menimbulkan risiko terkait reproduksi konten berhak cipta atau plagiat tanpa atribusi yang tepat.

Bagaimana Jaringan Neural Menyerap Data Pelatihan

Sistem AI modern seperti GPT-3 dilatih melalui proses yang disebut pembelajaran transfer. Mereka menyerap kumpulan data besar-besaran yang diambil dari sumber publik seperti situs web, buku, makalah akademis, dan banyak lagi. Misalnya, data pelatihan GPT-3 mencakup 570 gigabyte teks. Selama pelatihan, AI mencari pola dan hubungan statistik dalam kumpulan data yang sangat besar ini. Ia mempelajari korelasi antara kata, kalimat, paragraf, struktur bahasa, dan fitur lainnya.

Hal ini memungkinkan AI untuk menghasilkan teks atau gambar baru yang koheren dengan memprediksi urutan yang mungkin mengikuti masukan atau perintah tertentu. Namun hal ini juga berarti model ini menyerap konten tanpa memperhatikan risiko hak cipta, atribusi, atau plagiarisme. Akibatnya, AI generatif dapat secara tidak sengaja mereproduksi bagian kata demi kata atau memparafrasekan teks berhak cipta dari korpora pelatihan mereka.

Contoh Utama Plagiarisme AI

Kekhawatiran seputar plagiarisme AI muncul secara nyata sejak tahun 2020 setelah rilis GPT.

Penelitian terbaru menunjukkan bahwa model bahasa besar (LLM) seperti GPT-3 dapat mereproduksi bagian kata demi kata yang substansial dari data pelatihannya tanpa kutipan (Nasr et al., 2023; Carlini et al., 2022). Misalnya, tuntutan hukum oleh The New York Times mengungkapkan perangkat lunak OpenAI menghasilkan artikel New York Times hampir kata demi kata (Waktu New York, 2023).

Temuan ini menunjukkan bahwa beberapa sistem AI generatif dapat menghasilkan keluaran plagiat yang tidak diminta, sehingga berisiko terhadap pelanggaran hak cipta. Namun, prevalensinya masih belum pasti karena sifat LLM yang bersifat 'kotak hitam'. Gugatan New York Times berpendapat bahwa keluaran tersebut merupakan pelanggaran, yang dapat berdampak besar pada pengembangan AI generatif. Secara keseluruhan, bukti menunjukkan bahwa plagiarisme adalah masalah yang melekat pada model jaringan saraf besar yang memerlukan kewaspadaan dan perlindungan.

Kasus-kasus ini mengungkapkan dua faktor utama yang mempengaruhi risiko plagiarisme AI:

  1. Ukuran model – Model yang lebih besar seperti GPT-3.5 lebih rentan untuk membuat ulang bagian teks kata demi kata dibandingkan model yang lebih kecil. Kumpulan data pelatihan mereka yang lebih besar meningkatkan paparan terhadap materi sumber yang dilindungi hak cipta.
  2. Data pelatihan – Model yang dilatih menggunakan data internet bekas atau karya berhak cipta (walaupun berlisensi) lebih cenderung melakukan plagiat dibandingkan model yang dilatih menggunakan kumpulan data yang dikurasi dengan cermat.

Namun, mengukur secara langsung prevalensi hasil plagiarisme merupakan sebuah tantangan. Sifat “kotak hitam” jaringan saraf menyulitkan penelusuran penuh hubungan antara data pelatihan dan keluaran model. Tarif kemungkinan besar sangat bergantung pada arsitektur model, kualitas kumpulan data, dan formulasi yang cepat. Namun kasus-kasus ini menegaskan bahwa plagiarisme AI benar-benar terjadi, yang mempunyai implikasi hukum dan etika yang penting.

Sistem Deteksi Plagiarisme yang Muncul

Sebagai tanggapan, para peneliti telah mulai mengeksplorasi sistem AI untuk secara otomatis mendeteksi teks dan gambar yang dihasilkan oleh model dibandingkan yang dibuat oleh manusia. Misalnya, peneliti di Mila mengusulkan GenFace yang menganalisis pola linguistik yang menunjukkan teks tertulis AI. Startup Anthropic juga telah mengembangkan kemampuan deteksi plagiarisme internal untuk percakapan AI Claude-nya.

Namun, alat-alat ini mempunyai keterbatasan. Data pelatihan yang sangat besar pada model seperti GPT-3 membuat penentuan sumber asli teks plagiat menjadi sulit, bahkan mustahil. Teknik yang lebih kuat akan dibutuhkan karena model generatif terus berkembang pesat. Hingga saat ini, peninjauan manual tetap penting untuk menyaring keluaran AI yang berpotensi dijiplak atau dilanggar sebelum digunakan untuk umum.

Praktik Terbaik untuk Mengurangi Plagiarisme AI Generatif

Berikut adalah beberapa praktik terbaik yang dapat diterapkan oleh pengembang dan pengguna AI untuk meminimalkan risiko plagiarisme:

Untuk pengembang AI:

  • Periksa dengan cermat sumber data pelatihan untuk mengecualikan materi berhak cipta atau berlisensi tanpa izin yang sesuai.
  • Kembangkan dokumentasi data yang ketat dan prosedur pelacakan asal. Rekam metadata seperti lisensi, tag, pembuat, dll.
  • Menerapkan alat pendeteksi plagiarisme untuk menandai konten berisiko tinggi sebelum dirilis.
  • Berikan laporan transparansi yang merinci sumber data pelatihan, perizinan, dan asal usul keluaran AI ketika kekhawatiran muncul.
  • Memungkinkan pembuat konten untuk tidak ikut serta dalam kumpulan data pelatihan dengan mudah. Penuhi permintaan penghapusan atau pengecualian dengan cepat.

Untuk pengguna AI generatif:

  • Saring secara menyeluruh keluaran untuk setiap bagian yang berpotensi dijiplak atau tidak diberi atribusi sebelum diterapkan dalam skala besar.
  • Hindari memperlakukan AI sebagai sistem kreatif yang sepenuhnya otonom. Mintalah pengulas manusia memeriksa konten akhir.
  • Lebih menyukai AI yang membantu kreasi manusia daripada menghasilkan konten yang benar-benar baru dari awal. Gunakan model untuk memparafrasekan atau membuat ide.
  • Konsultasikan persyaratan layanan penyedia AI, kebijakan konten, dan perlindungan plagiarisme sebelum digunakan. Hindari model buram.
  • Kutip sumber dengan jelas jika ada materi berhak cipta yang muncul dalam hasil akhir meskipun telah dilakukan upaya terbaik. Jangan menampilkan karya AI sebagai karya yang sepenuhnya orisinal.
  • Batasi pembagian hasil secara pribadi atau rahasia sampai risiko plagiarisme dapat dinilai dan diatasi lebih lanjut.

Peraturan data pelatihan yang lebih ketat mungkin juga diperlukan karena model generatif terus berkembang biak. Hal ini mungkin memerlukan persetujuan keikutsertaan dari pembuat konten sebelum karya mereka ditambahkan ke kumpulan data. Namun, tanggung jawab ada pada pengembang dan pengguna untuk menerapkan praktik AI etis yang menghormati hak pembuat konten.

Plagiarisme di V6 Alpha Midjourney

Setelah dorongan terbatas Model V6 tengah perjalanan beberapa peneliti mampu menghasilkan gambar yang hampir identik dengan film berhak cipta, acara TV, dan tangkapan layar video game yang mungkin disertakan dalam data pelatihannya.

Gambar yang Dibuat oleh Tengah Perjalanan Menyerupai Adegan dari Film dan Video Game Terkenal

Gambar yang Dibuat oleh Tengah Perjalanan Menyerupai Adegan dari Film dan Video Game Terkenal

Eksperimen ini semakin menegaskan bahwa sistem AI visual yang canggih sekalipun dapat secara tidak sadar menjiplak konten yang dilindungi jika sumber data pelatihan tetap tidak diperiksa. Hal ini menggarisbawahi perlunya kewaspadaan, perlindungan, dan pengawasan manusia ketika menerapkan model generatif secara komersial untuk membatasi risiko pelanggaran.

Tanggapan perusahaan AI terhadap konten berhak cipta

Batasan antara kreativitas manusia dan AI semakin kabur, sehingga menimbulkan pertanyaan hak cipta yang rumit. Karya yang memadukan masukan manusia dan AI hanya dapat dilindungi hak cipta jika aspeknya dibuat sendiri oleh manusia.

Kantor Hak Cipta AS baru-baru ini menolak hak cipta atas sebagian besar aspek novel grafis AI-manusia, dan menganggap seni AI bukan manusia. Mereka juga mengeluarkan panduan yang mengecualikan sistem AI dari ‘penulis’. Pengadilan federal menegaskan pendirian ini dalam kasus hak cipta seni AI.

Sementara itu, tuntutan hukum menuduh adanya pelanggaran AI generatif, seperti Getty v. Stability AI dan artist v. tengah perjalanan/Stabilitas AI. Namun tanpa ‘penulis’ AI, beberapa orang mempertanyakan apakah klaim pelanggaran dapat diterapkan.

Sebagai tanggapan, perusahaan AI besar seperti Meta, Google, Microsoft, dan Apple berpendapat bahwa mereka tidak memerlukan lisensi atau membayar royalti untuk melatih model AI pada data berhak cipta.

Berikut adalah ringkasan argumen utama dari perusahaan AI besar dalam menanggapi potensi peraturan hak cipta AS yang baru seputar AI, dengan kutipan:

meta berpendapat memaksakan perizinan sekarang akan menimbulkan kekacauan dan memberikan sedikit manfaat bagi pemegang hak cipta.

Google klaim Pelatihan AI dianalogikan dengan tindakan yang tidak melanggar seperti membaca buku (Google, 2022).

Microsoft memperingatkan mengubah undang-undang hak cipta dapat merugikan pengembang AI kecil.

Apple ingin kode hak cipta yang dihasilkan AI dan dikendalikan oleh pengembang manusia.

Secara keseluruhan, sebagian besar perusahaan menentang mandat perizinan baru dan meremehkan kekhawatiran mengenai sistem AI yang mereproduksi karya yang dilindungi tanpa atribusi. Namun, pendirian ini masih kontroversial mengingat adanya tuntutan hukum dan perdebatan mengenai hak cipta AI baru-baru ini.

Jalur Inovasi AI Generatif yang Bertanggung Jawab

Seiring dengan kemajuan model generatif yang kuat ini, menghilangkan risiko plagiarisme sangatlah penting agar dapat diterima oleh masyarakat umum. Diperlukan pendekatan multi-cabang:

  • Reformasi kebijakan seputar transparansi data pelatihan, perizinan, dan persetujuan pencipta.
  • Teknologi deteksi plagiarisme yang lebih kuat dan tata kelola internal oleh pengembang.
  • Kesadaran pengguna yang lebih besar akan risiko dan kepatuhan terhadap prinsip-prinsip etika AI.
  • Preseden hukum dan kasus hukum yang jelas seputar masalah hak cipta AI.

Dengan perlindungan yang tepat, kreasi yang didukung AI dapat berkembang secara etis. Namun risiko plagiarisme yang tidak terkendali dapat merusak kepercayaan publik secara signifikan. Mengatasi masalah ini secara langsung adalah kunci untuk mewujudkan potensi kreatif AI generatif yang sangat besar sekaligus menghormati hak pencipta. Mencapai keseimbangan yang tepat memerlukan perlawanan aktif terhadap titik buta plagiarisme yang tertanam dalam sifat dasar jaringan saraf. Namun hal ini akan memastikan model-model hebat ini tidak melemahkan kecerdikan manusia yang ingin mereka tingkatkan.

Saya telah menghabiskan lima tahun terakhir membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menakjubkan. Semangat dan keahlian saya telah membuat saya berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Keingintahuan saya yang berkelanjutan juga menarik saya ke Natural Language Processing, bidang yang ingin saya jelajahi lebih jauh.