Terhubung dengan kami

Kecerdasan Buatan

Pendekatan NLP untuk Deteksi Berlebihan dalam Jurnalisme Sains

mm

Para peneliti dari Denmark telah mengembangkan sistem 'pendeteksian berlebihan' yang dirancang untuk mengurangi efek jurnalis yang melebih-lebihkan implikasi makalah penelitian ilmiah baru saat meringkas dan melaporkannya. Pekerjaan tersebut didorong oleh sejauh mana penelitian baru yang diterbitkan tentang COVID-19 telah terdistorsi dalam saluran pelaporan, meskipun penulis mengakui bahwa itu berlaku di seluruh bagian yang luas dari sektor pelaporan ilmu pengetahuan umum.

kertas, berjudul Siaran Pers Deteksi Berlebihan Ilmu Kesehatan Semi-Diawasi, berasal dari University of Copenhagen, dan mencatat bahwa masalah ini diperparah oleh kecenderungan publikasi untuk tidak menyertakan tautan sumber ke penelitian asli – praktik jurnalistik yang semakin umum yang mencoba menggantikan makalah asli dan menggantikan ringkasan yang dilaporkan ulang sebagai 'sumber pengetahuan' - bahkan di mana kertas tersedia untuk umum.

Dari makalah, manifestasi khas dari karya ilmiah yang dilebih-lebihkan. Sumber: https://arxiv.org/pdf/2108.13493.pdf

Dari makalah, manifestasi khas dari karya ilmiah yang dilebih-lebihkan. Sumber: https://arxiv.org/pdf/2108.13493.pdf

Masalahnya tidak terbatas pada reaksi jurnalistik eksternal terhadap makalah baru, tetapi dapat meluas ke jenis ringkasan lainnya, termasuk upaya PR internal universitas dan lembaga penelitian; materi promosi yang ditujukan untuk menarik perhatian outlet berita; dan tautan rujukan yang berguna (dan amunisi potensial untuk putaran pendanaan) yang diperlukan saat jurnalis 'menggigit'.

Karya ini memanfaatkan Natural Language Processing (NLP) terhadap kumpulan data baru berupa siaran pers dan abstrak berpasangan, dengan para peneliti mengklaim telah mengembangkan '[a] formulasi tugas baru yang lebih realistis' untuk mendeteksi pernyataan ilmiah yang berlebihan. Penulis telah berjanji untuk mempublikasikan kode dan data untuk karya tersebut di GitHub segera.

Mengatasi Sensasionalisme

Sejumlah penelitian telah membahas masalah sensasionalisme ilmiah selama sekitar tiga puluh tahun terakhir, dan menarik perhatian pada informasi yang salah yang dapat ditimbulkannya. Sosiolog ilmiah Amerika akhir Dorothy Nelkin membahas masalah ini terutama pada tahun 1987 Book Menjual Sains: Bagaimana Pers Meliputi Sains dan Teknologi; laporan Embo 2006 Sains buruk di berita utama menyoroti perlunya jurnalis yang lebih terlatih secara ilmiah, sama seperti internet membawa tekanan anggaran kritis pada media tradisional.

Selain itu, pada tahun 2014 British Medical Journal mengangkat masalah tersebut menjadi fokus dalam a melaporkan; dan sebuah studi tahun 2019 dari Wellcome Open Research bahkan menetapkan makalah ilmiah yang dilebih-lebihkan itu tidak memberikan manfaat (dalam hal jangkauan atau lalu lintas) ke outlet berita dan sistem pelaporan lain yang melakukan praktik ini.

Namun, munculnya pandemi telah membawa efek negatif dari hiperbola ini menjadi fokus kritis, dengan berbagai platform informasi, termasuk halaman hasil mesin pencari Google dan Universitas Cornell. ArXiv indeks karya ilmiah sekarang secara otomatis menambahkan penafian ke konten apa pun yang tampaknya berhubungan dengan COVID.

Antarmuka yang diubah untuk penelusuran dan konten terkait COVID, dari laman hasil penelusuran Google, dan dari gudang makalah ilmiah Arxiv yang berpengaruh di Universitas Cornell.

Antarmuka yang diubah untuk penelusuran dan konten terkait COVID, dari laman hasil penelusuran Google, dan dari gudang makalah ilmiah Arxiv yang berpengaruh di Universitas Cornell.

Proyek sebelumnya telah berupaya membuat sistem deteksi berlebihan untuk makalah ilmiah dengan memanfaatkan NLP, termasuk 2019 kolaborasi antara peneliti dari Hong Kong dan China, dan makalah Denmark lainnya (tidak terkait). di 2017.

Para peneliti makalah baru ini mencatat bahwa upaya sebelumnya ini mengembangkan kumpulan data klaim dari abstrak dan ringkasan dari PubMed dan EurekAlert, yang diberi label 'kekuatan', dan menggunakannya untuk melatih model pembelajaran mesin untuk memprediksi mengklaim kekuatan dalam data yang tidak terlihat.

MT-PET

Penelitian baru malah menggabungkan siaran pers dan abstrak sebagai entitas data gabungan, dan mengeksploitasi kumpulan data yang dihasilkan di MT-PET, versi multi-tugas dari penelitian Pelatihan Pemanfaatan Pola terlebih dahulu disajikan di 2020 sebagai Memanfaatkan Pertanyaan Cloze untuk Beberapa Shot Text Classification dan Natural Language Inference, upaya penelitian gabungan dari dua lembaga penelitian Jerman.

Tidak ada kumpulan data yang ditemukan cocok untuk tugas tersebut, dan oleh karena itu tim menyusun kumpulan data baru dari kalimat berpasangan dari abstrak dan siaran pers terkait, yang dinilai oleh 'para ahli' dalam hal kecenderungan mereka untuk melebih-lebihkan.

Para peneliti menggunakan kerangka klasifikasi teks beberapa gambar DAUN BUNGA sebagai bagian dari pipa untuk secara otomatis menghasilkan pasangan pola-verbalizer, kemudian mengulangi melalui data sampai tuplet yang kira-kira setara ditemukan untuk dua kualitas: deteksi berlebihan dan kekuatan klaim.

Data 'emas' untuk pengujian digunakan kembali dari proyek penelitian sebelumnya, yang terdiri dari 823 pasang abstrak dan siaran pers. Peneliti menolak kemungkinan penggunaan data BMJ 2014 karena diparafrasekan.

Proses ini memperoleh kumpulan data dari 663 pasangan abstrak/rilis yang diberi label untuk kelebihan dan kekuatan klaim. Para peneliti secara acak mengambil sampel 100 dari mereka sebagai pembelajaran dengan beberapa pukulan data pelatihan, dengan 553 contoh disisihkan untuk pengujian. Selain itu, satu set pelatihan kecil dibuat yang terdiri dari 1,138 kalimat, diklasifikasikan apakah mewakili kesimpulan utama ringkasan atau siaran pers atau tidak. Ini digunakan untuk mengidentifikasi 'kalimat kesimpulan' dalam pasangan yang tidak berlabel.

pengujian

Para peneliti menguji pendekatan tersebut dalam tiga konfigurasi: pengaturan yang diawasi penuh dengan data berlabel eksklusif; skenario PET tugas tunggal; dan pada MT-PET baru, yang menambahkan utas formulasi sekunder sebagai tugas tambahan (karena tujuan proyek ini adalah untuk memeriksa dua kualitas terpisah dari kumpulan data dengan konstruksi data berpasangan).

Para peneliti menemukan bahwa MT-PET meningkatkan hasil PET dasar di seluruh lingkungan pengujian, dan menemukan bahwa mengidentifikasi kekuatan klaim membantu menghasilkan data pelatihan berlabel halus untuk deteksi berlebihan. Namun, makalah tersebut mencatat bahwa dalam konfigurasi tertentu di antara rangkaian pengujian yang kompleks, khususnya yang terkait dengan kekuatan klaim, keberadaan data yang diberi label secara profesional dapat menjadi faktor dalam peningkatan hasil (dibandingkan dengan proyek penelitian sebelumnya yang mengatasi masalah ini). Hal ini dapat berimplikasi pada sejauh mana pipeline dapat diotomatisasi, tergantung pada penekanan data dari tugas tersebut.

Meskipun demikian, para peneliti menyimpulkan bahwa MT-PET 'membantu dalam kasus yang lebih sulit dalam mengidentifikasi dan membedakan klaim kausal langsung dari klaim yang lebih lemah, dan bahwa pendekatan yang paling berhasil melibatkan pengklasifikasian dan perbandingan kekuatan klaim individu dari pernyataan dari sumber dan dokumen target'.

Sebagai penutup, karya tersebut berspekulasi bahwa MT-PET tidak hanya dapat diterapkan pada makalah ilmiah yang lebih luas (di luar sektor kesehatan), tetapi juga dapat membentuk dasar alat baru untuk membantu jurnalis menghasilkan ikhtisar makalah ilmiah yang lebih baik (meskipun ini, mungkin secara naif, mengasumsikan bahwa jurnalis melebih-lebihkan kekuatan klaim melalui ketidaktahuan), serta membantu komunitas riset dalam merumuskan penggunaan bahasa yang lebih jelas untuk menjelaskan ide-ide yang kompleks. Selanjutnya, makalah ini mengamati:

'[harus] dicatat bahwa hasil kinerja prediktif yang dilaporkan dalam makalah ini adalah untuk siaran pers yang ditulis oleh jurnalis sains – orang dapat mengharapkan hasil yang lebih buruk untuk siaran pers yang lebih menyederhanakan artikel ilmiah.'

 

Penulis tentang pembelajaran mesin, spesialis domain dalam sintesis citra manusia. Mantan kepala konten penelitian di Metaphysic.ai.
Situs pribadi: martinanderson.ai
Kontak: [email dilindungi]
Twitter: @manders_ai