Kecerdasan buatan

Menuju Penulisan Sains Otomatis

Published October 10, 2021

Updated April 5, 2026

Martin Anderson

Pagi ini, saya menjelajahi bagian Ilmu Komputer di Arxiv, seperti yang saya lakukan sebagian besar pagi, dan menemukan sebuah makalah terbaru dari Universitas Federal Ceara di Brasil, yang menawarkan kerangka kerja Pemrosesan Bahasa Alami baru untuk mengotomatisasi ringkasan dan ekstraksi data inti dari makalah ilmiah.

Karena ini lebih atau kurang apa yang saya lakukan setiap hari, makalah tersebut mengingatkan saya pada sebuah komentar di thread penulis Reddit awal tahun ini – sebuah ramalan yang menyatakan bahwa penulisan sains akan menjadi salah satu pekerjaan jurnalistik pertama yang diambil alih oleh pembelajaran mesin.

Biarkan saya menjelaskan – saya absolut percaya bahwa penulis sains otomatis akan segera hadir, dan bahwa semua tantangan yang saya uraikan dalam artikel ini dapat diatasi sekarang, atau akan diatasi nanti. Di mana memungkinkan, saya memberikan contoh untuk ini. Selain itu, saya tidak membahas apakah penulis sains AI saat ini atau di masa depan dapat menulis dengan baik; berdasarkan tingkat minat saat ini di sektor ini dari Pemrosesan Bahasa Alami, saya menganggap bahwa tantangan ini akan diatasi nanti.

Namun, saya bertanya apakah penulis sains AI akan dapat identifikasi cerita sains yang relevan sesuai dengan hasil yang diinginkan oleh penerbit.

Saya tidak berpikir itu akan segera terjadi; berdasarkan menjelajahi judul dan/atau salinan dari sekitar 2000 makalah ilmiah baru tentang pembelajaran mesin setiap minggu, saya memiliki pandangan yang lebih sinis tentang seberapa jauh pengiriman akademis dapat dipecah secara algoritma, baik untuk tujuan pengindeksan akademis maupun untuk jurnalisme ilmiah. Seperti biasa, itu adalah orang-orang yang menghalangi jalan.

Prasyarat untuk Penulis Sains Otomatis

Mari kita pertimbangkan tantangan mengotomatisasi pelaporan sains tentang penelitian akademis terbaru. Untuk mempertahankan kesetaraan, kita akan membatasi diri pada kategori CS dari domain Arxiv yang sangat populer dan non-paywalled Arxiv dari Universitas Cornell, yang setidaknya memiliki sejumlah fitur sistematis dan templat yang dapat dimasukkan ke dalam pipa ekstraksi data.

Mari kita anggap juga bahwa tugas yang ada, seperti pada makalah baru dari Brasil, adalah untuk mengulangi judul, ringkasan, metadata, dan (jika dibenarkan) konten tubuh makalah ilmiah baru dalam mencari konstanta, parameter yang dapat diandalkan, token, dan informasi domain yang dapat diambil.

Ini, setelah semua, adalah prinsip yang mendasari kerangka kerja baru yang mendapatkan momentum di bidang pelaporan gempa bumi, penulisan olahraga, jurnalisme keuangan, dan liputan kesehatan, dan merupakan titik awal yang masuk akal untuk jurnalis ilmiah yang ditenagai AI.
… (translation continues)