Connect with us

Kecerdasan buatan

Menghadapi NLP untuk Menantang Pertanyaan yang Tidak Tepat

mm

Beberapa pertanyaan tidak dapat dijawab karena mengandung informasi yang salah – presuposisi yang harus disaring dan ditolak oleh pendengar pertanyaan. Ini mengasumsikan, tentu saja, bahwa pendengar memiliki cukup informasi yang benar untuk menantang pertanyaan, bukan menggunakan pertanyaan itu sendiri sebagai sumber informasi (yang salah).

Ini adalah tantangan bagi sistem Pemrosesan Bahasa Alami (NLP) seperti GPT-3, yang memiliki kecenderungan untuk ‘menghalusikan’ informasi untuk mempertahankan dialog.

Saat ini, bertanya kepada GPT-3 ‘Kapan Marie Curie menemukan Uranium?’ kemungkinan akan mendapatkan jawaban ‘Marie Curie menemukan Uranium pada tahun 1898’.

Sumber: https://beta.openai.com/playground (Da Vinci instruct beta).

Sumber: https://beta.openai.com/playground (Da Vinci instruct beta).

Faktanya, Uranium ditemukan pada tahun 1789 oleh ahli kimia Jerman Martin Heinrich Klaproth, sedangkan penemuan Curies pada tahun 1898 adalah isolasi radium.

Masalah sistem NLP yang mengabaikan presuposisi yang salah telah menjadi fokus dalam beberapa kesempatan publisitas tahun ini, termasuk cara Google’s AI-assisted search results akan mengabaikan informasi yang salah dalam pertanyaan ‘Kapan Neil Armstrong menginjak Mars?’ – kesalahan yang masih ditampilkan pada saat penulisan artikel ini, dan sama berlaku untuk Toy Story‘s Buzz Lightyear, yang konon mendarat di Bulan pada tanggal 21 Juli 1969.

Tom Hanks, alumni Toy Story lainnya, juga diberi kredit oleh Google dengan mendarat di Bulan pada tahun 1970, meskipun karakter Apollo 13-nya, astronaut Jim Lovell, paling terkenal karena tidak mencapai hal ini.

Mengatasi Masalah Presuposisi dalam Pertukaran NLP

Sekarang Google Research, bersama dengan peneliti dari Universitas John Hopkins dan Universitas Brown, sedang menyelidiki metode pembelajaran mesin baru yang dapat membuat sistem NLP untuk menantang pertanyaan yang salah secara faktual, sama seperti yang penting bagi guru manusia untuk melakukan selama percakapan dengan siswa.

Makalah terbaru paper Siapa Ahli Bahasa yang Menemukan Lampu? menggarisbawahi upaya yang dilakukan untuk mengembangkan sistem baru untuk mengidentifikasi presuposisi dan mempertimbangkan kebenarannya sebelum melanjutkan pertukaran.

Algoritma baru ini secara efektif memproses pertanyaan sebelum kembali ke percakapan, memecah ‘autentikasi’ pertanyaan dalam tiga tahap.

Tidak dapat diproses! Di sebelah kiri, 'blok' yang terjadi bahkan ketika sistem NLP canggih telah dapat mengidentifikasi bahwa pertanyaan tidak masuk akal. Di sebelah kanan, pemecahan algoritma yang diusulkan untuk memperbaiki kesalahan sumber.

Tidak dapat diproses! Di sebelah kiri, ‘blok’ yang terjadi bahkan ketika sistem NLP canggih telah dapat mengidentifikasi bahwa pertanyaan tidak masuk akal. Di sebelah kanan, pemecahan algoritma yang diusulkan untuk memperbaiki kesalahan sumber. Sumber: https://arxiv.org/pdf/2101.00391.pdf

Meskipun tampaknya seperti rutinitas verifikasi sederhana yang seharusnya sudah dibangun ke dalam sistem pengetahuan sejak awal, sebagian besar rutinitas pelatihan NLP belajar informasi dengan tingkat kepercayaan yang berlebihan terhadap data sumber, termasuk wacana (seperti berita palsu) yang mungkin telah dipublikasikan di saluran yang sebelumnya ‘dipercaya’.

Oleh karena itu, masalah kunci adalah mengidentifikasi sumber fakta yang dapat diandalkan dengan konsensus dalam iklim di mana penyebaran ‘berita’ yang salah melalui media sosial secara default akan memberikan otoritas di bawah logika generalisasi pembelajaran mesin, setidaknya sampai fenomena berita palsu menjadi area minat kritis dalam bidang ini dalam beberapa tahun terakhir.

Menentukan Pendekatan Terbaik untuk Pertanyaan yang Tidak Dapat Dijawab

Untuk menentukan pendekatan yang sesuai untuk memecahkan pertanyaan yang mengandung informasi yang salah, para peneliti menjalankan 100 pertanyaan tersebut melalui empat model Q&A yang berbeda, dan meminta subjek manusia untuk memilih solusi terbaik atau paling tidak bermasalah yang dihasilkan oleh model.

Empat kemungkinan hasil arsitektur untuk ‘pertanyaan buruk’ adalah: ‘Tidak Dapat Dijawab’ – di mana sistem Q&A tertutup efektif menutup pertanyaan tanpa elaborasi lebih lanjut; ‘Penjelasan Berdasarkan Kegagalan Presuposisi’ – di mana sistem gagal memverifikasi presuposisi yang salah, efektif merupakan respons ‘tidak dapat dijawab’, dengan penjelasan tambahan; ‘Penjelasan Ekstraktif’ – di mana sistem mengambil kutipan Wikipedia yang terkait topik dan melampirkannya ke prefatory ‘Pertanyaan ini tidak dapat dijawab karena…’; dan ‘Penulisan Ulang Domain Terbuka’ – di mana sistem kompetitif mencari sumber tambahan dari Wikipedia.

Contoh ini dari empat jawaban yang mungkin untuk pertanyaan yang tampaknya 'tidak dapat dijawab' menggambarkan kompleksitas upaya untuk mencapai solusi domain kompetitif untuk masalah ini.

Contoh ini dari empat jawaban yang mungkin untuk pertanyaan yang tampaknya ‘tidak dapat dijawab’ menggambarkan kompleksitas upaya untuk mencapai solusi domain kompetitif untuk masalah ini.

Selama pengujian, lima peserta (direkrut melalui platform crowdsourcing internal Google) lebih memilih jawaban berdasarkan presuposisi, yang memimpin para peneliti untuk mengembangkan kerangka baru untuk memecah dan memverifikasi pertanyaan.

Dalam sistem baru, pemicu linguistik diperoleh dari pertanyaan oleh generator berbasis aturan yang memecah kalimat menjadi pernyataan fakta yang dianggap. Jika beberapa presuposisi dihasilkan dari pertanyaan, masing-masing akan diselidiki, dan akan berkontribusi pada respons akhir jika mereka menangani presuposisi yang salah dari pertanyaan asli.

Dataset

Presuposisi yang dihasilkan pada tahap awal telah diedit secara manual untuk membuat dataset verifikasi dengan ’emas’ presuposisi. Presuposisi apa pun yang muncul dari percabangan pertanyaan, tetapi yang tidak ada dalam pertanyaan asli, dihilangkan.

Dua penulis makalah tersebut kemudian secara manual mengannotasi 462 presuposisi dalam hal ya/tidak verifiabilitas, berdasarkan halaman Wikipedia yang relevan dengan masing-masing pertanyaan. Kasus ketidaksetujuan diselesaikan dalam diskusi pasca-fakta sebelum dimasukkan ke dalam dataset.

Para peneliti menggunakan zero-shot NLI, tugas klasifikasi premis/hipotesis yang memerlukan pemecahan artikel Wikipedia yang terkait dengan pertanyaan. Karena proses ini menghasilkan banyak pasangan lebih dari yang dimaksud pertanyaan atau yang didukung model, hasil yang disaring kemudian diagregasi dan diberi label.

Hasil dan Formulasi Respons

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.