Kecerdasan buatan
Model NLP Mengalami Kesusahan untuk Memahami Frasa Nama Berulang
Peneliti dari AS dan Cina telah menemukan bahwa tidak satu pun dari model Natural Language Processing (NLP) terkemuka tampaknya mampu, secara default, untuk menguraikan kalimat bahasa Inggris yang menampilkan frasa nama berulang (NPs), dan ‘berjuang’ untuk membedakan makna sentral dalam contoh-contoh yang terkait erat seperti Film baru favorit saya dan Film favorit saya (masing-masing memiliki makna yang berbeda).

Dalam contoh utama dari makalah, ini adalah teka-teki kecil yang sering gagal dipecahkan anak-anak: bola kedua berwarna hijau, tetapi bola kelima adalah ‘bola hijau kedua’. Source: https://arxiv.org/pdf/2112.08326.pdf
Peneliti menetapkan Tantangan Frasa Nama Berulang (RNPC) untuk beberapa model bahasa terbuka yang diinstal secara lokal: OpenAI’s GPT-3*, Google’s BERT, dan Facebook’s RoBERTa dan BART, menemukan bahwa model-model ini hanya mencapai ‘kesempatan’ performa. Mereka menyimpulkan†:
‘Hasil menunjukkan bahwa model bahasa terkemuka (SOTA) yang difine-tuning pada benchmark standar dengan format yang sama semua berjuang pada dataset kami, menunjukkan bahwa pengetahuan target tidak tersedia dengan mudah.’

Contoh pasangan minimal dalam tantangan RNPC di mana model SOTA membuat kesalahan.
Dalam contoh di atas, model gagal, misalnya, untuk membedakan disparitas semantik antara hewan berbahaya yang mati (yaitu predator yang tidak menimbulkan ancaman karena sudah mati) dan hewan mati yang berbahaya (seperti tupai mati yang mungkin mengandung virus berbahaya dan merupakan ancaman aktif).
(Selain itu, meskipun makalah tidak menyentuhnya, ‘mati’ juga sering digunakan sebagai kata kerja, yang tidak menangani kasus mana pun)
Namun, peneliti juga menemukan bahwa pelatihan tambahan atau suplemen yang mencakup materi RNPC dapat menyelesaikan masalah:
‘Model bahasa pra-terlatih dengan performa SOTA pada benchmark NLU memiliki penguasaan pengetahuan yang buruk, tetapi masih dapat belajar ketika terpapar pada sejumlah kecil data dari RNPC.’
Peneliti berargumentasi bahwa kemampuan model bahasa untuk menavigasi struktur berulang dari jenis ini sangat penting untuk tugas hilir seperti analisis bahasa, terjemahan, dan membuat kasus khusus untuk pentingnya dalam rutinitas deteksi kerusakan:
‘[Kami] mempertimbangkan skenario di mana pengguna berinteraksi dengan agen tugas-berorientasi seperti Siri atau Alexa, dan agen perlu menentukan apakah aktivitas yang terlibat dalam kueri pengguna berpotensi berbahaya [yaitu bagi anak-anak]. Kami memilih tugas ini karena banyak positif palsu berasal dari frasa nama berulang.
‘Misalnya, bagaimana membuat bom buatan sendiri adalah jelas berbahaya sementara bagaimana membuat bom mandi buatan sendiri adalah tidak berbahaya.’
Makalah ini berjudul Apakah “film baru favorit saya” adalah film favorit saya? Mengetes Pemahaman Frasa Nama Berulang, dan berasal dari lima peneliti di University of Pennsylvania dan satu di Peking University.
Data dan Metode
Meskipun pekerjaan sebelumnya telah mempelajari struktur sintaksis dari frasa nama berulang dan kategorisasi semantik dari pengubah, tidak satu pun dari pendekatan ini cukup, menurut peneliti, untuk menangani tantangan.
Oleh karena itu, berdasarkan penggunaan frasa nama berulang dengan dua pengubah, peneliti telah berusaha untuk menetapkan apakah pengetahuan prasyarat ada di sistem NLP SOTA (tidak ada); apakah dapat diajarkan kepada mereka (bisa); apa yang dapat dipelajari model NLP dari frasa nama berulang; dan dengan cara apa pengetahuan tersebut dapat menguntungkan aplikasi hilir.
Dataset yang digunakan peneliti dibuat dalam empat tahap. Pertama adalah konstruksi leksikon pengubah yang berisi 689 contoh yang diambil dari literatur sebelumnya dan karya baru.
Kemudian peneliti mengumpulkan frasa nama berulang dari literatur, korpus yang ada, dan penambahan ciptaan mereka sendiri. Sumber teks termasuk Penn Treebank, dan Annotated Gigaword korpus.
Kemudian tim mempekerjakan mahasiswa pra-seleksi untuk membuat contoh untuk tiga tugas yang akan dihadapi model bahasa, memvalidasi mereka setelahnya menjadi 8.260 contoh yang valid.
Akhirnya, lebih banyak mahasiswa pra-seleksi dippekerjakan, kali ini melalui Amazon Mechanical Turk, untuk menandai setiap contoh sebagai Tugas Kecerdasan Manusia (HIT), menyelesaikan sengketa berdasarkan mayoritas. Ini mengurangi contoh menjadi 4.567 contoh, yang kemudian difilter lebih lanjut menjadi 3.790 contoh yang lebih seimbang.
Peneliti menyesuaikan dataset yang ada untuk merumuskan tiga bagian dari hipotesis pengujian mereka, termasuk MNLI, SNLI, MPE dan ADEPT, melatih semua model SOTA mereka sendiri, kecuali model HuggingFace, di mana checkpoint digunakan.
Hasil
Peneliti menemukan bahwa semua model ‘berjuang’ pada tugas RNPC, versus skor akurasi yang dapat diandalkan 90%+ untuk manusia, dengan model SOTA melakukan pada tingkat ‘kesempatan’ (yaitu tanpa bukti kemampuan bawaan versus kesempatan acak dalam respons).

Hasil dari pengujian peneliti. Di sini model bahasa diuji terhadap akurasi mereka pada benchmark yang ada, dengan garis tengah yang mewakili performa manusia yang setara dalam tugas.
Garis penyelidikan sekunder menunjukkan bahwa kekurangan ini dapat dikompensasikan pada fase pelatihan atau fine-tuning pipa model NLP dengan secara khusus memasukkan pengetahuan tentang frasa nama berulang. Setelah pelatihan suplemen ini dilakukan, model mencapai ‘performa zero-shot yang kuat pada tugas Deteksi Kerusakan [tugas] eksternal’.
Peneliti berjanji untuk merilis kode untuk pekerjaan ini di https://github.com/veronica320/Recursive-NPs.
Dipublikasikan asli 16 Desember 2021 – 17 Desember 2021, 6:55 pagi GMT+2: Koreksi tautan yang rusak.
* GPT-3 Ada, yang merupakan yang tercepat tetapi tidak yang terbaik dari seri ini. Namun, model ‘showcase’ Davinci yang lebih besar tidak tersedia untuk fine-tuning yang merupakan fase akhir dari eksperimen peneliti.
† Konversi saya dari kutipan inline ke tautan.










