potongan Generasi Parafrase Menggunakan Pembelajaran Penguatan Mendalam - Pemimpin Pemikiran - Unite.AI
Terhubung dengan kami

Kecerdasan Buatan

Parafrase Generasi Menggunakan Deep Reinforcement Learning – Pemimpin Pemikiran

mm
Updated on

Saat menulis atau berbicara, kita semua bertanya-tanya apakah ada cara yang lebih baik untuk mengkomunikasikan ide kepada orang lain. Kata-kata apa yang harus saya gunakan? Bagaimana saya harus menyusun pemikiran itu? Bagaimana tanggapan mereka? Pada Frasa, kita menghabiskan banyak waktu memikirkan tentang bahasa – apa yang berhasil dan apa yang tidak.

Bayangkan Anda sedang menulis baris subjek untuk kampanye email yang akan menjangkau 10 juta orang dalam daftar Anda, mempromosikan diskon 20% untuk laptop baru yang mewah.

Baris mana yang akan Anda pilih:

  • Anda sekarang dapat mengambil tambahan 20% dari pesanan Anda berikutnya
  • Bersiaplah – tambahan diskon 20%.

Meskipun mereka menyampaikan informasi yang sama, yang satu mencapai tingkat pembukaan hampir 15% lebih tinggi daripada yang lain (dan saya yakin Anda tidak dapat mengalahkan model kami dalam memprediksi yang mana?). Sementara bahasa seringkali dapat diuji melalui Pengujian A / B or bandit multi-senjata, menghasilkan parafrase secara otomatis tetap menjadi masalah penelitian yang sangat menantang.

Dua kalimat dianggap parafrase satu sama lain jika mereka memiliki arti yang sama dan dapat digunakan secara bergantian. Hal penting lainnya yang sering dianggap remeh adalah apakah kalimat yang dihasilkan mesin lancar.

Tidak seperti pembelajaran yang diawasi, agen Reinforcement Learning (RL) belajar melalui interaksi dengan lingkungan mereka dan mengamati imbalan yang mereka terima sebagai hasilnya. Perbedaan yang agak bernuansa ini memiliki implikasi besar untuk cara kerja algoritme dan cara model dilatih. Pembelajaran Penguatan Deep menggunakan jaringan saraf sebagai approximator fungsi untuk memungkinkan agen belajar bagaimana mengungguli manusia di lingkungan yang kompleks seperti Go, Atari, dan StarCraft II.

Meskipun sukses, pembelajaran penguatan belum diterapkan secara luas pada permasalahan dunia nyata termasuk Natural Language Processing (NLP).

Sebagai bagian dari saya Tesis MSc dalam Ilmu Data, kami mendemonstrasikan bagaimana Deep RL dapat digunakan untuk mengungguli metode pembelajaran yang diawasi dalam menghasilkan parafrase teks masukan secara otomatis. Masalah menghasilkan parafrase terbaik dapat dilihat sebagai menemukan rangkaian kata yang memaksimalkan kesamaan semantik antara kalimat tetap menjaga kelancaran dalam output. Agen RL sangat cocok untuk menemukan rangkaian tindakan terbaik untuk mencapai imbalan maksimal yang diharapkan dalam lingkungan kontrol.

Berbeda dengan kebanyakan masalah dalam pembelajaran mesin, masalah terbesar di sebagian besar aplikasi Natural Language Generation (NLG) tidak terletak pada pemodelan melainkan pada evaluasi. Meskipun evaluasi manusia saat ini dianggap sebagai standar emas dalam evaluasi NLG, evaluasi ini mempunyai kelemahan yang signifikan, termasuk mahal, memakan waktu, sulit untuk disesuaikan, dan kurang dapat direproduksi di seluruh eksperimen dan kumpulan data. (Han, 2016). Akibatnya, para peneliti telah lama mencari metrik otomatis yang sederhana, dapat digeneralisasikan, dan mencerminkan penilaian manusia (Papineni dkk., 2002).

Metode evaluasi otomatis yang paling umum dalam mengevaluasi teks gambar yang dihasilkan mesin dirangkum di bawah ini beserta pro dan kontranya:

Pembuatan Parafrase menggunakan Reinforcement Learning Pipeline

Kami mengembangkan sistem bernama ParaFrasa yang menghasilkan parafrase berkualitas tinggi. Sistem ini terdiri dari beberapa langkah untuk menerapkan pembelajaran penguatan dengan cara komputasi yang efisien. Ringkasan singkat dari pipa tingkat tinggi ditunjukkan di bawah ini dengan detail lebih lanjut terdapat di tesis.

Dataset

Ada beberapa kumpulan data parafrase yang tersedia yang digunakan dalam penelitian termasuk: Korpus Parafrase Microsoft, Kompetisi Kesamaan Teks Semantik ACL, Pertanyaan Duplikat Quora, dan Tautan Bersama Twitter. Kami telah memilih MS-COCO mengingat ukurannya, kebersihannya, dan penggunaannya sebagai tolok ukur untuk dua makalah generasi parafrase yang terkenal. MS-COCO berisi 120k gambar pemandangan umum dengan 5 keterangan gambar per gambar yang disediakan oleh 5 anotator manusia yang berbeda.

Meskipun dirancang terutama untuk penelitian visi komputer, teksnya cenderung memiliki kesamaan semantik yang tinggi dan merupakan parafrase yang menarik. Mengingat keterangan gambar disediakan oleh orang yang berbeda, mereka cenderung memiliki sedikit variasi dalam detail yang diberikan dalam adegan sehingga kalimat yang dihasilkan cenderung berhalusinasi detail.

Model Diawasi

Meskipun pembelajaran penguatan telah meningkat pesat dalam hal efisiensi sampel, waktu pelatihan, dan praktik terbaik secara keseluruhan, melatih model RL dari awal masih relatif sangat lambat dan tidak stabil (Arulkumaran dkk., 2017). Oleh karena itu, daripada melatih dari awal, pertama-tama kita melatih model yang diawasi, lalu menyempurnakannya menggunakan RL.

Kami menggunakan Encoder-Decoder kerangka kerja model dan mengevaluasi kinerja beberapa model awal yang diawasi. Saat menyempurnakan model menggunakan RL, kami hanya menyempurnakan jaringan dekoder dan memperlakukan jaringan pembuat enkode sebagai statis. Karena itu kami mempertimbangkan dua kerangka kerja utama:

  • Melatih model yang diawasi dari awal menggunakan dekoder encoder standar/vanila dengan GRU
  • Menggunakan model penyematan kalimat yang telah dilatih sebelumnya untuk pembuat enkode termasuk: penyematan kata gabungan (GloVe), InferSent, dan BERT

Model yang diawasi cenderung memiliki kinerja yang hampir sama di seluruh model dengan BERT dan vanilla encoder-decoder mencapai kinerja terbaik.

Meskipun penampilannya cenderung masuk akal, ada tiga sumber kesalahan yang umum: gagap, menghasilkan fragmen kalimat, dan halusinasi. Ini adalah masalah utama yang ingin diselesaikan dengan menggunakan RL.

Model Pembelajaran Penguatan

Menerapkan algoritme RL sangat menantang terutama ketika Anda tidak tahu apakah masalahnya dapat diselesaikan. Mungkin ada masalah dalam penerapan lingkungan Anda, agen Anda, hyperparameter Anda, fungsi hadiah Anda, atau kombinasi dari semua hal di atas! Masalah-masalah ini diperparah saat melakukan RL yang dalam saat Anda bersenang-senang dengan kerumitan tambahan men-debug jaringan saraf.

Seperti semua debugging, sangat penting untuk mulai sederhana. Kami menerapkan variasi dari dua lingkungan RL mainan yang dipahami dengan baik (CartPole dan FrozenLake) untuk menguji algoritme RL dan menemukan strategi berulang untuk mentransfer pengetahuan dari model yang diawasi.

Kami menemukan bahwa menggunakan Algoritma Aktor-Kritik mengungguli REINFORCE di lingkungan ini. Dalam hal mentransfer pengetahuan ke model aktor-kritikus, kami menemukan bahwa menginisialisasi bobot aktor dengan model yang diawasi terlatih dan prapelatihan kritik mencapai kinerja terbaik. Kami merasa sulit untuk menggeneralisasikan pendekatan distilasi kebijakan canggih ke lingkungan baru karena mereka memperkenalkan banyak hyperparameter baru yang memerlukan penyetelan agar berfungsi.

Didukung oleh wawasan ini, kami kemudian beralih ke pengembangan pendekatan untuk tugas pembuatan parafrase. Pertama-tama kita perlu menciptakan lingkungan.

Lingkungan memungkinkan kita untuk dengan mudah menguji dampak penggunaan metrik evaluasi yang berbeda sebagai fungsi penghargaan.

Kami kemudian mendefinisikan agen, mengingat banyak keuntungannya kami menggunakan arsitektur aktor-kritik. Aktor digunakan untuk memilih kata berikutnya dalam urutan dan bobotnya diinisialisasi menggunakan model yang diawasi. Kritikus memberikan perkiraan hadiah yang diharapkan yang kemungkinan akan diterima negara untuk membantu aktor belajar.

Merancang Fungsi Penghargaan yang Tepat

Komponen terpenting dalam merancang sistem RL adalah fungsi reward karena inilah yang coba dioptimalkan oleh agen RL. Jika fungsi hadiah salah, maka hasilnya akan buruk bahkan jika setiap bagian lain dari sistem berfungsi!

Contoh klasiknya adalah Pelari Pantai di mana peneliti OpenAI mengatur fungsi hadiah sebagai memaksimalkan skor total daripada memenangkan perlombaan. Hasil dari ini adalah agen menemukan loop di mana ia bisa mendapatkan skor tertinggi dengan menekan turbo tanpa pernah menyelesaikan balapan.

Mengingat mengevaluasi kualitas parafrase itu sendiri merupakan masalah yang belum terpecahkan, merancang fungsi hadiah yang secara otomatis menangkap tujuan ini bahkan lebih sulit. Sebagian besar aspek bahasa tidak terurai dengan baik menjadi metrik linier dan bergantung pada tugas (Novikova dkk., 2017).

Agen RL sering menemukan strategi menarik untuk memaksimalkan hadiah yang mengeksploitasi kelemahan dalam metrik evaluasi daripada menghasilkan teks berkualitas tinggi. Hal ini cenderung menghasilkan kinerja yang buruk pada metrik yang tidak dioptimalkan secara langsung oleh agen.

Kami mempertimbangkan tiga pendekatan utama:

  1. Metrik Tumpang Tindih Kata

Metrik evaluasi NLP umum mempertimbangkan proporsi kata yang tumpang tindih antara parafrase yang dihasilkan dan kalimat evaluasi. Semakin besar tumpang tindih, semakin besar hadiahnya. Tantangan dengan pendekatan tingkat kata adalah agen menyertakan terlalu banyak kata penghubung seperti “a is on” dan tidak ada ukuran kelancaran. Ini menghasilkan parafrase berkualitas sangat rendah.

  1. Kesamaan tingkat kalimat dan Metrik Kefasihan

Sifat utama dari parafrase yang dihasilkan adalah harus fasih dan secara semantik mirip dengan kalimat masukan. Oleh karena itu, kami mencoba untuk secara eksplisit menilai ini satu per satu lalu menggabungkan metrik. Untuk kesamaan semantik, kami menggunakan kesamaan kosinus antara penyematan kalimat dari model pra-pelatihan termasuk BERT. Untuk kelancaran, kami menggunakan skor berdasarkan kebingungan kalimat dari GPT-2. Semakin besar kesamaan kosinus dan skor kefasihan, semakin besar hadiahnya.

Kami mencoba berbagai kombinasi model penyematan kalimat dan model kefasihan dan meskipun kinerjanya masuk akal, masalah utama yang dihadapi agen tidak cukup menyeimbangkan kesamaan semantik dengan kefasihan. Untuk sebagian besar konfigurasi, agen memprioritaskan kelancaran yang mengakibatkan penghapusan detail dan sebagian besar entitas ditempatkan "di tengah" sesuatu atau dipindahkan "di atas meja" atau "sisi jalan".

Pembelajaran penguatan multi-tujuan adalah pertanyaan penelitian terbuka dan sangat menantang dalam hal ini.

  1. Menggunakan Model Adversarial sebagai Fungsi Hadiah

Mengingat manusia dianggap sebagai standar emas dalam evaluasi, kami melatih model terpisah yang disebut diskriminator untuk memprediksi apakah dua kalimat merupakan parafrase satu sama lain atau tidak (mirip dengan cara manusia mengevaluasi). Tujuan dari model RL kemudian meyakinkan model ini bahwa kalimat yang dihasilkan adalah parafrase dari input. Diskriminator menghasilkan skor seberapa besar kemungkinan kedua kalimat tersebut menjadi parafrase satu sama lain yang digunakan sebagai hadiah untuk melatih agen.

Setiap 5,000 tebakan, pembeda diberi tahu parafrase mana yang berasal dari kumpulan data dan mana yang dihasilkan sehingga dapat meningkatkan tebakannya di masa mendatang. Proses berlanjut selama beberapa putaran dengan agen mencoba mengelabui diskriminator dan diskriminator mencoba membedakan antara parafrase yang dihasilkan dan parafrase evaluasi dari kumpulan data.

Setelah beberapa putaran pelatihan, agen menghasilkan parafrase yang mengungguli model yang diawasi dan fungsi penghargaan lainnya.

Kesimpulan dan Keterbatasan

Pendekatan permusuhan (termasuk permainan mandiri untuk permainan) memberikan pendekatan yang sangat menjanjikan untuk melatih algoritme RL agar melebihi kinerja tingkat manusia pada tugas-tugas tertentu tanpa menentukan fungsi hadiah yang eksplisit.

Meskipun RL mampu mengungguli pembelajaran terawasi dalam hal ini, jumlah biaya tambahan dalam hal kode, perhitungan, dan kompleksitas tidak sebanding dengan perolehan kinerja untuk sebagian besar aplikasi. RL sebaiknya diserahkan pada situasi di mana pembelajaran yang diawasi tidak dapat diterapkan dengan mudah, dan fungsi hadiah mudah ditentukan (seperti game Atari). Pendekatan dan algoritme jauh lebih matang dalam pembelajaran yang diawasi dan sinyal kesalahan jauh lebih kuat yang menghasilkan pelatihan yang lebih cepat dan lebih stabil.

Pertimbangan lain adalah, seperti pendekatan saraf lainnya, bahwa agen dapat gagal secara dramatis dalam kasus di mana input berbeda dari input yang sebelumnya terlihat, memerlukan lapisan pemeriksaan kewarasan tambahan untuk aplikasi produksi.

Ledakan minat terhadap pendekatan RL dan kemajuan infrastruktur komputasi dalam beberapa tahun terakhir akan membuka peluang besar untuk menerapkan RL di industri, khususnya dalam NLP.

Andrew Gibbs-Bravo adalah Ilmuwan Data di Frasa berfokus pada peningkatan teknologi di balik Copywriting Bertenaga AI terdepan di dunia dari Phrasee. Dia juga salah satu penyelenggara Pertemuan Komunitas Pembelajaran Penguatan London dan tertarik pada semua hal RL, NLP, dan pembelajaran mesin.