potongan Bagaimana Pemrosesan Bahasa Disempurnakan Melalui Model BERT Sumber Terbuka Google - Unite.AI
Terhubung dengan kami

Kecerdasan Buatan

Bagaimana Pemrosesan Bahasa Ditingkatkan Melalui Model BERT Sumber Terbuka Google

mm
Updated on
Peningkatan Pencarian BERT

Representasi Encoder Dua Arah dari Transformers, atau dikenal sebagai BERT; adalah model pelatihan yang secara drastis meningkatkan efisiensi dan efek model NLP. Sekarang Google telah membuat model BERT open source memungkinkan peningkatan model NLP di semua industri. Dalam artikel tersebut, kita melihat bagaimana BERT membuat NLP menjadi salah satu solusi AI yang paling kuat dan berguna di dunia saat ini. 

Menerapkan model BERT ke Pencarian

Mesin pencari Google terkenal di dunia karena kemampuannya menyajikan konten yang relevan dan mereka telah menjadikan program pemrosesan bahasa alami ini sebagai sumber terbuka bagi dunia.

Kemampuan suatu sistem untuk membaca dan menafsirkan bahasa alami menjadi semakin penting seiring dengan semakin banyaknya dunia yang menghasilkan data baru. Perpustakaan Google yang berisi arti kata, frasa, dan kemampuan umum untuk menyajikan konten yang relevan, bersifat OPEN SOURCE. Selain pemrosesan bahasa alami, model BERT mereka memiliki kemampuan untuk mengekstrak informasi dari sejumlah besar data tidak terstruktur dan dapat diterapkan untuk membuat antarmuka pencarian untuk perpustakaan mana pun. Pada artikel ini kita akan melihat bagaimana teknologi ini dapat diterapkan di sektor energi. 

BERT (Bidirectional Encoder Representations from Transformers) adalah pendekatan pra-pelatihan yang diusulkan oleh Bahasa AI Google kelompok, dikembangkan untuk mengatasi masalah umum model NLP awal: kurangnya data pelatihan yang memadai.

Mari kita uraikan, tanpa terlalu banyak detail:

Model Pelatihan

Tingkat rendah (misalnya pengenalan entitas bernama, segmentasi topik) dan tingkat tinggi (misalnya analisis sentimen, pengenalan suara) tugas NLP memerlukan kumpulan data beranotasi khusus tugas. Meskipun sulit didapat dan mahal untuk dirakit, kumpulan data berlabel memainkan peran penting dalam kinerja model jaringan saraf dangkal dan dalam. Hasil inferensi berkualitas tinggi hanya dapat dicapai jika tersedia jutaan atau bahkan milyaran contoh pelatihan beranotasi. Dan itu adalah masalah yang membuat banyak tugas NLP tidak dapat didekati. Itu sampai BERT dikembangkan.

BERT adalah model representasi bahasa tujuan umum, dilatih pada kumpulan besar teks tanpa anotasi. Saat model diekspos ke sejumlah besar konten teks, itu belajar untuk memahami konteks dan hubungan antara kata-kata dalam sebuah kalimat. Berbeda dengan model pembelajaran sebelumnya yang hanya merepresentasikan makna pada tataran kata (bank akan berarti sama di "rekening bank" dan "bank berumput"), BERT sebenarnya peduli dengan konteks. Yaitu, apa yang ada sebelum dan sesudah kata dalam sebuah kalimat. Konteks ternyata menjadi kemampuan utama yang hilang dari model NLP, dengan dampak langsung pada kinerja model. Merancang model sadar konteks seperti BERT dikenal oleh banyak orang sebagai awal era baru di NLP.

Melatih BERT pada konten teks dalam jumlah besar adalah teknik yang dikenal sebagai pra-pelatihan. Ini berarti bahwa bobot model disesuaikan untuk tugas pemahaman teks umum dan model yang lebih halus dapat dibangun di atasnya. Para penulis telah membuktikan keunggulan teknik tersebut ketika mereka menggunakan model berbasis BERT pada 11 tugas NLP dan telah mencapai hasil yang canggih.

Model Pra-Terlatih

Hal terbaiknya adalah: model BERT terlatih adalah open source dan tersedia untuk umum. Ini berarti siapa pun dapat menangani tugas NLP dan membangun model mereka di atas BERT. Tidak ada yang bisa mengalahkan itu, kan? Oh, tunggu: ini juga berarti model NLP sekarang dapat dilatih (disetel dengan baik) pada kumpulan data yang lebih kecil, tanpa perlu pelatihan dari awal. Awal era baru, memang.

Model pra-pelatihan ini membantu perusahaan mengurangi biaya dan waktu penerapan model NLP untuk digunakan secara internal atau eksternal. Efektivitas model NLP yang terlatih ditekankan oleh Michael Alexis, CEO perusahaan pembangun budaya tim virtual, teambuilding.com. 

“Manfaat terbesar dari NLP adalah inferensi yang terukur dan konsisten serta pemrosesan informasi.” – Michael Alexis CEO dari pembangunan tim.com

Michael menyatakan bagaimana NLP dapat diterapkan pada program pembinaan budaya seperti pemecah kebekuan atau survei. Sebuah perusahaan dapat memperoleh wawasan berharga tentang bagaimana kinerja budaya perusahaan dengan menganalisis respons karyawan. Ini dicapai tidak hanya melalui menganalisis teks tetapi menganalisis anotasi teks. Pada dasarnya model juga "membaca yang tersirat" untuk menarik kesimpulan tentang emosi, perasaan, dan pandangan secara keseluruhan. BERT dapat membantu dalam situasi seperti ini dengan melatih model dengan dasar indikator yang dapat digunakan untuk mengungkap nuansa bahasa dan memberikan wawasan yang lebih akurat.  

Meningkatkan kueri

Kemampuan untuk memodelkan konteks telah mengubah BERT menjadi pahlawan NLP dan telah merevolusi Google Penelusuran itu sendiri. Di bawah ini adalah kutipan dari tim produk Google Penelusuran dan pengalaman pengujian mereka, saat mereka menyesuaikan BERT untuk memahami maksud di balik kueri.

Berikut adalah beberapa contoh yang menunjukkan kemampuan BERT untuk memahami maksud di balik pencarian Anda. Inilah penelusuran untuk "Wisatawan brazil 2019 ke AS membutuhkan visa". Kata "ke" dan hubungannya dengan kata lain dalam kueri sangat penting untuk memahami artinya. Ini tentang seorang Brasil yang bepergian ke AS dan bukan sebaliknya. Sebelumnya, algoritme kami tidak memahami pentingnya koneksi ini, dan kami mengembalikan hasil tentang warga AS yang bepergian ke Brasil. Dengan BERT, Penelusuran dapat memahami nuansa ini dan mengetahui bahwa kata yang sangat umum "ke" sebenarnya sangat penting di sini, dan kami dapat memberikan hasil yang jauh lebih relevan untuk kueri ini."
- Memahami pencarian lebih baik dari sebelumnya, oleh Pandu Nayak, Rekan Google dan Wakil Presiden Penelusuran.

Contoh Pencarian BERT

Contoh pencarian BERT, sebelum dan sesudah. Sumber blog

Di bagian terakhir kami NLP dan OCR, kami telah mengilustrasikan beberapa penggunaan NLP di sektor real estat. Kami juga telah menyebutkan bagaimana “Alat NLP adalah alat ekstraksi informasi yang ideal”. Mari kita lihat sektor energi dan lihat bagaimana teknologi NLP yang mengganggu seperti BERT memungkinkan kasus penggunaan aplikasi baru. 

Model NLP dapat mengekstraksi informasi dari sejumlah besar data tidak terstruktur

Salah satu cara model NLP dapat digunakan adalah untuk ekstraksi informasi penting dari data teks yang tidak terstruktur. Email, jurnal, catatan, log, dan laporan adalah contoh sumber data teks yang merupakan bagian dari operasi harian bisnis. Beberapa dari dokumen ini mungkin terbukti penting dalam upaya organisasi untuk meningkatkan efisiensi operasional dan mengurangi biaya. 

Ketika bertujuan untuk menerapkan pemeliharaan prediktif turbin angin, laporan kegagalan mungkin mengandung informasi penting tentang perilaku berbagai komponen. Tetapi karena pabrikan turbin angin yang berbeda memiliki norma pengumpulan data yang berbeda (yaitu laporan pemeliharaan datang dalam format dan bahkan bahasa yang berbeda), mengidentifikasi item data yang relevan secara manual dapat dengan cepat menjadi mahal bagi pemilik pabrik. Alat NLP dapat mengekstraksi konsep, atribut, dan peristiwa yang relevan dari konten yang tidak terstruktur. Analisis teks kemudian dapat digunakan untuk menemukan korelasi dan pola dalam berbagai sumber data. Hal ini memberikan kesempatan kepada pemilik pabrik untuk menerapkan pemeliharaan prediktif berdasarkan ukuran kuantitatif yang diidentifikasi dalam laporan kegagalan mereka.

Model NLP dapat menyediakan antarmuka pencarian bahasa alami

Demikian pula, ahli geologi yang bekerja untuk perusahaan minyak dan gas biasanya perlu meninjau banyak dokumen yang berkaitan dengan operasi pengeboran, catatan sumur, dan data seismik di masa lalu. Karena dokumen tersebut juga tersedia dalam berbagai format dan biasanya tersebar di beberapa lokasi (baik fisik maupun digital), mereka membuang banyak waktu untuk mencari informasi di tempat yang salah. Solusi yang layak dalam kasus seperti itu adalah antarmuka pencarian bertenaga NLP, yang akan memungkinkan pengguna untuk mencari data dalam bahasa alami. Kemudian, model NLP dapat mengkorelasikan data di ratusan dokumen dan mengembalikan serangkaian jawaban atas kueri. Para pekerja kemudian dapat memvalidasi keluaran berdasarkan pengetahuan ahli mereka sendiri dan umpan balik akan lebih meningkatkan model. 

Namun, ada juga pertimbangan teknis untuk menerapkan model tersebut. Salah satu aspeknya adalah jargon khusus industri dapat membingungkan model pembelajaran tradisional yang tidak memiliki pemahaman semantik yang sesuai. Kedua, kinerja model dapat dipengaruhi oleh ukuran dataset pelatihan. Inilah saat model terlatih seperti BERT terbukti bermanfaat. Representasi kontekstual dapat memodelkan arti kata yang sesuai dan menghilangkan kebingungan yang disebabkan oleh istilah khusus industri. Dengan menggunakan model yang telah dilatih sebelumnya, dimungkinkan untuk melatih jaringan pada kumpulan data yang lebih kecil. Ini menghemat waktu, energi, dan sumber daya yang seharusnya diperlukan untuk pelatihan dari awal.

Bagaimana dengan bisnis Anda sendiri? 

Dapatkah Anda memikirkan tugas NLP yang dapat membantu Anda mengurangi biaya dan meningkatkan efisiensi operasional?

Grafik Biru Oranye Digital tim ilmu data dengan senang hati mengubah BERT untuk keuntungan Anda juga!

Josh Miramant adalah CEO dan pendiri Biru Oranye Digital, agensi ilmu data dan pembelajaran mesin peringkat teratas dengan kantor di New York City dan Washington DC. Miramant adalah pembicara populer, futuris, dan penasihat bisnis & teknologi strategis untuk perusahaan besar dan pemula. Dia membantu organisasi mengoptimalkan dan mengotomatiskan bisnis mereka, menerapkan teknik analitik berbasis data, dan memahami implikasi teknologi baru seperti kecerdasan buatan, data besar, dan Internet of Things.