Connect with us

Kecerdasan buatan

Bagaimana Pemrosesan Bahasa Ditingkatkan Melalui Model BERT Open Source Google

mm
BERT Search Enhancements

Bidirectional Encoder Representations from Transformers, atau yang dikenal sebagai BERT; adalah model pelatihan yang telah secara dramatis meningkatkan efisiensi dan efek dari model NLP. Sekarang bahwa Google telah membuat model BERT open source, ini memungkinkan perbaikan model NLP di seluruh industri. Dalam artikel ini, kita melihat bagaimana BERT membuat NLP menjadi salah satu solusi AI paling kuat dan berguna di dunia saat ini. 

Menggunakan Model BERT untuk Pencarian

Mesin pencari Google terkenal di seluruh dunia karena kemampuannya untuk menampilkan konten yang relevan dan mereka telah membuat program pemrosesan bahasa alami ini open source untuk dunia.

Kemampuan sistem untuk membaca dan menafsirkan bahasa alami menjadi semakin penting karena dunia secara eksponensial menghasilkan data baru. Perpustakaan Google yang berisi makna kata, frasa, dan kemampuan umum untuk menampilkan konten yang relevan, adalah OPEN SOURCE. Selain pemrosesan bahasa alami, model BERT mereka memiliki kemampuan untuk mengekstrak informasi dari sejumlah besar data yang tidak terstruktur dan dapat diterapkan untuk membuat antarmuka pencarian untuk perpustakaan apa pun. Dalam artikel ini, kita akan melihat bagaimana teknologi ini dapat diterapkan di sektor energi. 

BERT (Bidirectional Encoder Representations from Transformers) adalah pendekatan pelatihan yang diusulkan oleh Google AI Language group, dikembangkan untuk mengatasi masalah umum model NLP awal: kurangnya data pelatihan yang cukup.

Mari kita jelaskan, tanpa terlalu banyak detail:

Model Pelatihan

Tugas NLP tingkat rendah (misalnya, pengenalan entitas yang dinamai, segmentasi topik) dan tugas NLP tingkat tinggi (misalnya, analisis sentimen, pengenalan ucapan) memerlukan dataset yang diberi label khusus tugas. Sementara mereka sulit ditemukan dan mahal untuk dirakit, dataset yang diberi label memainkan peran kunci dalam kinerja model jaringan neural yang dangkal dan dalam. Hasil inferensi yang berkualitas tinggi hanya dapat dicapai ketika jutaan atau bahkan miliaran contoh pelatihan yang diberi label tersedia. Dan itu adalah masalah yang membuat banyak tugas NLP tidak dapat diakses. Sampai BERT dikembangkan.

BERT adalah model representasi bahasa umum, dilatih pada korpus besar teks yang tidak diberi label. Ketika model ini dipaparkan pada sejumlah besar konten teks, itu belajar untuk memahami konteks dan hubungan antara kata-kata dalam kalimat. Tidak seperti model pembelajaran sebelumnya yang hanya merepresentasikan makna pada tingkat kata (bank akan memiliki makna yang sama dalam “akun bank” dan “tepi sungai”), BERT sebenarnya peduli dengan konteks. Artinya, apa yang datang sebelum dan setelah kata dalam kalimat. Konteks ternyata menjadi kemampuan yang hilang dari model NLP, dengan dampak langsung pada kinerja model. Merancang model yang menyadari konteks seperti BERT dikenal oleh banyak orang sebagai awal dari era baru dalam NLP.

Melatih BERT pada sejumlah besar konten teks adalah teknik yang dikenal sebagai pre-training. Ini berarti bahwa bobot model disesuaikan untuk tugas pemahaman teks umum dan bahwa model yang lebih halus dapat dibangun di atasnya. Penulis telah membuktikan superioritas teknik tersebut ketika mereka menerapkan model berbasis BERT pada 11 tugas NLP dan telah mencapai hasil yang luar biasa.

Model Pre-Training

Hal terbaik adalah: model BERT pre-training adalah open source dan tersedia secara publik. Ini berarti bahwa siapa pun dapat menangani tugas NLP dan membangun model mereka di atas BERT. Tidak ada yang bisa mengalahinya, kan? Oh, tunggu: ini juga berarti bahwa model NLP sekarang dapat dilatih (dihaluskan) pada dataset yang lebih kecil, tanpa perlu pelatihan dari awal. Awal dari era baru, memang.

Model pre-training ini membantu perusahaan mengurangi biaya dan waktu untuk menerapkan model NLP untuk digunakan secara internal atau eksternal. Efektivitas model NLP yang terlatih dengan baik ditekankan oleh Michael Alexis, CEO perusahaan pembangunan budaya tim virtual, teambuilding.com. 

“Manfaat terbesar dari NLP adalah inferensi dan pemrosesan informasi yang konsisten dan dapat diskalakan.”   – Michael Alexis CEO dari teambuilding.com

Michael menyatakan bagaimana NLP dapat diterapkan pada program pembangunan budaya seperti icebreaker atau survei. Perusahaan dapat memperoleh wawasan berharga tentang bagaimana budaya perusahaan dengan menganalisis respons karyawan. Ini dicapai tidak hanya melalui analisis teks tetapi juga analisis anotasi teks. Secara esensial, model juga “membaca di antara garis” untuk mengambil inferensi tentang emosi, perasaan, dan pandangan umum. BERT dapat membantu dalam situasi seperti ini dengan melakukan pre-training model dengan basis indikator yang dapat digunakan untuk mengungkap nuansa bahasa dan memberikan wawasan yang lebih akurat.  

Meningkatkan Kueri

Kemampuan untuk memodelkan konteks telah menjadikan BERT sebagai pahlawan NLP dan telah merevolusi Google Search itu sendiri. Berikut adalah kutipan dari tim produk Google Search dan pengalaman pengujian mereka, saat mereka menyetel BERT untuk memahami niat di balik kueri.

“Berikut beberapa contoh yang menunjukkan kemampuan BERT untuk memahami niat di balik pencarian Anda. Berikut adalah pencarian untuk “2019 brazil traveler to USA needs a visa.” Kata “to” dan hubungannya dengan kata-kata lain dalam kueri sangat penting untuk memahami makna. Ini tentang seorang Brasil yang bepergian ke AS dan bukan sebaliknya. Sebelumnya, algoritma kami tidak memahami pentingnya koneksi ini, dan kami mengembalikan hasil tentang warga AS yang bepergian ke Brasil. Dengan BERT, Search dapat memahami nuansa ini dan tahu bahwa kata “to” yang sangat umum sebenarnya sangat penting di sini, dan kami dapat memberikan hasil yang lebih relevan untuk kueri ini.”Memahami pencarian lebih baik dari sebelumnya, oleh Pandu Nayak, Google Fellow dan Wakil Presiden Search.

Contoh Pencarian BERT

Contoh Pencarian BERT, sebelum dan sesudah. Sumber blog

Dalam artikel sebelumnya tentang NLP dan OCR, kita telah mengilustrasikan beberapa kasus penggunaan NLP di sektor real estat. Kita juga telah menyebutkan bagaimana “alat NLP adalah alat ekstraksi informasi yang ideal”. Mari kita lihat sektor energi dan bagaimana teknologi NLP yang inovatif seperti BERT memungkinkan kasus penggunaan aplikasi baru. 

Model NLP dapat mengekstrak informasi dari sejumlah besar data yang tidak terstruktur

Salah satu cara model NLP dapat digunakan adalah untuk ekstraksi informasi kritis dari data teks yang tidak terstruktur. Email, jurnal, catatan, log, dan laporan adalah contoh sumber data teks yang merupakan bagian dari operasi bisnis sehari-hari. Beberapa dokumen ini mungkin terbukti sangat penting dalam upaya organisasi untuk meningkatkan efisiensi operasional dan mengurangi biaya. 

Ketika bertujuan untuk menerapkan perawatan prediktif turbin angin, laporan kegagalan mungkin berisi informasi kritis tentang perilaku berbagai komponen. Namun, karena berbagai produsen turbin angin memiliki norma pengumpulan data yang berbeda (yaitu, laporan pemeliharaan datang dalam format dan bahasa yang berbeda), mengidentifikasi item data yang relevan secara manual dapat dengan cepat menjadi mahal bagi pemilik tanaman. Alat NLP dapat mengekstrak konsep, atribut, dan peristiwa yang relevan dari konten yang tidak terstruktur. Analisis teks kemudian dapat digunakan untuk menemukan korelasi dan pola dalam berbagai sumber data. Ini memberi pemilik tanaman kesempatan untuk menerapkan perawatan prediktif berdasarkan ukuran kuantitatif yang diidentifikasi dalam laporan kegagalan mereka.

Model NLP dapat memberikan antarmuka pencarian bahasa alami

Demikian pula, ahli geosains yang bekerja untuk perusahaan minyak dan gas biasanya perlu meninjau banyak dokumen yang terkait dengan operasi pengeboran sebelumnya, log sumur, dan data seismik. Karena dokumen-dokumen ini juga datang dalam format yang berbeda dan biasanya tersebar di berbagai lokasi (baik fisik maupun digital), mereka membuang banyak waktu untuk mencari informasi di tempat yang salah. Solusi yang layak dalam kasus seperti ini akan menjadi antarmuka pencarian yang ditenagai oleh NLP, yang akan memungkinkan pengguna untuk mencari data dalam bahasa alami. Kemudian, model NLP dapat mengorelasikan data di seluruh ratusan dokumen dan mengembalikan set jawaban untuk kueri. Pekerja dapat memvalidasi output berdasarkan pengetahuan ahli mereka sendiri dan umpan balik akan lebih lanjut meningkatkan model. 

Namun, ada juga pertimbangan teknis untuk menerapkan model seperti itu. Salah satu aspeknya adalah jargon industri yang spesifik dapat membingungkan model pembelajaran tradisional yang tidak memiliki pemahaman semantik yang tepat. Kedua, kinerja model mungkin dipengaruhi oleh ukuran dataset pelatihan. Ini adalah saat model pre-training seperti BERT dapat membuktikan manfaatnya. Representasi kontekstual dapat memodelkan makna kata yang tepat dan menghilangkan kebingungan yang disebabkan oleh istilah industri yang spesifik. Dengan menggunakan model pre-training, memungkinkan untuk melatih jaringan pada dataset yang lebih kecil. Ini menghemat waktu, energi, dan sumber daya yang akan diperlukan untuk pelatihan dari awal.

Apa tentang bisnis Anda sendiri? 

Apakah Anda bisa memikirkan tugas NLP yang mungkin membantu Anda mengurangi biaya dan meningkatkan efisiensi operasional?Tim ilmu data Blue Orange Digital dengan senang hati menyesuaikan BERT untuk keuntungan Anda juga!

Josh Miramant is the CEO and founder of Blue Orange Digital, a top-ranked data science and machine learning agency with offices in New York City and Washington DC. Miramant is a popular speaker, futurist, and a strategic business & technology advisor to enterprise companies and startups. He helps organizations optimize and automate their businesses, implement data-driven analytic techniques, and understand the implications of new technologies such as artificial intelligence, big data, and the Internet of Things.