Terhubung dengan kami

Kecerdasan Buatan

Quantum Stat Merilis "Database NLP Buruk Besar"

mm

Quantum Stat telah merilis “Basis Data NLP Buruk Besar” yang merupakan langkah maju yang besar dalam pemrosesan bahasa alami (NLP). Basis data berisi ratusan kumpulan data berbeda untuk digunakan oleh pengembang pembelajaran mesin. 

Menurut perusahaan, mereka memberikan solusi untuk inisiatif NLP dan AI. Mereka melakukannya melalui layanan seperti prapemrosesan hingga pengembangan aplikasi web, pendekatan multifaset yang mencakup pembelajaran mesin dan jaringan saraf dalam, chatbot dan manajemen dialog, serta database NLP baru mereka. 

Perusahaan juga melakukan penelitian primer dan sekunder untuk membantu individu menganalisis perkembangan dalam industri. 

Hub Pusat Data NLP

Keputusan untuk membuat database, yang merupakan perpustakaan data terbesar di dunia dalam pemrosesan bahasa alami, muncul dari kebutuhan hub pusat untuk menyimpan data NLP. Perusahaan bertujuan untuk membuatnya lebih mudah diakses dan dicari daripada alternatifnya, yang seringkali mengharuskan peneliti untuk mencari melalui beberapa perpustakaan pihak ketiga. 

Perusahaan telah mengembangkan database selama beberapa minggu; mereka saat ini memiliki sekitar 200 kumpulan data. Ada berbagai kumpulan data yang berbeda, bukan hanya yang klasik. Perusahaan telah memasukkan yang seperti CommonCrawl dan Penn Treebank. 

Seiring dengan berbagai database yang berbeda, muncullah tugas NLP yang berbeda. Ada yang fokus pada klasifikasi dan menjawab pertanyaan, tapi ada juga dataset untuk text-to-SQL, speech recognition, dan multi-modal. 

Quantum Stat ingin database digerakkan oleh komunitas dengan kontribusi dari pengguna. Perusahaan telah membuka pintunya bagi siapa saja untuk mengirim kumpulan data baru atau merekomendasikan perubahan. 

Fokus lain adalah menambahkan kumpulan data yang mendiversifikasi bahasa, menjauh dari bahasa Inggris yang ketat. Tujuan mereka adalah membuat perpustakaan lebih global dan dapat diakses oleh orang lain. 

Saat memasuki "Big Bad NLP Database", pengguna akan dihadapkan pada tata letak yang bersih dan teratur. Nama kumpulan data dicantumkan, diikuti dengan bahasa dan deskripsi mendetail. Itu juga mencantumkan instance, format, tugas, tahun dibuat, dan pembuatnya. Setiap basis data memiliki tautan unduhan untuk diikuti. 

Berbagai Database

Seseorang akan menjumpai database seperti dataset Seri Harian Surat Kabar Sejarah Dunia, yang berisi konten harian surat kabar di AS dan Inggris dari tahun 1836 hingga 1922; Kumpulan Data SciQ, berisi 13,679 soal ujian sains crowdsourced di bidang Fisika, Biologi, dan Kimia; CommonCrawl, berisi data dari 25 miliar halaman web; dan MovieLens, kumpulan data yang berisi 22,000,000 peringkat dan 580,000 tag untuk 33,000 film dari 240,000 pengguna. 

Database Quantum Stat yang mengesankan hadir pada saat peneliti membutuhkan kumpulan data yang lebih besar dan lebih beragam karena kemajuan dalam pembelajaran mendalam. Karena banyaknya data yang terkandung dalam bahasa manusia, setiap kumpulan data unik membuatnya sedikit lebih mudah untuk diproses. Kemajuan NLP bergantung pada database ini, dan Quantum Stat telah berkontribusi untuk mempercepat kemajuan tersebut dengan mengumpulkan begitu banyak kumpulan data dalam satu ruang. 

NLP akan menjadi penting dalam banyak aspek masyarakat. Ini dapat membantu memprediksi penyakit berdasarkan catatan kesehatan elektronik dan ucapan pasien, membantu perusahaan mengetahui apa yang dikatakan pelanggan tentang suatu produk, dan mengidentifikasi berita palsu di dunia yang merajalela. 

Teknologi ini berkembang sangat pesat, dan tidak akan lama lagi ia mampu menangani aplikasi yang rumit ini. 

 

Alex McFarland adalah jurnalis dan penulis AI yang mengeksplorasi perkembangan terkini dalam kecerdasan buatan. Dia telah berkolaborasi dengan banyak startup dan publikasi AI di seluruh dunia.