Kecerdasan Buatan
Baidu Mengalahkan Google Dan Microsoft, Menciptakan Teknik Baru Untuk Pemahaman Bahasa

Baidu, salah satu perusahaan teknologi terbesar di China, baru-baru ini mengembangkan metode baru dalam mengajarkan AI untuk memahami bahasa. Sebagai dilaporkan oleh TechnologyReview, perusahaan baru-baru ini mengalahkan Microsoft dan Google di kompetisi General Language and Understanding Evaluation (GLUE), mencapai hasil yang canggih.
GLUE terdiri dari sembilan tes yang berbeda, dengan masing-masing tes mengukur tugas yang berbeda yang penting untuk pemahaman bahasa, seperti membedakan nama entitas dalam sebuah kalimat dan membedakan dalam konteks apa kata ganti "itu" digunakan ketika ada banyak kandidat potensial. . Rata-rata manusia biasanya mendapat skor sekitar 87 poin pada LEM, dari kemungkinan 100. Model baru Baidu, ERNI, memecahkan ambang batas 90 poin.
Para peneliti selalu berusaha untuk meningkatkan kinerja model mereka di GLUE, dan oleh karena itu standar yang ditetapkan oleh Baidu saat ini mungkin akan segera terlampaui. Namun, yang membuat prestasi Baidu menonjol adalah pendekatan pembelajaran yang mereka gunakan tampaknya mampu menggeneralisasi ke bahasa lain. Meskipun model dikembangkan untuk menafsirkan bahasa Cina, prinsip yang sama membuatnya lebih baik dan menafsirkan bahasa Inggris. ERNIE adalah singkatan dari "Enhanced Representation through knowledge Integration", dan ini mengikuti perkembangan dari BERTI (Representasi Encoder Dua Arah dari Transformers) model bahasa.
BERT menetapkan standar baru untuk pemahaman bahasa karena fakta bahwa itu adalah model dua arah. Model bahasa sebelumnya hanya mampu menafsirkan data yang mengalir dalam satu “arah”, melihat kata yang muncul sebelum atau sesudah kata sasaran sebagai konteks. BERT mampu menerapkan pendekatan dua arah yang dapat menggunakan kata-kata sebelumnya dan selanjutnya dalam sebuah kalimat untuk membantu mengetahui arti dari kata target. BERT menggunakan teknik yang disebut masking untuk memungkinkan analisis dua arah, memilih kata dalam kalimat dan menyembunyikannya, yang membagi kemungkinan konteks untuk kata tersebut dalam petunjuk konteks sebelumnya dan selanjutnya.
Dalam bahasa Inggris, kata adalah unit semantik yang dominan, orang melihat seluruh kata daripada karakter individual untuk membedakan makna. Dimungkinkan untuk menghapus sebuah kata dari konteksnya dan kata tersebut masih mempertahankan artinya, dan arti dari masing-masing karakter hampir selalu sama. Sebaliknya, bahasa Tionghoa lebih bergantung pada bagaimana karakter dicocokkan dengan karakter lain saat membedakan makna. Karakter dapat berarti hal yang berbeda tergantung pada karakter di sekitarnya.
Tim peneliti Baidu pada dasarnya mengambil model yang digunakan BERT dan mengembangkannya, menyembunyikan rangkaian karakter alih-alih kata lengkap. Sistem AI juga dilatih untuk membedakan antara string acak dan string bermakna agar string karakter yang tepat dapat disamarkan. Ini membuat ERNIE mahir dalam mengambil informasi dari dokumen teks dan melakukan terjemahan mesin. Tim peneliti juga menemukan bahwa metode pelatihan mereka juga menghasilkan model yang dapat membedakan frasa bahasa Inggris lebih baik daripada model lainnya. Ini karena bahasa Inggris kadang-kadang, meskipun jarang, menggunakan kombinasi kata yang mengungkapkan arti berbeda saat digabungkan versus saat kata-kata itu sendiri. Nama dan idiom atau bahasa sehari-hari yang tepat, seperti "menghancurkan blok lama" adalah contoh dari fenomena linguistik tersebut.
ERNIE memanfaatkan beberapa teknik pelatihan lainnya untuk mengoptimalkan kinerja, termasuk menganalisis urutan kalimat dan jarak saat menafsirkan paragraf. Metode pelatihan berkelanjutan juga digunakan, yang memungkinkan ERNIE melatih data baru dan mempelajari pola baru tanpa melupakan pengetahuan yang diperoleh sebelumnya.
Baidu saat ini menggunakan ERNIE untuk meningkatkan kualitas hasil pencarian. Arsitektur terbaru ERNIE akan dirinci dalam makalah mendatang yang akan dipresentasikan pada konferensi Association for the Advancement of Artificial Intelligence 2020.