Connect with us

Baidu Vượt Qua Google Và Microsoft, Tạo Ra Kỹ Thuật Mới Cho Sự Hiểu Biết Ngôn Ngữ

Trí tuệ nhân tạo

Baidu Vượt Qua Google Và Microsoft, Tạo Ra Kỹ Thuật Mới Cho Sự Hiểu Biết Ngôn Ngữ

mm

Baidu, một trong những công ty công nghệ lớn nhất tại Trung Quốc, đã gần đây phát triển một phương pháp mới để dạy cho các trí tuệ nhân tạo (AIs) hiểu ngôn ngữ. Như được báo cáo bởi TechnologyReview, công ty gần đây đã vượt qua Microsoft và Google tại cuộc thi General Language and Understanding Evaluation (GLUE), đạt được kết quả tốt nhất.

GLUE bao gồm chín bài kiểm tra khác nhau, với mỗi bài kiểm tra đo lường một nhiệm vụ khác nhau quan trọng đối với sự hiểu biết ngôn ngữ, chẳng hạn như phân biệt tên của các thực thể trong một câu và phân biệt ngữ cảnh của đại từ “it” khi có nhiều ứng cử viên tiềm năng. Người bình thường thường đạt khoảng 87 điểm trên GLUE, trên thang điểm 100. Mô hình mới của Baidu, ERNIE, đã vượt qua ngưỡng 90 điểm.

Các nhà nghiên cứu luôn cố gắng cải thiện hiệu suất của các mô hình của họ tại GLUE, và do đó, tiêu chuẩn hiện tại được thiết lập bởi Baidu sẽ có thể bị vượt qua sớm. Tuy nhiên, điều làm cho thành tựu của Baidu đáng chú ý là phương pháp học tập mà họ sử dụng dường như có thể tổng quát hóa sang các ngôn ngữ khác. Mặc dù mô hình được phát triển để giải thích tiếng Trung, nhưng cùng một nguyên tắc làm cho nó tốt hơn trong việc giải thích ngôn ngữ tiếng Anh. ERNIE là viết tắt của “Enhanced Representation through knowledge Integration”, và nó theo sau sự phát triển của mô hình ngôn ngữ BERT (“Bidirectional Encoder Representations from Transformers”).

BERT đã thiết lập một tiêu chuẩn mới cho sự hiểu biết ngôn ngữ do thực tế là nó là một mô hình bidirectional. Các mô hình ngôn ngữ trước đây chỉ có thể giải thích dữ liệu chảy theo một “hướng”, nhìn vào một từ đến trước hoặc sau từ mục tiêu như ngữ cảnh. BERT có thể thực hiện một cách tiếp cận bidirectional có thể sử dụng cả từ trước và sau trong một câu để giúp xác định ý nghĩa của một từ mục tiêu. BERT sử dụng một kỹ thuật gọi là masking để làm cho phân tích bidirectional có thể, chọn một từ trong một câu và ẩn nó, điều này chia nhỏ ngữ cảnh có thể cho từ đó thành các gợi ý ngữ cảnh trước và sau.

Trong ngôn ngữ tiếng Anh, từ là đơn vị ngữ nghĩa thống trị, mọi người nhìn vào toàn bộ từ chứ không phải các ký tự riêng lẻ để phân biệt ý nghĩa. Có thể loại bỏ một từ khỏi ngữ cảnh của nó và vẫn giữ được ý nghĩa của từ đó, và ý nghĩa của các ký tự riêng lẻ hầu như luôn giống nhau. Ngược lại, ngôn ngữ Trung Quốc phụ thuộc nhiều hơn vào cách các ký tự được kết hợp với các ký tự khác khi phân biệt ý nghĩa. Các ký tự có thể có ý nghĩa khác nhau tùy thuộc vào các ký tự xung quanh chúng.

Đội ngũ nghiên cứu của Baidu cơ bản đã lấy mô hình BERT sử dụng và mở rộng nó, ẩn các chuỗi ký tự thay vì toàn bộ từ. Hệ thống AI cũng được đào tạo để phân biệt giữa các chuỗi ký tự ngẫu nhiên và các chuỗi ký tự có ý nghĩa để các chuỗi ký tự đúng có thể được ẩn. Điều này làm cho ERNIE giỏi trong việc thu thập thông tin từ một tài liệu văn bản và thực hiện dịch máy. Đội ngũ nghiên cứu cũng phát hiện ra rằng phương pháp đào tạo của họ cũng dẫn đến một mô hình có thể phân biệt các cụm từ tiếng Anh tốt hơn so với nhiều mô hình khác. Điều này là vì tiếng Anh đôi khi, mặc dù hiếm, sử dụng các kết hợp từ thể hiện ý nghĩa khác nhau khi chúng được kết hợp với nhau so với khi chúng được sử dụng riêng lẻ. Các tên riêng và thành ngữ hoặc tục ngữ, chẳng hạn như “chip off the old block” là những ví dụ về hiện tượng ngôn ngữ này.

ERNIE sử dụng nhiều kỹ thuật đào tạo khác để tối ưu hóa hiệu suất, bao gồm phân tích thứ tự câu và khoảng cách khi giải thích các đoạn văn. Một phương pháp đào tạo liên tục cũng được sử dụng, cho phép ERNIE đào tạo trên dữ liệu mới và học các mẫu mới mà không quên kiến thức đã thu được trước đó.

Baidu hiện đang sử dụng ERNIE để nâng cao chất lượng của kết quả tìm kiếm. Kiến trúc mới nhất của ERNIE sẽ được chi tiết trong một bài báo sắp tới sẽ được trình bày tại hội nghị 2020 của Hiệp hội Phát triển Trí tuệ Nhân tạo.

Blogger và lập trình viên với chuyên môn về Machine Learning Deep Learning topics. Daniel hy vọng giúp đỡ người khác sử dụng sức mạnh của AI cho lợi ích xã hội.