Trí tuệ nhân tạo
Cách Xử Lý Ngôn Ngữ Được Cải Thiện Thông Qua Mô Hình BERT Mở Nguồn Của Google

Bidirectional Encoder Representations from Transformers, còn được gọi là BERT; là một mô hình đào tạo đã cải thiện đáng kể hiệu quả và hiệu quả của các mô hình NLP. Giờ đây, khi Google đã làm cho các mô hình BERT trở thành mã nguồn mở, nó cho phép cải thiện các mô hình NLP trên tất cả các ngành công nghiệp. Trong bài viết, chúng tôi xem xét cách BERT đang biến NLP thành một trong những giải pháp AI mạnh mẽ và hữu ích nhất trong thế giới ngày nay.
Áp Dụng Mô Hình BERT Vào Tìm Kiếm
Công cụ tìm kiếm của Google nổi tiếng thế giới với khả năng trình bày nội dung liên quan và họ đã làm cho chương trình xử lý ngôn ngữ tự nhiên này trở thành mã nguồn mở cho thế giới.
Khả năng của một hệ thống đọc và giải thích ngôn ngữ tự nhiên đang trở nên quan trọng hơn và hơn khi thế giới tạo ra dữ liệu mới với tốc độ指数. Thư viện ý nghĩa từ, cụm từ và khả năng trình bày nội dung liên quan của Google là MỞ NGUỒN. Ngoài xử lý ngôn ngữ tự nhiên, mô hình BERT của họ có khả năng trích xuất thông tin từ lượng lớn dữ liệu không cấu trúc và có thể được áp dụng để tạo giao diện tìm kiếm cho bất kỳ thư viện nào. Trong bài viết này, chúng tôi sẽ xem cách công nghệ này có thể được áp dụng trong lĩnh vực năng lượng.
BERT (Bidirectional Encoder Representations from Transformers) là một phương pháp đào tạo trước được đề xuất bởi nhóm Ngôn Ngữ Trí Tuệ Nhân Tạo của Google, được phát triển để vượt qua một vấn đề chung của các mô hình NLP sớm: thiếu dữ liệu đào tạo đủ.
Hãy giải thích, mà không đi vào quá nhiều chi tiết:
Đào Tạo Mô Hình
Các nhiệm vụ NLP cấp thấp (ví dụ: nhận dạng thực thể được đặt tên, phân khúc chủ đề) và cấp cao (ví dụ: phân tích cảm xúc, nhận dạng giọng nói) yêu cầu các tập dữ liệu được chú thích cụ thể cho từng nhiệm vụ. Mặc dù chúng khó có được và tốn kém để lắp ráp, các tập dữ liệu được chú thích đóng vai trò quan trọng trong hiệu suất của cả mô hình mạng nơ-ron nông và sâu. Kết quả suy luận chất lượng cao chỉ có thể đạt được khi có hàng triệu hoặc thậm chí hàng tỷ ví dụ đào tạo được chú thích. Và đó là một vấn đề khiến nhiều nhiệm vụ NLP không thể tiếp cận được. Cho đến khi BERT được phát triển.
BERT là một mô hình đại diện ngôn ngữ chung, được đào tạo trên các tập hợp lớn văn bản không được chú thích. Khi mô hình được tiếp xúc với lượng lớn nội dung văn bản, nó học cách hiểu ngữ cảnh và mối quan hệ giữa các từ trong một câu. Không giống như các mô hình học trước đó chỉ đại diện cho ý nghĩa ở cấp độ từ (ngân hàng sẽ có cùng ý nghĩa trong “tài khoản ngân hàng” và “bờ sông”), BERT thực sự quan tâm đến ngữ cảnh. Tức là, những gì đến trước và sau từ trong một câu. Ngữ cảnh đã chứng minh là một khả năng thiếu hụt chính của các mô hình NLP, với tác động trực tiếp đến hiệu suất của mô hình. Thiết kế một mô hình nhận biết ngữ cảnh như BERT được nhiều người biết đến như là sự bắt đầu của một kỷ nguyên mới trong NLP.
Đào tạo BERT trên lượng lớn nội dung văn bản là một kỹ thuật được gọi là đào tạo trước. Điều này có nghĩa là trọng số của mô hình được điều chỉnh cho các nhiệm vụ hiểu văn bản chung và các mô hình tinh chỉnh hơn có thể được xây dựng trên nó. Các tác giả đã chứng minh sự ưu越 của kỹ thuật như vậy khi họ sử dụng các mô hình dựa trên BERT trên 11 nhiệm vụ NLP và đạt được kết quả tốt nhất.
Mô Hình Đào Tạo Trước
Điều tốt nhất là: các mô hình BERT đào tạo trước là mã nguồn mở và công khai. Điều này có nghĩa là bất kỳ ai cũng có thể giải quyết các nhiệm vụ NLP và xây dựng mô hình của họ trên BERT. Không có gì có thể đánh bại điều đó, đúng không? Ồ, chờ đã: điều này cũng có nghĩa là các mô hình NLP hiện có thể được đào tạo (tinh chỉnh) trên các tập dữ liệu nhỏ hơn, mà không cần đào tạo từ đầu. Sự bắt đầu của một kỷ nguyên mới, quả thực.
Những mô hình đào tạo trước này giúp các công ty giảm chi phí và thời gian để triển khai các mô hình NLP để sử dụng nội bộ hoặc bên ngoài. Hiệu quả của các mô hình NLP được đào tạo tốt được nhấn mạnh bởi Michael Alexis, CEO của công ty xây dựng văn hóa đội ảo, teambuilding.com.
“Lợi ích lớn nhất của NLP là khả năng suy luận và xử lý thông tin có thể mở rộng và nhất quán.” – Michael Alexis CEO của teambuilding.com
Michael tuyên bố cách NLP có thể được áp dụng cho các chương trình nuôi dưỡng văn hóa như icebreaker hoặc khảo sát. Một công ty có thể thu được thông tin quý giá về cách văn hóa công ty đang hoạt động bằng cách phân tích phản hồi của nhân viên. Điều này được thực hiện không chỉ thông qua việc phân tích văn bản mà còn thông qua chú thích của văn bản. Về cơ bản, mô hình cũng “đọc giữa các dòng” để suy ra cảm xúc, cảm giác và quan điểm chung. BERT có thể hỗ trợ trong tình huống như vậy bằng cách đào tạo trước các mô hình với cơ sở các chỉ số mà nó có thể dựa vào để khám phá các sắc thái của ngôn ngữ và cung cấp thông tin chính xác hơn.
Cải Thiện Các Truy Vấn
Khả năng mô hình hóa ngữ cảnh đã biến BERT thành một anh hùng NLP và đã cách mạng hóa chính công cụ tìm kiếm của Google. Dưới đây là một trích dẫn từ đội sản phẩm tìm kiếm của Google và kinh nghiệm thử nghiệm của họ, trong khi họ điều chỉnh BERT để hiểu ý định đằng sau một truy vấn.
“Dưới đây là một số ví dụ thể hiện khả năng của BERT trong việc hiểu ý định đằng sau tìm kiếm của bạn. Đây là một tìm kiếm cho “du khách Brazil 2019 cần thị thực để vào Mỹ.” Từ “đến” và mối quan hệ của nó với các từ khác trong truy vấn đặc biệt quan trọng để hiểu ý nghĩa. Nó liên quan đến một người Brazil đi đến Mỹ và không ngược lại. Trước đây, các thuật toán của chúng tôi không hiểu được tầm quan trọng của mối quan hệ này và chúng tôi trả về kết quả về công dân Mỹ đi đến Brazil. Với BERT, Tìm kiếm có thể nắm bắt được sắc thái này và biết rằng từ rất phổ biến “đến” thực sự rất quan trọng ở đây và chúng tôi có thể cung cấp một kết quả liên quan hơn cho truy vấn này.”– Hiểu tìm kiếm tốt hơn bao giờ hết, bởi Pandu Nayak, Fellow của Google và Phó Chủ tịch Tìm kiếm.

Ví dụ tìm kiếm BERT, trước và sau. Nguồn blog
Trong bài viết cuối cùng của chúng tôi về NLP và OCR, chúng tôi đã minh họa một số trường hợp sử dụng NLP trong lĩnh vực bất động sản. Chúng tôi cũng đã đề cập đến cách “công cụ NLP là công cụ trích xuất thông tin lý tưởng”. Hãy xem xét lĩnh vực năng lượng và xem cách công nghệ NLP phá vỡ như BERT cho phép các trường hợp sử dụng ứng dụng mới.
Các Mô Hình NLP Có Thể Trích Xuất Thông Tin Từ Lượng Lớn Dữ Liệu Không Cấu Trúc
Một cách mà các mô hình NLP có thể được sử dụng là để trích xuất thông tin quan trọng từ dữ liệu văn bản không cấu trúc. Email, tạp chí, ghi chú, nhật ký và báo cáo là tất cả các ví dụ về nguồn dữ liệu văn bản là một phần của hoạt động hàng ngày của doanh nghiệp. Một số tài liệu này có thể chứng minh quan trọng trong nỗ lực của tổ chức để tăng hiệu quả hoạt động và giảm chi phí.
Khi nhằm thực hiện bảo trì dự đoán tuabin gió, báo cáo sự cố có thể chứa thông tin quan trọng về hành vi của các thành phần khác nhau. Nhưng vì các nhà sản xuất tuabin gió khác nhau có các tiêu chuẩn thu thập dữ liệu khác nhau (tức là báo cáo bảo trì đến ở các định dạng và thậm chí ngôn ngữ khác nhau), việc xác định thủ công các mục dữ liệu liên quan có thể nhanh chóng trở nên tốn kém cho chủ sở hữu nhà máy. Công cụ NLP có thể trích xuất các khái niệm, thuộc tính và sự kiện liên quan từ nội dung không cấu trúc. Phân tích văn bản sau đó có thể được sử dụng để tìm các mối tương quan và mẫu trong các nguồn dữ liệu khác nhau. Điều này mang lại cho chủ sở hữu nhà máy cơ hội để thực hiện bảo trì dự đoán dựa trên các biện pháp định lượng được xác định trong báo cáo sự cố của họ.
Các Mô Hình NLP Có Thể Cung Cấp Giao Diện Tìm Kiếm Ngôn Ngữ Tự Nhiên
Tương tự, các nhà địa chất học làm việc cho các công ty dầu khí thường cần xem xét nhiều tài liệu liên quan đến các hoạt động khoan trước đây, nhật ký giếng và dữ liệu địa chấn. Vì những tài liệu này cũng đến ở các định dạng khác nhau và thường được phân散 trên nhiều vị trí (cả vật lý và kỹ thuật số), họ lãng phí rất nhiều thời gian tìm kiếm thông tin ở những nơi sai. Một giải pháp khả thi trong trường hợp này sẽ là một giao diện tìm kiếm được hỗ trợ bởi NLP, cho phép người dùng tìm kiếm dữ liệu bằng ngôn ngữ tự nhiên. Sau đó, một mô hình NLP có thể tương quan dữ liệu trên hàng trăm tài liệu và trả về một tập hợp câu trả lời cho truy vấn. Các công nhân sau đó có thể xác nhận đầu ra dựa trên kiến thức chuyên môn của họ và phản hồi sẽ cải thiện mô hình thêm.
Tuy nhiên, cũng có những xem xét kỹ thuật để triển khai các mô hình như vậy. Một khía cạnh sẽ là rằng thuật ngữ ngành công nghiệp cụ thể có thể làm混 lẫn các mô hình học truyền thống không có hiểu biết ngữ nghĩa phù hợp. Thứ hai, hiệu suất của mô hình có thể bị ảnh hưởng bởi kích thước của tập dữ liệu đào tạo. Đây là khi các mô hình đào tạo trước như BERT có thể chứng minh hữu ích. Các biểu diễn ngữ cảnh có thể mô hình hóa ý nghĩa từ phù hợp và loại bỏ bất kỳ sự nhầm lẫn nào gây ra bởi các thuật ngữ ngành công nghiệp cụ thể. Bằng cách sử dụng các mô hình đào tạo trước, có thể đào tạo mạng trên các tập dữ liệu nhỏ hơn. Điều này tiết kiệm thời gian, năng lượng và tài nguyên sẽ cần thiết để đào tạo từ đầu.
Về Doanh Nghiệp Của Bạn?
Bạn có thể nghĩ về bất kỳ nhiệm vụ NLP nào có thể giúp bạn cắt giảm chi phí và tăng hiệu quả hoạt động?Đội khoa học dữ liệu Blue Orange Digital sẵn sàng điều chỉnh BERT cho lợi ích của bạn!












