Trí tuệ nhân tạo

Các mô hình NLP đấu tranh để hiểu các cụm danh từ đệ quy

cập nhật on 9 Tháng mười hai, 2022

Các nhà nghiên cứu từ Hoa Kỳ và Trung Quốc đã phát hiện ra rằng theo mặc định, không có mô hình Xử lý ngôn ngữ tự nhiên (NLP) hàng đầu nào có khả năng làm sáng tỏ các câu tiếng Anh có các cụm danh từ đệ quy (NP) và 'đấu tranh' để phân chia ý nghĩa trung tâm trong các ví dụ có liên quan chặt chẽ như Bộ phim mới yêu thích của tôi và Bộ phim yêu thích của tôi (mỗi cái có một nghĩa khác nhau).

Trong một ví dụ tiêu đề từ bài báo, đây là một câu đố nhỏ mà trẻ em thường không giải được: quả bóng thứ hai có màu xanh lá cây, nhưng quả bóng thứ năm là 'quả bóng màu xanh lá cây thứ hai'. Nguồn: https://arxiv.org/pdf/2112.08326.pdf

Trong một ví dụ tiêu đề từ bài báo, đây là một câu đố nhỏ mà trẻ em thường không giải được: quả bóng thứ hai màu xanh lục, nhưng thứ năm quả bóng là 'quả bóng xanh thứ hai'. Nguồn: https://arxiv.org/pdf/2112.08326.pdf

Các nhà nghiên cứu đã đặt Thử thách cụm từ danh từ đệ quy (RNPC) cho một số mô hình tạo ngôn ngữ nguồn mở được cài đặt cục bộ: GPT-3* của OpenAI, Google's Chứng nhậnvà của Facebook roberta và BART, phát hiện ra rằng những mô hình hiện đại này chỉ đạt được hiệu suất 'cơ hội'. Họ kết luận^†:

'Kết quả cho thấy rằng các LM tiên tiến (SOTA) được tinh chỉnh theo tiêu chuẩn Điểm chuẩn có cùng định dạng, tất cả đều gặp khó khăn trên tập dữ liệu của chúng tôi, cho thấy rằng kiến thức mục tiêu không có sẵn.'

Các ví dụ về cặp tối thiểu trong thử thách RNPC trong đó các mô hình SOTA mắc lỗi.

Ví dụ, trong các ví dụ trên, các mô hình đã thất bại trong việc phân biệt sự khác biệt về ngữ nghĩa giữa một con vật nguy hiểm đã chết (tức là một kẻ săn mồi không gây ra mối đe dọa nào vì nó đã chết) và động vật chết nguy hiểm (chẳng hạn như một con sóc chết, có thể chứa vi-rút có hại và là mối đe dọa hiện đang hoạt động).

(Ngoài ra, mặc dù tờ giấy không chạm vào nó, nhưng 'chết' cũng thường được sử dụng như một trạng từ, không giải quyết trường hợp nào)

Tuy nhiên, các nhà nghiên cứu cũng nhận thấy rằng đào tạo bổ sung hoặc bổ sung bao gồm tài liệu RNPC có thể giải quyết vấn đề:

'Các mô hình ngôn ngữ được đào tạo trước với hiệu suất SOTA trên các điểm chuẩn của NLU có khả năng nắm vững kiến thức này kém, nhưng vẫn có thể học nó khi tiếp xúc với một lượng nhỏ dữ liệu từ RNPC.'

Các nhà nghiên cứu lập luận rằng khả năng điều hướng các cấu trúc đệ quy thuộc loại này của mô hình ngôn ngữ là điều cần thiết cho các nhiệm vụ tiếp theo như phân tích ngôn ngữ, dịch thuật và tạo ra một trường hợp đặc biệt cho tầm quan trọng của nó trong các quy trình phát hiện tác hại:

'[Chúng tôi] xem xét tình huống trong đó người dùng tương tác với một tác nhân định hướng nhiệm vụ như Siri hoặc Alexa và tác nhân đó cần xác định xem hoạt động liên quan trong truy vấn của người dùng có khả năng gây hại hay không [tức là đối với trẻ vị thành niên]. Chúng tôi chọn nhiệm vụ này vì nhiều kết quả dương tính giả đến từ các NP đệ quy.

'Ví dụ, cách làm bom tự chế rõ ràng là có hại trong khi cách làm bom tắm tự chế là vô hại.'

Sản phẩm giấy có tiêu đề “Bộ phim mới yêu thích của tôi” có phải là bộ phim yêu thích của tôi không? Thăm dò sự hiểu biết của các cụm danh từ đệ quy, và đến từ năm nhà nghiên cứu tại Đại học Pennsylvania và một nhà nghiên cứu tại Đại học Bắc Kinh.

Dữ liệu và Phương pháp

Mặc dù công việc trước đây đã nghiên cứu cấu trúc cú pháp của NP đệ quy và phân loại ngữ nghĩa của sửa đổiTheo các nhà nghiên cứu, cả hai cách tiếp cận này đều không đủ để giải quyết thách thức.

Do đó, dựa trên việc sử dụng các cụm danh từ đệ quy với hai từ bổ nghĩa, các nhà nghiên cứu đã tìm cách xác định liệu kiến thức tiên quyết có tồn tại trong các hệ thống SOTA NLP hay không (không có); liệu nó có thể được dạy cho họ hay không (nó có thể); hệ thống NLP nào có thể học được từ các NP đệ quy; và theo cách nào kiến thức như vậy có thể mang lại lợi ích cho các ứng dụng xuôi dòng.

Bộ dữ liệu mà các nhà nghiên cứu sử dụng được tạo ra trong bốn giai đoạn. Đầu tiên là việc xây dựng một từ vựng bổ nghĩa chứa 689 ví dụ được rút ra từ các tác phẩm văn học và tiểu thuyết trước đó.

Tiếp theo, các nhà nghiên cứu đã thu thập các NP đệ quy từ tài liệu, kho văn bản hiện có và phần bổ sung của phát minh của riêng họ. Tài nguyên văn bản bao gồm các Penn Treebank, và Gigaword được chú thích tử thi.

Sau đó, nhóm đã thuê các sinh viên đại học đã được sàng lọc trước để tạo các ví dụ cho ba nhiệm vụ mà các mô hình ngôn ngữ sẽ phải đối mặt, sau đó xác thực chúng thành 8,260 trường hợp hợp lệ.

Cuối cùng, nhiều sinh viên đại học được sàng lọc trước hơn đã được thuê, lần này thông qua Amazon Mechanical Turk, để chú thích từng trường hợp dưới dạng Nhiệm vụ trí tuệ con người (HIT), quyết định các tranh chấp trên cơ sở đa số. Điều này đã giảm các phiên bản xuống còn 4,567 ví dụ, được lọc thêm xuống còn 3,790 phiên bản cân bằng hơn.

Các nhà nghiên cứu đã điều chỉnh các bộ dữ liệu hiện có khác nhau để hình thành ba phần của các giả thuyết thử nghiệm của họ, bao gồm MNLI, SNLI, MPE và QUẢNG CÁO, tự đào tạo tất cả các mô hình SOTA, ngoại trừ mô hình HuggingFace, nơi sử dụng một điểm kiểm tra.

Kết quả

Các nhà nghiên cứu phát hiện ra rằng tất cả các mô hình đều 'đấu tranh' trong các nhiệm vụ RNPC, so với điểm số chính xác trên 90% đáng tin cậy đối với con người, với các mô hình SOTA hoạt động ở mức 'cơ hội' (tức là không có bất kỳ bằng chứng nào về khả năng bẩm sinh so với khả năng đáp ứng ngẫu nhiên).

Kết quả từ các thử nghiệm của các nhà nghiên cứu. Tại đây, các mô hình ngôn ngữ được kiểm tra độ chính xác của chúng trên một điểm chuẩn hiện có, với đường trung tâm biểu thị hiệu suất tương đương của con người trong các tác vụ.

Các dòng điều tra thứ cấp chỉ ra rằng những thiếu sót này có thể được bù đắp ở giai đoạn đào tạo hoặc tinh chỉnh quy trình của mô hình NLP bằng cách cụ thể bao gồm kiến thức về các cụm danh từ đệ quy. Khi khóa đào tạo bổ sung này được thực hiện, các mô hình đã đạt được 'hiệu suất zero-shot mạnh mẽ đối với [nhiệm vụ] Phát hiện tác hại bên ngoài'.

Các nhà nghiên cứu hứa sẽ phát hành mã cho công việc này tại https://github.com/veronica320/Recursive-NPs.

Được xuất bản lần đầu vào ngày 16 tháng 2021 năm 17 – ngày 2021 tháng 6 năm 55, 2:XNUMX sáng GMT+XNUMX: Đã sửa siêu liên kết bị hỏng.

* GPT-3 Ada, nhanh nhất nhưng không phải là hay nhất trong dòng. Tuy nhiên, mô hình Davinci 'trưng bày' lớn hơn không có sẵn để tinh chỉnh bao gồm cụm từ thí nghiệm sau này của các nhà nghiên cứu.

^† Việc chuyển đổi các trích dẫn nội tuyến thành siêu liên kết của tôi.