Góc nhìn Anderson

Ngăn Chặn ‘Ảo Tưởng’ Trong GPT-3 và Các Mô Hình Ngôn Ngữ Phức Tạp Khác

Đã xuất bản 7 tháng 6, 2021

Đã cập nhật 24 tháng 5, 2026

Martin Anderson

Một đặc điểm định nghĩa của ‘tin giả’ là nó thường trình bày thông tin sai trong một bối cảnh thông tin chính xác, với dữ liệu không đúng nhận được sự tin tưởng thông qua một loại thẩm thấu văn học – một biểu hiện đáng lo ngại về sức mạnh của nửa sự thật.

Các mô hình xử lý ngôn ngữ tự nhiên (NLP) phức tạp như GPT-3 cũng có xu hướng ‘ảo tưởng’ loại dữ liệu lừa đảo này. Một phần, điều này là vì các mô hình ngôn ngữ cần khả năng diễn đạt lại và tóm tắt các văn bản dài và thường phức tạp, mà không có bất kỳ hạn chế nào về kiến trúc có thể định nghĩa, bao gồm và ‘niêm phong’ các sự kiện và sự kiện để chúng được bảo vệ khỏi quá trình tái cấu trúc ngữ nghĩa.

Do đó, các sự kiện không được coi là thiêng liêng đối với một mô hình NLP; chúng có thể dễ dàng bị xử lý trong bối cảnh ‘viên gạch ngữ nghĩa’, đặc biệt là khi ngữ pháp phức tạp hoặc tài liệu nguồn khó hiểu làm cho việc tách các thực thể riêng biệt khỏi cấu trúc ngôn ngữ trở nên khó khăn.

Một quan sát về cách tài liệu nguồn được diễn đạt phức tạp có thể làm cho các mô hình ngôn ngữ phức tạp như GPT-3 bị bối rối. Nguồn: Paraphrase Generation Using Deep Reinforcement Learning

Vấn đề này lan rộng từ học máy dựa trên văn bản sang nghiên cứu thị giác máy tính, đặc biệt là trong các lĩnh vực sử dụng phân biệt ngữ nghĩa để xác định hoặc mô tả các đối tượng.

Ảo tưởng và diễn giải lại không chính xác ‘làm đẹp’ ảnh hưởng đến nghiên cứu thị giác máy tính.

Trong trường hợp của GPT-3, mô hình có thể trở nên bối rối khi được hỏi lại về một chủ đề mà nó đã trả lời tốt nhất có thể. Trong trường hợp tốt nhất, nó sẽ thừa nhận thất bại:

Một thí nghiệm gần đây của tôi với động cơ Davinci cơ bản trong GPT-3. Mô hình trả lời đúng câu hỏi lần đầu, nhưng bị bối rối khi được hỏi lại. Vì nó giữ lại bộ nhớ ngắn hạn của câu trả lời trước đó và coi câu hỏi lặp lại là từ chối câu trả lời đó, nó thừa nhận thất bại. Nguồn: https://www.scalr.ai/post/business-applications-for-gpt-3

Một thí nghiệm gần đây của tôi với động cơ Davinci cơ bản trong GPT-3. Mô hình trả lời đúng câu hỏi lần đầu, nhưng bị bối rối khi được hỏi lại. Nguồn: https://www.scalr.ai/post/business-applications-for-gpt-3

DaVinci và DaVinci Instruct (Beta) hoạt động tốt hơn trong trường hợp này so với các mô hình GPT-3 khác có sẵn qua API. Ở đây, mô hình Curie đưa ra câu trả lời sai, trong khi mô hình Babbage mở rộng tự tin về một câu trả lời sai khác:

Những Điều Einstein Không Bao Giờ Nói

Khi yêu cầu động cơ GPT-3 DaVinci Instruct (hiện tại dường như là mô hình mạnh nhất) về câu nói nổi tiếng của Einstein ‘Thượng đế không chơi xúc xắc với vũ trụ’, DaVinci Instruct không tìm thấy câu nói và tạo ra một câu nói không tồn tại, sau đó ảo tưởng ba câu nói khác tương đối hợp lý và hoàn toàn không tồn tại (của Einstein hoặc bất kỳ ai) trong phản hồi với các câu hỏi tương tự:

GPT-3 tạo ra bốn câu nói từ Einstein, không có câu nào trong số đó cho kết quả nào trong một tìm kiếm internet đầy đủ, mặc dù một số kích hoạt các câu nói khác (thực) từ Einstein về chủ đề ‘tưởng tượng’.

Nếu GPT-3 luôn sai khi trích dẫn, nó sẽ dễ dàng hơn để loại bỏ những ảo tưởng này một cách lập trình. Tuy nhiên, càng nhiều một câu nói được lan truyền và nổi tiếng, GPT-3 càng có khả năng đưa ra câu nói đúng:

GPT-3 dường như tìm thấy các câu nói đúng khi chúng được đại diện tốt trong dữ liệu góp phần.

Một vấn đề thứ hai có thể xuất hiện khi dữ liệu lịch sử phiên của GPT-3 chảy vào một câu hỏi mới:

Einstein có thể sẽ bị sốc khi thấy câu nói này được quy cho ông. Câu nói dường như là một ảo tưởng vô nghĩa của một câu nói thực sự của Winston Churchill tư tưởng. Câu hỏi trước đó trong phiên GPT-3 liên quan đến Churchill (không phải Einstein), và GPT-3 dường như đã sử dụng nhầm token phiên này để thông báo câu trả lời.

Đấu Tranh Ảo Tưởng Kinh Tế

Ảo tưởng là một chướng ngại vật đáng kể đối với việc áp dụng các mô hình NLP phức tạp làm công cụ nghiên cứu – càng nhiều khi đầu ra từ các động cơ này được trừu tượng hóa cao từ tài liệu nguồn tạo ra nó, để xác định tính xác thực của các câu nói và sự kiện trở nên vấn đề.

Do đó, một thách thức nghiên cứu chung hiện tại trong NLP là thiết lập một phương tiện để xác định các văn bản ảo tưởng mà không cần phải tưởng tượng hoàn toàn các mô hình NLP mới bao gồm, định nghĩa và xác thực các sự kiện như các thực thể riêng biệt (một mục tiêu dài hạn, riêng biệt trong một số lĩnh vực nghiên cứu máy tính rộng lớn hơn).

Xác Định và Tạo Nội Dung Ảo Tưởng

Một hợp tác mới giữa Đại học Carnegie Mellon và Facebook AI Research cung cấp một cách tiếp cận mới cho vấn đề ảo tưởng, bằng cách xây dựng một phương pháp để xác định đầu ra ảo tưởng và sử dụng văn bản ảo tưởng tổng hợp để tạo một tập dữ liệu có thể được sử dụng làm cơ sở cho các bộ lọc và cơ chế trong tương lai có thể trở thành một phần cốt lõi của kiến trúc NLP.

Nguồn: https://arxiv.org/pdf/2011.02593.pdf

Trong hình ảnh trên, tài liệu nguồn đã được phân đoạn trên cơ sở mỗi từ, với nhãn ‘0’ được gán cho các từ đúng và nhãn ‘1’ được gán cho các từ ảo tưởng. Dưới đây, chúng ta thấy một ví dụ về đầu ra ảo tưởng liên quan đến thông tin đầu vào, nhưng được tăng cường với dữ liệu không xác thực.

Hệ thống sử dụng một mã hóa tự động trước khi được đào tạo có khả năng ánh xạ một chuỗi ảo tưởng trở lại văn bản gốc từ đó phiên bản bị hỏng được tạo ra (tương tự như các ví dụ của tôi ở trên, nơi tìm kiếm internet cho thấy nguồn gốc của các câu nói sai, nhưng với một phương pháp luận ngữ nghĩa lập trình). Cụ thể, mô hình tự động mã hóa BART của Facebook được sử dụng để tạo ra các câu bị hỏng.

Gán nhãn.

Quá trình ánh xạ ảo tưởng trở lại nguồn, điều không thể trong các mô hình NLP thông thường, cho phép ánh xạ ‘khoảng cách chỉnh sửa’, và tạo điều kiện cho một cách tiếp cận thuật toán để xác định nội dung ảo tưởng.

Các nhà nghiên cứu phát hiện ra rằng hệ thống này thậm chí có thể tổng quát hóa tốt khi không có tài liệu tham khảo có sẵn trong quá trình đào tạo, điều này cho thấy rằng mô hình khái niệm là hợp lý và có thể nhân rộng rộng rãi.

Đấu Tranh Quá Tính Chuyên Môn

Để tránh quá tính chuyên môn và đạt được một kiến trúc có thể triển khai rộng rãi, các nhà nghiên cứu đã ngẫu nhiên xóa các token khỏi quá trình, và cũng sử dụng lại diễn đạt và các hàm nhiễu khác.

Dịch máy (MT) cũng là một phần của quá trình che giấu này, vì dịch văn bản qua các ngôn ngữ có khả năng bảo tồn ý nghĩa một cách chắc chắn và ngăn chặn quá tính chuyên môn. Do đó, các ảo tưởng đã được dịch và xác định cho dự án bởi các người nói song ngữ trong một lớp chú thích thủ công.

Sáng kiến này đã đạt được kết quả tốt nhất mới trong một số thử nghiệm tiêu chuẩn của ngành, và là lần đầu tiên đạt được kết quả chấp nhận được bằng cách sử dụng dữ liệu vượt quá 10 triệu token.

Mã cho dự án, có tên Xác Định Nội Dung Ảo Tưởng Trong Tạo Dòng Chuỗi Điều Kiện, đã được phát hành trên GitHub, và cho phép người dùng tạo dữ liệu tổng hợp của riêng họ với BART từ bất kỳ tập hợp văn bản nào. Dự án cũng cung cấp khả năng tạo mô hình phát hiện ảo tưởng sau đó.

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]