Trí tuệ nhân tạo

Các Mô Hình Viết Tạo Dựa Trên Trí Tuệ Nhân Tạo ‘Sao Chép Và Dán’ Dữ Liệu Nguồn

Published November 19, 2021

Updated April 28, 2026

Martin Anderson

Nhà soạn kịch và doanh nhân người Mỹ Wilson Mizner thường được trích dẫn nổi tiếng khi nói rằng ‘Khi bạn đánh cắp từ một tác giả, đó là đạo văn; nếu bạn đánh cắp từ nhiều người, đó là nghiên cứu’.

Tương tự, giả định xung quanh thế hệ mới của các hệ thống viết sáng tạo dựa trên trí tuệ nhân tạo là rằng lượng lớn dữ liệu được cung cấp cho chúng tại giai đoạn đào tạo đã dẫn đến một sự tóm tắt thực sự của các khái niệm và ý tưởng cấp cao; rằng những hệ thống này có trong tay sự khôn ngoan cô đọng của hàng nghìn tác giả đóng góp, từ đó trí tuệ nhân tạo có thể tạo ra văn viết sáng tạo và nguyên bản; và những người sử dụng các hệ thống như vậy có thể chắc chắn rằng họ không vô tình tham gia vào việc đạo văn gián tiếp.

Giả định này bị thách thức bởi một bài báo mới từ một tập đoàn nghiên cứu (bao gồm các bộ phận nghiên cứu trí tuệ nhân tạo của Facebook và Microsoft), đã phát hiện ra rằng các mô hình ngôn ngữ tạo sinh dựa trên học máy như loạt GPT ‘thỉnh thoảng sao chép cả đoạn văn rất dài’ vào đầu ra gốc của chúng, mà không có trích dẫn.

Trong một số trường hợp, các tác giả lưu ý, GPT-2 sẽ sao chép hơn 1.000 từ từ tập dữ liệu đào tạo trong đầu ra của nó.

Bài báo này có tiêu đề Ngôn ngữ mô hình sao chép bao nhiêu từ dữ liệu đào tạo? Đánh giá tính mới về mặt ngôn ngữ trong tạo văn bản sử dụng RAVEN, và là một sự hợp tác giữa Đại học Johns Hopkins, Microsoft Research, Đại học New York và Facebook AI Research.

RAVEN

Nghiên cứu sử dụng một phương pháp mới gọi là RAVEN (RAtingVErbalNovelty), một từ viết tắt đã được sử dụng một cách thú vị để phản ánh nhân vật phản diện của một bài thơ kinh điển:

‘Từ viết tắt này đề cập đến “The Raven” của Edgar Allan Poe, trong đó người kể chuyện gặp một con quạ bí ẩn lặp lại tiếng kêu, “Nevermore!” Người kể chuyện không thể xác định xem con quạ chỉ đang lặp lại điều gì đó nó đã nghe một người nói, hoặc nếu nó đang xây dựng các phát biểu của riêng mình (có thể bằng cách kết hợp never và more)—sự mơ hồ cơ bản mà bài báo của chúng tôi giải quyết.’

Các phát hiện từ bài báo mới này đến trong bối cảnh sự tăng trưởng lớn của các hệ thống viết nội dung dựa trên trí tuệ nhân tạo nhằm thay thế các nhiệm vụ chỉnh sửa ‘đơn giản’, và thậm chí để viết nội dung đầy đủ. Một hệ thống như vậy đã nhận được 21 triệu đô la trong vòng tài trợ series A vào đầu tuần này.

Các nhà nghiên cứu lưu ý rằng ‘GPT-2 đôi khi sao chép các đoạn văn đào tạo dài hơn 1.000 từ.‘ (nhấn mạnh của họ), và rằng các hệ thống ngôn ngữ tạo sinh truyền bá các lỗi ngôn ngữ trong dữ liệu nguồn.

Các mô hình ngôn ngữ được nghiên cứu dưới RAVEN là loạt GPT đến GPT-2 (các tác giả không có quyền truy cập vào GPT-3 tại thời điểm đó), một Transformer, Transformer-XL, và một LSTM.

Tính Mới

Bài báo lưu ý rằng GPT-2 tạo ra các inflection theo phong cách Bush 2 như ‘Swissified’, và các dẫn xuất như ‘IKEA-ness’, tạo ra các từ mới như vậy (chúng không xuất hiện trong dữ liệu đào tạo của GPT-2) dựa trên các nguyên tắc ngôn ngữ được dẫn xuất từ không gian chiều cao được thiết lập trong quá trình đào tạo.

Kết quả cũng cho thấy rằng ‘74% câu được tạo bởi Transformer-XL có cấu trúc cú pháp mà không có câu đào tạo nào có’, cho thấy, như các tác giả tuyên bố, ‘các mô hình ngôn ngữ thần kinh không chỉ đơn giản ghi nhớ; thay vào đó, chúng sử dụng các quá trình sản xuất cho phép chúng kết hợp các phần quen thuộc theo những cách mới.’

Vì vậy, về mặt kỹ thuật, sự khái quát hóa và tóm tắt nên tạo ra văn bản mới và sáng tạo.

Sao Chép Dữ Liệu Có Thể Là Vấn Đề

Bài báo đưa ra giả thuyết rằng các trích dẫn dài và nguyên văn được tạo bởi các hệ thống tạo ngôn ngữ tự nhiên (NLG) có thể trở thành ‘baked’ toàn bộ vào mô hình trí tuệ nhân tạo vì văn bản nguồn gốc được lặp lại nhiều lần trong các tập dữ liệu chưa được khử trùng lặp.

Mặc dù một dự án nghiên cứu khác đã phát hiện ra rằng việc sao chép hoàn toàn văn bản có thể xảy ra ngay cả khi văn bản nguồn chỉ xuất hiện một lần trong tập dữ liệu, các tác giả lưu ý rằng dự án này có các kiến trúc khái niệm khác với các hệ thống tạo nội dung dựa trên trí tuệ nhân tạo thông thường.

Các tác giả cũng quan sát thấy rằng việc thay đổi thành phần giải mã trong các hệ thống tạo ngôn ngữ có thể tăng tính mới, nhưng họ phát hiện ra trong các thử nghiệm rằng điều này xảy ra với chi phí của chất lượng đầu ra.

Các vấn đề进一步 xuất hiện khi các tập dữ liệu thúc đẩy các thuật toán tạo nội dung ngày càng lớn. Ngoài việc làm trầm trọng thêm các vấn đề về khả năng chi trả và tính khả thi của việc tiền xử lý dữ liệu, cũng như đảm bảo chất lượng và khử trùng lặp dữ liệu, nhiều lỗi cơ bản vẫn còn trong dữ liệu nguồn, sau đó trở thành lan truyền trong đầu ra nội dung bởi trí tuệ nhân tạo.

Các tác giả lưu ý*:

‘Sự tăng trưởng gần đây về kích thước tập đào tạo làm cho nó đặc biệt quan trọng để kiểm tra tính mới vì quy mô của các tập đào tạo này có thể phá vỡ trực giác của chúng tôi về những gì có thể xảy ra một cách tự nhiên. Ví dụ, một số công việc đáng chú ý trong ngôn ngữ sử dụng dựa trên giả định rằng các hình thức thì quá khứ thường của các động từ không thường (ví dụ, becomed, teached) không xuất hiện trong kinh nghiệm của người học, vì vậy nếu người học tạo ra những từ như vậy, chúng phải mới đối với người học.

‘Tuy nhiên, hóa ra là, đối với tất cả 92 động từ không thường cơ bản trong tiếng Anh, hình thức không thường không chính xác xuất hiện trong tập dữ liệu đào tạo của GPT-2.’

Cần Phải Có Sự Curation Dữ Liệu Hơn

Bài báo cho rằng cần phải chú ý nhiều hơn đến tính mới trong việc xây dựng các hệ thống ngôn ngữ tạo sinh, với sự nhấn mạnh đặc biệt vào việc đảm bảo rằng phần dữ liệu ‘giữ lại’ (phần dữ liệu được đặt sang một bên để kiểm tra cách thuật toán đã đánh giá dữ liệu đào tạo chính) là phù hợp với nhiệm vụ.

‘Trong học máy, điều quan trọng là phải đánh giá các mô hình trên một tập dữ liệu kiểm tra được giữ lại. Do tính chất mở của tạo văn bản, văn bản được tạo bởi mô hình có thể được sao chép từ tập dữ liệu đào tạo, trong trường hợp đó nó không được giữ lại — vì vậy việc sử dụng dữ liệu đó để đánh giá mô hình (ví dụ, về sự mạch lạc hoặc ngữ pháp) là không hợp lệ.’

Các tác giả cũng cho rằng cần phải cẩn thận hơn trong việc sản xuất các mô hình ngôn ngữ do hiệu ứng Eliza, một hội chứng được xác định vào năm 1966 đã xác định “sự dễ bị tổn thương của mọi người khi đọc hiểu sâu sắc hơn mức được bảo đảm vào các chuỗi ký hiệu — đặc biệt là từ — được tạo bởi máy tính”.

* Tôi chuyển đổi các trích dẫn nội dòng thành liên kết

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]

Unite.AI

Các Mô Hình Viết Tạo Dựa Trên Trí Tuệ Nhân Tạo ‘Sao Chép Và Dán’ Dữ Liệu Nguồn

RAVEN

Tính Mới

Sao Chép Dữ Liệu Có Thể Là Vấn Đề

Cần Phải Có Sự Curation Dữ Liệu Hơn

You may like