Góc nhìn Anderson

Các Thực Tiễn AI Hiện Tại Có Thể Đang Tạo Điều Kiện Cho Một Thế Hệ Mới Của Những Kẻ TROLL Bản Quyền

Đã xuất bản 5 tháng 11, 2021

Đã cập nhật 24 tháng 5, 2026

Martin Anderson

Một nghiên cứu hợp tác mới giữa Huawei và giới học thuật cho thấy rằng một lượng lớn nghiên cứu quan trọng hiện tại trong lĩnh vực trí tuệ nhân tạo và học máy có thể dễ bị kiện tụng khi trở nên nổi bật về mặt thương mại, vì các tập dữ liệu tạo điều kiện cho những đột phá này được phân phối với các giấy phép không hợp lệ, không tôn trọng các điều khoản ban đầu của các miền công khai mà dữ liệu được thu thập.

Trên thực tế, điều này có hai kết quả gần như không thể tránh khỏi: các thuật toán AI thương mại hóa thành công, được biết đến là đã sử dụng các tập dữ liệu như vậy, sẽ trở thành mục tiêu của những kẻ troll bản quyền cơ hội, những người không được tôn trọng khi dữ liệu của họ bị thu thập; và các tổ chức và cá nhân sẽ có thể sử dụng những điểm yếu pháp lý này để phản đối việc triển khai hoặc phổ biến công nghệ học máy mà họ thấy không thể chấp nhận được.

Bài viết này có tiêu đề Tôi có thể sử dụng tập dữ liệu công khai này để xây dựng phần mềm AI thương mại không?, và là một hợp tác giữa Huawei Canada và Huawei Trung Quốc, cùng với Đại học York ở Anh và Đại học Victoria ở Canada.

Năm Trong Sáu (Phổ Biến) Tập Dữ Liệu Mở Không Phải Là Pháp Lý Sử Dụng

Để nghiên cứu, các tác giả đã yêu cầu các bộ phận của Huawei chọn các tập dữ liệu mã nguồn mở mong muốn nhất mà họ muốn khai thác trong các dự án thương mại, và chọn sáu tập dữ liệu được yêu cầu nhiều nhất từ các phản hồi: CIFAR-10 (một tập con của 80 triệu hình ảnh nhỏ, vì đã rút lại do ‘các thuật ngữ khiếm nhã’ và ‘hình ảnh khiếm nhã’, mặc dù các dẫn xuất của nó vẫn phổ biến); ImageNet; Cityscapes (chứa vật liệu độc quyền); FFHQ; VGGFace2, và MSCOCO.

Để phân tích xem các tập dữ liệu được chọn có phù hợp cho sử dụng pháp lý trong các dự án thương mại hay không, các tác giả đã phát triển một pipeline mới để theo dõi chuỗi giấy phép尽 có thể cho từng tập, mặc dù họ thường phải sử dụng các bản lưu trữ web để tìm kiếm các giấy phép từ các miền đã hết hạn, và trong một số trường hợp phải ‘đoán’ tình trạng giấy phép từ thông tin có sẵn gần nhất.

Kiến trúc cho hệ thống theo dõi nguồn gốc được phát triển bởi các tác giả. Nguồn: https://arxiv.org/pdf/2111.02374.pdf

Các tác giả đã tìm thấy rằng giấy phép cho năm trong sáu tập dữ liệu ‘chứa đựng rủi ro liên quan đến ít nhất một ngữ cảnh sử dụng thương mại’:

‘[Chúng tôi] quan sát thấy rằng, ngoại trừ MS COCO, không có giấy phép nào trong số các giấy phép được nghiên cứu cho phép các nhà thực hành quyền thương mại hóa một mô hình AI được đào tạo trên dữ liệu hoặc thậm chí là đầu ra của mô hình AI được đào tạo. Kết quả như vậy cũng ngăn cản các nhà thực hành sử dụng các mô hình được đào tạo trước trên các tập dữ liệu này. Các tập dữ liệu và mô hình AI được đào tạo trước trên chúng đang được sử dụng rộng rãi trong thương mại.’ *

Các tác giả lưu ý thêm rằng ba trong số sáu tập dữ liệu được nghiên cứu có thể dẫn đến vi phạm giấy phép trong các sản phẩm thương mại nếu tập dữ liệu được sửa đổi, vì chỉ có MS-COCO cho phép điều này. Tuy nhiên, việc tăng cường dữ liệu và các tập con và siêu tập của các tập dữ liệu có ảnh hưởng là một thực hành phổ biến.

Trong trường hợp của CIFAR-10, những người biên soạn ban đầu không tạo ra bất kỳ hình thức giấy phép thông thường nào, chỉ yêu cầu các dự án sử dụng tập dữ liệu phải bao gồm một trích dẫn đến bài báo gốc đi kèm với việc phát hành tập dữ liệu, tạo ra một trở ngại khác để thiết lập tình trạng pháp lý của dữ liệu.

Hơn nữa, chỉ có tập dữ liệu CityScapes chứa vật liệu được tạo độc quyền bởi những người tạo ra tập dữ liệu, chứ không phải được ‘tuyển tập’ (thu thập) từ các nguồn mạng, với CIFAR-10 và ImageNet sử dụng nhiều nguồn, mỗi nguồn sẽ cần được điều tra và theo dõi lại để thiết lập bất kỳ cơ chế bản quyền nào (hoặc thậm chí là một tuyên bố từ chối trách nhiệm có ý nghĩa).

Không Có Con Đường Ra

Có ba yếu tố mà các công ty AI thương mại dường như đang dựa vào để bảo vệ họ khỏi các vụ kiện tụng xung quanh các sản phẩm đã sử dụng nội dung bản quyền từ các tập dữ liệu một cách miễn phí và không có phép, để đào tạo các thuật toán AI. Không có yếu tố nào trong số này mang lại sự bảo vệ đáng tin cậy lâu dài:

1: Luật Quốc Gia Tự Do
Mặc dù các chính phủ trên toàn thế giới bị buộc phải nới lỏng các luật xung quanh việc thu thập dữ liệu để không bị tụt lại phía sau trong cuộc đua hướng tới AI hiệu suất cao (phụ thuộc vào lượng lớn dữ liệu thế giới thực mà việc tuân thủ bản quyền thường không thực tế), chỉ có Hoa Kỳ cung cấp sự miễn trừ toàn diện trong khía cạnh này, theo Đạo luật Sử dụng Công bằng – một chính sách được phê chuẩn vào năm 2015 với kết luận của vụ Authors Guild v. Google, Inc., đã xác nhận rằng gã khổng lồ tìm kiếm có thể tự do tiêu thụ tài liệu bản quyền cho dự án Sách Google của mình mà không bị buộc tội xâm phạm bản quyền.

Nếu chính sách Đạo luật Sử dụng Công bằng này thay đổi (ví dụ: như một phản ứng đối với một vụ án quan trọng khác liên quan đến các tổ chức hoặc tập đoàn mạnh mẽ), nó có thể được coi là một trạng thái a priori về việc khai thác các cơ sở dữ liệu xâm phạm bản quyền hiện tại; nhưng không đang diễn ra việc sử dụng và phát triển các hệ thống được kích hoạt bởi tài liệu bản quyền mà không có thỏa thuận.

Điều này đặt sự bảo vệ hiện tại của Đạo luật Sử dụng Công bằng trên một cơ sở rất tạm thời, và có thể yêu cầu các thuật toán học máy thương mại hóa thành công phải ngừng hoạt động trong trường hợp nguồn gốc của chúng được kích hoạt bởi tài liệu bản quyền mà không có thỏa thuận – ngay cả trong trường hợp mô hình cân nặng hiện chỉ liên quan đến nội dung được phép, nhưng đã được đào tạo trên (và được làm cho hữu ích bởi) tài liệu bản quyền bất hợp pháp.

Outside Hoa Kỳ, như các tác giả lưu ý trong bài báo mới, các chính sách thường ít thoải mái hơn. Vương quốc Anh và Canada chỉ miễn trách nhiệm cho việc sử dụng dữ liệu bản quyền cho mục đích phi thương mại, trong khi Luật Khai thác Văn bản và Dữ liệu của EU (chưa được thay thế hoàn toàn bởi các đề xuất gần đây về quy định AI chính thức) cũng loại trừ việc khai thác thương mại cho các hệ thống AI không tuân thủ các yêu cầu bản quyền của dữ liệu ban đầu.

Các安排 này có nghĩa là một tổ chức có thể đạt được những điều tuyệt vời với dữ liệu của người khác, lên đến – nhưng không bao gồm – điểm mà họ kiếm được tiền từ nó. Tại giai đoạn đó, sản phẩm sẽ bị phơi bày về mặt pháp lý, hoặc các thỏa thuận sẽ cần được ký kết với hàng triệu chủ sở hữu bản quyền, nhiều người trong số họ hiện không thể tìm thấy do bản chất thay đổi của internet – một triển vọng không thể và không thể chi trả.

2: Caveat Emptor
Trong các trường hợp mà các tổ chức vi phạm hy vọng sẽ trì hoãn trách nhiệm, bài báo mới cũng lưu ý rằng nhiều giấy phép cho các tập dữ liệu mã nguồn mở phổ biến tự miễn trách nhiệm cho bất kỳ tuyên bố nào liên quan đến lạm dụng bản quyền:

‘Ví dụ, giấy phép của ImageNet yêu cầu các nhà thực hành phải miễn trách nhiệm cho nhóm ImageNet khỏi bất kỳ tuyên bố nào phát sinh từ việc sử dụng tập dữ liệu. Các tập dữ liệu FFHQ, VGGFace2 và MS COCO yêu cầu tập dữ liệu, nếu được phân phối hoặc sửa đổi, phải được trình bày dưới cùng một giấy phép.’

Trên thực tế, điều này buộc những người sử dụng các tập dữ liệu FOSS phải hấp thụ trách nhiệm cho việc sử dụng tài liệu bản quyền, khi đối mặt với các vụ kiện tụng trong tương lai (mặc dù nó không nhất thiết phải bảo vệ những người biên soạn ban đầu trong trường hợp khí hậu ‘cảng an toàn’ bị xâm phạm).

3: Miễn Trách Thông Qua Sự Không Minh Bạch
Bản chất hợp tác của cộng đồng học máy làm cho nó khá khó khăn để sử dụng sự không minh bạch của doanh nghiệp để che giấu sự hiện diện của các thuật toán đã được hưởng lợi từ các tập dữ liệu xâm phạm bản quyền. Các dự án thương mại lâu dài thường bắt đầu trong môi trường FOSS công khai, nơi việc sử dụng tập dữ liệu là một vấn đề của hồ sơ, tại GitHub và các diễn đàn công khai khác, hoặc nơi nguồn gốc của dự án đã được xuất bản trong các bài báo trước khi xuất bản hoặc được đánh giá ngang hàng.

Dаже trong trường hợp này không xảy ra, sự đảo ngược mô hình ngày càng có khả năng tiết lộ các đặc điểm điển hình của các tập dữ liệu (hoặc thậm chí xuất ra một số tài liệu nguồn), cung cấp bằng chứng cho riêng nó, hoặc đủ nghi ngờ về vi phạm để cho phép truy cập vào lịch sử phát triển của thuật toán và chi tiết về các tập dữ liệu được sử dụng trong quá trình phát triển đó.

Kết Luận

Bài báo mô tả việc sử dụng tài liệu bản quyền một cách hỗn loạn và không chính thức, và một loạt các chuỗi giấy phép mà, khi được theo dõi logic尽 có thể, sẽ yêu cầu các cuộc đàm phán với hàng nghìn chủ sở hữu bản quyền, những người đã trình bày công việc của họ dưới sự bảo vệ của các trang web với nhiều loại giấy phép khác nhau, nhiều giấy phép trong số đó không cho phép các tác phẩm phái sinh thương mại.

Các tác giả kết luận:

‘Các tập dữ liệu công khai đang được sử dụng rộng rãi để xây dựng phần mềm AI thương mại. Một người có thể làm như vậy nếu [và] chỉ nếu giấy phép liên kết với tập dữ liệu công khai cung cấp quyền để làm như vậy. Tuy nhiên, không dễ để xác minh các quyền và nghĩa vụ được cung cấp trong giấy phép liên kết với các tập dữ liệu công khai. Bởi vì, đôi khi giấy phép không rõ ràng hoặc có thể không hợp lệ.’

Một công việc mới, có tiêu đề Xây Dựng Các Tập Dữ Liệu Pháp Lý, được phát hành vào ngày 2 tháng 11 từ Trung tâm Luật Máy tính tại Đại học Quản lý Singapore, cũng nhấn mạnh nhu cầu của các nhà khoa học dữ liệu để nhận ra rằng kỷ nguyên ‘phương tây hoang dã’ của việc thu thập dữ liệu không chính thức đang kết thúc, và phản ánh các khuyến nghị của bài báo Huawei để áp dụng các thói quen và phương pháp luận nghiêm ngặt hơn để đảm bảo rằng việc sử dụng tập dữ liệu không làm cho một dự án dễ bị tổn thương về mặt pháp lý khi văn hóa thay đổi theo thời gian, và khi hoạt động học thuật toàn cầu trong lĩnh vực học máy đang tìm kiếm lợi nhuận thương mại từ nhiều năm đầu tư. Tác giả quan sát*:

‘[Bộ] luật pháp liên quan đến các tập dữ liệu ML đang thiếu bảo vệ. Dự thảo Đạo Luật Trí Tuệ Nhân Tạo Của EU, nếu và khi được thông qua, sẽ thay đổi đáng kể phong cảnh quản lý AI và dữ liệu; các khu vực tài phán khác có thể theo sát với các Đạo Luật của riêng họ. ‘

* Sự chuyển đổi của tôi các trích dẫn nội tuyến thành siêu liên kết

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]

Unite.AI

Các Thực Tiễn AI Hiện Tại Có Thể Đang Tạo Điều Kiện Cho Một Thế Hệ Mới Của Những Kẻ TROLL Bản Quyền

Năm Trong Sáu (Phổ Biến) Tập Dữ Liệu Mở Không Phải Là Pháp Lý Sử Dụng

Không Có Con Đường Ra

Kết Luận

Khám phá thêm