đạo đức học
Các phương pháp AI hiện tại có thể tạo điều kiện cho một thế hệ yêu tinh bản quyền mới

Một sự hợp tác nghiên cứu mới giữa Huawei và giới học thuật cho thấy rằng rất nhiều nghiên cứu quan trọng nhất hiện nay về trí tuệ nhân tạo và học máy có thể bị kiện tụng ngay khi nó trở nên nổi bật về mặt thương mại, bởi vì các bộ dữ liệu có thể tạo ra đột phá đang được phân phối không hợp lệ. các giấy phép không tôn trọng các điều khoản ban đầu của các miền công khai mà dữ liệu được lấy từ đó.
Trên thực tế, điều này có hai kết quả gần như không thể tránh khỏi có thể xảy ra: các thuật toán AI được thương mại hóa, rất thành công được biết là đã sử dụng các bộ dữ liệu như vậy sẽ trở thành mục tiêu trong tương lai của những kẻ phá hoại bằng sáng chế cơ hội mà bản quyền của chúng không được tôn trọng khi dữ liệu của chúng bị lấy cắp; và rằng các tổ chức và cá nhân sẽ có thể sử dụng các lỗ hổng pháp lý tương tự này để phản đối việc triển khai hoặc phổ biến các công nghệ máy học mà họ thấy có thể bị phản đối.
Sản phẩm giấy có tiêu đề Tôi có thể sử dụng bộ dữ liệu có sẵn công khai này để xây dựng phần mềm AI thương mại không? Hầu như không, và là sự hợp tác giữa Huawei Canada và Huawei Trung Quốc, cùng với Đại học York ở Vương quốc Anh và Đại học Victoria ở Canada.
Năm trong số sáu bộ dữ liệu nguồn mở (phổ biến) không thể sử dụng hợp pháp
Đối với nghiên cứu, các tác giả đã yêu cầu các bộ phận tại Huawei chọn bộ dữ liệu nguồn mở mong muốn nhất mà họ muốn khai thác trong các dự án thương mại và chọn sáu bộ dữ liệu được yêu cầu nhiều nhất từ các phản hồi: CIFAR-10 (một tập hợp con của 80 triệu hình ảnh nhỏ tập dữ liệu, vì rút tiền đối với 'thuật ngữ xúc phạm' và 'hình ảnh xúc phạm', mặc dù các dẫn xuất của nó sinh sôi nảy nở); IMAGEnet; Cảnh quan thành phố (chỉ chứa tài liệu gốc); FHQ; VGGFace2và MSCOCO.
Để phân tích xem các bộ dữ liệu được chọn có phù hợp để sử dụng hợp pháp trong các dự án thương mại hay không, các tác giả đã phát triển một quy trình mới để truy ngược lại chuỗi giấy phép ở mức khả thi cho mỗi bộ, mặc dù họ thường phải sử dụng các bản chụp lưu trữ web để định vị giấy phép từ các miền hiện đã hết hạn và trong một số trường hợp nhất định phải 'đoán' trạng thái giấy phép từ thông tin có sẵn gần nhất.

Kiến trúc cho hệ thống truy xuất nguồn gốc do các tác giả phát triển. Nguồn: https://arxiv.org/pdf/2111.02374.pdf
Các tác giả nhận thấy rằng giấy phép cho năm trong số sáu bộ dữ liệu 'chứa rủi ro liên quan đến ít nhất một bối cảnh sử dụng thương mại':
'[Chúng tôi] quan sát thấy rằng, ngoại trừ MS COCO, không có giấy phép nào được nghiên cứu cho phép các học viên có quyền thương mại hóa mô hình AI được đào tạo trên dữ liệu hoặc thậm chí là đầu ra của mô hình AI được đào tạo. Kết quả như vậy cũng ngăn chặn hiệu quả các học viên thậm chí sử dụng các mô hình được đào tạo trước được đào tạo trên các bộ dữ liệu này. Các bộ dữ liệu có sẵn công khai và các mô hình AI được đào tạo trước về chúng là được sử dụng rộng rãi trong thương mại.' *
Các tác giả lưu ý thêm rằng ba trong số sáu bộ dữ liệu được nghiên cứu có thể dẫn đến vi phạm giấy phép trong các sản phẩm thương mại nếu bộ dữ liệu bị sửa đổi, vì chỉ MS-COCO mới cho phép điều này. Tuy nhiên, việc tăng cường dữ liệu và các tập hợp con và siêu tập hợp của các tập dữ liệu có ảnh hưởng là một thực tế phổ biến.
Trong trường hợp của CIFAR-10, các trình biên dịch ban đầu hoàn toàn không tạo ra bất kỳ hình thức cấp phép thông thường nào, chỉ yêu cầu các dự án sử dụng bộ dữ liệu bao gồm một trích dẫn cho bài báo gốc đi kèm với việc phát hành bộ dữ liệu, gây trở ngại hơn nữa cho việc thiết lập tình trạng pháp lý của dữ liệu.
Ngoài ra, chỉ có bộ dữ liệu CityScapes chứa tài liệu được tạo riêng bởi những người khởi tạo bộ dữ liệu, thay vì được 'tuyển chọn' (được loại bỏ) từ các nguồn mạng, với CIFAR-10 và ImageNet sử dụng nhiều nguồn, mỗi nguồn sẽ cần được điều tra và truy ngược lại để thiết lập bất kỳ loại cơ chế bản quyền nào (hoặc thậm chí là tuyên bố từ chối trách nhiệm có ý nghĩa).
No Way Out
Có ba yếu tố mà các công ty AI thương mại dường như đang dựa vào để bảo vệ họ khỏi kiện tụng xung quanh các sản phẩm đã sử dụng nội dung có bản quyền từ bộ dữ liệu một cách tự do và không được phép, để đào tạo các thuật toán AI. Không cái nào trong số này đủ khả năng (hoặc bất kỳ) sự bảo vệ lâu dài đáng tin cậy nào:
1: Luật quốc gia Laissez Faire
Mặc dù các chính phủ trên khắp thế giới buộc phải nới lỏng các luật xung quanh việc thu thập dữ liệu nhằm nỗ lực không lùi bước trong cuộc đua hướng tới AI có hiệu suất cao (dựa trên khối lượng lớn dữ liệu trong thế giới thực mà việc tuân thủ và cấp phép bản quyền thông thường sẽ không thực tế), chỉ Hoa Kỳ cung cấp quyền miễn trừ đầy đủ về mặt này, theo Học thuyết sử dụng hợp pháp – một chính sách đã được phê chuẩn vào năm 2015 với phần kết luận vụ Authors Guild kiện Google, Inc., khẳng định rằng gã khổng lồ tìm kiếm có thể tự do nhập tài liệu có bản quyền cho dự án Google Sách của mình mà không bị cáo buộc vi phạm.
Nếu chính sách về Học thuyết sử dụng hợp lý từng thay đổi (tức là để đáp lại một trường hợp mang tính bước ngoặt khác liên quan đến các tổ chức hoặc tập đoàn có đủ quyền lực), thì điều đó có thể được coi là một một ưu tiên nhà nước về khai thác cơ sở dữ liệu vi phạm bản quyền hiện tại, bảo vệ việc sử dụng trước đây; nhưng không đang diễn ra sử dụng và phát triển các hệ thống được kích hoạt thông qua tài liệu có bản quyền mà không có thỏa thuận.
Điều này đặt cơ chế bảo vệ hiện tại đối với Học thuyết sử dụng hợp pháp trên cơ sở rất tạm thời và trong trường hợp đó, có khả năng có thể yêu cầu các thuật toán máy học đã được thương mại hóa, đã thiết lập ngừng hoạt động trong trường hợp nguồn gốc của chúng được kích hoạt bởi tài liệu có bản quyền – ngay cả trong trường hợp người mẫu trọng lượng hiện chỉ xử lý nội dung được phép, nhưng đã được đào tạo về (và trở nên hữu ích nhờ) nội dung được sao chép bất hợp pháp.
Bên ngoài Hoa Kỳ, như các tác giả lưu ý trong bài báo mới, các chính sách nói chung ít khoan dung hơn. Vương quốc Anh và Canada chỉ bồi thường cho việc sử dụng dữ liệu có bản quyền cho các mục đích phi thương mại, trong khi Luật khai thác dữ liệu và văn bản của EU (chưa bị hủy bỏ hoàn toàn bởi đề xuất gần đây đối với quy định chính thức hơn về AI) cũng loại trừ việc khai thác thương mại đối với các hệ thống AI không tuân thủ các yêu cầu về bản quyền của dữ liệu gốc.
Những thỏa thuận sau này có nghĩa là một tổ chức có thể đạt được những điều tuyệt vời với dữ liệu của người khác, cho đến - nhưng không bao gồm - điểm kiếm tiền từ dữ liệu đó. Ở giai đoạn đó, sản phẩm hoặc sẽ bị lộ về mặt pháp lý, hoặc các thỏa thuận sẽ cần phải được soạn thảo với hàng triệu chủ sở hữu bản quyền, nhiều người trong số họ hiện không thể theo dõi được do tính chất thay đổi của Internet - một viễn cảnh bất khả thi và không thể chi trả được.
2: Báo trước Emptor
Trong trường hợp các tổ chức vi phạm đang hy vọng trì hoãn việc đổ lỗi, bài báo mới cũng nhận thấy rằng nhiều giấy phép cho các bộ dữ liệu nguồn mở phổ biến nhất tự động bồi thường cho chính họ trước mọi khiếu nại về lạm dụng bản quyền:
'Ví dụ: giấy phép của ImageNet yêu cầu rõ ràng các học viên phải bồi thường cho nhóm ImageNet trước mọi khiếu nại phát sinh từ việc sử dụng tập dữ liệu. Bộ dữ liệu FFHQ, VGGFace2 và MS COCO yêu cầu bộ dữ liệu, nếu được phân phối hoặc sửa đổi, phải được trình bày theo cùng một giấy phép.'
Trên thực tế, điều này buộc những người sử dụng bộ dữ liệu FOSS phải chịu trách nhiệm về việc sử dụng tài liệu có bản quyền, khi đối mặt với kiện tụng cuối cùng (mặc dù nó không nhất thiết phải bảo vệ các trình biên dịch gốc trong trường hợp bao gồm môi trường 'bến cảng an toàn' hiện tại).
3: Bồi thường thông qua che khuất
Bản chất hợp tác của cộng đồng máy học khiến việc sử dụng thuyết huyền bí của công ty để che giấu sự hiện diện của các thuật toán được hưởng lợi từ các bộ dữ liệu vi phạm bản quyền là khá khó khăn. Các dự án thương mại dài hạn thường bắt đầu trong các môi trường FOSS mở nơi việc sử dụng các bộ dữ liệu là vấn đề được ghi lại, tại GitHub và các diễn đàn có thể truy cập công khai khác hoặc nơi nguồn gốc của dự án đã được xuất bản trong các bài báo in sẵn hoặc được bình duyệt.
Ngay cả khi đây không phải là trường hợp, đảo ngược mô hình is ngày càng có khả năng tiết lộ các đặc điểm điển hình của bộ dữ liệu (hoặc thậm chí xuất ra rõ ràng một số tài liệu nguồn), bản thân nó cung cấp bằng chứng hoặc đủ khả năng nghi ngờ vi phạm để cho phép truy cập theo lệnh của tòa án vào lịch sử phát triển của thuật toán và chi tiết về bộ dữ liệu được sử dụng trong quá trình phát triển đó.
Kết luận
Bài viết mô tả tình trạng sử dụng lộn xộn và đặc biệt đối với tài liệu có bản quyền thu được mà không được phép, và một loạt chuỗi giấy phép, theo logic từ nguồn gốc của dữ liệu, sẽ yêu cầu đàm phán với hàng nghìn chủ sở hữu bản quyền có tác phẩm được trình bày dưới sự bảo trợ của các trang web có nhiều điều khoản cấp phép khác nhau, nhiều điều khoản loại trừ các tác phẩm thương mại phái sinh.
Các tác giả kết luận:
'Các bộ dữ liệu có sẵn công khai đang được sử dụng rộng rãi để xây dựng phần mềm AI thương mại. Người ta có thể làm như vậy nếu [và] chỉ khi giấy phép được liên kết với bộ dữ liệu có sẵn công khai cung cấp quyền làm như vậy. Tuy nhiên, không dễ để xác minh các quyền và nghĩa vụ được cung cấp trong giấy phép liên quan đến các bộ dữ liệu có sẵn công khai. Bởi vì, đôi khi giấy phép không rõ ràng hoặc có khả năng không hợp lệ.'
Một tác phẩm mới khác, mang tên Xây dựng bộ dữ liệu pháp lý, được phát hành vào ngày 2 tháng XNUMX từ Trung tâm Luật tính toán tại Đại học Quản lý Singapore, cũng nhấn mạnh sự cần thiết của các nhà khoa học dữ liệu để nhận ra rằng kỷ nguyên thu thập dữ liệu đặc biệt ở 'miền tây hoang dã' sắp kết thúc và phản ánh các khuyến nghị của Huawei bài báo áp dụng các thói quen và phương pháp nghiêm ngặt hơn để đảm bảo rằng việc sử dụng tập dữ liệu không khiến dự án bị phân nhánh về mặt pháp lý khi văn hóa thay đổi theo thời gian và khi hoạt động học thuật toàn cầu hiện tại trong lĩnh vực máy học tìm kiếm lợi tức thương mại sau nhiều năm đầu tư . Tác giả nhận xét*:
'[The] bộ luật ảnh hưởng đến bộ dữ liệu ML được thiết lập để phát triển, trong bối cảnh lo ngại rằng luật hiện hành đưa ra không đầy đủ biện pháp bảo vệ. Dự thảo AIA [Đạo luật trí tuệ nhân tạo của EU], nếu và khi được thông qua, sẽ thay đổi đáng kể bối cảnh quản trị dữ liệu và AI; các khu vực pháp lý khác có thể tuân theo Đạo luật của chính họ. '
* Chuyển đổi của tôi về trích dẫn nội tuyến thành siêu liên kết