Connect with us

Các Thực Tiễn Trí Tuệ Nhân Tạo Hiện Tại Có Thể Đang Tạo Điều Kiện Cho Một Thế Hệ Mới Của Những Kẻ Trolls Bản Quyền

Đạo đức

Các Thực Tiễn Trí Tuệ Nhân Tạo Hiện Tại Có Thể Đang Tạo Điều Kiện Cho Một Thế Hệ Mới Của Những Kẻ Trolls Bản Quyền

mm

Một nghiên cứu hợp tác mới giữa Huawei và giới học thuật cho thấy một lượng lớn nghiên cứu quan trọng nhất trong trí tuệ nhân tạo và học máy có thể sẽ bị lộ trước nguy cơ kiện tụng ngay khi chúng trở nên nổi bật về mặt thương mại, vì các tập dữ liệu cho phép đạt được những đột phá này đang được phân phối với các giấy phép không hợp lệ, không tôn trọng các điều khoản ban đầu của các lĩnh vực công khai mà dữ liệu được thu thập.

Trên thực tế, điều này có hai kết quả gần như không thể tránh khỏi: các thuật toán trí tuệ nhân tạo rất thành công, được thương mại hóa và được biết đến là đã sử dụng các tập dữ liệu như vậy sẽ trở thành mục tiêu tương lai của những kẻ troll bản quyền cơ hội, những người có bản quyền không được tôn trọng khi dữ liệu của họ bị thu thập; và các tổ chức, cá nhân sẽ có thể sử dụng những điểm yếu pháp lý này để phản đối việc triển khai hoặc phổ biến công nghệ học máy mà họ cho là không thể chấp nhận được.

Bài báo này có tiêu đề Liệu Tôi Có Thể Sử Dụng Tập Dữ Liệu Công Khai Này Để Xây Dựng Phần Mềm Trí Tuệ Nhân Tạo Thương Mại? Hầu Như Không, và là một hợp tác giữa Huawei Canada và Huawei Trung Quốc, cùng với Đại học York ở Anh và Đại học Victoria ở Canada.

Năm Trong Sáu Tập Dữ Liệu Mở (Phổ Biến) Không Phải Là Có Thể Sử Dụng Về Mặt Pháp Lý

Để nghiên cứu, các tác giả đã yêu cầu các bộ phận tại Huawei chọn các tập dữ liệu mã nguồn mở mong muốn nhất mà họ muốn khai thác trong các dự án thương mại, và chọn sáu tập dữ liệu được yêu cầu nhiều nhất từ các phản hồi: CIFAR-10 (một tập con của 80 triệu hình ảnh nhỏ, vì rút lại do ‘các thuật ngữ miệt thị’ và ‘hình ảnh xúc phạm’, mặc dù các dẫn xuất của nó vẫn tồn tại); ImageNet; Cityscapes (chứa vật liệu độc quyền); FFHQ; VGGFace2, và MSCOCO.

Để phân tích xem các tập dữ liệu đã chọn có phù hợp để sử dụng pháp lý trong các dự án thương mại hay không, các tác giả đã phát triển một đường ống mới để theo dõi chuỗi giấy phép尽 có thể cho mỗi tập, mặc dù họ thường phải sử dụng các bản lưu trữ web để tìm kiếm giấy phép từ các miền đã hết hạn, và trong một số trường hợp phải ‘đoán’ tình trạng giấy phép từ thông tin gần nhất có sẵn.

Kiến Trúc Cho Hệ Thống Theo Dõi Nguồn Gốc Phát Triển Bởi Các Tác Giả.

Kiến Trúc Cho Hệ Thống Theo Dõi Nguồn Gốc Phát Triển Bởi Các Tác Giả. Nguồn: https://arxiv.org/pdf/2111.02374.pdf

Các tác giả đã phát hiện ra rằng giấy phép cho năm trong sáu tập dữ liệu ‘chứa đựng rủi ro liên quan đến ít nhất một ngữ cảnh sử dụng thương mại’:

‘[Chúng tôi] quan sát thấy, ngoại trừ MS COCO, không có giấy phép nào trong số các giấy phép được nghiên cứu cho phép các nhà thực hành quyền thương mại hóa mô hình trí tuệ nhân tạo được đào tạo trên dữ liệu hoặc thậm chí là đầu ra của mô hình trí tuệ nhân tạo đã được đào tạo. Kết quả như vậy cũng ngăn cản hiệu quả các nhà thực hành sử dụng các mô hình đã được đào tạo trước trên các tập dữ liệu này. Các tập dữ liệu và mô hình trí tuệ nhân tạo công khai có sẵn đang được sử dụng rộng rãi về mặt thương mại.’ *

Các tác giả lưu ý thêm rằng ba trong số sáu tập dữ liệu được nghiên cứu có thể dẫn đến vi phạm giấy phép trong các sản phẩm thương mại nếu tập dữ liệu được sửa đổi, vì chỉ có MS-COCO cho phép điều này. Tuy nhiên, việc tăng cường dữ liệu và các tập con và tập hợp con của các tập dữ liệu có ảnh hưởng là một thực hành phổ biến.

Trong trường hợp của CIFAR-10, những người biên soạn ban đầu không tạo ra bất kỳ hình thức giấy phép thông thường nào, chỉ yêu cầu các dự án sử dụng tập dữ liệu phải bao gồm một trích dẫn đến bài báo gốc đi kèm với việc phát hành tập dữ liệu, tạo ra một trở ngại khác để thiết lập tình trạng pháp lý của dữ liệu.

Hơn nữa, chỉ có tập dữ liệu CityScapes chứa vật liệu được tạo độc quyền bởi những người tạo ra tập dữ liệu, chứ không phải được ‘tập hợp’ (thu thập) từ các nguồn mạng, với CIFAR-10 và ImageNet sử dụng nhiều nguồn, mỗi nguồn sẽ cần được điều tra và theo dõi lại để thiết lập bất kỳ cơ chế bản quyền nào (hoặc thậm chí là một tuyên bố từ chối trách nhiệm có ý nghĩa).

Không Có Con Đường Ra

Có ba yếu tố mà các công ty trí tuệ nhân tạo thương mại dường như đang dựa vào để bảo vệ họ khỏi các vụ kiện tụng xung quanh các sản phẩm đã sử dụng nội dung bản quyền từ các tập dữ liệu một cách miễn phí và không có phép, để đào tạo các thuật toán trí tuệ nhân tạo. Không có yếu tố nào trong số này mang lại sự bảo vệ đáng tin cậy lâu dài:

1: Luật Quốc Gia Thỏa Mãi
Mặc dù các chính phủ trên toàn thế giới bị buộc phải nới lỏng các luật liên quan đến việc thu thập dữ liệu để không bị tụt lại phía sau trong cuộc đua hướng tới trí tuệ nhân tạo hiệu suất cao (điều này phụ thuộc vào lượng lớn dữ liệu thế giới thực mà việc tuân thủ bản quyền và cấp phép thông thường sẽ không thực tế), chỉ có Hoa Kỳ cung cấp sự miễn trừ toàn diện trong khía cạnh này, theo Đạo Luật Sử Dụng Công Bằng – một chính sách đã được phê chuẩn vào năm 2015 với kết luận của vụ Authors Guild v. Google, Inc., đã khẳng định rằng gã khổng lồ tìm kiếm có thể tự do tiêu thụ tài liệu bản quyền cho dự án Sách Google của mình mà không bị buộc tội xâm phạm bản quyền.

Nếu Đạo Luật Sử Dụng Công Bằng thay đổi (ví dụ, như một phản ứng trước một vụ việc quan trọng khác liên quan đến các tổ chức hoặc tập đoàn mạnh mẽ), nó sẽ có khả năng được coi là một trạng thái a priori về việc khai thác các cơ sở dữ liệu vi phạm bản quyền hiện tại, bảo vệ việc sử dụng trước; nhưng không tiếp tục sử dụng và phát triển các hệ thống được kích hoạt thông qua tài liệu bản quyền mà không có thỏa thuận.

Điều này đặt sự bảo vệ hiện tại của Đạo Luật Sử Dụng Công Bằng trên một cơ sở tạm thời, và có thể yêu cầu các thuật toán học máy thương mại đã được thiết lập phải ngừng hoạt động trong trường hợp nguồn gốc của chúng được kích hoạt bởi tài liệu bản quyền mà không có sự cho phép – ngay cả trong trường hợp trọng lượng của mô hình đầu ra hiện chỉ liên quan đến nội dung được phép, nhưng đã được đào tạo trên (và được làm hữu ích bởi) nội dung bản quyền bị sao chép bất hợp pháp.

Ngoài Hoa Kỳ, như các tác giả lưu ý trong bài báo mới, các chính sách thường ít cởi mở hơn. Vương quốc Anh và Canada chỉ miễn trách nhiệm cho việc sử dụng tài liệu bản quyền cho mục đích phi thương mại, trong khi Luật Khai Thác Văn Bản và Dữ Liệu của EU (đã không bị thay thế hoàn toàn bởi các đề xuất gần đây cho quy định trí tuệ nhân tạo chính thức hơn) cũng loại trừ việc khai thác thương mại cho các hệ thống trí tuệ nhân tạo không tuân thủ các yêu cầu bản quyền của dữ liệu ban đầu.

Những sắp xếp sau này có nghĩa là một tổ chức có thể đạt được những thành tựu lớn với dữ liệu của người khác, lên đến – nhưng không bao gồm – điểm mà họ kiếm được tiền từ nó. Tại giai đoạn đó, sản phẩm sẽ trở nên dễ bị tổn thương về mặt pháp lý, hoặc các thỏa thuận sẽ cần được ký kết với hàng triệu chủ sở hữu bản quyền, nhiều người trong số họ hiện không thể theo dõi được do bản chất thay đổi của internet – một triển vọng không thể và không thể chi trả.

2: Caveat Emptor
Trong các trường hợp mà các tổ chức vi phạm hy vọng sẽ hoãn trách nhiệm, bài báo mới cũng quan sát thấy rằng nhiều giấy phép cho các tập dữ liệu mã nguồn mở phổ biến nhất tự miễn trách nhiệm cho bất kỳ tuyên bố nào về lạm dụng bản quyền:

‘Ví dụ, giấy phép của ImageNet yêu cầu các nhà thực hành phải miễn trách nhiệm cho nhóm ImageNet khỏi bất kỳ tuyên bố nào phát sinh từ việc sử dụng tập dữ liệu. Các tập dữ liệu FFHQ, VGGFace2 và MS COCO yêu cầu tập dữ liệu, nếu được phân phối hoặc sửa đổi, phải được trình bày dưới cùng một giấy phép.’

Hiệu quả này buộc những người sử dụng các tập dữ liệu mã nguồn mở phải hấp thụ trách nhiệm cho việc sử dụng tài liệu bản quyền, trước sự kiện kiện tụng (mặc dù nó không nhất thiết bảo vệ các biên soạn viên ban đầu trong trường hợp khí hậu ‘cảng an toàn’ hiện tại bị xâm phạm).

3: Miễn Trách Nhiệm Thông Qua Sự Không Rõ Ràng
Bản chất hợp tác của cộng đồng học máy làm cho nó khá khó khăn để sử dụng sự che giấu của doanh nghiệp để che giấu sự hiện diện của các thuật toán đã được hưởng lợi từ các tập dữ liệu vi phạm bản quyền. Các dự án thương mại lâu dài thường bắt đầu trong môi trường mã nguồn mở nơi việc sử dụng tập dữ liệu là một vấn đề của hồ sơ, tại GitHub và các diễn đàn công khai khác, hoặc nơi nguồn gốc của dự án đã được xuất bản trong các bài báo trước khi xuất bản hoặc được đánh giá ngang hàng.

Ngay cả khi điều này không phải là trường hợp, sự đảo ngược mô hình đang ngày càng có khả năng tiết lộ các đặc điểm điển hình của các tập dữ liệu (hoặc thậm chí đầu ra rõ ràng một số tài liệu nguồn), cung cấp bằng chứng về bản thân hoặc đủ nghi ngờ về vi phạm để cho phép truy cập vào lịch sử phát triển của thuật toán và chi tiết về các tập dữ liệu được sử dụng trong quá trình phát triển đó.

Kết Luận

Bài báo mô tả việc sử dụng tài liệu bản quyền một cách tùy tiện và không chính thức, và một loạt các chuỗi giấy phép mà, khi theo dõi hợp lý đến nguồn gốc của dữ liệu, sẽ đòi hỏi phải đàm phán với hàng nghìn chủ sở hữu bản quyền mà công việc của họ được trình bày dưới sự bảo trợ của các trang web có nhiều loại điều khoản cấp phép, nhiều điều khoản trong số đó loại trừ việc tạo ra các tác phẩm thương mại phái sinh.

Các tác giả kết luận:

‘Các tập dữ liệu công khai đang được sử dụng rộng rãi để xây dựng phần mềm trí tuệ nhân tạo thương mại. Một người có thể làm như vậy nếu [và] chỉ nếu giấy phép liên quan đến tập dữ liệu công khai cho phép quyền làm như vậy. Tuy nhiên, không dễ để xác minh các quyền và nghĩa vụ được cung cấp trong giấy phép liên quan đến các tập dữ liệu công khai. Bởi vì, đôi khi giấy phép không rõ ràng hoặc có khả năng không hợp lệ.’

Một công việc mới, có tựa đề Xây Dựng Các Tập Dữ Liệu Pháp Lý, được phát hành vào ngày 2 tháng 11 từ Trung Tâm Luật Tính Toán tại Trường Quản Lý Singapore, cũng nhấn mạnh nhu cầu của các nhà khoa học dữ liệu để nhận ra rằng kỷ nguyên ‘phương tây hoang dã’ của việc thu thập dữ liệu tùy tiện đang kết thúc, và phản ánh các khuyến nghị của bài báo Huawei để áp dụng các thói quen và phương pháp nghiêm ngặt hơn nhằm đảm bảo rằng việc sử dụng tập dữ liệu không làm cho dự án dễ bị tổn thương trước các hậu quả pháp lý khi văn hóa thay đổi theo thời gian, và khi hoạt động học máy toàn cầu hiện tại tìm kiếm lợi nhuận từ nhiều năm đầu tư. Tác giả quan sát*:

‘[Bộ sưu tập] luật pháp ảnh hưởng đến các tập dữ liệu học máy sẽ tăng trưởng, giữa những lo ngại rằng các luật hiện hành cung cấp sự bảo vệ không đầy đủ . Dự thảo Đạo Luật Trí Tuệ Nhân Tạo EU [Dự thảo Đạo Luật Trí Tuệ Nhân Tạo EU], nếu và khi được thông qua, sẽ thay đổi đáng kể phong cảnh quản trị trí tuệ nhân tạo và dữ liệu; các khu vực tài phán khác có thể theo dõi với các Đạo Luật của riêng họ. ‘

 

* Sự chuyển đổi của tôi từ các chú thích trong dòng thành các liên kết

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]