Góc nhìn Anderson

Gần 80% Dữ liệu Huấn luyện Có thể Là Một Nguy cơ Pháp lý cho Doanh nghiệp Trí tuệ Nhân tạo

mm
ChatGPT and Adobe Firefly.

Một bài báo gần đây từ LG AI Research gợi ý rằng các tập dữ liệu được cho là ‘mở’ được sử dụng để huấn luyện các mô hình AI có thể mang lại một cảm giác an toàn giả tạo – khi phát hiện ra rằng gần bốn trong số năm tập dữ liệu AI được dán nhãn là ‘có thể sử dụng thương mại’ thực sự chứa các rủi ro pháp lý ẩn.

Các rủi ro này bao gồm việc bao gồm các tài liệu có bản quyền không được tiết lộ và các điều khoản cấp phép hạn chế được chôn sâu trong các phụ thuộc của tập dữ liệu. Nếu các phát hiện của bài báo là chính xác, các công ty dựa vào các tập dữ liệu công khai có thể cần phải xem xét lại các đường ống AI hiện tại của họ, hoặc rủi ro sẽ bị phơi bày về mặt pháp lý.

Các nhà nghiên cứu đề xuất một giải pháp cực đoan và có thể gây tranh cãi: các đại lý tuân thủ dựa trên AI có khả năng quét và kiểm tra lịch sử tập dữ liệu nhanh hơn và chính xác hơn so với các luật sư con người.

Bài báo này nêu:

‘Bài báo này cho rằng rủi ro pháp lý của các tập dữ liệu huấn luyện AI không thể được xác định chỉ bằng cách xem xét các điều khoản cấp phép bề mặt; một phân tích toàn diện, từ đầu đến cuối về việc phân phối lại tập dữ liệu là điều cần thiết để đảm bảo tuân thủ.

‘Vì phân tích như vậy vượt quá khả năng của con người do sự phức tạp và quy mô của nó, các đại lý AI có thể bắc cầu này bằng cách thực hiện nó với tốc độ và độ chính xác cao hơn. Không có tự động hóa, các rủi ro pháp lý quan trọng vẫn còn ít được kiểm tra, đe dọa đến sự phát triển của AI đạo đức và tuân thủ quy định. ‘

‘Chúng tôi kêu gọi cộng đồng nghiên cứu AI công nhận phân tích pháp lý từ đầu đến cuối là một yêu cầu cơ bản và áp dụng các phương pháp AI-driven như con đường khả thi để tuân thủ dữ liệu có thể mở rộng.’

Khi kiểm tra 2.852 tập dữ liệu phổ biến xuất hiện có thể sử dụng thương mại dựa trên các giấy phép cá nhân của chúng, hệ thống tự động của các nhà nghiên cứu đã phát hiện ra rằng chỉ 605 tập dữ liệu (khoảng 21%) thực sự an toàn về mặt pháp lý cho việc thương mại hóa một lần tất cả các thành phần và phụ thuộc của chúng được theo dõi

Bài báo mới có tựa đề Đừng Tin vào Giấy phép Bạn Thấy — Tuân thủ Dữ liệu Yêu cầu Theo dõi Lifecycle Quy mô Lớn có sức mạnh của AI, và đến từ tám nhà nghiên cứu tại LG AI Research.

Quyền và Sai lầm

Các tác giả nhấn mạnh thách thức mà các công ty đang thúc đẩy phát triển AI trong một môi trường pháp lý ngày càng không chắc chắn – khi tư duy ‘sử dụng công bằng’ trước đây xung quanh việc huấn luyện tập dữ liệu đang nhường chỗ cho một môi trường bị phân mảnh, nơi các biện pháp bảo vệ pháp lý không rõ ràng và an toàn không còn được đảm bảo.

Khi một ấn phẩm điểm out gần đây, các công ty đang trở nên phòng thủ hơn về nguồn gốc của dữ liệu huấn luyện của họ. Tác giả Adam Buick bình luận*:

‘[Trong khi] OpenAI tiết lộ các nguồn dữ liệu chính cho GPT-3, bài báo giới thiệu GPT-4 cho thấy chỉ rằng dữ liệu mà mô hình đã được huấn luyện là một hỗn hợp của ‘dữ liệu công khai (như dữ liệu internet) và dữ liệu được cấp phép từ các nhà cung cấp thứ ba’.

‘Các động lực đằng sau việc di chuyển khỏi minh bạch chưa được nêu chi tiết trong bất kỳ trường hợp nào bởi các nhà phát triển AI, những người trong nhiều trường hợp đã không đưa ra bất kỳ lời giải thích nào.

‘Đối với phần của mình, OpenAI đã biện minh cho quyết định không phát hành thêm chi tiết về GPT-4 dựa trên mối quan ngại về ‘cảnh quan cạnh tranh và các tác động an toàn của các mô hình quy mô lớn’, không có thêm giải thích nào trong báo cáo.’

Minh bạch có thể là một thuật ngữ không trung thực – hoặc chỉ đơn giản là một thuật ngữ bị hiểu lầm; ví dụ, mô hình sinh tổng hợp Firefly của Adobe, được huấn luyện trên dữ liệu cổ phiếu mà Adobe đã có quyền khai thác, được cho là mang lại sự đảm bảo cho khách hàng về tính hợp pháp của việc sử dụng hệ thống của họ. Sau đó, một số bằng chứng cho thấy rằng nồi dữ liệu Firefly đã trở nên ‘giàu có’ với dữ liệu có bản quyền tiềm năng từ các nền tảng khác.

Khi chúng tôi thảo luận trước đó trong tuần này, có những sáng kiến ngày càng tăng được thiết kế để đảm bảo tuân thủ giấy phép trong các tập dữ liệu, bao gồm một sáng kiến sẽ chỉ thu thập các video YouTube với giấy phép Creative Commons linh hoạt.

Vấn đề là các giấy phép bản thân có thể là sai lầm, hoặc được cấp phép sai, như nghiên cứu mới dường như chỉ ra.

Kiểm tra Dữ liệu Mở

Thật khó để phát triển một hệ thống đánh giá như của các tác giả khi bối cảnh đang thay đổi liên tục. Do đó, bài báo này nêu rằng hệ thống khuôn khổ tuân thủ dữ liệu NEXUS dựa trên ‘các tiền lệ và cơ sở pháp lý tại thời điểm này’.

NEXUS sử dụng một đại lý AI-driven gọi là AutoCompliance cho việc tuân thủ dữ liệu tự động. AutoCompliance bao gồm ba mô-đun chính: mô-đun điều hướng cho việc khám phá web; mô-đun trả lời câu hỏi (QA) cho việc trích xuất thông tin; và mô-đun đánh giá cho việc đánh giá rủi ro pháp lý.

AutoCompliance bắt đầu với một trang web do người dùng cung cấp. AI trích xuất các chi tiết chính, tìm kiếm các tài nguyên liên quan, xác định các điều khoản cấp phép và phụ thuộc, và gán một điểm số rủi ro pháp lý. Nguồn: https://arxiv.org/pdf/2503.02784

AutoCompliance bắt đầu với một trang web do người dùng cung cấp. AI trích xuất các chi tiết chính, tìm kiếm các tài nguyên liên quan, xác định các điều khoản cấp phép và phụ thuộc, và gán một điểm số rủi ro pháp lý. Nguồn: https://arxiv.org/pdf/2503.02784

Các mô-đun này được cung cấp bởi các mô hình AI tinh chỉnh, bao gồm mô hình EXAONE-3.5-32B-Instruct, được huấn luyện trên dữ liệu tổng hợp và dữ liệu được dán nhãn bởi con người. AutoCompliance cũng sử dụng một cơ sở dữ liệu để lưu trữ kết quả nhằm tăng hiệu quả.

AutoCompliance bắt đầu với một URL tập dữ liệu do người dùng cung cấp và coi nó là thực thể gốc, tìm kiếm các điều khoản cấp phép và phụ thuộc của nó, và theo dõi lại các tập dữ liệu liên kết để xây dựng một đồ thị phụ thuộc cấp phép. Khi tất cả các kết nối được ánh xạ, nó tính toán các điểm số tuân thủ và gán các phân loại rủi ro.

Khung tuân thủ dữ liệu được phác thảo trong công việc mới xác định các loại thực thể khác nhau tham gia vào chu kỳ sống của dữ liệu, bao gồm các tập dữ liệu, hình thành đầu vào cốt lõi cho việc huấn luyện AI; phần mềm xử lý dữ liệu và mô hình AI, được sử dụng để biến đổi và sử dụng dữ liệu; và Các Nhà cung cấp Dịch vụ Nền tảng, giúp việc xử lý dữ liệu.

Hệ thống đánh giá rủi ro pháp lý một cách toàn diện bằng cách xem xét các thực thể này và các phụ thuộc của chúng, vượt ra ngoài việc đánh giá rote về các giấy phép của các tập dữ liệu để bao gồm một hệ sinh thái rộng lớn hơn của các thành phần tham gia vào việc phát triển AI.

Tuân thủ Dữ liệu đánh giá rủi ro pháp lý trên toàn bộ chu kỳ sống của dữ liệu. Nó gán điểm số dựa trên chi tiết tập dữ liệu và trên 14 tiêu chí, phân loại các thực thể cá nhân và tổng hợp rủi ro trên các phụ thuộc.

Tuân thủ Dữ liệu đánh giá rủi ro pháp lý trên toàn bộ chu kỳ sống của dữ liệu. Nó gán điểm số dựa trên chi tiết tập dữ liệu và trên 14 tiêu chí, phân loại các thực thể cá nhân và tổng hợp rủi ro trên các phụ thuộc.

Huấn luyện và Chỉ số

Các tác giả đã trích xuất các URL của 1.000 tập dữ liệu được tải xuống nhiều nhất tại Hugging Face, lấy mẫu ngẫu nhiên 216 mục để tạo thành một tập kiểm tra.

Mô hình EXAONE được tinh chỉnh trên tập dữ liệu tùy chỉnh của các tác giả, với mô-đun điều hướng và mô-đun trả lời câu hỏi (QA) sử dụng dữ liệu tổng hợp, và mô-đun đánh giá sử dụng dữ liệu được dán nhãn bởi con người.

Các nhãn ground-truth được tạo ra bởi năm chuyên gia pháp lý được đào tạo trong ít nhất 31 giờ trong các nhiệm vụ tương tự. Các chuyên gia con người này đã xác định các phụ thuộc và điều khoản cấp phép cho 216 trường hợp kiểm tra, sau đó tổng hợp và tinh chỉnh các phát hiện của họ thông qua thảo luận.

Với hệ thống AutoCompliance được đào tạo, được hiệu chỉnh bởi con người, được kiểm tra chống lại ChatGPT-4oPerplexity Pro, đáng chú ý là nhiều phụ thuộc hơn đã được phát hiện trong các điều khoản cấp phép:

Độ chính xác trong việc xác định các phụ thuộc và điều khoản cấp phép cho 216 tập dữ liệu đánh giá.

Độ chính xác trong việc xác định các phụ thuộc và điều khoản cấp phép cho 216 tập dữ liệu đánh giá.

Bài báo này nêu:

‘AutoCompliance vượt trội so với tất cả các đại lý khác và chuyên gia con người, đạt được độ chính xác 81,04% và 95,83% trong từng nhiệm vụ. Ngược lại, cả ChatGPT-4o và Perplexity Pro đều cho thấy độ chính xác tương đối thấp cho Nguồn và Nhiệm vụ Cấp phép, tương ứng. ‘

‘Những kết quả này nhấn mạnh hiệu suất vượt trội của AutoCompliance, chứng tỏ khả năng của nó trong việc xử lý cả hai nhiệm vụ với độ chính xác đáng chú ý, đồng thời cũng cho thấy một khoảng cách hiệu suất đáng kể giữa các mô hình AI và chuyên gia con người trong các lĩnh vực này.’

Về mặt hiệu quả, cách tiếp cận AutoCompliance chỉ mất 53,1 giây để chạy, so với 2.418 giây cho việc đánh giá của con người trên cùng các nhiệm vụ.

Hơn nữa, chi phí chạy đánh giá là 0,29 USD, so với 207 USD cho các chuyên gia con người. Tuy nhiên, cần lưu ý rằng điều này dựa trên việc thuê một nút a2-megagpu-16gpu trên GCP hàng tháng với giá 14.225 USD mỗi tháng – cho thấy rằng loại hiệu quả về chi phí này liên quan chủ yếu đến hoạt động quy mô lớn.

Điều tra Dữ liệu

Để phân tích, các nhà nghiên cứu đã chọn 3.612 tập dữ liệu kết hợp 3.000 tập dữ liệu được tải xuống nhiều nhất từ Hugging Face với 612 tập dữ liệu từ Sáng kiến Dữ liệu Provenance năm 2023.

Bài báo này nêu:

‘Bắt đầu từ 3.612 thực thể mục tiêu, chúng tôi đã xác định được tổng cộng 17.429 thực thể duy nhất, trong đó 13.817 thực thể xuất hiện như các phụ thuộc trực tiếp hoặc gián tiếp của các thực thể mục tiêu.

‘Đối với phân tích thực nghiệm của chúng tôi, chúng tôi xem xét một thực thể và đồ thị phụ thuộc cấp phép của nó có cấu trúc một lớp nếu thực thể không có bất kỳ phụ thuộc nào và cấu trúc nhiều lớp nếu nó có một hoặc nhiều phụ thuộc.

‘Trong số 3.612 tập dữ liệu mục tiêu, 2.086 (57,8%) có cấu trúc nhiều lớp, trong khi 1.526 (42,2%) có cấu trúc một lớp với không có phụ thuộc.’

Các tập dữ liệu có bản quyền chỉ có thể được phân phối lại với sự cho phép pháp lý, có thể đến từ giấy phép, ngoại lệ của luật bản quyền hoặc điều khoản hợp đồng. Việc phân phối lại không được ủy quyền có thể dẫn đến hậu quả pháp lý, bao gồm vi phạm bản quyền hoặc vi phạm hợp đồng. Do đó, việc xác định rõ ràng sự không tuân thủ là điều cần thiết.

Các vi phạm phân phối được tìm thấy theo Tiêu chí 4.4 của Tuân thủ Dữ liệu được trích dẫn trong bài báo.

Các vi phạm phân phối được tìm thấy theo Tiêu chí 4.4 của Tuân thủ Dữ liệu được trích dẫn trong bài báo.

Nghiên cứu đã tìm thấy 9.905 trường hợp phân phối lại tập dữ liệu không tuân thủ, chia thành hai loại: 83,5% bị cấm rõ ràng theo các điều khoản cấp phép, khiến việc phân phối lại trở thành một vi phạm pháp lý rõ ràng; và 16,5% liên quan đến các tập dữ liệu có điều kiện cấp phép mâu thuẫn, nơi phân phối lại được cho phép về mặt lý thuyết nhưng không đáp ứng các điều khoản yêu cầu, tạo ra rủi ro pháp lý về hạ nguồn.

Các tác giả thừa nhận rằng các tiêu chí rủi ro được đề xuất trong NEXUS không phải là phổ quát và có thể thay đổi theo thẩm quyền và ứng dụng AI, và rằng các cải tiến trong tương lai nên tập trung vào việc thích nghi với các quy định toàn cầu đang thay đổi trong khi tinh chỉnh việc xem xét pháp lý dựa trên AI.

Kết luận

Đây là một bài báo phức tạp và không thân thiện, nhưng nó giải quyết có lẽ là yếu tố kìm hãm lớn nhất trong việc áp dụng AI trong ngành công nghiệp hiện tại – khả năng rằng dữ liệu ‘mở’ rõ ràng sẽ sau đó được tuyên bố bởi các thực thể, cá nhân và tổ chức khác nhau.

Dưới DMCA, các vi phạm có thể dẫn đến các khoản tiền phạt lớn trên cơ sở mỗi trường hợp. Khi các vi phạm có thể chạy vào hàng triệu, như trong các trường hợp được phát hiện bởi các nhà nghiên cứu, trách nhiệm pháp lý tiềm năng thực sự đáng kể.

Ngoài ra, các công ty có thể được chứng minh là đã được hưởng lợi từ dữ liệu thượng nguồn không thể (như thường lệ) tuyên bố sự thiếu hiểu biết như một lý do, ít nhất là trên thị trường Mỹ có ảnh hưởng. Họ cũng không có công cụ thực tế nào để thâm nhập vào các ý nghĩa phức tạp ẩn trong các thỏa thuận cấp phép của tập dữ liệu nguồn mở.

Vấn đề trong việc xây dựng một hệ thống như NEXUS là nó sẽ đủ thách thức để hiệu chỉnh nó trên cơ sở mỗi tiểu bang trong nước hoặc mỗi quốc gia trong EU; việc tạo ra một khuôn khổ toàn cầu thực sự (một loại ‘Interpol cho nguồn gốc dữ liệu’) bị suy yếu không chỉ bởi các động cơ mâu thuẫn của các chính phủ đa dạng tham gia, mà còn bởi cả các chính phủ và tình trạng pháp lý hiện tại của họ trong lĩnh vực này đều đang thay đổi liên tục.

 

* Thay thế của tôi cho các trích dẫn của tác giả bằng các liên kết siêu văn bản.
Sáu loại được quy định trong bài báo, nhưng hai loại cuối cùng không được định nghĩa.

Được xuất bản lần đầu vào Thứ Sáu, ngày 7 tháng 3 năm 2025

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]