Trí tuệ nhân tạo
Các Tập Dữ Liệu AI Được Thu Thập Trên Web và Quyền Riêng Tư: Tại Sao CommonPool xứng Đáng Được Chú Ý

Trí Tuệ Nhân Tạo (AI) đã trở thành một phần của cuộc sống hàng ngày. Nó được thể hiện trong các rô-bốt trò chuyện y tế hướng dẫn bệnh nhân và trong các công cụ tạo ra giúp đỡ nghệ sĩ, nhà văn và nhà phát triển. Những hệ thống này dường như tiên tiến, nhưng chúng phụ thuộc vào một tài nguyên thiết yếu: dữ liệu.
Hầu hết dữ liệu được sử dụng để đào tạo các hệ thống AI đến từ internet công cộng. Các chương trình tự động thu thập lượng lớn văn bản, hình ảnh và âm thanh từ các nền tảng trực tuyến. Những bộ sưu tập này hình thành nền tảng của các mô hình nổi tiếng như GPT-4, Stable Diffusion và nhiều mô hình khác. Tuy nhiên, bộ sưu tập khổng lồ này lại đặt ra những lo ngại chưa được giải quyết về quyền riêng tư, sở hữu và sự đồng ý thông báo.
Thị trường dữ liệu đào tạo phản ánh quy mô của hoạt động này. Hiện tại, giá trị toàn cầu của các tập dữ liệu AI được ước tính là 3,2 tỷ đô la. Theo dự báo, nó có thể tăng lên 16,3 tỷ đô la vào năm 2034, với tốc độ tăng trưởng hàng năm là 20,5%. Đằng sau những con số này là một thách thức quan trọng. Một phần đáng kể của vật liệu thu thập được thu được mà không có sự cho phép rõ ràng. Nó thường chứa dữ liệu cá nhân, tác phẩm có bản quyền và các nội dung nhạy cảm khác mà không bao giờ được dự định cho các hệ thống học máy.
Để đáp ứng những vấn đề này, các phương pháp thay thế để quản lý dữ liệu đang được khám phá. Một ví dụ là CommonPool, được phát hành vào tháng 4 năm 2023 như một phần của DataComp benchmark. Đó là một tập dữ liệu lớn gồm 12,8 tỷ cặp hình ảnh-văn bản được thiết kế cho nghiên cứu AI đa phương thức. Không giống như các nỗ lực thu thập dữ liệu truyền thống, nó áp dụng các phương pháp lọc, nhấn mạnh tính minh bạch và bao gồm sự tham gia của cộng đồng trong quá trình phát triển. Mặc dù nó vẫn còn gây tranh cãi, CommonPool cho thấy một nỗ lực để xây dựng các thực hành trách nhiệm và có thể kiểm toán hơn cho dữ liệu đào tạo AI. Những sáng kiến như vậy nhấn mạnh nhu cầu về các tiêu chuẩn đạo đức trong tương lai của trí tuệ nhân tạo.
Vai Trò Của Dữ Liệu Được Thu Thập Trên Web Trong Việc Phát Triển Trí Tuệ Nhân Tạo
Dữ liệu là trung tâm của AI, với hiệu suất của hệ thống gắn liền với lượng và sự đa dạng của thông tin có sẵn cho đào tạo. Trong những năm gần đây, việc thu thập dữ liệu trên web đã trở thành một phương pháp tiêu chuẩn để lắp ráp các tập dữ liệu lớn với quy mô. Bằng cách thu thập nội dung trực tuyến có thể truy cập công khai, các nhà nghiên cứu và nhà phát triển đã có được nguồn tài nguyên dữ liệu khổng lồ và đa dạng.
Một ví dụ phổ biến là Common Crawl, đã lưu trữ petabyte văn bản được thu thập thông qua các lần thu thập hàng tháng với hơn 250 terabyte mỗi lần. Tập dữ liệu này được sử dụng rộng rãi để đào tạo các mô hình AI dựa trên văn bản. Một ví dụ khác là LAION-5B, chứa khoảng 5,85 tỷ cặp hình ảnh-văn bản. Nó đã quan trọng cho các ứng dụng như Stable Diffusion, có thể tạo ra hình ảnh thực tế từ các提示 viết.
Những tập dữ liệu này có giá trị vì chúng tăng độ chính xác của mô hình, cải thiện sự khái quát thông qua nội dung đa dạng và cho phép các nhóm nhỏ hơn, bao gồm cả các trường đại học, tham gia vào việc phát triển AI. Chỉ số AI của Stanford năm 2025 cho thấy rằng hầu hết các mô hình tiên tiến vẫn phụ thuộc vào dữ liệu được thu thập, với các tập dữ liệu đang tăng trưởng nhanh về quy mô. Sự đầu tư này cũng đã thúc đẩy đầu tư mạnh mẽ, đạt hơn 57 tỷ đô la vào năm 2024 cho các trung tâm dữ liệu và công suất tính toán.
Đồng thời, việc thu thập dữ liệu trên web không miễn phí khỏi những thách thức. Nó đặt ra câu hỏi về quyền riêng tư, sở hữu và quyền pháp lý, vì nhiều nội dung thu thập được không được tạo ra ban đầu cho sử dụng máy. Các vụ việc tại tòa án và các cuộc thảo luận về chính sách cho thấy rằng những thách thức này đang trở nên cấp thiết hơn. Tương lai của việc thu thập dữ liệu AI sẽ phụ thuộc vào việc tìm kiếm sự cân bằng giữa tiến bộ và trách nhiệm đạo đức.
Vấn Đề Quyền Riêng Tư Với Dữ Liệu Được Thu Thập
Các công cụ thu thập dữ liệu trên web thu thập thông tin mà không có sự tách biệt rõ ràng giữa nội dung chung và chi tiết nhạy cảm. Cùng với văn bản và hình ảnh, chúng thường thu thập Thông Tin Cá Nhân (PII) như tên, địa chỉ email và ảnh chụp khuôn mặt.
Một kiểm toán của tập dữ liệu CommonPool vào tháng 7 năm 2025 đã tiết lộ rằng ngay cả sau khi lọc, 0,1% mẫu vẫn chứa khuôn mặt có thể nhận dạng, giấy tờ tùy thân và tài liệu như sơ yếu lý lịch và hộ chiếu. Mặc dù tỷ lệ này có vẻ nhỏ, nhưng ở quy mô tỷ tỷ bản ghi, nó tương đương với hàng trăm triệu cá nhân bị ảnh hưởng. Các đánh giá và kiểm toán an toàn xác nhận rằng sự hiện diện của loại vật liệu này không phải là bất thường, và rủi ro của nó bao gồm việc đánh cắp danh tính, quấy rối nhắm mục tiêu và việc tiết lộ không mong muốn dữ liệu riêng tư.
Các vụ việc pháp lý cũng đang tăng lên khi lo ngại về sở hữu dữ liệu và sử dụng hợp pháp chuyển vào tòa án. Giữa năm 2023 và 2024, các công ty như OpenAI và Stability AI phải đối mặt với các vụ kiện vì sử dụng dữ liệu cá nhân và bản quyền mà không có sự đồng ý. Vào tháng 2 năm 2025, một tòa án liên bang Hoa Kỳ đã phán quyết rằng việc đào tạo AI trên thông tin cá nhân không được cấp phép được coi là vi phạm. Quyết định này đã khuyến khích nhiều vụ kiện tập thể hơn. Bản quyền cũng là một vấn đề lớn. Nhiều tập dữ liệu thu thập được chứa sách, bài viết, nghệ thuật và mã. Các nhà văn và nghệ sĩ cho rằng tác phẩm của họ đang được sử dụng mà không có sự chấp thuận hoặc thanh toán. Vụ việc New York Times v. OpenAI đang đặt câu hỏi liệu các hệ thống AI có sao chép nội dung được bảo vệ một cách bất hợp pháp hay không. Các nghệ sĩ trực quan cũng đã đưa ra các khiếu nại tương tự, cho rằng AI sao chép phong cách cá nhân của họ. Vào tháng 6 năm 2025, một tòa án Hoa Kỳ đã ủng hộ một công ty AI theo quy định sử dụng hợp lý, nhưng các chuyên gia cho biết các quyết định vẫn không nhất quán và khuôn khổ pháp lý vẫn chưa rõ ràng.
Sự thiếu đồng ý trong đào tạo AI đã làm suy yếu niềm tin của công chúng. Nhiều người phát hiện ra rằng blog, tác phẩm sáng tạo hoặc mã của họ được bao gồm trong các tập dữ liệu mà không có kiến thức của họ. Điều này đã đặt ra những lo ngại về mặt đạo đức và kêu gọi sự minh bạch hơn. Để đáp ứng, các chính phủ đang chuyển hướng hacia việc giám sát chặt chẽ hơn thông qua các luật thúc đẩy sự phát triển công bằng của các mô hình AI và sử dụng dữ liệu cẩn thận.
Tại Sao Các Tập Dữ Liệu Được Thu Thập Trên Web Là Khó Để Thay Thế
Dù có những lo ngại về quyền riêng tư và đồng ý, các tập dữ liệu thu thập trên web vẫn cần thiết cho đào tạo AI. Lý do là quy mô. Các mô hình AI hiện đại yêu cầu hàng nghìn tỷ token từ văn bản, hình ảnh và các phương tiện truyền thông khác. Xây dựng các tập dữ liệu như vậy chỉ thông qua các nguồn được cấp phép hoặc được kiểm duyệt sẽ tốn hàng trăm triệu đô la. Điều này không thực tế cho hầu hết các công ty khởi nghiệp hoặc trường đại học.
Chi phí cao không phải là thách thức duy nhất với các tập dữ liệu được kiểm duyệt. Chúng thường thiếu đa dạng và tập trung vào các ngôn ngữ, khu vực hoặc cộng đồng cụ thể. Phạm vi hẹp này làm cho các mô hình AI kém cân bằng hơn. Ngược lại, dữ liệu thu thập trên web, mặc dù có tiếng ồn và không hoàn hảo, nhưng thu được một phạm vi rộng hơn của các nền văn hóa, chủ đề và quan điểm. Sự đa dạng này cho phép các hệ thống AI hoạt động tốt hơn khi áp dụng vào các ứng dụng thực tế.
Tuy nhiên, rủi ro là các quy định nghiêm ngặt có thể hạn chế quyền truy cập vào dữ liệu thu thập trên web. Nếu điều này xảy ra, các tổ chức nhỏ hơn có thể gặp khó khăn trong việc cạnh tranh. Các công ty lớn với các tập dữ liệu riêng tư hoặc độc quyền, như Google hoặc Meta, sẽ tiếp tục tiến bộ. Sự mất cân bằng này có thể làm giảm cạnh tranh và làm chậm sự đổi mới cởi mở trong AI.
Hiện tại, các tập dữ liệu thu thập trên web là trung tâm của nghiên cứu AI. Đồng thời, các dự án như CommonPool đang khám phá các cách để xây dựng các bộ sưu tập rộng lớn, có nguồn gốc đạo đức. Những nỗ lực này là cần thiết để giữ cho hệ sinh thái AI trở nên cởi mở, công bằng và có trách nhiệm hơn.
CommonPool: Hướng Đến Kỹ Thuật Dữ Liệu Lớn Quy Mô Trách Nhiệm
CommonPool là một trong những nỗ lực kỹ thuật tham vọng nhất để xây dựng một tập dữ liệu đa phương thức lớn, cởi mở. Với khoảng 12,8 tỷ cặp hình ảnh-văn bản, nó khớp với quy mô của LAION-5B nhưng tích hợp các cơ chế kỹ thuật và quản trị mạnh mẽ hơn. Mục tiêu thiết kế chính không chỉ là tối đa hóa quy mô mà còn phù hợp với các nguyên tắc tái tạo, nguồn gốc dữ liệu và tuân thủ quy định.
Việc xây dựng tập dữ liệu CommonPool tuân theo một quy trình đường ống ba giai đoạn có cấu trúc. Giai đoạn đầu tiên liên quan đến việc trích xuất các mẫu thô từ các bản chụp Common Crawl thu thập từ năm 2014 đến 2022. Cả hình ảnh và văn bản liên quan, chẳng hạn như chú thích hoặc đoạn văn xung quanh, đều được thu thập. Để đánh giá sự phù hợp ngữ nghĩa, các nhà duy trì áp dụng điểm số tương tự dựa trên CLIP, loại bỏ các cặp có sự phù hợp yếu giữa hình ảnh và văn bản. Bước lọc sớm này giảm đáng kể tiếng ồn so với các đường ống thu thập thô.
Trong giai đoạn thứ hai, tập dữ liệu trải qua quá trình khử trùng lặp lớn. Các kỹ thuật băm nhận thức và MinHash được sử dụng để xác định và loại bỏ các hình ảnh gần trùng lặp, ngăn chặn sự trùng lặp chi phối quá trình đào tạo mô hình. Các bộ lọc bổ sung được áp dụng để loại trừ các tệp bị hỏng, liên kết bị hỏng và hình ảnh độ phân giải thấp. Tại thời điểm này, đường ống cũng bao gồm việc chuẩn hóa văn bản và xác định ngôn ngữ tự động, cho phép tạo ra các tập con cụ thể theo miền hoặc ngôn ngữ cho nghiên cứu nhắm mục tiêu.
Giai đoạn thứ ba tập trung vào an toàn và tuân thủ. Phát hiện khuôn mặt tự động và làm mờ được áp dụng, trong khi hình ảnh liên quan đến trẻ em và thông tin nhận dạng cá nhân như tên, địa chỉ email và địa chỉ bưu chính được loại bỏ. Đường ống cũng cố gắng phát hiện tài liệu có bản quyền. Mặc dù không có phương pháp tự động nào có thể đảm bảo việc lọc hoàn hảo ở quy mô web, nhưng những biện pháp phòng ngừa này đại diện cho một sự cải tiến kỹ thuật đáng kể so với LAION-5B, nơi việc lọc chủ yếu bị giới hạn ở nội dung dành cho người lớn và các chỉ số độc hại.
Ngoài việc xử lý dữ liệu, CommonPool giới thiệu một mô hình quản trị phân biệt nó với các bản phát hành tập dữ liệu tĩnh. Nó được duy trì như một tập dữ liệu sống với các bản phát hành được phiên bản, siêu dữ liệu có cấu trúc và các chu kỳ cập nhật được ghi chép. Mỗi mẫu bao gồm thông tin cấp phép khi có sẵn, hỗ trợ tuân thủ các quy định về bản quyền. Một giao thức gỡ bỏ cho phép các cá nhân và tổ chức yêu cầu loại bỏ nội dung nhạy cảm, giải quyết các vấn đề được đặt ra bởi Đạo luật AI của EU và các khuôn khổ quy định liên quan. Siêu dữ liệu như URL nguồn và điểm số lọc cải thiện tính minh bạch và tái tạo, cho phép các nhà nghiên cứu theo dõi các quyết định bao gồm và loại trừ.
Kết quả benchmark từ sáng kiến DataComp minh họa các hiệu ứng kỹ thuật của những lựa chọn thiết kế này. Khi các kiến trúc thị giác-ngôn ngữ giống hệt được đào tạo trên LAION-5B và CommonPool, sau này đã tạo ra các mô hình có hiệu suất hạ lưu ổn định hơn, đặc biệt là trên các nhiệm vụ phân loại và phân loại không có dấu hiệu. Những kết quả này cho thấy rằng chất lượng phù hợp cao hơn của CommonPool bù đắp cho một số lợi thế về quy mô của các tập dữ liệu được lọc ít hơn. Tuy nhiên, các cuộc kiểm toán độc lập vào năm 2025 đã tiết lộ các rủi ro dư thừa: khoảng 0,1% tập dữ liệu vẫn chứa khuôn mặt không bị làm mờ, tài liệu cá nhân và hồ sơ y tế. Điều này cho thấy giới hạn của thậm chí các đường ống lọc tự động tiên tiến nhất.
Tổng thể, CommonPool đại diện cho một sự thay đổi trong việc xây dựng tập dữ liệu từ việc ưu tiên quy mô thô đến việc cân bằng quy mô, chất lượng và tuân thủ. Đối với các nhà nghiên cứu, nó cung cấp một nền tảng tái tạo và an toàn hơn cho việc đào tạo quy mô lớn. Đối với các nhà quản lý, nó chứng minh rằng các cơ chế quyền riêng tư và trách nhiệm có thể được nhúng trực tiếp vào việc xây dựng tập dữ liệu. Ngược lại với LAION, CommonPool cho thấy làm thế nào các đường ống lọc, thực tiễn quản trị và các khuôn khổ benchmark có thể biến dữ liệu web lớn thành một tài nguyên kỹ thuật mạnh mẽ và có trách nhiệm hơn cho AI đa phương thức.
So Sánh CommonPool Với Các Tập Dữ Liệu Được Thu Thập Trên Web Truyền Thống
Không giống như các tập dữ liệu thu thập trên web lớn trước đó như LAION-5B (5,85 tỷ mẫu), COYO-700M (700 triệu mẫu) và WebLI (400 triệu mẫu), CommonPool nhấn mạnh cấu trúc, tái tạo và quản trị. Nó giữ lại siêu dữ liệu như URL và dấu thời gian, hỗ trợ khả năng theo dõi và kiểm tra cấp phép một phần. Ngoài ra, nó áp dụng lọc ngữ nghĩa dựa trên CLIP để loại bỏ các cặp hình ảnh-văn bản chất lượng thấp hoặc không phù hợp, dẫn đến chất lượng dữ liệu được cải thiện.
So sánh, LAION-5B và COYO được lắp ráp từ Common Crawl với bộ lọc hạn chế và không có tài liệu cấp phép chi tiết. Những tập dữ liệu này thường chứa tài liệu nhạy cảm, bao gồm hồ sơ y tế, giấy tờ tùy thân và khuôn mặt không bị làm mờ. WebLI, được sử dụng nội bộ bởi OpenAI, cũng thiếu minh bạch, vì nó không bao giờ được phát hành cho xem xét hoặc sao chép bên ngoài.
CommonPool tìm cách giải quyết những vấn đề này bằng cách loại trừ Thông Tin Cá Nhân và Nội Dung Không Phù Hợp, trong khi vẫn thừa nhận rằng sự đồng ý của người dùng vẫn chưa được giải quyết. Điều này làm cho nó đáng tin cậy và phù hợp về mặt đạo đức hơn so với các lựa chọn thay thế trước đó.
Kết Luận
Sự phát triển của CommonPool phản ánh một sự chuyển đổi quan trọng trong cách các tập dữ liệu AI lớn được hình thành và duy trì. Trong khi các bộ sưu tập trước đó như LAION-5B và COYO ưu tiên quy mô với sự giám sát hạn chế, CommonPool chứng minh rằng tính minh bạch, lọc và quản trị có thể được tích hợp vào việc xây dựng tập dữ liệu mà không làm suy giảm khả năng sử dụng cho nghiên cứu.
Bằng cách giữ lại siêu dữ liệu, áp dụng các kiểm tra phù hợp ngữ nghĩa và nhúng các biện pháp bảo vệ quyền riêng tư, nó cung cấp một tài nguyên tái tạo và có trách nhiệm hơn. Đồng thời, các cuộc kiểm toán độc lập nhắc nhở chúng ta rằng các biện pháp phòng ngừa tự động không thể loại bỏ hoàn toàn rủi ro, nhấn mạnh nhu cầu về sự cảnh giác liên tục.












