Trí tuệ nhân tạo

Các Monocultures Dữ liệu trong Trí tuệ Nhân tạo: Threats to Diversity and Innovation

Published January 1, 2025

Updated April 27, 2026

Dr. Tehseen Zia

Trí tuệ Nhân tạo đang thay đổi thế giới, từ việc chuyển đổi y tế đến cải cách giáo dục. Nó đang giải quyết các thách thức lâu dài và mở ra những khả năng mà chúng ta chưa từng nghĩ đến. Dữ liệu là trung tâm của cuộc cách mạng này – nhiên liệu powers mọi mô hình Trí tuệ Nhân tạo. Đó là điều cho phép các hệ thống này đưa ra dự đoán, tìm kiếm mẫu và cung cấp các giải pháp ảnh hưởng đến cuộc sống hàng ngày của chúng ta.

Nhưng, trong khi sự phong phú của dữ liệu này đang thúc đẩy sự đổi mới, sự thống trị của các tập dữ liệu đồng nhất – thường được gọi là các monocultures dữ liệu – gây ra những rủi ro đáng kể cho sự đa dạng và sáng tạo trong phát triển Trí tuệ Nhân tạo. Điều này giống như việc trồng trọt monoculture, nơi trồng cùng một loại cây trên các cánh đồng lớn khiến hệ sinh thái trở nên mong manh và dễ bị tổn thương bởi sâu bệnh. Trong Trí tuệ Nhân tạo, việc dựa vào các tập dữ liệu đồng nhất tạo ra các mô hình cứng nhắc, thiên vị và thường không đáng tin cậy.

Bài viết này đi sâu vào khái niệm về các monocultures dữ liệu, kiểm tra xem chúng là gì, tại sao chúng tồn tại, những rủi ro mà chúng mang lại và các bước chúng ta có thể thực hiện để xây dựng các hệ thống Trí tuệ Nhân tạo thông minh hơn, công bằng hơn và bao gồm hơn.

Hiểu về Các Monocultures Dữ liệu

Một monoculture dữ liệu xảy ra khi một tập dữ liệu duy nhất hoặc một tập hợp hẹp của các nguồn dữ liệu thống trị việc đào tạo các hệ thống Trí tuệ Nhân tạo. Nhận dạng khuôn mặt là một ví dụ được ghi chép tốt về monoculture dữ liệu trong Trí tuệ Nhân tạo. Các nghiên cứu từ MIT Media Lab đã phát hiện ra rằng các mô hình được đào tạo chủ yếu trên hình ảnh của các cá nhân có làn da sáng hơn đã gặp khó khăn với các khuôn mặt có làn da sẫm màu hơn. Tỷ lệ lỗi cho phụ nữ có làn da sẫm màu đạt 34,7%, so với chỉ 0,8% cho nam giới có làn da sáng hơn. Những kết quả này nhấn mạnh tác động của dữ liệu đào tạo không bao gồm đủ sự đa dạng về màu da.

Những vấn đề tương tự cũng phát sinh trong các lĩnh vực khác. Ví dụ, các mô hình ngôn ngữ lớn (LLM) như OpenAI’s GPT và Google’s Bard được đào tạo trên các tập dữ liệu phụ thuộc nặng vào nội dung tiếng Anh chủ yếu từ các ngữ cảnh phương Tây. Sự thiếu đa dạng này làm cho chúng ít chính xác hơn trong việc hiểu ngôn ngữ và các sắc thái văn hóa từ các phần khác của thế giới. Các quốc gia như Ấn Độ đang phát triển LLM phù hợp hơn với ngôn ngữ và giá trị văn hóa địa phương.

Vấn đề này có thể rất quan trọng, đặc biệt là trong các lĩnh vực như y tế. Ví dụ, một công cụ chẩn đoán y tế được đào tạo chủ yếu trên dữ liệu từ các dân số châu Âu có thể hoạt động kém trong các khu vực có các yếu tố di truyền và môi trường khác nhau.

Nguồn gốc của Các Monocultures Dữ liệu

Các monocultures dữ liệu trong Trí tuệ Nhân tạo xảy ra vì nhiều lý do. Các tập dữ liệu phổ biến như ImageNet và COCO là lớn, dễ tiếp cận và được sử dụng rộng rãi. Nhưng chúng thường phản ánh một quan điểm hẹp, tập trung vào phương Tây. Việc thu thập dữ liệu đa dạng không phải là rẻ, vì vậy nhiều tổ chức nhỏ hơn phụ thuộc vào các tập dữ liệu hiện có. Sự phụ thuộc này củng cố sự thiếu đa dạng.

Tiêu chuẩn hóa cũng là một yếu tố quan trọng. Các nhà nghiên cứu thường sử dụng các tập dữ liệu được công nhận rộng rãi để so sánh kết quả của họ, vô tình ngăn cản việc khám phá các nguồn thay thế. Xu hướng này tạo ra một vòng phản hồi nơi mọi người tối ưu hóa cho cùng một tiêu chuẩn thay vì giải quyết các vấn đề thực tế.

Đôi khi, những vấn đề này xảy ra do sự thiếu sót. Các nhà tạo ra tập dữ liệu có thể vô tình bỏ qua một số nhóm, ngôn ngữ hoặc khu vực. Ví dụ, các phiên bản đầu tiên của trợ lý giọng nói như Siri không xử lý tốt các giọng nói không phải phương Tây. Lý do là các nhà phát triển không bao gồm đủ dữ liệu từ những khu vực đó. Những sự thiếu sót này tạo ra các công cụ không đáp ứng được nhu cầu của khán giả toàn cầu.

Tại sao nó Quan trọng

Khi Trí tuệ Nhân tạo đảm nhận các vai trò quyết định quan trọng, các monocultures dữ liệu có thể có hậu quả thực tế. Các mô hình Trí tuệ Nhân tạo có thể củng cố sự phân biệt đối xử khi chúng kế thừa các thiên vị từ dữ liệu đào tạo. Một thuật toán tuyển dụng được đào tạo trên dữ liệu từ các ngành công nghiệp do nam giới thống trị có thể vô tình ưa thích các ứng viên nam, loại bỏ các ứng viên nữ đủ tiêu chuẩn khỏi quá trình xem xét.

Sự đại diện văn hóa là một thách thức khác. Các hệ thống khuyến nghị như Netflix và Spotify thường ưa chuộng sở thích phương Tây, đẩy nội dung từ các văn hóa khác sang bên lề. Sự phân biệt đối xử này hạn chế trải nghiệm người dùng và kìm hãm sự đổi mới bằng cách giữ cho các ý tưởng hẹp và lặp đi lặp lại.

Các hệ thống Trí tuệ Nhân tạo cũng có thể trở nên mong manh khi được đào tạo trên dữ liệu hạn chế. Trong đại dịch COVID-19, các mô hình y tế được đào tạo trên dữ liệu trước đại dịch không thể thích nghi với sự phức tạp của một cuộc khủng hoảng sức khỏe toàn cầu. Sự cứng nhắc này có thể làm cho các hệ thống Trí tuệ Nhân tạo ít hữu ích hơn khi đối mặt với các tình huống không lường trước.

Monoculture dữ liệu cũng có thể dẫn đến các vấn đề đạo đức và pháp lý. Các công ty như Twitter và Apple đã phải đối mặt với phản ứng dữ dội từ công chúng vì các thuật toán thiên vị. Công cụ cắt ảnh của Twitter bị cáo buộc thiên vị chủng tộc, trong khi thuật toán tín dụng của Apple Card được cho là cung cấp hạn mức thấp hơn cho phụ nữ. Những tranh cãi này làm tổn hại niềm tin vào sản phẩm và đặt ra câu hỏi về trách nhiệm trong phát triển Trí tuệ Nhân tạo.

Làm thế nào để Sửa chữa Các Monocultures Dữ liệu

Việc giải quyết vấn đề về các monocultures dữ liệu đòi hỏi phải mở rộng phạm vi dữ liệu được sử dụng để đào tạo các hệ thống Trí tuệ Nhân tạo. Nhiệm vụ này đòi hỏi phải phát triển các công cụ và công nghệ giúp việc thu thập dữ liệu từ các nguồn đa dạng trở nên dễ dàng hơn. Các dự án như Mozilla’s Common Voice, ví dụ, thu thập mẫu giọng nói từ người dân trên toàn thế giới, tạo ra một tập dữ liệu phong phú hơn với nhiều giọng và ngôn ngữ – tương tự, các sáng kiến như UNESCO’s Data for AI tập trung vào việc bao gồm các cộng đồng dưới đại diện.

Việc thiết lập các hướng dẫn đạo đức cũng là một bước quan trọng. Các khuôn khổ như Tuyên bố Toronto thúc đẩy tính minh bạch và bao gồm để đảm bảo rằng các hệ thống Trí tuệ Nhân tạo được thiết kế công bằng. Các chính sách quản lý dữ liệu mạnh mẽ được truyền cảm hứng từ GDPR cũng có thể tạo ra sự khác biệt lớn. Chúng yêu cầu tài liệu rõ ràng về nguồn dữ liệu và giữ các tổ chức chịu trách nhiệm về việc đảm bảo đa dạng.

Các nền tảng mã nguồn mở cũng có thể tạo ra sự khác biệt. Ví dụ, hugging Face’s Datasets Repository cho phép các nhà nghiên cứu truy cập và chia sẻ dữ liệu đa dạng. Mô hình hợp tác này thúc đẩy hệ sinh thái Trí tuệ Nhân tạo, giảm sự phụ thuộc vào các tập dữ liệu hẹp. Tính minh bạch cũng đóng vai trò quan trọng. Sử dụng Trí tuệ Nhân tạo giải thích được và thực hiện các kiểm tra thường xuyên có thể giúp xác định và sửa chữa các thiên vị. Việc giải thích này là rất quan trọng để giữ cho các mô hình vừa công bằng vừa linh hoạt.

Xây dựng các đội đa dạng có thể là bước quan trọng và đơn giản nhất. Các đội với các nền tảng đa dạng tốt hơn trong việc phát hiện các điểm mù trong dữ liệu và thiết kế các hệ thống hoạt động cho một loạt người dùng rộng lớn hơn. Các đội bao gồm dẫn đến kết quả tốt hơn, làm cho Trí tuệ Nhân tạo trở nên thông minh và công bằng hơn.

Kết luận

Trí tuệ Nhân tạo có tiềm năng tuyệt vời, nhưng hiệu quả của nó phụ thuộc vào chất lượng dữ liệu. Các monocultures dữ liệu hạn chế tiềm năng này, tạo ra các hệ thống thiên vị, cứng nhắc và không kết nối với nhu cầu thực tế. Để vượt qua những thách thức này, các nhà phát triển, chính phủ và cộng đồng phải hợp tác để đa dạng hóa các tập dữ liệu, thực hiện các thực tiễn đạo đức và thúc đẩy các đội bao gồm.

Bằng cách giải quyết những vấn đề này trực tiếp, chúng ta có thể tạo ra Trí tuệ Nhân tạo thông minh và công bằng hơn, phản ánh sự đa dạng của thế giới nó nhằm phục vụ.

Dr. Tehseen Zia

Tiến sĩ Tehseen Zia là Giáo sư Liên kết có thời hạn tại Đại học COMSATS Islamabad, nắm giữ bằng Tiến sĩ về Trí tuệ Nhân tạo từ Đại học Công nghệ Vienna, Áo. Chuyên về Trí tuệ Nhân tạo, Học máy, Khoa học Dữ liệu và Thị giác Máy tính, ông đã có những đóng góp đáng kể với các ấn phẩm trên các tạp chí khoa học uy tín. Tiến sĩ Tehseen cũng đã dẫn dắt các dự án công nghiệp khác nhau với tư cách là Điều tra viên Chính và từng là Tư vấn viên Trí tuệ Nhân tạo.