Lãnh đạo tư tưởng
Các lớp bị lãng quên: Các thành kiến AI ẩn núp như thế nào trong các hoạt động chú thích tập dữ liệu
Hệ thống AI phụ thuộc vào các tập dữ liệu lớn, được tuyển chọn kỹ lưỡng để đào tạo và tối ưu hóa. Hiệu quả của mô hình AI gắn chặt với chất lượng, tính đại diện và tính toàn vẹn của dữ liệu mà nó được đào tạo. Tuy nhiên, có một yếu tố thường bị đánh giá thấp ảnh hưởng sâu sắc đến kết quả AI: chú thích tập dữ liệu.
Thực hành chú thích, nếu không nhất quán hoặc thiên vị, có thể đưa những thành kiến lan rộng và thường tinh vi vào các mô hình AI, dẫn đến các quy trình ra quyết định lệch lạc và đôi khi gây bất lợi lan rộng trên nhiều nhóm nhân khẩu học người dùng khác nhau. Các lớp thiên kiến AI do con người gây ra bị bỏ qua vốn có trong các phương pháp chú thích thường có hậu quả vô hình nhưng sâu sắc.
Chú thích tập dữ liệu: Nền tảng và các lỗi
Chú thích tập dữ liệu là quá trình quan trọng của việc gắn nhãn tập dữ liệu một cách có hệ thống để cho phép các mô hình học máy diễn giải chính xác và trích xuất các mẫu từ nhiều nguồn dữ liệu khác nhau. Điều này bao gồm các nhiệm vụ như phát hiện đối tượng trong hình ảnh, phân loại tình cảm trong nội dung văn bảnvà nhận dạng thực thể được đặt tên trên nhiều miền khác nhau.
Chú thích đóng vai trò là lớp nền tảng chuyển đổi dữ liệu thô, không có cấu trúc thành dạng có cấu trúc mà các mô hình có thể tận dụng để phân biệt các mẫu và mối quan hệ phức tạp, dù là giữa đầu vào và đầu ra hay giữa các tập dữ liệu mới và dữ liệu đào tạo hiện có.
Tuy nhiên, mặc dù có vai trò quan trọng, chú thích tập dữ liệu vẫn vốn dễ bị ảnh hưởng bởi sai sót và thành kiến của con người. Thách thức chính nằm ở thực tế là những thành kiến có ý thức và vô thức của con người thường thấm nhuần quá trình chú thích, nhúng trực tiếp các định kiến vào dữ liệu ngay cả trước khi mô hình bắt đầu quá trình huấn luyện. Những định kiến như vậy phát sinh do thiếu sự đa dạng giữa những người chú thích, hướng dẫn chú thích được thiết kế kém, hoặc các giả định văn hóa xã hội ăn sâu bén rễ, tất cả đều có thể làm sai lệch dữ liệu và do đó làm giảm tính công bằng và chính xác của mô hình.
Đặc biệt, việc xác định và cô lập các hành vi đặc thù của nền văn hóa là các bước chuẩn bị quan trọng đảm bảo các sắc thái của bối cảnh văn hóa được hiểu đầy đủ và được tính đến trước khi người chú thích bắt đầu công việc của họ. Điều này bao gồm xác định các biểu hiện, cử chỉ hoặc quy ước xã hội bị ràng buộc về mặt văn hóa mà nếu không có thể bị hiểu sai hoặc được dán nhãn không nhất quán. Phân tích văn hóa trước chú thích như vậy phục vụ cho việc thiết lập một đường cơ sở có thể giảm thiểu các lỗi diễn giải và thành kiến, do đó tăng cường độ trung thực và tính đại diện của dữ liệu được chú thích. Một cách tiếp cận có cấu trúc để cô lập các hành vi này giúp đảm bảo rằng các sắc thái văn hóa không vô tình dẫn đến sự không nhất quán của dữ liệu có thể làm giảm hiệu suất hạ lưu của các mô hình AI.
Những thành kiến AI ẩn trong thực hành chú thích
Chú thích tập dữ liệu, là một nỗ lực do con người thúc đẩy, về cơ bản chịu ảnh hưởng bởi hoàn cảnh cá nhân, bối cảnh văn hóa và kinh nghiệm cá nhân của người chú thích. tất cả đều định hình cách dữ liệu được diễn giải và dán nhãn. Lớp chủ quan này đưa ra những sự không nhất quán mà các mô hình học máy sau đó đồng hóa thành sự thật cơ bản. Vấn đề trở nên rõ ràng hơn khi những thành kiến chung giữa những người chú thích được nhúng đồng đều trong toàn bộ tập dữ liệu, tạo ra những thành kiến tiềm ẩn, có hệ thống trong hành vi của mô hình AIVí dụ, các khuôn mẫu văn hóa có thể ảnh hưởng sâu rộng đến việc dán nhãn cảm xúc trong dữ liệu văn bản hoặc việc gán ghép các đặc điểm trong các tập dữ liệu trực quan, dẫn đến biểu diễn dữ liệu bị lệch và mất cân bằng.
Một ví dụ nổi bật về điều này là sự thiên vị về chủng tộc trong các tập dữ liệu nhận dạng khuôn mặt, chủ yếu là do thành phần đồng nhất của nhóm. Các trường hợp được ghi chép đầy đủ đã chỉ ra rằng sự thiên vị được giới thiệu bởi sự thiếu đa dạng của người chú thích dẫn đến các mô hình AI không xử lý chính xác khuôn mặt của những người không phải da trắng một cách có hệ thống. Trên thực tế, một nghiên cứu của NIST đã xác định rằng một số nhóm đôi khi có khả năng bị thuật toán xác định nhầm cao hơn tới 100 lần. Điều này không chỉ làm giảm hiệu suất của mô hình mà còn gây ra những thách thức đáng kể về mặt đạo đức vì những sự không chính xác này thường dẫn đến kết quả phân biệt đối xử khi các ứng dụng AI được triển khai trong các lĩnh vực nhạy cảm như thực thi pháp luật và dịch vụ xã hội.
Chưa kể, các hướng dẫn chú thích được cung cấp cho người chú thích có ảnh hưởng đáng kể đến cách dữ liệu được dán nhãn. Nếu các hướng dẫn này mơ hồ hoặc cố hữu thúc đẩy các khuôn mẫu, các tập dữ liệu được dán nhãn kết quả sẽ chắc chắn mang những thành kiến này. Loại "thành kiến hướng dẫn" này phát sinh khi người chú thích buộc phải đưa ra những quyết định chủ quan về tính liên quan của dữ liệu, có thể mã hóa các thành kiến văn hóa hoặc xã hội thịnh hành vào dữ liệu. Những thành kiến như vậy thường được khuếch đại trong quá trình đào tạo AI, tạo ra các mô hình tái tạo các định kiến tiềm ẩn trong các nhãn dữ liệu ban đầu.
Ví dụ, hãy xem xét các hướng dẫn chú thích hướng dẫn người chú thích phân loại chức danh công việc hoặc giới tính với sự thiên vị ngầm định ưu tiên các vai trò liên quan đến nam giới đối với các nghề nghiệp như "kỹ sư" hoặc "nhà khoa học". Khoảnh khắc dữ liệu này được chú thích và được sử dụng như một tập dữ liệu đào tạo, thì đã quá muộn. Các hướng dẫn lỗi thời và thiên vị về mặt văn hóa dẫn đến việc biểu diễn dữ liệu mất cân bằng, mã hóa hiệu quả các định kiến giới tính vào hệ thống AI sau đó được triển khai trong môi trường thực tế, sao chép và mở rộng các mô hình phân biệt này.
Hậu quả thực tế của sự thiên vị chú thích
Các mô hình phân tích tình cảm thường được nhấn mạnh vì kết quả thiên vị, trong đó tình cảm do các nhóm thiểu số thể hiện được dán nhãn tiêu cực hơn. Điều này liên quan đến dữ liệu đào tạo, trong đó người chú thích, thường là từ các nhóm văn hóa thống trị, hiểu sai hoặc dán nhãn sai các tuyên bố do không quen thuộc với bối cảnh văn hóa hoặc tiếng lóng. Ví dụ, các biểu thức tiếng Anh bản ngữ của người Mỹ gốc Phi (AAVE) thường bị hiểu sai là tiêu cực hoặc hung hăng, dẫn đến các mô hình liên tục phân loại sai tình cảm của nhóm này.
Điều này không chỉ dẫn đến hiệu suất mô hình kém mà còn phản ánh một vấn đề hệ thống rộng hơn: các mô hình không còn phù hợp để phục vụ nhiều nhóm dân số khác nhau, làm gia tăng sự phân biệt đối xử trên các nền tảng sử dụng các mô hình như vậy để ra quyết định tự động.
Nhận dạng khuôn mặt là một lĩnh vực khác mà sự thiên vị chú thích đã gây ra hậu quả nghiêm trọng. Những người chú thích tham gia vào việc dán nhãn các tập dữ liệu có thể vô tình đưa ra những thiên vị liên quan đến dân tộc, dẫn đến tỷ lệ chính xác không cân xứng giữa các nhóm nhân khẩu học khác nhau. Ví dụ, nhiều tập dữ liệu nhận dạng khuôn mặt có số lượng lớn khuôn mặt người da trắng, dẫn đến hiệu suất kém hơn đáng kể đối với những người da màu. Hậu quả có thể rất thảm khốc, từ việc bắt giữ sai trái đến việc bị từ chối tiếp cận các dịch vụ thiết yếu.
Vào năm 2020, một vụ việc được công khai rộng rãi liên quan đến một người đàn ông da đen bị bắt giữ oan ở Detroit do phần mềm nhận dạng khuôn mặt không khớp với khuôn mặt của anh ấy. Lỗi này phát sinh từ sự thiên vị trong dữ liệu chú thích mà phần mềm được đào tạo dựa trên—một ví dụ về cách sự thiên vị từ giai đoạn chú thích có thể dẫn đến những hậu quả đáng kể trong đời thực.
Đồng thời, việc cố gắng sửa lỗi quá mức có thể phản tác dụng, như bằng chứng là sự cố Gemini của Google vào tháng 2 năm nay, khi LLM không tạo ra hình ảnh của những người da trắng. Tập trung quá nhiều vào việc giải quyết mất cân bằng lịch sử, các mô hình có thể đi quá xa theo hướng ngược lại, dẫn đến việc loại trừ các nhóm nhân khẩu học khác và gây ra những tranh cãi mới.
Xử lý các thành kiến ẩn trong chú thích tập dữ liệu
Một chiến lược cơ bản để giảm thiểu sự thiên vị trong chú thích nên bắt đầu bằng cách đa dạng hóa nhóm người chú thích. Bao gồm những cá nhân từ nhiều nền tảng khác nhau—bao gồm dân tộc, giới tính, trình độ học vấn, khả năng ngôn ngữ và độ tuổi—đảm bảo rằng quy trình chú thích dữ liệu tích hợp nhiều góc nhìn, do đó giảm thiểu nguy cơ thiên vị của bất kỳ nhóm nào định hình không cân xứng tập dữ liệu. Sự đa dạng trong nhóm chú thích góp phần trực tiếp vào việc tạo ra các tập dữ liệu có tính sắc thái, cân bằng và đại diện hơn.
Tương tự như vậy, phải có đủ số lượng các biện pháp phòng ngừa lỗi để đảm bảo khả năng dự phòng nếu người chú thích không thể kiểm soát được sự thiên vị của họ. Điều này có nghĩa là có đủ sự giám sát, sao lưu dữ liệu bên ngoài và sử dụng các nhóm bổ sung để phân tích. Tuy nhiên, mục tiêu này vẫn phải được hoàn thành trong bối cảnh đa dạng.
Hướng dẫn chú thích phải trải qua quá trình kiểm tra nghiêm ngặt và tinh chỉnh lặp đi lặp lại để giảm thiểu tính chủ quan. Việc phát triển các tiêu chí khách quan, chuẩn hóa cho việc dán nhãn dữ liệu giúp đảm bảo rằng các thành kiến cá nhân có ảnh hưởng tối thiểu đến kết quả chú thích. Các hướng dẫn nên được xây dựng bằng cách sử dụng các định nghĩa chính xác, được xác thực theo kinh nghiệm và nên bao gồm các ví dụ phản ánh nhiều bối cảnh và sự khác biệt về văn hóa.
Việc kết hợp các vòng phản hồi trong quy trình chú thích, nơi người chú thích có thể nêu lên mối quan tâm hoặc sự mơ hồ về các hướng dẫn, là rất quan trọng. Phản hồi lặp đi lặp lại như vậy giúp tinh chỉnh các hướng dẫn liên tục và giải quyết bất kỳ sự thiên vị tiềm ẩn nào có thể xuất hiện trong quá trình chú thích. Hơn nữa, việc tận dụng phân tích lỗi từ đầu ra của mô hình có thể làm sáng tỏ các điểm yếu của hướng dẫn, cung cấp cơ sở dựa trên dữ liệu để cải thiện hướng dẫn.
Học tập chủ động—nơi mô hình AI hỗ trợ người chú thích bằng cách cung cấp các gợi ý nhãn có độ tin cậy cao—có thể là một công cụ hữu ích để cải thiện hiệu quả và tính nhất quán của chú thích. Tuy nhiên, điều bắt buộc là học tập chủ động phải được triển khai với sự giám sát chặt chẽ của con người để ngăn chặn sự lan truyền của các thành kiến mô hình đã tồn tại từ trước. Người chú thích phải đánh giá một cách nghiêm túc các đề xuất do AI tạo ra, đặc biệt là các đề xuất khác với trực giác của con người, sử dụng các trường hợp này như cơ hội để hiệu chỉnh lại cả sự hiểu biết của con người và mô hình.
Kết luận và những gì tiếp theo
Các thành kiến được nhúng trong chú thích tập dữ liệu là nền tảng, thường ảnh hưởng đến mọi lớp tiếp theo của quá trình phát triển mô hình AI. Nếu các thành kiến không được xác định và giảm thiểu trong giai đoạn gắn nhãn dữ liệu, mô hình AI kết quả sẽ tiếp tục phản ánh các thành kiến đó—cuối cùng dẫn đến các ứng dụng thực tế có lỗi và đôi khi có hại.
Để giảm thiểu những rủi ro này, những người thực hành AI phải xem xét kỹ lưỡng các hoạt động chú thích với cùng mức độ nghiêm ngặt như các khía cạnh khác của quá trình phát triển AI. Việc đưa ra sự đa dạng, tinh chỉnh các hướng dẫn và đảm bảo điều kiện làm việc tốt hơn cho người chú thích là những bước quan trọng để giảm thiểu những thành kiến tiềm ẩn này.
Con đường dẫn đến các mô hình AI thực sự không thiên vị đòi hỏi phải thừa nhận và giải quyết những "lớp bị lãng quên" này với sự hiểu biết đầy đủ rằng ngay cả những thiên vị nhỏ ở cấp độ cơ bản cũng có thể dẫn đến những tác động lớn không cân xứng.
Chú thích có vẻ như là một nhiệm vụ kỹ thuật, nhưng nó là một nhiệm vụ rất con người—và do đó, về bản chất là có khiếm khuyết. Bằng cách nhận ra và giải quyết những thành kiến của con người vốn không thể tránh khỏi trong các tập dữ liệu của chúng ta, chúng ta có thể mở đường cho các hệ thống AI công bằng và hiệu quả hơn.












