Góc của Anderson
Rủi ro của chú thích hình ảnh dựa trên 'Vibe'

Mặc dù chỉ được trả vài đô la (hoặc thậm chí không được trả công), những người vô danh đánh giá hình ảnh có nội dung "gây tổn thương" có thể thay đổi cuộc đời bạn bằng những lựa chọn của họ. Giờ đây, một bài báo mới của Google dường như đang gợi ý rằng những người chú thích này tự đặt ra quy tắc riêng về việc điều gì là "gây tổn thương" hay phản cảm - bất kể phản ứng của họ đối với bất kỳ hình ảnh nào có kỳ quặc hay mang tính cá nhân đến đâu. Điều gì có thể xảy ra?
Ý kiến Tuần này, một sự hợp tác mới giữa Google Research và Google Mind đã tập hợp không dưới 13 người đóng góp cho Một bài báo mới điều này khám phá liệu 'cảm xúc bản năng' của người chú thích hình ảnh có nên được xem xét khi mọi người xếp hạng hình ảnh cho các thuật toán hay không, ngay cả khi phản ứng của họ không phù hợp với các tiêu chuẩn xếp hạng đã thiết lập.
Điều này quan trọng với bạn, bởi vì những gì người đánh giá và người chú thích thấy xúc phạm theo quy tắc đồng thuận sẽ có xu hướng được đưa vào hệ thống kiểm duyệt và điều hành tự động, và vào tiêu chí đối với tài liệu 'khiêu dâm' hoặc 'không thể chấp nhận được', trong luật pháp như tường lửa NSFW mới* của Vương quốc Anh (một phiên bản trong đó là đến Úc sớm) và trong các hệ thống đánh giá nội dung trên nền tảng truyền thông xã hội, cùng nhiều môi trường khác.
Vì vậy, tiêu chuẩn phạm tội càng rộng thì mức độ kiểm duyệt tiềm ẩn càng lớn.
Kiểm duyệt rung cảm
Đó không phải là quan điểm duy nhất mà bài báo mới đưa ra; nó cũng phát hiện ra rằng những người đánh giá hình ảnh thường có xu hướng kiểm duyệt nhiều hơn đối với những gì họ cho là xúc phạm. Khác những người khác ngoài chính họ; và những hình ảnh chất lượng thấp thường gây ra những lo ngại về an toàn, mặc dù chất lượng hình ảnh không liên quan gì đến nội dung hình ảnh.
Ở phần kết luận, bài báo nhấn mạnh hai phát hiện này, như thể mục tiêu chính của bài báo đã thất bại, nhưng các nhà nghiên cứu vẫn buộc phải công bố.
Mặc dù đó không phải là một kịch bản bất thường, nhưng khi đọc kỹ, bài báo cho thấy một luồng ý kiến ngầm đáng ngại hơn: rằng các hoạt động chú thích có thể xem xét áp dụng những gì tôi chỉ có thể mô tả là chú thích rung cảm:
'Những phát hiện của chúng tôi cho thấy các khuôn khổ hiện có cần tính đến các khía cạnh chủ quan và bối cảnh, chẳng hạn như phản ứng cảm xúc, phán đoán ngầm và diễn giải văn hóa về tác hại. Việc người chú thích thường xuyên sử dụng ngôn ngữ cảm xúc và sự khác biệt của họ so với các nhãn tác hại được xác định trước làm nổi bật những khoảng trống trong thực tiễn đánh giá hiện nay.
'Việc mở rộng hướng dẫn chú thích để bao gồm các ví dụ minh họa về nhiều cách diễn giải văn hóa và cảm xúc khác nhau có thể giúp giải quyết những khoảng trống này.'

Bài báo mới với hình ảnh minh họa sơ sài này dẫn dắt bằng những ví dụ rõ ràng và dễ hiểu với người đọc trung bình, mặc dù nội dung cốt lõi thực tế lại gợi mở nhiều câu hỏi hơn. Dưới mỗi hình ảnh, chúng ta thấy phản ứng cảm xúc của người chú thích được thể hiện qua hình ảnh tương ứng của họ. Nguồn: https://arxiv.org/pdf/2507.16033
Thoạt đầu, điều này nghe giống như một đề xuất nhằm mở rộng và định lượng tốt hơn những gì cấu thành nên 'tác hại' trong một hình ảnh - một nỗ lực đáng khen ngợi; nhưng bài báo nhắc lại nhiều lần rằng điều này không mong muốn cũng như không (cần thiết) khả thi:
'Những phát hiện của chúng tôi cho thấy các khuôn khổ hiện có cần tính đến các khía cạnh chủ quan và bối cảnh, chẳng hạn như phản ứng cảm xúc, phán đoán ngầm và diễn giải văn hóa về tác hại. Việc người chú thích thường xuyên sử dụng ngôn ngữ cảm xúc và sự khác biệt của họ so với các nhãn tác hại được xác định trước làm nổi bật những khoảng trống trong thực tiễn đánh giá hiện nay.
'Việc mở rộng hướng dẫn chú thích để bao gồm các ví dụ minh họa về các cách diễn giải văn hóa và cảm xúc đa dạng có thể giúp giải quyết những khoảng cách này […]
'[…] Quá trình mà người chú thích lý luận về những hình ảnh mơ hồ thường phản ánh quan điểm cá nhân, văn hóa và cảm xúc của họ, những quan điểm này rất khó để xây dựng hoặc chuẩn hóa.'
Rất khó để xem làm thế nào 'Mở rộng hướng dẫn chú thích để bao gồm các ví dụ minh họa về các cách diễn giải văn hóa và cảm xúc đa dạng' có thể phù hợp với một hệ thống đánh giá hợp lý; các tác giả gặp khó khăn trong việc làm rõ điểm này, hoặc xây dựng một lý thuyết riêng biệt, nhiều lần công kích tài liệu, nhưng không bao giờ thành công. Về mặt này, bản thân chủ đề trung tâm của họ dường như được tạo ra bởi "cảm xúc", ngay cả khi nó đề cập đến những vấn đề tâm lý vô hình.
Nói một cách đơn giản, với tôi, việc mở rộng quy trình chú thích để bao gồm các tiêu chí loại này có khả năng cho phép "hủy bỏ" hoặc làm tối nghĩa bất kỳ tài liệu (hoặc loại chủ đề) nào mà người chú thích có thể phản ứng mạnh.
Phán đoán nhị phân
Mức độ mà hình ảnh và văn bản có thể gây hại thực sự khó định lượng, một phần là do văn hóa cao thường giao thoa với văn hóa 'thấp' (ví dụ với nghệ thuật và tiểu thuyết), dẫn đến tiêu chí kiểm duyệt dựa trên 'cảm giác' sớm nhất: ngay cả khi tài liệu khiêu dâm không nằm trong định nghĩa chính xác, bạn sẽ biết nó khi bạn nhìn thấy nó.
Bên dưới cuộc thảo luận sâu rộng và mang tính khám phá của bài báo mới về sự đồng cảm và sắc thái định tính, tác phẩm này dường như lặng lẽ tấn công vào thẩm quyền của các phân loại chuẩn hóa, tập trung ('bạo lực', 'khỏa thân', 'hận thù', v.v.) cho phép các nền tảng triển khai và mở rộng quy mô kiểm duyệt với biên độ sai số có thể chấp nhận được (thường).
Lập luận đưa ra là chỉ có phản hồi của con người mang tính chủ quan, phi tập trung và có nhận thức về ngữ cảnh mới có thể đánh giá chính xác đầu ra của GenAI.
Tuy nhiên, điều này rõ ràng là không thể mở rộng quy mô, vì bạn không thể chạy một bộ lọc nghìn tỷ hình ảnh trên "cảm xúc" và trải nghiệm sống. Người ta phải định lượng tác hại thành nhiều thuộc tính khác nhau; đặt ra giới hạn cho phạm vi của hệ thống lọc kết quả; và chờ đợi các chỉ thị mới trong các trường hợp "cạnh tranh" (giống như các bên bị thiệt hại đôi khi phải chờ luật mới được ban hành để giải quyết các trường hợp cụ thể của họ).
Thay vào đó, bài báo mới trình bày một nhiệm vụ ngầm cho một đường ống kiểm duyệt tự động mở rộng phạm vi của nó tự độngvà cho đến nay vẫn thiên về sự thận trọng đến mức ngay cả phản ứng đặc biệt nhất và không thể sao chép được từ người chú thích cũng có thể phạt một hình ảnh không xúc phạm đến bất kỳ ai khác.
Mở rộng đạo đức
Mặc dù bài báo thiên về khám phá hơn là đưa ra lập trường chắc chắn, nhưng nó kết hợp các yếu tố của phương pháp khoa học: các tác giả đã phát triển một khuôn khổ để xác định (mặc dù không đo lường nghiêm ngặt) một phạm vi rộng hơn các phản ứng của người chú thích đối với hình ảnh và để xem xét cách những phản ứng này thay đổi theo giới tính và các yếu tố nhân khẩu học khác.
Bên cạnh việc phân tích các bài kiểm tra tập trung vào tác hại†, quá trình này phân tích 'lý luận đạo đức' trong các bình luận bổ sung của những người tham gia thử nghiệm, những người được yêu cầu chú thích một tập dữ liệu thử nghiệm đã sửa đổi có chứa hình ảnh và lời nhắc/văn bản liên quan.
'Người đánh giá tình cảm đạo đức' này được thiết kế để nắm bắt các giá trị đạo đức Chăm sóc, Bình đẳng, Tương xứng, Trung thành, Quyền hạnvà Tinh khiết, như được định nghĩa trong Lý thuyết nền tảng đạo đức – một lý thuyết tâm lý, do bản chất thay đổi và phát triển của nó, trái ngược với việc tạo ra các định nghĩa cụ thể cần thiết cho các hệ thống đánh giá con người trên quy mô lớn.
Dựa trên lý thuyết này, các chiều hướng an toàn bổ sung đã được các tác giả phân loại, bao gồm sợ hãi, sự tức giận, nỗi buồn, chán ghét, nhầm lẫnvà sự kỳ lạ.
Các tác giả trình bày chi tiết về điều đầu tiên trong số này, sợ hãi:
'Nhiều người chú thích đã sử dụng các thuật ngữ như "đáng sợ" (ví dụ, đối với những khuôn mặt bị biến dạng hoặc hình ảnh gợi ý về bạo lực như súng chĩa vào trẻ em), "gây khó chịu" (ví dụ, "Thật kinh tởm khi thấy ai đó bị xe cán qua, rất đau khổ và khó chịu", hoặc "Gây khó chịu và trông giống như máu" đối với sơn đỏ), hoặc "gây khó chịu" (ví dụ, "Hình ảnh cậu bé có nhiều chỗ bị biến dạng... Tôi thấy khó chịu vì có vẻ như cậu bé đang chơi ở phía bên kia của lan can bên đường").
'[Biểu đồ bên dưới] định lượng "sợ hãi" là cảm xúc được nhắc đến nhiều nhất (233 lần nhắc đến trong khi gần một nửa số lần nhắc đến này có liên quan đến nội dung bạo lực, nội dung được coi là không gây hại cũng gợi lên nỗi sợ hãi được nhắc đến nhiều thứ hai).'

Phân bổ các thuật ngữ liên quan đến cảm xúc theo từng danh mục gây hại, với chiều cao thanh biểu thị tỷ lệ bình luận, số lượng hiển thị trong thanh và tổng số bình luận hiển thị phía trên mỗi danh mục.
Liên quan đến việc đưa vào những chiều hướng an toàn mới này, các tác giả nêu rõ:
'Những chủ đề mới nổi này nhấn mạnh nhu cầu cấp thiết phải làm phong phú thêm khuôn khổ đánh giá hình ảnh AI bằng cách tích hợp các yếu tố chủ quan, cảm xúc và nhận thức.'
Đây có thể là một con đường nguy hiểm để đi xuống, vì nó dường như cho phép các quy trình chú thích tùy ý thêm các quy tắc dựa trên các phản ứng mà tài liệu có thể gây ra trong bất kỳ người chú thích nào, thay vì yêu cầu tất cả các người chú thích phải tuân thủ các tiêu chuẩn và chuẩn mực đã được thiết lập.
Nếu người ta có thể gán một mệnh lệnh kinh tế cho ý tưởng này, thì đó là cách tiếp cận này cho phép chú thích siêu quy mô của con người, trong đó quá trình diễn ra không có sự cản trở, những người tham gia tự điều chỉnh và tự họ quyết định các quy tắc và ranh giới.
Theo chú thích chuẩn, các quy tắc được đưa ra dựa trên sự đồng thuận của con người và được tuân thủ bởi những người chú thích; theo kịch bản được hình dung trong bài báo, lớp giám sát ban đầu đó sẽ bị loại bỏ hoặc hạ cấp: về cơ bản, bất kỳ hình ảnh nào có thể gây khó chịu cho bất kỳ ai đều sẽ bị gắn cờ (có lẽ một phần là do sự đồng thuận vừa tốn kém vừa mất thời gian).
Phán quyết của Rorschach
Mục đích của việc chú thích là đưa ra một mô tả hoặc định nghĩa chính xác thông qua sự giám sát của chuyên gia, sự đồng thuận chung giữa nhiều người chú thích, hoặc (lý tưởng nhất là) cả hai. Thay vào đó, việc mở rộng một hệ thống phân cấp tác hại hạn chế nhưng được xác định rõ ràng thành một lập trường diễn giải "trực quan" và mang tính cá nhân cao, tương đương với việc chú thích một bài kiểm tra Rorschach.
Ví dụ, một số người chú thích, ghi chú trên giấy, đã giải thích chất lượng hình ảnh kém (chẳng hạn như Các hiện vật JPEG, cũng như những lỗi kỹ thuật vô nghĩa trong một hình ảnh) như 'đáng lo ngại' or 'có dấu hiệu gây hại':
'Điều này xảy ra mặc dù nhiệm vụ đã bỏ qua hướng dẫn về chất lượng hình ảnh. Hơn nữa, người chú thích đã diễn giải những hiện tượng chất lượng này theo nghĩa ngữ nghĩa.
Một người chú thích bình luận: "Hình ảnh này hoàn toàn không có hại; chỉ là khuôn mặt anh ta hơi méo mó." Tương tự, một số người chú thích lại cho rằng hiện tượng nhiễu chất lượng hình ảnh là cố ý gây hại, gán cho các lỗi sai ý nghĩa cảm xúc. Ví dụ, một người chú thích khác lại cho rằng khuôn mặt bị méo mó trong một hình ảnh khác là "dấu hiệu của sự đau đớn".
Bằng cách nâng cao các phản ứng chủ quan, cảm xúc hoặc theo ngữ cảnh cụ thể lên trên các danh mục an toàn được xác định trước, các ý tưởng được trình bày ở đây mở ra cánh cửa cho một chế độ mà bất cứ điều gì có thể được đánh dấu tùy ý là có hại và có 'hiệu ứng làm lạnh' của đặc biệt việc gỡ bỏ hoặc phân loại lại tài liệu theo hướng tiêu cực (tức là tài liệu có thể 'xúc phạm' một nhóm lợi ích đặc biệt) trở thành một viễn cảnh thực sự.
Giấy “Chỉ là một bức ảnh kỳ lạ”: Đánh giá 'an toàn' trong các tác vụ chú thích an toàn hình ảnh của GenAI từ góc nhìn của nhiều người chú thích khác nhau is có sẵn tại Arxiv.
* Một cách nói tắt, vì đây không phải là chủ đề chính ở đây; theo luật mới, các trang web vi phạm được yêu cầu phải tự quản lý; áp dụng các hệ thống đánh giá phức tạp và tốn kém cùng các công nghệ kiểm tra độ tuổi mà hầu hết các trang web lớn đều không thể tiếp cận; hoặc chặn tên miền của họ khỏi đối tượng người dùng ở Vương quốc Anh (một lần nữa, họ phải tự bỏ chi phí).
† Được diễn đạt một cách đơn giản trong meme "hãy nghĩ đến trẻ em", châm biếm việc chiếm đoạt quyền tự quyết về mặt đạo đức của người khác vì mục đích rõ ràng là vị tha.
Xuất bản lần đầu vào thứ sáu, ngày 25 tháng 2025 năm XNUMX