Anderson의 관점

‘바이브’ 기반 이미지 주석의 위험성

Published July 25, 2025

Updated April 2, 2026

Martin Anderson

A patron in the museum of banned artifacts. SDXL; Flux; Flux.1 Kontext; Firefly.

비록 그들이 몇 달러(또는 아무 것도)만 받는다는 사실에도 불구하고, ‘유해한’ 콘텐츠를 평가하는 익명 인들은 그들이 내리는 결정으로 당신의 삶을 바꿀 수 있습니다. 이제, Google의 새로운 논문은 이러한 주석자가 무엇이 ‘유해한’지 또는 공격적인지에 대한 자신의 규칙을 만든다고 제안하는 것으로 보입니다. 무엇이 잘못될 수 있을까요?

의견 이번 주에 Google Research와 Google Mind의 새로운 협력이 13명의 기여자를 새로운 논문에 모았습니다. 이 논문은 이미지 주석자들의 ‘본능적인 감정’을 알고리즘에 대한 이미지 평가 시 고려해야 하는지 탐구합니다. 즉, 주석자들의 반응이既定된 평가 기준과 일치하지 않더라도 말입니다.

이것은 당신에게 중요합니다. 왜냐하면 평가자와 주석자들이 합의에 따라 공격적인 것으로 판단하는 것은 자동 검열 및 모더레이션 시스템, 그리고 ‘음란한’ 또는 ‘받아들일 수 없는’ 자료에 대한 기준을 정의하는 입법, 즉 영국의 새로운 NSFW 방화벽*과 같은 입법, 그리고 곧 오스트레일리아에 도입될 입법, 그리고 소셜 미디어 플랫폼의 콘텐츠 평가 시스템 등 다양한 환경에서 제정될 것이기 때문입니다.

따라서 공격성의 기준이 더 넓을수록 검열의 잠재적 수준도 더 넓어집니다.

바이브-검열

그것이 논문의 유일한 관점은 아닙니다. 논문은 또한 이미지에 대한 평가자들의 반응이 종종 자신보다 다른 사람에게 공격적인 것으로 생각하는 경우가 더 빈번하다는 것을 발견했습니다. 또한 저품질 이미지의 경우 안전에 대한 우려가 종종 발생하지만, 이미지 품질은 이미지 콘텐츠와 아무 관련이 없다는 점도 발견했습니다.

논문은 이러한 두 가지 발견을 강조합니다. 즉, 주제의 중심적인 입장이 실패했지만 연구자들은 어쩔 수 없이 발표해야 했다는 점을 강조합니다.

그것은 흔한 시나리오가 아닙니다. 그러나 논문은 주의 깊은 독독을 통해 더险한 흐름을 제공합니다. 즉, 주석 실천이 ‘바이브-주석’을 채택할 수 있다고 제안합니다.

‘우리의 발견은 기존 프레임워크가 주관적이고 맥락적 차원, 즉 감정적 반응, 암시적 판단, 그리고 유해성의 문화적 해석을 고려해야 함을 시사합니다. 주석자들의 감정 언어를 빈번하게 사용하고既定된 유해성 레이블에서 벗어나는 것은 현재 평가 실천의 격차를 강조합니다. ‘

‘다양한 문화적 및 감정적 해석의 예시를 포함한 주석 지침을 확장하면 이러한 격차를 해결하는 데 도움이 될 수 있습니다.’

… (중략)

* 단축기입니다. 새로운 입법에 따르면, 공격적인 사이트는 스스로를 경찰해야 하거나, 가장 큰 사이트만이 감당할 수 있는 복잡하고 비싼 검토 시스템과 연령 검사 기술을 구현하거나, 아니면 영국 관객으로부터 자신의 도메인을 차단해야 합니다(또한 마지막 경우에는 자신의 비용으로).

† ‘아이들을 생각해봐’ 멤을 단순히 표현한 것으로, 다른 사람의 道德적 대리인을 자선적인 수단으로 사용하는 것을 풍자합니다.

처음으로 2025년 7월 25일에 게시되었습니다.

논문 “‘ 그냥 이상한 사진’: 다이버스 주석자의 관점에서 GenAI 이미지 안전 주석 작업의 ‘안전성’ 평가“은 Arxiv에서 이용 가능합니다..