Connect with us

Anderson의 관점

‘바이브’ 기반 이미지 주석의 위험성

mm
A patron in the museum of banned artifacts. SDXL; Flux; Flux.1 Kontext; Firefly.

비록 그들이 몇 달러(또는 아무 것도)만 받는다는 사실에도 불구하고, ‘유해한’ 콘텐츠를 평가하는 익명 인들은 그들이 내리는 결정으로 당신의 삶을 바꿀 수 있습니다. 이제, Google의 새로운 논문은 이러한 주석자가 무엇이 ‘유해한’지 또는 공격적인지에 대한 자신의 규칙을 만든다고 제안하는 것으로 보입니다. 무엇이 잘못될 수 있을까요?

 

의견 이번 주에 Google Research와 Google Mind의 새로운 협력이 13명의 기여자를 새로운 논문에 모았습니다. 이 논문은 이미지 주석자들의 ‘본능적인 감정’을 알고리즘에 대한 이미지 평가 시 고려해야 하는지 탐구합니다. 즉, 주석자들의 반응이既定된 평가 기준과 일치하지 않더라도 말입니다.

이것은 당신에게 중요합니다. 왜냐하면 평가자와 주석자들이 합의에 따라 공격적인 것으로 판단하는 것은 자동 검열 및 모더레이션 시스템, 그리고 ‘음란한’ 또는 ‘받아들일 수 없는’ 자료에 대한 기준을 정의하는 입법, 즉 영국의 새로운 NSFW 방화벽*과 같은 입법, 그리고 곧 오스트레일리아에 도입될 입법, 그리고 소셜 미디어 플랫폼의 콘텐츠 평가 시스템 등 다양한 환경에서 제정될 것이기 때문입니다.

따라서 공격성의 기준이 더 넓을수록 검열의 잠재적 수준도 더 넓어집니다.

바이브-검열

그것이 논문의 유일한 관점은 아닙니다. 논문은 또한 이미지에 대한 평가자들의 반응이 종종 자신보다 다른 사람에게 공격적인 것으로 생각하는 경우가 더 빈번하다는 것을 발견했습니다. 또한 저품질 이미지의 경우 안전에 대한 우려가 종종 발생하지만, 이미지 품질은 이미지 콘텐츠와 아무 관련이 없다는 점도 발견했습니다.

논문은 이러한 두 가지 발견을 강조합니다. 즉, 주제의 중심적인 입장이 실패했지만 연구자들은 어쩔 수 없이 발표해야 했다는 점을 강조합니다.

그것은 흔한 시나리오가 아닙니다. 그러나 논문은 주의 깊은 독독을 통해 더险한 흐름을 제공합니다. 즉, 주석 실천이 ‘바이브-주석’을 채택할 수 있다고 제안합니다.

‘우리의 발견은 기존 프레임워크가 주관적이고 맥락적 차원, 즉 감정적 반응, 암시적 판단, 그리고 유해성의 문화적 해석을 고려해야 함을 시사합니다. 주석자들의 감정 언어를 빈번하게 사용하고既定된 유해성 레이블에서 벗어나는 것은 현재 평가 실천의 격차를 강조합니다. ‘

‘다양한 문화적 및 감정적 해석의 예시를 포함한 주석 지침을 확장하면 이러한 격차를 해결하는 데 도움이 될 수 있습니다.’

… (중략)

* 단축기입니다. 새로운 입법에 따르면, 공격적인 사이트는 스스로를 경찰해야 하거나, 가장 큰 사이트만이 감당할 수 있는 복잡하고 비싼 검토 시스템과 연령 검사 기술을 구현하거나, 아니면 영국 관객으로부터 자신의 도메인을 차단해야 합니다(또한 마지막 경우에는 자신의 비용으로).

‘아이들을 생각해봐’ 멤을 단순히 표현한 것으로, 다른 사람의 道德적 대리인을 자선적인 수단으로 사용하는 것을 풍자합니다.

 

처음으로 2025년 7월 25일에 게시되었습니다.

논문 “‘ 그냥 이상한 사진’: 다이버스 주석자의 관점에서 GenAI 이미지 안전 주석 작업의 ‘안전성’ 평가“은 Arxiv에서 이용 가능합니다..

기계 학습 작가, 인간 이미지 합성 도메인 전문가. Metaphysic.ai의 연구 콘텐츠 책임자 출신.
개인 사이트: martinanderson.ai
연락처: [email protected]
트위터: @manders_ai