์ธ๊ณต์ง๋ฅ
Adobe์ Meta, ์ปดํจํฐ ๋น์ ์ฐ๊ตฌ์์ ์ฌ์ฉ์ ์ฐ๊ตฌ์ ์ค๋จ์ฉ์ ๋ํด ๋นํ

Adobe와 Meta는 워싱턴 대학교와 함께 컴퓨터 비전(CV) 연구에서 사용자 연구의 오남용과 악용이 증가하고 있다고 주장하는 광범위한 비판을 발표했습니다.
사용자 연구는 과거에 일반적으로 특정 학술 기관의 캠퍼스 주변의 현지인이나 학생들로 제한되었지만, 현재는 Amazon Mechanical Turk(AMT)와 같은 온라인 크라우드소싱 플랫폼으로 거의 전적으로 이동했습니다.
다양한 불만 중에서 새로운 논문은 연구 프로젝트가 논문 심사자들에 의해 연구를 수행하도록 압력을 받고 있으며, 종종 연구를 잘못 설계하고 있으며, 프로젝트의 논리가 이러한 접근 방식을 지원하지 않는 경우에도 연구를 위탁하며, 종종 연구 결과를 조작하는 현상이 발생하고 있다고 주장합니다.
15페이지에 걸친 논문(제목: 컴퓨터 그래픽스 및 비전에서 더 나은 사용자 연구를 향하여)은 크라우드소싱 사용자 연구가 실제로 컴퓨터 비전의 하위 분야인 이미지 인식 및 이미지 합성의 발전에 방해가 될 수 있다고 주장합니다.
이 논문은 사용자 연구와 관련된 더广泛한 문제를 다루고 있지만, 사용자 연구의 출력 평가(즉, 크라우드소싱 인간이 새 이미지 합성 알고리즘의 출력에 대한 가치 판단을 하는 경우)가 전체 섹터에 부정적인 영향을 미칠 수 있다는 점에 대해 가장 강한 비판을 제기합니다.
让我们来看看중앙적인 몇 가지 사항입니다.
センセーショ널한 해석
컴퓨터 비전 섹터에서 출판하는 사람들에게 대한 논문의 제안 중 하나는 결과를 신중하게 해석하라는 것입니다. 논문은 2021년의 한 연구에서 ‘개인은 AI 생성 된 아트워크를 정확하게 식별할 수 없다’는 주장을 널리 보도한 것을 예로 들었습니다.

2021년 논문 ‘The Role of AI Attribution Knowledge in the Evaluation of Artwork’의 한 예입니다. 여기서 Daily Mail의 출처는 The Times(paywalled)입니다. 출처: Daily Mail(archive link) / https://www.gwern.net/docs/ai/nn/gan/2021-gangadharbatla.pdf
저자들은 다음과 같이 말합니다:
‘한 연구에서 전통적인 아트워크와 AI 기술로 생성된 이미지들을 수집하여 크라우드워커들에게 어느 이미지가 어느 출처에서 왔는지 구별하도록 요청했습니다. 결과로부터 “개인은 AI 생성 된 아트워크를 정확하게 식별할 수 없다”는 결론을 내렸습니다. 이는 매우 광범위한 결론으로서, 실험 결과에서 직접적으로 추론되지 않는 것입니다.
‘또한, 이 논문은 수집된 이미지 세트에 대한 세부 정보를 보고하지 않으므로, 주장을 검증하고 재현하기가 어렵거나 불가능합니다.’
‘더욱 문제는 bahwa 대중 매체가 이러한 결과를 “AI가 인간과同じ 수준으로 아트를 생성할 수 있다”는 잘못된 주장으로 보도했다는 것입니다.’
사기성 크라우드워커 처리
크라우드소싱 워커들은 일반적으로 노력에 대한 대가로 많이 지불되지 않습니다. 그들의 전망은 최소한으로 제한되어 있으며, 그들의 최고의 수입 가능성은 작업의 높은 볼륨을 완료하여 다음 작은 작업으로 이동하는 것입니다. 많은 연구에 따르면, 그들은 작업을 속도 높이기 위한任何捷径을 취할 것입니다.
이 논문은 크라우드소싱 워커들이 연구자가 설계한 사용자 연구에서 반복적인 패턴을 학습하여 단순히 ‘정답’이나 ‘원하는 답’을 추론하여 실제 유기적인 반응을 생성하는 대신에, 마치 기계 학습 시스템과 같이 작동할 수 있다고 관찰합니다.
이러한 목적으로, 이 논문은 크라우드소싱 워커들의 검사를 수행하는 것을 추천합니다. 즉, ‘검증 시도’ 또는 ‘감시자’라고 하는, 실제 테스트와 동일하게 보이지만, 워커가 주의를 기울이고 있는지, 무작위로 클릭하고 있는지, 또는 자신이 추론한 패턴을 따르고 있는지 확인하기 위한 테스트의 가짜 섹션입니다.
저자들은 다음과 같이 말합니다:
‘예를 들어, 스타일화된 이미지의 경우, 이미지 중 하나는 의도적으로 나쁨으로 설정할 수 있습니다. 분석 중에 미리 설정된 수의 검사를 실패한 참가자의 데이터는 주의를 기울이지 않거나 일관성이 없는 것으로 간주하여 폐기할 수 있습니다.’
‘이러한 검사는 연구에서 무작위로 삽입되어야 하며, 다른 시도와 동일하게 보이應해야 합니다. 그렇지 않으면, 참가자들은 검사를 식별할 수 있습니다.’
사기성 연구자 처리
의도적으로 또는 의도하지 않게, 연구자들은 이러한 종류의 ‘게임’에 공모할 수 있습니다. 연구자가 참가자에게 원하는 선택지를 신호를 보낼 수 있는 방법은 여러 가지가 있습니다.
예를 들어, 이 논문은 연구자가 참가자 프로필을 선택하여 연구에서 이상적인 답변을 얻을 수 있다고 관찰합니다.
구문은 또한 주요 관심사입니다:
‘구문은 높은 수준의 목표를 반영해야 합니다. 예를 들어, “어떤 이미지가 더少한 아티팩트를 포함하고 있나요?”와 같은 구문이 “어떤 이미지가 얼굴 영역에서 더 적은 색상 결함을 포함하고 있나요?”와 같은 구문보다 더 좋습니다. 구체적인 작업 단어는 참가자에게 원하는 선택지를 알려줄 수 있습니다.’
또 다른 참가자를 影響하는 방법은 참가자에게 가능한 선택지 중 하나가 연구자의 방법이라는 것을 알려주는 것입니다.
이 논문은 다음과 같이 말합니다:
‘참가자들은 연구자가 원하는 답변을 제공할 수 있습니다. 참가자들은 연구자가 원하는 선택지를 알 수 있습니다. 참가자들은 연구자가 설계한 연구에서 원하는 선택지를 제공할 수 있습니다.’
‘참가자들은 연구자가 설계한 연구에서 원하는 선택지를 제공할 수 있습니다. 참가자들은 연구자가 설계한 연구에서 원하는 선택지를 제공할 수 있습니다.’
잘못된 사람을 위한 잘못된 제품
저자들은 크라우드소싱 워커들이 이전에 기대했던 것보다 더 ‘일반적인’ 자원이라고 관찰합니다.
활발한 참여의 요구는 고용된 크라우드워커가 제품을 테스트하는 동안 무심한 상태로 있게 하는 여유를 거의 남기지 않습니다. 이 논문의 저자들은 연구자들이 потен적인 제품이나 서비스를 개발하고 연구를 수행하기 전에 대상 사용자를 식별하도록 추천합니다. 그렇지 않으면, 실제로 원하는 것이 아닌 매우 어려운 것을 생성할 수 있습니다.
‘실제로, 우리는 종종 컴퓨터 그래픽스 또는 비전 연구자들이 산업 실무자들에게 자신의 연구를 적용하려고 시도하는 것을 목격했습니다. 그러나 연구는 대상 사용자의需求을 충족하지 못합니다. 연구자들은 필요를 찾지 않고 연구를 수행하면, 사용자가 연구에서 개발된 도구를 사용할 필요나 관심이 없다는 것을 알게 될 수 있습니다.’
‘이러한 도구는 평가 연구에서 잘 수행하지 못할 수 있습니다. 사용자는 기술이 유용하지 않거나 관련이 없거나 예상치 못한 결과를 생성한다고 생각할 수 있습니다.’
이 논문은 실제로 제품을 사용할 사용자를 연구에 선택해야 한다고 주장합니다. 즉, 쉽게 찾을 수 없거나(또는presumably 더 비싼) 경우에도 vậy입니다.
캠퍼스에서 모집을 다시 시작하는 것보다(아마도 조금 후퇴한 움직임일 수 있음), 저자들은 연구자들이 ‘야생에서 사용자를 모집’하여 관련 커뮤니티와 상호작용할 것을 제안합니다.
‘예를 들어, 관련된 활발한 온라인 게시판이나 소셜 미디어 커뮤니티가 있을 수 있습니다. 커뮤니티의 한 명이라도 만나면, 눈球 샘플링으로 연결된 유사한 사용자를 제공할 수 있습니다.’
피드백 요청
이 논문은 또한 사용자 연구에 참여한 사람들로부터 질적 피드백을 요청하는 것을 추천합니다. 이는 연구자의 잘못된 가정에 대한 잠재적인 노출을 제공할 수 있기 때문입니다.
‘이것은 연구를 디버깅하는 데 도움이 될 수 있습니다. 또한, 사용자의 평가에 영향을 미친 출력의 예상치 못한 측면을 드러낼 수 있습니다. 참가자는 출력이 비현실적, 미적이지 않거나, 편향된 이유로 매우 불만족스러웠나요?
‘질적 정보가 없으면, 연구자는 알고리즘을 더 현실적으로 만들기 위해 개선하는 데 시간을 할애할 수 있습니다. 그러나, 이는 근본적인 사용자 문제를 해결하지 못합니다.’
이 논문의 대부분의 추천과 마찬가지로, 이 추천은 연구자들이 더 많은 시간과 돈을 투자해야 한다는 것을 의미합니다. 이는 연구자들이 빠르고 실제로 의무적인 크라우드소싱 사용자 연구를 수행하는 문화에서 발생하는 것입니다.
과도한 연구
이 논문은 사용자 연구가 컴퓨터 비전 커뮤니티에서 거의 필수적인 요구 사항이 되고 있다고 제안합니다. 즉, 합리적인 연구를 수행할 수 없는 경우(예: 매우 새로운 또는 주변적인 아이디어로, 비교할 수 있는 분석을 수행할 수 없으며, 의미 있는 결과를 생성할 수 있는 지표가 없음)에도 vậy입니다.
예를 들어, ICLR 2022 논문의 경우, 온라인에서 피어 리뷰가 가능합니다(2022년 6월 24일 아카이브 스냅샷; 논문에서 직접 링크):
‘두 명의 리뷰어가 사용자 연구의 부족으로 인해 매우 부정적인 점수를 주었습니다. 이 논문은 결국 받아들여졌으며, 리뷰어들이 사용자 연구를 사용하여 불량한 리뷰를 한 것으로 비난하는 요약이 附随되었습니다. 전체 토론은 읽어보면 좋습니다.’
‘최종 결정은 제출된 논문이 수년간 배포되어 수천 명의 사용자를 가진 소프트웨어 라이브러리를 설명한다는 것을 언급했습니다(이 정보는 익명 리뷰를 위해 리뷰어에게 공개되지 않았습니다). 이 정보가委員会에 bekannt하지 않았다면, 이 논문은 받아들여졌을까요?
‘그리고, 저자들이 사용자 연구를 수행하는 추가 노력을 기울였다면, 그것은 의미 있었을까요? 그리고, 그것은 리뷰어를 설득하기에 충분했을까요?’
저자들은 다음과 같이 말합니다:
‘우리는 또한 저자와 리뷰어가 MTurk 평가를 사용하여 어려운 결정을 피하는 것을 목격했습니다. 리뷰어의 코멘트는 “나는 이미지들이 더 좋다는 것을 알 수 없는데, 사용자 연구가 도움이 될 수 있을까?”와 같은 것은 잠재적으로 유해합니다. 저자들은 결함이 있는 논문을 개선하지 못하는 추가 작업을 수행하도록 권장합니다.’
저자들은 이 논문을 다음과 같은 중심적인 행동 çağrısıyla 마칩니다. 컴퓨터 비전 및 컴퓨터 그래픽스 커뮤니티는 사용자 연구를 더 많이 고려해야 하며, 연구 주도 문화가 기본적으로 개발되는 것을 방지해야 합니다.
저자들은 다음과 같이 결론을 내립니다:
‘리뷰어들이 사용자 연구를 요구하는 것이 새로운 학습을 생성하는 것보다 리뷰어를 기쁘게 하는 것이라면, 사용자 연구의 유용성과 유효성을 저자와 리뷰어가 질문해야 합니다. 사용자 평가가 없는 작업을 처벌하는 것은 서두르거나 잘못된 사용자 연구를 장려하는 부작용을 초래합니다.’
‘잘못된 사용자 연구는 나쁨의 결과를 초래한다는 것을 기억해야 합니다. 이러한 연구는 리뷰어가 계속해서 요구하는 한 계속될 것입니다.’
* 저자의 인용문을 관련된 하이퍼링크로 변환했습니다
† 저자의 강조가 아닙니다.
最初에 2022년 6월 24일에 게시되었습니다.












