Anderson의 관점

‘더 많은 레이블 다운로드!’의 환상에 대한 AI 연구

Published April 23, 2025

Updated April 3, 2026

Martin Anderson

ChatGPT-4o: 'A wall on which hundreds of photographs are stuck with thumb-tacks. Each photo depicts a different kind of subject, such as fruit or animals or bridges or buildings or people, etc. Each photo has 2-3 yellow post-it notes attached to it. We are too far away to read anything written on the post-it notes, but we can see that there are dozens and dozens of photos on the wall, and each with several post-it notes tacked on.'

현재 기계 학습 연구에서 기계 학습 자체가 AI 데이터셋 주석의 품질을 개선하는 데 사용될 수 있다는 것이 일반적인 관점이다. 특히, 비전-언어 모델(VLMs)에 사용되는 이미지 캡션을 위한 것이다. 이 생각은 인간 주석의 높은 비용과 주석자 성능을 감독하는 추가 부담에 의해 추진된다.

논증적으로 이것은 2000년대 초 ‘더 많은 RAM 다운로드’ 미ーム과 같은 것으로, 하드웨어 제한이 소프트웨어 기반 수정으로 해결될 수 있다는 생각을 풍자한다.

또한 이것은 충분히 고려되지 않은 문제이다. 새로운 AI 모델은 공공 및 상업 영역에서 널리 주목을 받는 반면, 주석은 기계 학습 파이프라인에서 사소한 세부 사항으로 나타나며, 더 넓은 프레임워크에 대한 흥분으로 인해 가려진다.

사실, 기계 학습 시스템이 패턴을 인식하고 재생산하는 능력(거의 모든 AI 시스템의 중심 사용 사례)은 실제 주석의 품질과 일관성에 의존한다. 즉, 실제 사람들에 의해 생성되거나 판단되는 레이블 및 구절로, 종종 비이deal한 상황에서 개별 데이터 포인트에 대해 주관적인 판단을 내린다.

inevitably, 주석자 행동의 패턴을 관찰하고 재생산하여 인간 주석자를 대체하고 정확한 레이블링을 가능하게 하는 시스템은 인간 관찰자에서 가져온 예제에 포함되지 않은 데이터에서 잘 수행할 수 없다. 아무것도 ‘유사한’ 것은 정확히 동일하지 않으며, 교차 도메인 등가성은 컴퓨터 비전에서 여전히 문제적인 추구이다.

‘업스트림 데이터 버킷’은 어딘가에서 멈추어야 하며, 이 경우 정확히 인간 대뇌에서 주관적인 구별을 하여 인공 시스템에 대한 데이터를 코딩하는 곳에서 멈춘다.

라그 무역

최근까지도, 미흡하게 큐레이션된 데이터셋 주석으로 인한 부정확성은 생성된 AI 시스템에서 얻을 수 있는 불완전하지만 여전히 시장성이 있는 결과의 맥락에서 прием가능한 부수적인 피해로 간주되었다.

실제로, 이 năm에 싱가포르의 한 연구에서는 AI 시스템이 우리의 의도와 반대되는 것을 발명하는 경우, 즉 ‘환상’이 발생하는 경우가 필연적이며, 이러한 시스템의 개념적 아키텍처에 내재되어 있다고 결론지었다.

이를 대조하기 위해, ‘사실을 검증’할 수 있는 인터넷 검색을 통해 RAG 기반 에이전트가 연구와 상업적 솔루션에서 인기를 얻고 있다. 그러나, 이러한 에이전트는 자원 비용과 쿼리 지연을 증가시키며, 새로운 정보를 훈련된 모델에 적용하는 것은 훈련된 모델의 네이티브 레이어에서 특징적인 더 복잡하고 깊게 얽힌 연결을 대체할 수 없다.

따라서 이러한 모델에 대한 주석 데이터가 처음부터 훨씬 더 결점이 없는 것이 더 좋을 것이다. 즉, 완벽할 수는 없지만(인간의 주관성 영역에 침범하기 때문이다), 이러한 활동은 결점이 덜한 주석 데이터를 생성하는 데 도움이 될 것이다.

RePOPE

독일의 새로운 논문은 오래된 광범위하게 사용되는 데이터셋에 의존하는 문제를 강조하며, 특히 이미지 캡션의 정확성과 신뢰성에 중점을 둔다. 연구자들의 발견은 벤치마크에서 레이블 오류가 비전-언어 모델에서 환상을 가리거나歪曲할 수 있음을 시사한다.

[…]
(중략)

결론

이 실험은 데이터셋의 매우 작은 규모로 인해 가능했다. 같은 가설을 초대규모 데이터셋에서 증명하는 것은 데이터의 매우 제한적인 조각에서 작업을 포함하며, 매우 다양한 대규모 데이터셋에서 통계적으로 대표적이고 의미적으로 일관된 그룹을 분리하는 것은 거의 불가능할 수 있다.

即使 가능하다 하더라도, 현재의 최첨단 기술 상태에서 어떤 해결책이 있을까? 논쟁은 결국 더 나은 그리고 더 많은 인간 주석의 필요성으로 돌아간다.

이 점에서 ‘더 나은’와 ‘더 많은’은 각각 별도의 문제로 존재한다. 즉, 더 많은 주석을 얻을 수 있는 방법은 아마존 메카니컬 터크(AMT)와 같은 최저 임금 경제를 통해 얻을 수 있다. 그러나, 이러한 잠재적으로剝削的な 하위 경제는 빈번하게 열등한 결과를 낳는다.

대안으로, 주석 작업을 동일한 지출로 더 많은 주석을 얻을 수 있는 경제 지역에 아웃소싱할 수 있다. 그러나, 주석자가 모델의 의도된 사용 사례에서 더 멀리 떨어질수록, 그들의 레이블이 모델의需求이나 기대와 일치할 가능성이 낮아진다.

따라서 이것은 기계 학습 개발의 경제학에서 가장 지속적이고 해결되지 않은 도전 중 하나로 남아 있다.