인공지능

ImageNet의 역사적 정확성 평가

Published May 15, 2022

Updated April 28, 2026

Martin Anderson

Google Research와 UC Berkeley의 새로운 연구는 컴퓨터 비전(CV) 연구 분야가 ImageNet 데이터셋과 그 파생물에 대한 의존도를 비판하는 데 기여한다. 수작업 평가를 통해 연구자들은 ImageNet의 다중 레이블 하위 집합 평가에서 최고의 모델이犯하는 오류 중 거의 50%가 실제 오류가 아니라는 것을 발견했다.

연구 논문에서:

‘우리의 분석은 거의 절반의 오류가 실제 오류가 아니며, 새로운 유효한 다중 레이블을 발견하여, 신중한 검토 없이 이러한 모델의 성능을 크게 저평가하고 있음을 보여준다.

‘반면에, 현재 최고의 모델이 여전히 많은 오류(40%)를犯하고 있으며, 인간 검토자에게는 명백한 오류임을 발견했다.’

ImageNet의 역사 전반에 걸친 이미지/텍스트 페어링을 대규모로 평가하는 연구의 고통스러운 접근법을 통해 데이터셋의 잘못된 레이블링, 특히 비숙련 크라우드소싱 작업자에 의한 레이블링이 분야를 왜곡할 수 있는 정도가 밝혀졌다.

최상단 행에는 Mistake Severity의 예시가 있다. 최상단 행의 첫 두 예시에서는 새로운 모델이 단순히 예측 레이블을 잘못 구분한다. 세 번째 예시에서는 새로운 모델이 이전에 누락된 다중 레이블(이미지의 새로운 분류를 다루는 레이블)을 식별한다. 최상단 행의 마지막 이미지에서는 모델의 예측이 모호하다. 이유는 사진이 하이과 파리가 아니기 때문이다. 그러나 평균적인 꿀벌은 Diptera 곤충 목에 속하기 때문에, 이러한 예외는 전문가 어노테이터에게도 거의 발견할 수 없다. 두 번째 행에는 네 가지 종류의 오류 예시가 있다. 출처: https://arxiv.org/pdf/2205.04596.pdf

연구자들은 ImageNet 데이터셋 평가의 역사적인 오류 기록을 검토하기 위해 소수의 전문 평가자를 고용했다. 그 결과, 많은 오류 판정이 실제로 오류가 아니라는 사실을 발견했다. 이는 지난 몇 년 동안 ImageNet 벤치마크에서 많은 프로젝트가 얻은 낮은 점수를 수정할 수 있는 발견이다.

ImageNet이 CV 문화에 정착됨에 따라 연구자들은 정확도 향상이 점점 더 적은 수익을 가져올 수 있으며, 새로운 모델이 기존 레이블 정확성을 넘어서고 새로운 레이블을 제안하는 경우, 본질적으로 비준수를 이유로 처벌받을 수 있다고 주장한다.

‘예를 들어,’ 연구자들은 관찰한다. ‘예측 모델이 미리 구운 베이글이 베이글일 수 있다고 예측하는 경우, 우리가 이 연구에서 검토하는 모델 중 하나를 예로 들 수 있다. 이러한 모델을 왜 벌해야 하는가?’

연구 논문에서, 새로운 모델이 이전 예측과는 다르게 사진의 물체가 이미 베이글임을 시사한다.

크라우드소싱 작업자가 이러한 물체를 식별하는 관점에서, 이것은 의미론적이고 철학적인 난제로, ImageNet의 후속 하위 집합과 반복에서 종종 발생하는 다중 레이블링으로만 해결할 수 있다. 위의 경우, 물체는 실제로 도우와 베이글 모두이다.

연구에서 테스트한 사용자 정의 모델에서 발생한 주요 오류(위)와 미약한 오류(아래). 원본 ImageNet 레이블은 왼쪽 첫 번째 이미지이다.

두 가지 명백한 해결책은 레이블링에 더 많은 자원을 할당하는 것(대부분의 컴퓨터 비전 연구 프로젝트의 예산 제한 내에서 이는 도전이다)과, 연구자들이 강조하는 바와 같이, 데이터셋과 레이블 평가 하위 집합을 정기적으로 업데이트하는 것이다(이는 벤치마크의 역사적인 연속성을 깨뜨리고, 새로운 연구 논문에 대한 등가성과 관련된 자격과 주의를 필요로 할 수 있다).

해결책으로, 연구자들은 ImageNet-Major(ImageNet-M)라는 ImageNet의 새로운 하위 데이터셋을 개발했으며, “오늘날 최고의 모델이 거의 완벽해야 하는 68개의 주요 오류 샘플”로 설명한다.

연구 논문은 When does dough become a bagel? Analyzing the remaining mistakes on ImageNet라는 제목으로, Google Research의 4명과 UC Berkeley의 Sara Fridovich-Keil이 저술했다.

Technical Debt

이 발견은 중요하다. ImageNet의 오류(또는 잘못된 오류)는 16년간의 연구에서 deployable 모델과 오류가 많아 실시간 데이터에 적용할 수 없는 모델 사이의 차이를 나타낼 수 있다. 마지막 마일은 중요하다.

컴퓨터 비전 및 이미지 합성 연구 분야는 ImageNet을 벤치마크 지표로 선택했다. 이는 초기에 많은 연구 주제가 높은 볼륨과 잘 레이블링된 데이터셋을 생성했기 때문이다. 이러한 데이터셋은 당시에는 드물었지만, ImageNet에 대한 테스트는 새로운 프레임워크를 벤치마크하는 데 광범위하게 적용할 수 있는 유일한 역사적인 표준이 되었다.

Method

ImageNet의 “남은 오류”를 찾기 위해, 연구자들은 3억 개의 매개변수를 갖는 표준 ViT 모델(Vit-3B)을 사용했으며, 이는 89.5%의 정확도를 달성할 수 있다. Vit-3B는 JFT-3B에서 사전 훈련되고 ImageNet-1K에서 미세 조정되었다.

ImageNet2012_multilabel 데이터셋을 사용하여, 연구자들은 ViT-3B의 초기 다중 레이블 정확도(MLA)를 96.3%로 기록했으며, 모델은 676개의 명백한 오류를犯했다. 연구자들은 이러한 오류(그리고 Greedy Soups 모델이犯한 오류)를 조사했다.

676개의 남은 오류를 평가하기 위해, 연구자들은 크라우드워커를 피하고, 이러한 유형의 오류가 평균 어노테이터에게 어려울 수 있음을 관찰했다. 대신, 5명의 전문 리뷰어 패널을 구성하고, 각 리뷰어가 한 눈에 예측 클래스, 예측 점수, 그라운드 트루스 레이블 및 이미지를 볼 수 있는 전용 도구를 만들었다.

프로젝트를 위한 UI.

일부 경우에는 패널 간의 분쟁을 해결하기 위해 추가 연구가 필요했으며, Google 이미지 검색을 보조 도구로 사용했다.

‘한 가지 흥미로운 사례에서, 택시 승차권이 표시되지 않은 노란색 택시가 이미지에 나타났다. 우리는 택시가 실제로 택시임을 확인하기 위해 배경의 랜드마크 다리를 식별하여 도시를 위치시키고, 그 도시의 택시에 대한 이미지 검색을 수행했으며, 같은 택시 모델과 번호판 디자인의 이미지를 얻어 모델의 실제 올바른 예측을 검증했다.’

연구의 여러 단계에서 초기 오류 검토 후, 연구자들은 4가지 새로운 오류 유형을 공식화했다: 세부 오류, 예측 클래스가 그라운드 트루스 레이블과 유사한 경우; 세부 오류 및 어휘 외부, 모델이 ImageNet에 없는 클래스의 객체를 식별하는 경우; 가짜 상관관계, 예측 레이블이 이미지의 contexto에서 읽히는 경우; 및 비 원형, 그라운드 트루스 객체가 예측 레이블과 유사하지만, 클래스의 실제 예시가 아닌 경우.

일부 경우에는 그라운드 트루스 자체가 ‘참’이 아니었다:

‘원래 676개의 오류를 검토한 후, 298개는 올바르거나 불분명하거나, 원래 그라운드 트루스가 잘못되거나 문제가 있음을 발견했다.’

다양한 데이터셋, 하위 집합 및 검증 세트에 대한 철저하고 복잡한 실험 후, 연구자들은 연구 대상 모델이 전통적인 기술을 사용하여犯한 ‘오류’ 중 절반 정도에서 올바르다고 판명되었다.

연구 논문은 다음과 같이 결론을 내린다:

‘이 논문에서, 우리는 ViT-3B 및 Greedy Soups 모델이 ImageNet 다중 레이블 검증 세트에서犯하는 모든 남은 오류를 분석했다. ‘

‘전반적으로, 우리는 다음을 발견했다. 1) 큰 정확도 모델이 다른 모델에서犯하지 않은 새로운 예측을 할 때, 거의 절반의 경우 새로운 올바른 다중 레이블이 된다. 2) 더 높은 정확도 모델은 우리의 오류 유형과 심각도에서 명백한 패턴을 보여주지 않는다. 3) 현재 최고의 모델은 인간 평가 다중 레이블 하위 집합에서 최고의 전문가와 거의 일치하거나凌駕한다. 4) 노이즈가 있는 훈련 데이터와 미지정 클래스가 이미지 분류 개선의 효과적인 측정을 제한할 수 있는 요인일 수 있다.’

최초로 게시된 날짜는 2022년 5월 15일입니다.