Connect with us

Anderson의 관점

생성형 AI 성능을 오염시키는 ‘불량’ 데이터

mm
Flux Dev, Firefly.

새 연구에 따르면, AI 모델 훈련에 사용되는 많은 인기 이미지 데이터셋이 테스트 이미지나 거의 동일한 복제본으로 오염되어 있어, 모델이 학습 대신 답을 암기함으로써 부정행위를 할 수 있게 합니다. 이러한 누출은 광범위하지만 일반적으로 감지되지 않아, 점수를 조용히 부풀리고 웹 규모 데이터로 훈련된 모델에 불공정한 이점을 제공합니다.

 

운전 시험을 볼 때, 일반적으로 시험에 사용될 정확한 도로를 미리 알려주지 않습니다. 만약 알게 된다면 (그리고 약간 성실함이 부족하다면), 더 넓은 운전 기술을 개발하기보다는 그 경로를 반복적으로 연습함으로써 시험에 ‘최적화’할 수도 있을 것입니다. 그렇게 하면 어떤 경로라도 합리적으로 잘 처리할 수 있는 능력을 키우는 대신 말이죠.

머신러닝 모델 훈련에서, 이는 테스트 분할에 대한 합리적인 비유입니다 – 훈련 세트 데이터를 (보통) 모델 훈련에 사용될 데이터에 70%, 나머지 30%는 ‘실제 환경’ 데이터로 사용되도록 나누는 것을 말합니다.

실제 환경 데이터는 모델이 본 적이 없기 때문에, 모델이 그 데이터에서 잘 수행된다면 효과적이고 성능이 좋다고 가정할 수 있습니다. 그렇지 않다면, 모델이 균형 잡힌 세트에 과적합되었거나, 데이터에 추가적인 정제와 정의가 필요했을 수 있습니다.

어느 쪽이든, 모델을 그들의 훈련 데이터로 평가하지 않는 것이 현재 AI 연구 개발 방법론의 초석입니다.

똑같이 다시, 부탁합니다

일본의 새로운 연구 논문에 따르면, 컴퓨터 비전 및 생성형 AI 연구 부문은 테스트 데이터가 훈련 데이터를 오염시키지 않도록 보장하기 위한 LLM 연구자들의 노력에 비해 훨씬 뒤떨어져 있습니다. 연구자들의 테스트에서, 그들이 연구한 모든 초대규모 비전 데이터셋은, 현재 가장 큰 생성형 AI 시스템 일부를 구동하는 데이터셋들을 포함하여, 어느 정도 테스트 데이터가 훈련 데이터로 넘어가는 것을 허용했습니다. 이는 이러한 분할로 훈련된 모델들의 벤치마크와 성능 보고서가 시험장에 컨닝페이퍼를 몰래 가져간 사람의 시험 결과보다 더 정확하지 않을 것이며, 진정으로 새로운 데이터에 대한 실제 세계 성능을 반영하지 않을 것임을 의미합니다.

연구자들이 발견한 데이터의 교차 오염 사례. 중복 또는 거의 중복된 데이터 포인트가 훈련 및 테스트 데이터 모두에 존재합니다. Source: https://arxiv.org/pdf/2508.17416

연구자들이 발견한 데이터의 교차 오염 사례. 중복 또는 거의 중복된 데이터 포인트가 훈련 및 테스트 데이터 모두에 존재합니다. Source: https://arxiv.org/pdf/2508.17416

위 이미지에서, 새로운 논문에서 우리는 다양한 모델의 핵심 훈련 데이터와 테스트 데이터 모두에서 발견된 중복 또는 거의 중복된 데이터 포인트의 예시를 봅니다. 이는 그 데이터에 대한 모델의 성능을 무효화하고, 전반적인 점수를 약간 부풀리기에 충분하여, 모델이 실제로 달성하지 못했을 수 있는 수준의 일반화가 이루어진 것처럼 보이게 합니다.

문제를 더 복잡하게 만드는 것은, 이 오염이 다양한 가능한 시나리오에서 발생하는 것처럼 보인다는 점입니다. 여기에는 ‘사전 훈련‘도 포함되는데, 이는 이전 조상 모델들의 가중치를 사용하여 새로운 모델을 ‘시동’ 거는 과정입니다. 상류의 오래된 모델이 사전 훈련 중인 새로운 데이터셋과 동일한 데이터 일부를 가지고 있다면, 70/30 또는 80/20 분할이 깨끗하더라도 교차 오염이 발생할 수 있습니다.

누적 효과

이는 가장 최신의 데이터셋에서도 거의 확실히 발생할 것입니다: 비전/언어 데이터셋의 범위는 지난 5년간 엄청나게 성장했으며, 웹의 최신 이미지 데이터뿐만 아니라, 그 오래된 역사적 데이터셋들을 채웠던 동일한 데이터의 상당 부분을 다시 수집하고 있습니다.

더욱이, 수십억 장의 이미지에서 중복 및 거의 중복된 이미지를 탐색하고 필터링하도록 설계된 자동화된 루틴은 이제 너무나 힘든 작업에 직면해 있어, 정제 작업 자체 – 시간과 비용 측면에서의 비용 – 이 이제 예산 제한의 맥락에서 고려되어야 합니다.

한편, 이미지 중복은 Common Crawl과 같은 대규모 컬렉션 뒤에 있는 임시적인 웹 탐색의 불가피한 결과입니다. 이는 이미지 재게시 및 재압축, 자르기와 같은 편집 적용, 그리고 (예를 들어, 허가 없이 사용된 이미지를 탐지하지 못하도록) 뒤집기까지 하는 일반적인 관행 때문입니다.

저자들은 다음과 같이 언급합니다*:

‘데이터 누출은 대부분의 시각 데이터셋에 널리 퍼져 있는 문제입니다. 누출은 모델의 일반화 능력을 흐릴 수 있으며, 이는 서로 다른 데이터셋으로 훈련된 모델을 비교할 때 특히 문제가 되어 불공정한 비교로 이어집니다.

‘우리는 데이터셋 설계자들이 이러한 평가의 함의를 신중히 고려할 것을 촉구합니다. 더 공정한 모델 평가를 위해, 우리는 하드 및 소프트 누출을 모두 고려하는 중복 탐지기 사용을 권장합니다.

‘이상적으로는, 누출된 이미지는 훈련 세트에서 제거되어야 하며, 가능하지 않다면 적어도 테스트 세트에서는 제거되어야 합니다.’

이 논문은 연구자들이 대규모이고 인기 있는 데이터셋들에 대해 수행한 여러 테스트에 대해 자세히 설명합니다 – 그 중 단 하나도 오염이 없는 데이터셋은 없었습니다.

새 논문의 제목은 Data Leakage in Visual Datasets이며, 오사카 대학교의 세 명의 연구자로부터 나왔습니다.

방법

논문의 저자들은 누출을 세 가지 차원으로 정의합니다: 양식, 범위, 그리고 정도.

양식은 이미지만 누출되었는지, 아니면 이미지와 레이블이 모두 노출되었는지를 구분합니다. 범위는 중복이 동일한 데이터셋 내에서 발생하는지 아니면 다른 데이터셋 간에 발생하는지를 식별합니다. 그리고 정도는 중복된 콘텐츠가 정확히 동일한지 아니면 단지 유사한지를 정의합니다.

누출에 대해, 이 연구에서 고려된 두 가지 시나리오는 데이터셋 내 누출 (평가 이미지가 동일한 데이터셋의 훈련 분할에 다시 나타나는 경우)과 데이터셋 간 누출 (한 데이터셋의 평가 이미지가 훈련에 사용된 다른 데이터셋에 존재하는 경우)입니다.

정도에 대해 정의된 두 가지 수준은 소프트 누출 (이미지가 동일하지는 않지만 사소한 변형을 보이는 경우)과 하드 누출 (이미지가 훈련과 평가에서 정확히 동일한 경우)입니다.

연구자들은 이미지 검색 측면에서 누출 탐지를 다루며, 이미지 인코더를 사용하여 각 이미지를 특징 벡터로 표현합니다. 쿼리 세트는 평가 데이터이고, 컬렉션은 훈련 세트입니다.

더 작은 데이터셋의 경우, 모든 쿼리 벡터를 코사인 유사도를 사용하여 모든 훈련 벡터와 직접 비교했습니다. 더 큰 데이터셋의 경우, 더 빠른 K-최근접 이웃 (KNN) 검색을 가능하게 하기 위해 Faiss 인덱스를 구축했습니다.

인코더가 미묘한 유사성을 감지할 수 있을 만큼 충분한 시각 정보를 포착해야 하지만, 매우 많은 양의 데이터를 처리할 때 여전히 효율적이어야 하기 때문에, 저자들은 Stable Diffusion 및 이후 프로젝트들의 기반이 되는 LAION 컬렉션의 경우, 데이터셋 제작자가 제공한 사전 계산된 CLIP 특징에 의존했습니다.

저자들은 CLIP이 데이터셋에 대한 자신의 정제된 이해를 사용하도록 허용하는 것이 (대규모로 실제 파일을 조사하는 대신) 프로세스를 상당히 가속화하고 비교 간 일관성을 향상시켰다고 언급합니다.

데이터 및 테스트

새 연구의 테스트에 사용된 CLIP 이미지 인코더는 LAION을 선별하는 데 원래 사용된 기본 CLIP ViT-B/32 였습니다. 다양한 이미지들이 서로 관련이 있는지 확인하기 위해, AutoFaiss 하에서 KNN이 사용되었습니다.

데이터셋은 세 가지 유형으로 그룹화되었습니다: 사전 훈련 데이터셋 – 일반적인 모델 훈련에 사용되는 대규모 웹 스크랩 컬렉션; 훈련 데이터셋 – 직접 모델 튜닝을 위한 더 작고, 종종 주석이 달린 컬렉션; 그리고 벤치마크 데이터셋 – 수동으로 주석이 달리고 평가 전용으로 사용되는 데이터셋.

분석은 7개 데이터셋의 20개 분할을 다루었습니다: Microsoft COCO는 훈련 및 평가 세트로 사용되었으며, 훈련, 검증, 테스트 및 레이블 없는 분할을 포함했습니다. Flickr30k는 전적으로 벤치마크로 사용되었습니다. 그리고 Google Conceptual Captions (GCC) 컬렉션은 사전 훈련 소스로 취급되었으며, 그 검증 부분도 평가에 사용되었습니다.

추가적으로, ImageNet은 훈련 및 벤치마킹 모두에 사용되었으며, LAION-400M 데이터셋은 사전 훈련 전용으로 사용되었습니다.

OpenImages v4는 훈련 및 벤치마크 데이터를 제공했고, TextCaps는 평가를 위한 훈련 및 테스트 분할을 모두 제공했습니다.

새 연구에서 검토된 Google의 Open Images 데이터셋의 이미지 주석 예시. Source: https://arxiv.org/pdf/1811.00982

새 연구에서 검토된 Google의 Open Images 데이터셋의 이미지 주석 예시. Source: https://arxiv.org/pdf/1811.00982

이미지가 크기 조정, 자르기 또는 유사한 비의미적 변환을 통해 미묘하게 변경되었을 때 방법이 누출을 얼마나 잘 감지할 수 있는지 평가하기 위해, 저자들은 Flickr30k에서 테스트를 수행했으며, 5,000개의 이미지를 무작위로 선택하여 쿼리로 사용하고 전체 데이터셋을 참조 컬렉션으로 사용했습니다.

각 쿼리 이미지는 인코딩되기 전에 변환되었습니다 (즉, 크기 조정 또는 자르기와 같은 비의미적 수정을 가함). 그런 다음 코사인 유사도를 사용하여 컬렉션에서 가장 유사한 항목과 매칭되었습니다. 원본 이미지가 최상위 결과로 검색된 경우에만 매치로 간주되었습니다.

비교된 세 가지 인코더는 ResNet-152; DINOv2 ViT-B/14; 그리고 CLIP ViT-B/32였습니다.

네 가지 유형의 비의미적 이미지 변환이 사용되었습니다: 기하학적 (뒤집기 및 회전); 자르기 (각 가장자리에서 20, 50 또는 100픽셀 제거); 픽셀화 (가우시안 블러, 노이즈 추가, 또는 128 또는 256픽셀로 다운샘플링); 그리고 색상 (회색조, 반전, 또는 빨강, 초록, 파랑 오버레이).

보충 자료에서, 데이터에 적용된 변환의 예시 – 데이터 증강 전처리에서도 일반적인 루틴입니다.

보충 자료에서, 데이터에 적용된 변환의 예시 – 데이터 증강 전처리에서도 일반적인 루틴입니다.

저자들은 그 다음 이미지 검색에서 누출을 테스트했습니다:

[caption id=”attachment_222193″ align=”alignnone” width=”743

Writer on machine learning, domain specialist in human image synthesis. Former head of research content at Metaphysic.ai.
Personal site: martinanderson.ai
Contact: [email protected]
Twitter: @manders_ai