인공지능

더 나은 기계 학습 성능을 위한 CNN 기반 이미지 리사이징

Published August 19, 2021

Updated April 28, 2026

Martin Anderson

Google Research는 이미지 기반 컴퓨터 비전 훈련 워크플로의 효율성과 정확성을 개선하기 위해 새로운 방법을 제안했습니다. 이 방법은 데이터 세트의 이미지들을 전처리 단계에서 축소하는 방식을 개선하는 것입니다.

논문 컴퓨터 비전 작업을 위한 이미지 리사이징 학습에서 연구자 Hossein Talebi와 Peyman Milanfar는 CNN을 사용하여 새로운 하이브리드 이미지 리사이징 아키텍처를 생성했습니다. 이 아키텍처는 4개의 인기 있는 컴퓨터 비전 데이터 세트에서 인식 결과를 개선하는 데显著한 향상을 보여주었습니다.

인식과 리사이징을 위한 제안된 공동 프레임워크 Source: https://arxiv.org/pdf/2103.09950.pdf

이 논문은 자동화된 기계 학습 파이프라인에서 사용되는 현재 리사이징/리사이징 방법이 수십 년 전의 것이라는 것을 관찰하며, 기본적인 바이리니어, 바이큐빅 및 가장 가까운 이웃 리사이징 방법을 사용한다는 것을 지적합니다. 이러한 방법은 모든 픽셀을 차별없이 처리합니다.

반면에, 제안된 방법은 이미지 데이터를 CNN을 통해 증강시키고, 그 입력을 최종적으로 모델의 아키텍처를 통과할 리사이즈된 이미지에 통합합니다.

AI 훈련의 이미지 제약

이미지를 다루는 모델을 훈련하려면, 다양한 크기, 색상 공간 및 해상도의 이미지(훈련 데이터 세트에 기여하는 이미지)를 포함하는 전처리 단계가 필요합니다. 이 단계에서는 이미지들을 일관된 차원과 안정적인 단일 형식으로 시스템적으로 자르고 리사이징합니다.

일반적으로 이것은 PNG 형식에서 妥協을 기반으로 하며, 처리 시간/리소스, 파일 크기 및 이미지 품질 사이의 트레이드오프가 설정됩니다.

대부분의 경우, 처리된 이미지의 최종 차원은 매우 작습니다. 아래는 일부 초기 딥페이크 데이터 세트가 생성된 80×80 해상도 이미지의 예입니다:

이것은 일부 초기 딥페이크 데이터 세트가 생성된 80x80 해상도입니다.

顔(또는 기타 가능한 주제물)은 필요한 정사각형 비율에 맞지 않기 때문에, 이미지들을 동질화하기 위해 검은 막대가 추가되거나(또는 낭비된 공간이 허용됨) 실제 사용 가능한 이미지 데이터가 줄어들 수 있습니다:

여기서 얼굴은 더 큰 이미지 영역에서 추출되어 전체 얼굴 영역을 포함할 수 있도록 경제적으로 자릅니다. 그러나 왼쪽에서 볼 수 있듯이, 많은 영역은 훈련 중에 사용되지 않으므로 리사이즈된 데이터의 이미지 품질의 중요성이 더 커집니다.

여기서 얼굴은 더 큰 이미지 영역에서 추출되어 전체 얼굴 영역을 포함할 수 있도록 경제적으로 자릅니다. 그러나 오른쪽에서 볼 수 있듯이, 많은 영역은 훈련 중에 사용되지 않으므로 리사이즈된 데이터의 이미지 품질의 중요성이 더 커집니다.

최근 몇 년 동안 GPU 기능이 향상되면서, 새로운 세대의 NVIDIA 카드가 더 많은 비디오 RAM(VRAM)을 갖추게 되면서, 평균 기여 이미지 크기는 증가하고 있습니다. 그러나 224×224 픽셀은 여전히 표준입니다(예를 들어, ResNet-50 데이터 세트의 크기입니다).

리사이징되지 않은 224×244 픽셀 이미지.

VRAM에 배치하기

이미지를 동일한 크기로 만들어야 하는 이유는 그라디언트 디센트를 사용하여 모델을 개선하기 때문입니다. 그라디언트 디센트는 균일한 훈련 데이터를 필요로 합니다.

이미지를 så 작게 만들어야 하는 이유는 훈련 중에 배치로 로드(완전히 압축 해제)되어야 하기 때문입니다. 일반적으로 6~24개의 이미지로 구성된 작은 배치입니다. 배치당 이미지 수가 너무 적으면, 모델이 일반화하기에 충분한 그룹 자료가 없으며, 훈련 시간도 길어집니다. 너무 많으면, 모델이 필요한 특징과 세부 사항을 얻지 못할 수 있습니다(아래 참조).

이 ‘실시간 로딩’ 섹션은 훈련 아키텍처의 잠재 공간이라고 합니다. 여기서 특징이 반복적으로 동일한 데이터(즉, 동일한 이미지)에서 추출되며, 모델이 일반화된 지식을 얻을 때까지 지속됩니다.

이 프로세스는 일반적으로 며칠이 걸리지만, 유용한 일반화를 달성하기 위해 24/7로 지속적인 고용량의 사고를 통해 한 달 이상이 걸릴 수 있습니다. VRAM 크기의 증가도 유용하지만, 이미지 해상도의 작은 증가가 처리 능력에 큰 영향을 미칠 수 있으며, 항상 유리한 영향을 미치지 않을 수 있습니다.

더 큰 VRAM 용량을 사용하여 더 큰 배치 크기를 수용하는 것도 복합적인 축복입니다. 더 빠른 훈련 속도를 얻을 수 있지만, 더 정밀한 결과가 아닐 수 있습니다.

따라서 훈련 아키텍처가 så 제한적이기 때문에, 기존 파이프라인의 제한 내에서 개선을 효과적으로 할 수 있는 모든 것이 주목할 만한 성과입니다.

우수한 다운사이징의 도움

훈련 데이터 세트에 포함될 이미지의 궁극적인 품질은 훈련 결과에 긍정적인 영향을 미치는 것으로 입증되었습니다. 특히 객체 인식 작업에서 그렇습니다. 2018년 Max Planck Institute for Intelligent Systems의 연구자들은 리샘플링 방법의 선택이 훈련 성능과 결과에 영향을 미친다고 주장했습니다.

또한 Google의 이전 연구(새 논문의 저자와 공동으로 작성됨)에서는 분류 정확도를 개선하기 위해 데이터 세트 이미지의 압축 아티팩트를 제어하는 것이 중요하다는 것을 발견했습니다.

Google Research가 제안한 다운샘플링 알고리즘의 CNN 아키텍처

새로운 리샘플러에 내장된 CNN 모델은 바이리니어 리사이징과 ‘스킵 커넥션’ 기능을 결합하여, 훈련된 네트워크의 출력을 리사이즈된 이미지에 통합할 수 있습니다.

일반적인 인코더/디코더 아키텍처와 달리, 새로운 제안은 피드포워드 병목 현상을 넘어서, 업스케일링을 任意 크기 및/또는 종횡비로 수행할 수 있는 역병목 현상으로도 작동할 수 있습니다. 또한, ‘표준’ 리샘플링 방법은 Lanczos와 같은 다른 적절한 전통적인 방법으로 대체될 수 있습니다.

고주파 세부 사항

새로운 방법은 훈련 프로세스에서 궁극적으로 인식될 키 특징을 소스 이미지에 직접 ‘구워’ 넣는 효과를 낸다. 미적 관점에서 결과는 비정상적이다:

새로운 방법을 네트워크에 적용한 결과 – Inception V2; DenseNet-121; ResNet-50; 및 MobileNet-V2. Google Research의 이미지 다운샘플링/리사이징 방법의 결과는 훈련 프로세스에서 인식될 키 특징을 예상하면서, 명확한 픽셀 집적을 나타냅니다.

연구자들은 이러한 초기 실험이 이미지 인식 작업에만 최적화되어 있으며, 그들의 CNN 기반 ‘학습된 리사이저’가 이러한 작업에서 오류率를 개선할 수 있었다고 언급합니다. 연구자들은 향후 이 방법을 다른 유형의 이미지 기반 컴퓨터 비전 애플리케이션에 적용할 계획입니다.

Martin Anderson

기계 학습 작가, 인간 이미지 합성 도메인 전문가. Metaphysic.ai의 연구 콘텐츠 책임자 출신.
개인 사이트: martinanderson.ai
연락처: [email protected]
트위터: @manders_ai

Unite.AI

더 나은 기계 학습 성능을 위한 CNN 기반 이미지 리사이징

AI 훈련의 이미지 제약

VRAM에 배치하기

우수한 다운사이징의 도움

고주파 세부 사항

You may like