인공지능

이미지 합성 부문은 결함이 있는 지표를 채택했다고 연구가 주장한다

Published December 20, 2021

Updated April 28, 2026

Martin Anderson

2021년은 이미지 합성 부문에서 전례 없는 발전과 출판 속도가 빠른 한 해였으며, 신경 렌더링, 딥페이크, 새로운 접근 방식 등을 통해 인간의 개성을 재현할 수 있는 기술의 새로운 혁신과 개선을 제공했다.

그러나 독일의 연구자들은 합성 이미지의 현실성을 자동으로 판단하는 표준이 치명적인 결함이 있다고 주장하며, 이 표준에 의존하여 비싼 인간 기반 결과 평가의 비용을 절감하기 위해 전 세계 수백, 수천 명의 연구자가 잘못된 방향으로 가고 있을 수 있다고 말한다.

이 표준, 프레셰 인셉션 거리 (FID)가 인간의 기준에 따라 이미지 평가를 수행하지 못하는 것을 보여주기 위해, 연구자들은 FID를 최적화하여 자신의 GANs를 배포했다. 그들은 FID가 이미지 합성과는 관련이 없는 코드의 기본 목적에 따라 자신의 강박관념을 따르고 있으며, 인간의 기준에 따라 이미지 품질을 분류하는 데 실패한다는 것을 발견했다.

FID 점수(낮을수록 좋음) 다양한 모델에서 생성한 이미지의 표준 데이터셋 및 아키텍처. 새로운 논문의 연구자들은 ‘이 순위를 동의하겠습니까?’라는 질문을 제기한다. 출처: https://openreview.net/pdf?id=mLG96UpmbYz

FID가 의도된 작업에 적합하지 않다는 주장 외에도, 이 논문은 FID의 내부 엔진을 경쟁 엔진으로 교체하는 것과 같은 ‘명백한’ 해결책은 단지 한 집합의 편향을 다른 집합으로 교체할 것이라고 제안한다. 저자들은 이제 더 나은 지표를 개발하여 합성 이미지의 ‘진정성’을 평가하는 새로운 연구 이니셔티브가 필요하다고 제안한다.

논문은 프레셰 인셉션 거리의 내부화된 편향이라고 제목이 붙여져 있으며, 독일의 마ックス 플랑크 컴퓨터 과학 연구소의 스테펜 정과 지겐 대학교의 비주얼 컴퓨팅 교수인 마르그레트 케우퍼가 저술했다.

이미지 합성 점수 시스템의 검색

새로운 연구에 따르면, GAN 및 인코더/디코더 아키텍처와 같은 이미지 합성 프레임워크의 진행은 이러한 시스템의 결과를 판단하는 방법을 따라가지 못했다. 인간의 평가와 마찬가지로, 이러한 시스템의 출력을 평가하는 것은 비용이 많이 들고 따라서 확장하기 어렵다.

따라서 여러 가지 지표 프레임워크가 등장했으며, 2016년 논문 GAN을 위한 개선된 기술에 나오는 인셉션 점수(IS)가 포함되어 있다. GAN의 발명가인 이안 구드펠로우가 공동 저술했다.

2018년 IS 점수가 여러 GAN 네트워크에 대한 광범위하게 적용 가능한 지표로 신뢰할 수 없다는 사실이 밝혀진 후, GAN 이미지 합성 커뮤니티에서는 FID를 널리 채택했다. 그러나 인셉션 점수와 마찬가지로, FID는 구글의 인셉션 v3 이미지 분류 네트워크(IV3)에 기반한다.

새로운 논문의 저자들은 프레셰 인셉션 거리가 IV3의 유해한 편향을 전파하여 이미지 품질의 분류가 불신용할 수 있다고 주장한다.

FID는 기계 학습 프레임워크에 판별기(discriminator)로 통합될 수 있으므로(내장된 ‘판별기’로 GAN이 잘 작동하는지 또는 ‘다시 시도’해야 하는지 결정), 인간이 이미지 평가를 수행할 때 적용하는 기준을 정확하게 나타낼 필요가 있다.

프레셰 인셉션 거리

FID는 GAN(또는 유사한 기능) 모델을 생성하기 위해 사용된 훈련 데이터셋에서 특징이 어떻게 분포하는지와 시스템의 결과를 비교한다.

따라서 GAN 프레임워크가 10,000개의 유명인 이미지(예를 들어)로 훈련된 경우, FID는 원본(실제) 이미지와 GAN에 의해 생성된 가짜 이미지 사이의 차이를 비교한다. FID 점수가 낮을수록, GAN이 사진과 같은 이미지에 더 가까워졌다는 것을 의미한다.

논문에서 FFHQ64, NVIDIA의 매우 인기 있는 FFHQ 데이터셋의 하위 집합에서 훈련된 GAN의 결과. 여기서 FID 점수는 5.38로 낮지만, 결과는 평균 인간에게는 만족스럽거나 설득력 있지 않다.

문제는 IV3의 가정에 의해 프레셉션 거리가 구동되는데, 이는 작업과 관련이 없는 곳을 보고 있다고 주장한다.

인셉션 V3는 이미지넷 객체 인식 챌린지에 훈련되며, 이는 최근 몇 년 동안 이미지 합성이 발전한 방식과는 대조된다. IV3는 데이터 증강을 통해 모델의 강건함을 테스트한다. 즉, 이미지의 방향을 임의로 바꾸고, 8-100% 사이의 임의의 크기로 자르고, 3/4에서 4/3 사이의 범위에서 종횡비를 변경하며, 밝기, 채도 및 대조 度와 관련된 색상 왜곡을 임의로 주입한다.

독일 기반의 연구자들은 IV3가 색상 및 강도 정보보다 경계 및 텍스처를 추출하는 데 편향되어 있음을 발견했으며, 이는 합성 이미지의 진정성에 더 의미 있는 지표가 된다. 또한 IV3의 원래 목적은 객체 감지였으며, 이는 불適절한 작업에 할당되었다고 주장한다. 저자들은 다음과 같이 말한다*:

‘[인셉션 v3]는 색상 및 강도 정보보다 경계 및 텍스처를 기반으로 하는 특징을 추출하는 편향을 가지고 있다. 이는 색상 왜곡을 도입하지만 고주파 수신 정보를 유지하는(예를 들어, 가우시안 블러와 같은) 데이터 증강 파이프라인과 일치한다.

‘따라서 FID는 이 편향을 물려받는다. 랭킹 지표로 사용될 때, 텍스처를 잘 재현하는 생성 모델은 색상 분포를 잘 재현하는 모델보다 선호될 수 있다.’

데이터 및 방법

가설을 테스트하기 위해, 저자들은 두 개의 GAN 아키텍처, DCGAN 및 SNGAN을 NVIDIA의 인간 얼굴 데이터셋인 FFHQ64에서 64^2 이미지 해상도로 다운샘플링하여 훈련시켰다.

세 가지 GAN 훈련 절차가 수행되었다: GAN G+D, 표준 판별기 기반 네트워크; GAN FID|G+D, FID가 추가 판별기로 작동하는 경우; 및 GAN FID|G, GAN이 완전히 롤링 FID 점수로 구동되는 경우.

기술적으로, 저자들은 FID 손실이 훈련을 안정화시키고, 잠재적으로 판별기를 완전히 대체할 수 있으며(3번, GAN FID|G에서와 같이), 인간이 만족하는 결과를 출력할 수 있다고 주장한다.

실제로, 결과는 다르며, 저자들은 FID를 지원하는 모델이 잘못된 지표에 과적합한다고 가정한다. 연구자들은 다음과 같이 말한다:

‘우리는 생성기가 훈련 데이터 분포와 일치하는 적합한 특징을 생성하는 것을 학습한다고 가정한다. 이 관찰은 [GAN FID|G]의 경우 더 심각해진다. 여기서 우리는 공간적으로 일관되지 않은 특징 분포가 나타난다는 것을 알 수 있다. 예를 들어 [SNGAN FID|G]는 대부분 단일 눈과 얼굴 특징을 대담한 방식으로 정렬한다.’

SNGAN FID|G에 의해 생성된 얼굴의 예시.

저자들은 다음과 같이 결론을 내린다*:

‘인간 어노테이터는 분명히 SNGAN D+G에서 생성된 이미지보다 SNGAN FID|G에서 생성된 이미지를 선호할 것이다(데이터 충실도가 예술보다 우선하는 경우). 그러나 우리는 이것이 FID에 반영되지 않는다. 따라서 FID는 인간의 인식과 일치하지 않는다.

‘우리는 이미지 분류 네트워크에서 제공되는 판별 특징이 의미 있는 지표의 기초를 제공하기에 충분하지 않다고 주장한다.’

쉽게 대체할 수 없는 대안

저자들은 또한 IV3를 유사한 엔진으로 교체하면 문제가 완화되지 않는다는 것을 발견했다. 이미지넷-C(이미지 합성 프레임워크에서 생성된 이미지의 출력 오류 및 왜곡을 벤치마크하기 위한 이미지넷의 하위 집합)와 함께 다양한 분류 네트워크를 테스트하여, 다음과 같이 말한다:

‘인셉션 v3에 존재하는 편향은 다른 분류 네트워크에도 널리 존재한다. 또한 우리는 다른 네트워크가 오류 유형 사이에서 다른 순위를 생성할 수 있다고 본다.’

저자들은 논문을 인간과 일치하며 편향되지 않은 지표를 개발하여 이미지 생성기 아키텍처에 대한 공정한 순위를 제공할 수 있는 지속적인 연구를 희망하면서 마무리한다.

* 저자의 강조.

2021년 12월 20일 1시 GMT+2에 처음 게시됨.

Martin Anderson

기계 학습 작가, 인간 이미지 합성 도메인 전문가. Metaphysic.ai의 연구 콘텐츠 책임자 출신.
개인 사이트: martinanderson.ai
연락처: [email protected]
트위터: @manders_ai

Unite.AI

이미지 합성 부문은 결함이 있는 지표를 채택했다고 연구가 주장한다

이미지 합성 점수 시스템의 검색

프레셰 인셉션 거리

데이터 및 방법

쉽게 대체할 수 없는 대안

You may like