부본 이미지 합성 부문은 결함이 있는 지표를 채택했습니다. 연구 주장 - Unite.AI
Rescale 미팅 예약

인공 지능

이미지 합성 부문은 결함이 있는 메트릭, 연구 주장을 채택했습니다.

mm
업데이트 on

2021년은 이미지 합성 분야에서 전례 없는 발전과 맹렬한 출판 속도의 해였습니다. 신경 렌더링, 딥페이크 및 다수의 참신한 접근법.

그러나 이제 독일의 연구원들은 합성 이미지의 사실성을 자동으로 판단하는 데 사용되는 표준에 치명적인 결함이 있다고 주장합니다. 값 비싼 인간 기반 결과 평가 비용을 줄이기 위해 그것에 의존하는 전 세계 수백, 심지어 수천 명의 연구원들이 막다른 골목으로 향하고 있을 수 있습니다.

표준 방법을 보여주기 위해, Fréchet 시작 거리 (버팀대), 이미지 평가를 위한 인간의 표준까지 측정하지 않기 때문에 연구원들은 FID(현재 공통 메트릭)에 최적화된 자체 GAN을 배치했습니다. 그들은 FID가 이미지 합성과 매우 다른 소관이 있는 기본 코드를 기반으로 자체 강박관념을 따르고 있으며 일상적으로 '인간' 식별 기준을 달성하지 못한다는 것을 발견했습니다.

표준 데이터 세트 및 아키텍처를 사용하여 다양한 모델에서 생성된 이미지에 대한 FID 점수(낮을수록 좋음). 새 논문의 연구원들은 '이 순위에 동의하시겠습니까?'라는 질문을 던집니다. 출처: https://openreview.net/pdf?id=mLG96UpmbYz

표준 데이터 세트 및 아키텍처를 사용하여 다양한 모델에서 생성된 이미지에 대한 FID 점수(낮을수록 좋음). 새 논문의 연구원들은 '이 순위에 동의하시겠습니까?'라는 질문을 던집니다. 출처: https://openreview.net/pdf?id=mLG96UpmbYz

FID가 의도한 작업에 적합하지 않다는 주장과 더불어, 이 논문은 내부 엔진을 경쟁 엔진으로 교체하는 것과 같은 '명백한' 해결책이 한 세트의 편향을 다른 것으로 단순히 교체할 것이라고 제안합니다. 저자들은 이제 합성으로 생성된 사진에서 '진위성'을 평가하기 위한 더 나은 메트릭을 개발하는 것이 새로운 연구 이니셔티브에 속한다고 제안합니다.

XNUMXD덴탈의 종이 제목이 Fréchet Inception Distance의 내부 편향, Saarland에 있는 Max Planck Institute for Informatics의 Steffen Jung과 University of Siegen의 Visual Computing 교수인 Margret Keuper가 제공합니다.

이미지 합성을 위한 스코어링 시스템 검색

새로운 연구에서 언급한 바와 같이 GAN 및 인코더/디코더 아키텍처와 같은 이미지 합성 프레임워크의 발전 속도는 이러한 시스템의 결과를 판단할 수 있는 방법을 앞질렀습니다. 비용이 많이 들고 따라서 확장하기 어려운 것 외에도 이러한 시스템의 출력에 대한 인간 평가는 경험적이고 재현 가능한 평가 방법을 제공하지 않습니다.

따라서 다음을 포함하여 많은 메트릭 프레임워크가 등장했습니다. 시작 점수 (IS), 2016년 종이 GAN 교육을 위한 향상된 기술, GAN 공동 저술 발명자, 이안 굿펠로우.

여러 GAN 네트워크에 광범위하게 적용할 수 있는 측정항목으로서 IS 점수의 불신 2018년 GAN 이미지 합성 커뮤니티에서 FID의 광범위한 채택으로 이어졌습니다. 그러나 Inception Score와 마찬가지로 FID는 Google의 Inception v3 이미지 분류 네트워크 (IV3).

새 논문의 저자는 Fréchet Inception Distance가 IV3에서 손상 편향을 전파하여 신뢰할 수 없는 이미지 품질 분류로 이어진다고 주장합니다.

FID는 판별자(GAN이 잘 작동하는지 또는 '다시 시도'해야 하는지를 결정하는 내장된 '판단')로서 기계 학습 프레임워크에 통합될 수 있으므로 인간이 평가할 때 적용할 표준을 정확하게 나타내야 합니다. 이미지들.

Fréchet 시작 거리

FID는 GAN(또는 유사한 기능) 모델을 생성하는 데 사용되는 훈련 데이터 세트와 해당 시스템의 결과에 걸쳐 기능이 어떻게 분포되어 있는지 비교합니다.

따라서 GAN 프레임워크가 (예를 들어) 유명인의 10,000개 이미지에 대해 훈련되는 경우 FID는 원본(실제) 이미지를 GAN이 생성한 가짜 이미지와 비교합니다. FID 점수가 낮을수록 GAN은 FID의 기준에 따라 '실사적' 이미지에 더 가까워졌습니다.

논문에서 NVIDIA의 매우 인기 있는 FFHQ 데이터 세트의 하위 집합인 FFHQ64에서 훈련된 GAN의 결과입니다. 여기에서 FID 점수는 5.38로 놀라울 정도로 낮지만 결과는 일반 인간에게 만족스럽거나 설득력이 없습니다.

논문에서 NVIDIA의 매우 인기 있는 하위 집합인 FFHQ64에서 훈련된 GAN의 결과 FFHQ 데이터 세트. 여기에서 FID 점수는 5.38로 놀라울 정도로 낮지만 결과는 일반 인간에게 만족스럽거나 설득력이 없습니다.

저자가 주장하는 문제는 Fréchet Inception Distance에 힘을 가하는 Inception v3가 적어도 당면한 작업을 고려할 때 올바른 위치를 조사하지 않는다는 것입니다.

Inception V3는 ImageNet 객체 인식 챌린지, 이미지 합성의 목표가 최근 몇 년 동안 발전한 방식과 상충되는 작업입니다. IV3는 데이터 확대를 수행하여 모델의 견고성에 도전합니다. 이미지를 무작위로 뒤집고 8-100% 사이의 무작위 배율로 자르고 종횡비(3/4에서 4/3 범위)를 변경하고 무작위로 주입합니다. 밝기, 채도 및 대비와 관련된 색상 왜곡.

독일에 기반을 둔 연구원들은 IV3가 색상 및 강도 정보보다 가장자리 및 질감 추출을 선호하는 경향이 있음을 발견했습니다. 따라서 개체 감지의 원래 목적이 부적절한 작업을 위해 부적절하게 격리되었습니다. 저자 상태*:

'[Inception v3]는 색상 및 강도 정보가 아닌 가장자리 및 텍스처를 기반으로 기능을 추출하는 경향이 있습니다. 이것은 색상 왜곡을 도입하지만 고주파수 정보를 그대로 유지하는 확대 파이프라인과 일치합니다(예를 들어 가우시안 블러를 사용한 확대와 대조).

'결과적으로 FID는 이러한 편향을 물려받습니다. 순위 메트릭으로 사용되는 경우 질감을 잘 재현하는 생성 모델이 색상 분포를 잘 재현하는 모델보다 선호될 수 있습니다..'

데이터 및 방법

가설을 테스트하기 위해 저자는 두 개의 GAN 아키텍처를 훈련시켰습니다. DCGAN스낭, NVIDIA의 FFHQ 사람 얼굴 데이터 세트, 64로 다운샘플링됨2 FFHQ64라는 파생 데이터 세트가 있는 이미지 해상도.

세 가지 GAN 훈련 절차를 추구했습니다: GAN G+D, 표준 판별자 기반 회로망; GAN FID|G+D, 여기서 FID는 추가 판별자로 수행됩니다. 및 GAN FID|G. 여기서 GAN은 전적으로 롤링 FID 점수에 의해 구동됩니다.

기술적으로 저자는 FID 손실이 훈련을 안정화하고 잠재적으로 완전히 대체 판별자(#3, GAN FID|G에서와 같이), 인간이 만족스러운 결과를 출력합니다.

실제로 결과는 다소 다릅니다. 저자는 FID 지원 모델이 잘못된 메트릭에 '과적합'한다고 가정합니다. 연구자들은 다음과 같이 언급합니다.

'우리는 생성기가 교육 데이터 분포와 일치하지 않는 부적합한 기능을 생성하는 방법을 학습한다고 가정합니다. 이 관찰은 [GAN FID|G] 의 경우 더욱 심각해집니다. 여기에서 누락된 판별자가 공간적으로 일관되지 않은 특성 분포로 이어진다는 것을 알 수 있습니다. 예를 들어 [SNGAN FID|G]는 대부분 외눈을 추가하고 얼굴 특징을 위압적으로 정렬합니다.'

SNGAN FID|G에서 제작한 얼굴의 예.

SNGAN FID|G에서 제작한 얼굴의 예.

저자는 결론*:

'인간 주석 작성자는 SNGAN FID|G보다 SNGAN D+G에서 생성된 이미지를 확실히 선호하지만(데이터 충실도가 예술보다 선호되는 경우) FID에는 이것이 반영되지 않습니다. 따라서 FID는 인간의 인식과 일치하지 않습니다..

'우리는 이미지 분류 네트워크가 제공하는 식별 기능이 의미 있는 메트릭의 기반을 제공하기에 충분하지 않다고 주장합니다.'

쉬운 대안 없음

또한 작성자는 Inception V3를 유사한 엔진으로 교체해도 문제가 완화되지 않는다는 사실을 발견했습니다. IV3를 '다양한 분류 네트워크의 광범위한 선택'으로 대체하여 이미지넷-C (이미지 합성 프레임워크의 출력 이미지에서 일반적으로 생성되는 손상 및 섭동을 벤치마킹하도록 설계된 ImageNet의 하위 집합) 연구원들은 결과를 크게 개선할 수 없었습니다.

'[편견] Inception v3에 존재하는 것은 다른 분류 네트워크에도 널리 존재합니다. 또한 서로 다른 네트워크가 부패 유형 사이에서 서로 다른 순위를 생성한다는 것을 알 수 있습니다.'

저자는 진행 중인 연구가 이미지 생성기 아키텍처에 대해 더 공정한 순위를 가능하게 할 수 있는 '인간적으로 정렬되고 편향되지 않은 메트릭'을 개발할 것이라는 희망으로 논문을 결론지었습니다.

 

* 저자의 강조.


2년 2021월 1일 오후 2시 GMT+XNUMX에 처음 게시되었습니다.