부본 GAN의 잠재 공간 매핑의 의도하지 않은 이점 - Unite.AI
Rescale 미팅 예약

인공 지능

GAN의 잠재 공간 매핑의 의도하지 않은 이점

mm
업데이트 on

AI로 생성된 이미지의 품질과 충실도를 개선하려고 노력하는 동안 중국과 호주의 연구원 그룹이 실수로 이미지의 잠재 공간을 대화식으로 제어하는 ​​방법을 발견했습니다. 생식 적대적 네트워크 (GAN) – 영화, 게임, 소셜 미디어, 엔터테인먼트 및 연구 분야의 다른 많은 분야에 혁명을 일으킬 이미지 합성 기술의 새로운 물결 뒤에 숨은 신비한 계산 매트릭스입니다.

프로젝트의 중심 목표의 부산물인 그들의 발견을 통해 사용자는 마치 비디오를 스크러빙하거나 책을 넘기는 것처럼 마우스를 사용하여 임의로 대화식으로 GAN의 잠재 공간을 탐색할 수 있습니다.

연구원이 첨부한 동영상에서 발췌한 내용입니다(기사 끝에 삽입 참조). 사용자가 '잡기' 커서(왼쪽 위)로 변환을 조작하고 있음을 참고하십시오. 출처: https://www.youtube.com/watch?v=k7sG4XY5rIc

연구원이 첨부한 동영상에서 발췌한 것입니다(더 많은 예를 보려면 기사 끝에 삽입 참조). 사용자가 '잡기' 커서(왼쪽 위)로 변환을 조작하고 있음을 참고하십시오. 출처: https://www.youtube.com/watch?v=k7sG4XY5rIc

이 방법은 '히트 맵'을 사용하여 GAN이 동일한 데이터 세트를 수천 번(또는 수십만 번) 실행할 때 이미지의 어떤 영역을 개선해야 하는지 나타냅니다. 히트맵은 GAN에게 어디가 잘못되었는지 알려줌으로써 이미지 품질을 개선하기 위한 것이므로 다음 시도는 더 나아질 것입니다. 그러나 우연히도 이것은 마우스를 움직여 탐색할 수 있는 전체 잠재 공간의 '지도'를 제공합니다.

밝은 색상을 적용하여 주의가 필요한 영역을 나타내는 GradCAM을 통해 공간적 시각적 주의가 강조됩니다. 이러한 샘플은 StyleGan2의 기본 구현으로 연구원의 프로젝트에서 생성됩니다. 출처: https://arxiv.org/pdf/2112.00718.pdf

밝은 색상을 적용하여 주의가 필요한 영역을 나타내는 GradCAM을 통해 공간적 시각적 주의가 강조됩니다. 출처 : https://arxiv.org/pdf/2112.00718.pdf

XNUMXD덴탈의 종이 불렀다. 공간 인식을 높여 GAN 평형 개선, 홍콩 중문 대학과 호주 국립 대학의 연구원들이 제공합니다. 종이 외에도 비디오 및 기타 자료는 프로젝트 페이지에서 찾을 수 있습니다.

이 작업은 초기 단계이며 현재 저해상도 이미지(256×256)로 제한되어 있지만 잠재 공간의 '블랙 박스'를 깨뜨릴 것을 약속하는 개념 증명이며 여러 연구 프로젝트가 망치질하는 시기에 제공됩니다. 이미지 합성에 대한 더 큰 제어를 추구하는 그 문에서.

이러한 이미지는 매력적이지만(이 기사의 끝에 포함된 비디오에서 더 나은 해상도로 더 많은 이미지를 볼 수 있음) 아마도 더 중요한 것은 프로젝트가 이미지 품질을 개선할 수 있는 방법을 찾았고 잠재적으로 학습 중에 GAN에 구체적으로 어디에서 잘못되었는지 알려줌으로써 더 빠르게 수행할 수 있습니다.

그러나, 같은 적군 GAN은 단일 개체가 아니라 권한과 노고 사이의 불평등한 충돌임을 ​​나타냅니다. 연구원들이 이 점에서 어떤 개선을 이루었는지 이해하기 위해 지금까지 이 전쟁이 어떻게 특징지어졌는지 살펴보겠습니다.

발전기의 비참한 곤경

당신이 산 멋진 새 옷이 착취당하는 나라의 착취 공장에서 생산된 것이라는 생각에 사로잡힌 적이 있거나 상사나 클라이언트가 계속해서 '다시 하세요!'라고 말하는 경우. 최근 시도에서 무엇이 잘못되었는지 말하지 않고 발전기 Generative Adversarial Network의 일부입니다.

Generator는 지난 XNUMX년 동안 GAN이 존재하지 않는 사실적인 사람들, 고급 오래된 비디오 게임 4k 해상도로, 그리고 XNUMX년 된 영상 전환 60fps에서 풀 컬러 HD 출력으로, 다른 놀라운 AI ​​참신함 중에서.

비현실적인 사람들의 사진 같은 얼굴을 만드는 것부터 고대 영상을 복원하고 아카이브 비디오 게임을 되살리는 것에 이르기까지 GAN은 지난 몇 년 동안 바빴습니다.

비현실적인 사람들의 사진 같은 얼굴을 만드는 것부터 고대 영상을 복원하고 아카이브 비디오 게임을 되살리는 것에 이르기까지 GAN은 지난 몇 년 동안 바빴습니다.

생성기는 모든 훈련 데이터(존재하지 않는 임의의 사람의 사진을 생성할 수 있는 GAN을 만들기 위한 얼굴 사진 등)를 한 번에 한 장씩, 며칠 또는 몇 주 동안 반복해서 실행합니다. 연구한 실제 사진만큼 설득력 있는 이미지를 생성할 수 있을 때까지.

그러면 생성기가 이전 시도보다 더 나은 이미지를 만들려고 할 때마다 진행 중인지 어떻게 알 수 있습니까?

발전기에는 지옥에서 온 보스가 있습니다.

판별자의 무자비한 불투명성

의 직업 판별 자 원본 데이터에 맞는 이미지를 만드는 데 제대로 수행하지 못했다고 Generator에 알리는 것입니다. 다시 할. Discriminator는 Generator에게 알려주지 않습니다. Generator의 마지막 시도가 잘못되었습니다. 개인적으로 살펴보고 생성된 이미지를 원본 이미지와 비교하고(다시 개인적으로) 이미지에 점수를 할당합니다.

점수는 충분하다. 판별자는 말하는 것을 멈추지 않을 것입니다 '다시 할' 연구 과학자가 끌 때까지 (추가 교육이 더 이상 출력을 향상시키지 않을 것이라고 판단할 때).

이러한 방식으로 건설적인 비판이 없고 메트릭이 수수께끼인 점수로만 무장한 Generator는 이미지의 어떤 부분 또는 측면이 이전보다 더 높은 점수를 얻었는지 무작위로 추측해야 합니다. 이것은 더 높은 점수를 얻을 수 있을 만큼 충분히 긍정적으로 변화하기 전에 더 많은 불만족스러운 경로로 이어질 것입니다.

튜터와 멘토로서의 분별자

새로운 연구에 의해 제공되는 혁신은 본질적으로 Discriminator가 이제 Generator에 표시한다는 것입니다. 이미지의 어떤 부분이 불만족스러웠는지, 생성기가 다음 반복에서 해당 영역에 집중할 수 있고 더 높게 평가된 섹션을 버리지 않을 수 있습니다. 관계의 본질은 전투에서 협력으로 바뀌었습니다.

Discriminator와 Generator 간의 통찰력 차이를 해결하기 위해 연구자들은 다음을 사용했습니다. 그래드캠 Generator의 다음 시도에 대한 시각적 피드백 보조 장치에 대한 Discriminator의 통찰력을 공식화할 수 있는 메커니즘으로 사용됩니다.

새로운 '평형' 훈련 방법을 EqGAN이라고 합니다. 최대 재현성을 위해 연구자들은 기본 설정에서 기존 기술과 방법을 통합했습니다. 스타일Gan2 건축물.

EqGAN의 아키텍처. 생성기의 공간 인코딩은 공간 인코딩 계층(SEL)을 통해 생성기로 다시 인코딩된 공간 히트맵의 임의 샘플(이전 이미지 참조)을 사용하여 Discriminator의 공간 인식에 맞춰집니다. GradCAM은 Discriminator의 어텐션 맵을 생성기에서 사용할 수 있게 만드는 메커니즘입니다.

EqGAN의 아키텍처. 생성기의 공간 인코딩은 공간 인코딩 계층(SEL)을 통해 생성기로 다시 인코딩된 공간 히트맵의 임의 샘플(이전 이미지 참조)을 사용하여 Discriminator의 공간 인식에 맞춰집니다. GradCAM은 Discriminator의 어텐션 맵을 생성기에서 사용할 수 있게 만드는 메커니즘입니다.

GradCAM은 최신 반복에 대한 Discriminator의 비판을 반영하는 히트맵(위 이미지 참조)을 생성하고 이를 Generator에서 사용할 수 있도록 합니다.

모델이 훈련되면 매핑은 이 협력 프로세스의 아티팩트로 남지만 연구원의 프로젝트 비디오(아래 참조)에서 시연된 대화식 방식으로 최종 잠재 코드를 탐색하는 데 사용할 수도 있습니다.

EqGAN

이 프로젝트는 LSUN Cat 및 Churches 데이터 세트를 포함하여 여러 가지 인기 있는 데이터 세트를 사용했습니다. FFHQ 데이터 세트. 아래 비디오에는 EqGAN을 사용한 얼굴 및 고양이 조작의 예도 포함되어 있습니다.

모든 이미지는 StyleGAN256의 공식 구현에서 EqGAN을 교육하기 전에 256×2으로 크기가 조정되었습니다. 이 모델은 Discriminator가 64만 개 이상의 이미지에 노출될 때까지 8개의 GPU에 걸쳐 25개의 배치 크기로 훈련되었습니다.

Frechet Inception Distance로 선택한 샘플에 대한 시스템 결과 테스트(FID), 저자는 Disequilibrium Indicator(DI)라는 메트릭을 설정했습니다. 이 지표는 Discriminator가 생성자에 비해 지식 이점을 유지하는 정도이며 그 격차를 좁힐 목적으로 합니다.

훈련된 XNUMX개의 데이터 세트에서 새로운 지표는 공간 인식을 생성기로 인코딩한 후 FID와 DI 모두에 의해 입증된 개선된 균형과 함께 유용한 하락을 보여주었습니다.

연구원들은 다음과 같이 결론지었습니다.

'우리는 이 작업이 GAN 평형을 재검토하는 더 많은 작업에 영감을 주고 GAN 평형을 조작하여 이미지 합성 품질을 향상시키는 더 많은 새로운 방법을 개발할 수 있기를 바랍니다. 우리는 또한 향후 작업에서 이 문제에 대해 더 많은 이론적 조사를 수행할 것입니다.'

그리고 계속:

'질적 결과는 우리의 방법이 성공적으로 [제너레이터가] 특정 지역에 집중하도록 한다는 것을 보여줍니다. 다양한 데이터 세트에 대한 실험은 우리의 방법이 GAN 훈련의 불균형을 완화하고 전반적인 이미지 합성 품질을 크게 향상시킨다는 것을 검증합니다. 공간 인식이 있는 결과 모델은 또한 출력 이미지의 대화식 조작을 가능하게 합니다.'

프로젝트에 대한 자세한 내용과 GAN의 잠재 공간에 대한 동적 및 대화형 탐색의 추가 예를 보려면 아래 비디오를 살펴보십시오.

공간 인식을 높여 GAN 평형 개선

 

 

11년 12월 4일 오전 2021:XNUMX – GradCAM의 URL 수정 및 주변 참조 정리.