인공지능

디즈니 연구소, 개선된 AI 기반 이미지 압축 제공 – 그러나 세부 사항이 환상적으로 나타날 수 있음

Published October 30, 2024

Updated April 27, 2026

Martin Anderson

Detail for the supplementary Disney paper – source: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf

디즈니 연구소의 연구 부문은 Stable Diffusion V1.2 모델을 사용하여 경쟁하는 방법보다 더 낮은 비트율에서 더 현실적인 이미지를 생성하는 새로운 이미지 압축 방법을 제공하고 있습니다.

디즈니 압축 방법과 이전 접근 방식의 비교. 저자는 세부 사항의 개선된 회복을 주장하며, 수백만 달러의 훈련이 필요하지 않으며, 가장 가까운 동일한 경쟁 방법보다 빠르게 작동하는 모델을 제공합니다. 출처: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf

새로운 접근 방식(전통적인 코드크인 JPEG 및 AV1와 비교하여 복잡성이 증가한 ‘코덱’으로 정의됨)은 모든 Latent Diffusion Model(LDM)에서 작동할 수 있습니다. 정량적 테스트에서 이전 방법보다 정확도와 세부 사항에서 우수함을 보여주며, 훈련과 컴퓨팅 비용이 훨씬 적게 듭니다.

새로운 연구의 핵심 아이디어는 양자화 오차(모든 이미지 압축에서 중심 과정인 양자화 오차)가 노이즈(확산 모델에서 중심 과정인 노이즈)와 유사하다는 것입니다.

따라서 ‘전통적으로’ 양자화된 이미지는 원본 이미지의 노이즈 버전으로 처리되어 대상 비트율에서 이미지를 재구성하는 대신 확산 모델의 노이즈 제거 프로세스에서 사용될 수 있습니다.

새로운 디즈니 방법(초록색으로 표시됨)과 경쟁 방법의 비교.

저자는 주장합니다:

‘[우리는] 양자화 오차 제거를 노이즈 제거 작업으로 공식화하고, 전송된 이미지 잠재에서 손실된 정보를 회복하기 위해 확산을 사용합니다. 우리의 접근 방식은 전체 확산 생성 프로세스의 10% 미만을 수행하도록 허용하고, 백본에 대한 추가적인 세부 튜닝 없이 강력한 이전 지식을 사용할 수 있도록 확산 모델에 대한 구조적 변경이 필요하지 않습니다. ‘

‘우리의 제안된 코덱은 이전 방법보다 정량적 현실성 지표에서 우수하며, 우리의 재구성이 다른 방법이 두 배의 비트율을 사용하는 경우에도 사용자에 의해 질적으로 선호되는 것을 확인했습니다.’

그러나 확산 모델의 압축 기능을 활용하려는 다른 프로젝트와 마찬가지로, 출력은 세부 사항을 환상적으로 나타낼 수 있습니다. 대조적으로, JPEG와 같은 손실 압축 방법은 명확하게 왜곡되거나 세부 사항이 부드럽게 처리된 영역을 생성할 것입니다.

대신에 디즈니의 코덱은 원본 이미지에 없는 컨텍스트에서 세부 사항을 변경할 수 있습니다. 이는 일반적으로 대규모 데이터에 훈련된 모델에서 사용되는 Variational Autoencoder(VAE)의 거친 성질 때문입니다.

‘다른 생성 접근 방식과 마찬가지로, 우리의 방법은 이미지 특징을 버리면서 수신기 측에서 유사한 정보를 합성할 수 있습니다. 특정 경우에 이로 인해 부정확한 재구성이 발생할 수 있습니다. 예를 들어, 직선을 구부리거나 작은 물체의 경계를 왜곡할 수 있습니다. ‘

‘이러한 문제는 우리가 기반으로 하는 기초 모델의 잘 알려진 문제로, 이는 상대적으로 낮은 특징 차원으로 인해 발생합니다.’

이 문제는 예술적 묘사와 사물의 사실성에 영향을 미칠 수 있지만, 증거, 얼굴 인식, OCR 스캔 등과 같은 중요한 정보를 구성하는 작은 세부 사항이 있는 경우 더 심각한 영향을 미칠 수 있습니다.

이러한 모든 시나리오는 아직 미래의 일입니다. 그러나 이미지 저장은 데이터 저장, 스트리밍, 전력 소비 등과 관련된 전 세계적인 도전입니다. 따라서 AI 기반 압축은 정확성과 물류 간의 매력적인 트레이드오프를 제공할 수 있습니다. 역사적으로 최고의 코덱은 사용자 기반에서 항상 승리하지는 않습니다. 라이선스와 제한적 형식의 시장 점유 등이 채택에 영향을 미치는 요인입니다.

디즈니는 오랫동안 기계 학습을 압축 방법으로 실험해 왔습니다. 2020년에 새로운 논문의 한 연구자는 비디오 압축을 개선하기 위한 VAE 기반 프로젝트에 참여했습니다.

새로운 디즈니 논문은 10월 초에 업데이트되었습니다. 오늘 회사에서 관련 유튜브 비디오를发布했습니다. 이 프로젝트는 기초 확산 모델을 사용한 손실 이미지 압축으로 제목이 붙여졌으며, 디즈니의 AI 기반 프로젝트와 관련된 ETH 취리히의 4명의 연구자와 디즈니 연구소의 연구자들이 참여했습니다. 연구자들은 또한 보충 논문을 제공합니다.

방법

새로운 방법은 이미지를 압축된 잠재 표현으로 인코딩하기 위해 VAE를 사용합니다. 이 단계에서 입력 이미지는 파생된 특징으로 구성됩니다. 잠재 임베딩은 затем 비트스트림으로 양자화되고, 다시 픽셀 공간으로 변환됩니다.

이 양자화된 이미지는 일반적으로 확산 기반 이미지에서 시드하는 노이즈의 템플릿으로 사용됩니다. 여기서 노이즈 제거 단계의 수는 조정할 수 있습니다(여기서 노이즈 제거 단계가 증가할수록 정확도가 높아지지만, 효율성은 낮아집니다).

새로운 디즈니 압축 방법의 스키마.

양자화 매개변수와 노이즈 제거 단계의 총 수는 새로운 시스템에서 제어될 수 있습니다. 이는 이러한 인코딩 측면과 관련된 변수를 예측하는 신경망을 훈련함으로써 수행됩니다. 이 프로세스를 적응형 양자화라고 하며, 디즈니 시스템은 이 절차를 구동하는 엔트로포머 프레임워크를 사용합니다.

저자는 다음과 같이 말합니다:

‘直관적으로, 우리의 방법은 확산 프로세스 동안 합성할 수 있는 정보(양자화 변환을 통해)를 버립니다. 양자화 중에 도입된 오류는 노이즈를 추가하는 것과 유사하며, 확산 모델은 기능적으로 노이즈 제거 모델이므로, 코딩 중에 도입된 양자화 노이즈를 제거하는 데 사용할 수 있습니다.’

Stable Diffusion V2.1은 시스템의 확산 백본입니다. 코드와 기본 가중치가 모두 공개적으로 사용할 수 있기 때문에 선택되었습니다. 그러나 저자는 자신의 스키마가 더 많은 모델에 적용될 수 있다고 강조합니다.

이 프로세스의 경제학에서 중요한 것은 시간 단계 예측입니다. 이는 효율성과 성능 사이의 균형을 이루는 최적의 노이즈 제거 단계 수를 평가합니다.

최적의 노이즈 제거 단계가 빨간색 테두리로 표시된 시간 단계 예측. 정확한 해상도를 참조하려면 소스 PDF를 참조하십시오.

잠재 임베딩中的 노이즈 양을 고려해야 합니다. 이를 통해 노이즈 제거 단계의 최적의 수를 예측할 수 있습니다.

데이터 및 테스트

모델은 Vimeo-90k 데이터셋에서 훈련되었습니다. 각 에포크(즉, 모델 훈련 아키텍처에 의해 데이터셋의 정련된 버전의 완전한 摂取)마다 이미지들은 256x256px로 무작위로 자르졌습니다.

모델은 300,000 단계에서 1e-4의 학습률로 최적화되었습니다. 이는 컴퓨터 비전 프로젝트에서 가장 일반적이며, 또한 일반화와 세부 사항의 재현 사이의 妥協点입니다.

저자는 다음과 같이 말합니다:

‘훈련 중에 확산 모델을 여러 번 통과하는 그라디언트를 역전파시키는 것은 금지적으로 비용이 많이 듭니다. 따라서 우리는 단 하나의 DDIM 샘플링 반복만 수행하고 직접 완전히 노이즈 제거된 데이터로 사용합니다.’

시스템을 테스트하기 위해 사용된 데이터셋은 Kodak; CLIC2022; 및 COCO 30k이었습니다. 데이터셋은 2023년 Google 제안에서 설명된 방법론에 따라 사전 처리되었습니다.

사용된 지표는 피크 신호 대 노이즈 비율(PSNR); 학습된 지각적 유사성 지표(LPIPS); 다중 스케일 구조 유사성 지수(MS-SSIM); 및 프레シェ 인셉션 거리(FID)입니다.

경쟁 이전 프레임워크는 GAN을 사용하는 이전 시스템과 확산 모델을 기반으로 하는 최근 프레임워크로 나뉘어졌습니다. 테스트된 GAN 시스템은 High-Fidelity Generative Image Compression(HiFiC); 및 ILLM(이후 HiFiC의 일부 개선 사항을 제공)입니다.

확산 기반 시스템은 조건부 확산 모델을 사용한 손실 이미지 압축(CDC) 및 스코어 기반 생성 모델을 사용한 고화질 이미지 압축 (HFD)입니다.

다양한 데이터셋에 대한 이전 프레임워크와의 정량적 결과.

정량적 결과(위에 시각화됨)에 대해 연구자들은 다음과 같이 말합니다:

‘우리의 방법은 재구성된 이미지의 현실성에서 새로운 최첨단을 설정하며, 모든 기준선에서 FID-비트율 곡선에서 우수합니다. 일부 왜곡 지표(특히 LPIPS 및 MS-SSIM)에서 우리는 모든 확산 기반 코덱을 능가하면서 가장 높은 성능의 생성 코덱과 경쟁합니다. ‘

‘기대대로, 우리의 방법과 다른 생성 방법은 PSNR에서苦労합니다. 우리는 정확한 세부 사항의 복제보다 지각적으로 즐거운 재구성을 선호합니다.’

사용자 연구를 위해 2개의 대안을 강제하는(2AFC) 방법을 사용했습니다. 여기서 선호되는 이미지는 이후 라운드에 진행됩니다. 연구는 체스 토너먼트에 처음 개발된 Elo 등급 시스템을 사용했습니다.

따라서 참가자는 다양한 생성 방법에 대한 512x512px 이미지 중 더好的 이미지를 선택했습니다. 추가 실험은 참가자가 모든 이미지 비교를 평가하는 것을 포함했습니다. 이는 10,000회 반복으로 몬테 카를로 시뮬레이션을 통해 수행되었습니다.

사용자 연구에 대한 추정 Elo 등급, 비교별 Elo 토너먼트(왼쪽) 및 참가자별로 표시됨, 더 높은 값이 더 좋습니다.

여기서 저자는 다음과 같이 말합니다:

‘Elo 점수를 볼 수 있듯이, 우리의 방법은 다른 모든 방법을 크게 능가하며, 이는 우리의 방법이 평균적으로 두 배의 비트를 사용하는 CDC와 비교하여도 마찬가지입니다. 이는 사용된 Elo 토너먼트 전략에 관계없이 사실입니다.’

원본 논문과 보충 PDF에서 저자는 추가적인 시각적 비교를 제공합니다. 그러나 이러한 샘플 간의 차이의 세부 사항으로 인해, 우리는 이러한 결과를 공정하게 판단할 수 있도록 독자를 원본 PDF로 안내합니다.

이 논문은 제안된 방법이 CDC(3.49 대 6.87초)보다 두 배 빠르게 작동한다는 사실을 관찰하며, ILLM은 0.27초 안에 이미지를 처리할 수 있지만, 이는 번거로운 훈련을 필요로 합니다.

결론

ETH/디즈니 연구자들은 논문의 결론에서 시스템이 거짓 세부 사항을 생성할 수 있는 잠재력을 명확하게 밝혔습니다. 그러나 제공된 샘플은 이 문제에 집중하지 않습니다.

이 문제는 새로운 디즈니 접근 방식에만 국한되지 않습니다. 이는 이미지 압축에 창의적이고 해석 가능한 아키텍처인 확산 모델을 사용하는 필연적인 결과입니다.

흥미롭게도, ETH 취리히의 다른 두 연구자는 5일 전 논문을 발표했습니다. 이는 이미지 압축을 위한 조건부 환상으로 제목이 붙여졌으며, AI 기반 압축 시스템에서 ‘환상의 최적 수준’의 가능성을 조사합니다.

저자는 다음과 같이 주장합니다:

‘텍스처와 같은 콘텐츠(예: 잔디,雀斑, 돌 벽)의 경우, 주어진 텍스처와 일치하는 픽셀을 생성하는 것이 정확한 세부 사항의 복제보다 더 중요합니다. 텍스처의 분포에서任意의 샘플을 생성하는 것이 일반적으로 충분합니다.’

따라서 이 두 번째 논문은 압축이 정확한 세부 사항의 복제보다 창의적이고 대표적인 것을 선호하는 경우에 최적화되어야 한다고 주장합니다.

사진과 창의적 커뮤니티가 이러한 압축의 재정의에 대해 어떻게 생각할지 궁금합니다.

*저자의 인라인 인용을 하이퍼링크로 변환했습니다.

2024년 10월 30일 처음 게시되었습니다.

Martin Anderson

기계 학습 작가, 인간 이미지 합성 도메인 전문가. Metaphysic.ai의 연구 콘텐츠 책임자 출신.
개인 사이트: martinanderson.ai
연락처: [email protected]
트위터: @manders_ai

Unite.AI

디즈니 연구소, 개선된 AI 기반 이미지 압축 제공 – 그러나 세부 사항이 환상적으로 나타날 수 있음

방법

데이터 및 테스트

결론

You may like