Connect with us

์ธ๊ฐ„์˜ ์ฃผ๋ชฉ์„ ํ™œ์šฉํ•˜๋ฉด AI ์ƒ์„ฑ ์ด๋ฏธ์ง€์˜ ํ’ˆ์งˆ์„ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๋‹ค

์ธ๊ณต์ง€๋Šฅ

์ธ๊ฐ„์˜ ์ฃผ๋ชฉ์„ ํ™œ์šฉํ•˜๋ฉด AI ์ƒ์„ฑ ์ด๋ฏธ์ง€์˜ ํ’ˆ์งˆ์„ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๋‹ค

mm
An AI-generated image by ChatGPT. Prompt: ' a panoramic image representing salient object detection, featuring a person. The salient heat-map should be clear and obvious, and this illustration should be in the style of results from scientific papers about saliency maps'

중국의 새로운 연구는 Latent Diffusion Models(LDMs) 모델인 Stable Diffusion의 이미지 품질을 개선하는 방법을 제안했다. 이 방법은 이미지의 주목할 만한 영역, 즉 인간의 주목을 끌기 쉬운 영역을 최적화하는 데 중점을 둔다.

전통적인 방법은 이미지 전체를 균일하게 최적화하지만, 새로운 접근 방식은 주목할 만한 영역을 식별하고 우선순위를 부여하는 데 살리언시 감지기를 사용한다. 양적 및 질적 테스트에서 연구자의 방법은 이전의 확산 기반 모델보다 이미지 품질과 텍스트 프롬프트에 대한 충실도에서 우수한 성능을 보였다. 새로운 접근 방식은 100명의 참가자가 참여한 인간 인식 테스트에서 최고의 성적을 얻었다.

자연 선택

살리언시는 인간의 시각에서 필수적인 부분으로, 현실 세계와 이미지에서 정보를 우선순위에 두는 능력을 말한다. 예를 들어, 클래식 아트는 중요한 영역에 더 많은 주목을 할당한다. 이러한 예에서 아티스트의 주목은 중심 주제에 집중되므로 배경이나远景은 더粗略하게 표현된다.

인간 연구에 기반한 기계 학습 방법은 지난 10년 동안 개발되어 이미지의 주목할 만한 영역을 복제하거나 근사화할 수 있다.

๊ฐ์ฒด ๋ถ„ํ• (semantic segmentation)์€ ์ด๋ฏธ์ง€์˜ ํŠน์ง•์„ ์‹๋ณ„ํ•˜๊ณ ๅฏพๅฟœํ•˜๋Š” ์‚ด๋ฆฌ์–ธ์‹œ ๋งต์„ ๊ฐœ๋ฐœํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋  ์ˆ˜ ์žˆ๋‹ค. ์ถœ์ฒ˜: https://arxiv.org/pdf/1312.6034

객체 분할(semantic segmentation)은 이미지의 특징을 식별하고対応하는 살리언시 맵을 개발하는 데 도움이 될 수 있다. 출처: https://arxiv.org/pdf/1312.6034

최근 5년 동안 가장 인기 있는 살리언시 맵 감지기는 2016年的 Gradient-weighted Class Activation Mapping(Grad-CAM)이다. Grad-CAM은 의미 토큰(예: ‘dog’ 또는 ‘cat’)의 그래디언트 활성화를 사용하여 해당 개념이나 주석이 이미지에서 표현될 가능성이 높은 영역의 시각적 맵을 생성한다.

์›๋ณธ Grad-CAM ๋…ผ๋ฌธ์˜ ์˜ˆ์‹œ. ๋‘๋ฒˆ์งธ ์—ด์—์„œ๋Š” ๊ฐ€์ด๋“œ ๋ฐฑํ”„๋กœํŒŒ๊ฒŒ์ด์…˜์„ ํ†ตํ•ด ๋ชจ๋“  ๊ธฐ์—ฌํ•˜๋Š” ํŠน์ง•์„ ์‹๋ณ„ํ•œ๋‹ค. ์„ธ๋ฒˆ์งธ ์—ด์—์„œ๋Š” ๋‘ ๊ฐœ๋… 'dog'์™€ 'cat'์— ๋Œ€ํ•œ ์‹œ๋งจํ‹ฑ ๋งต์„ ๊ทธ๋ฆฐ๋‹ค. ๋„ค๋ฒˆ์งธ ์—ด์€ ์ด์ „ ๋‘ ๊ฐ€์ง€ ์ถ”๋ก ์˜ ๊ฒฐํ•ฉ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. ๋‹ค์„ฏ๋ฒˆ์งธ ์—ด์€ ํ•ด๋‹น ์ถ”๋ก ์— ํ•ด๋‹นํ•˜๋Š” ์˜คํด๋ฃจ์ „(๋งˆ์Šคํ‚น) ๋งต์ด๋‹ค. ๋งˆ์ง€๋ง‰ ์—ด์€ Grad-CAM์˜ ResNet-18 ๋ ˆ์ด์–ด ์‹œ๊ฐํ™”์ด๋‹ค.

원본 Grad-CAM 논문의 예시. 두번째 열에서는 가이드 백프로파게이션을 통해 모든 기여하는 특징을 식별한다. 세번째 열에서는 두 개념 ‘dog’와 ‘cat’에 대한 시맨틱 맵을 그린다. 네번째 열은 이전 두 가지 추론의 결합을 나타낸다. 다섯번째 열은 해당 추론에 해당하는 오클루전(마스킹) 맵이다. 마지막 열은 Grad-CAM의 ResNet-18 레이어 시각화이다. 출처: https://arxiv.org/pdf/1610.02391

SGOOL

새로운 논문은 살리언시가 텍스트-이미지(および 텍스트-비디오) 시스템인 Stable Diffusion 및 Flux에 무엇을 가져올 수 있는지 고려한다.

Latent Diffusion Models는 사용자의 텍스트 프롬프트를 해석할 때, 훈련된 잠재 공간에서 학습된 시각적 개념을 탐색한다. 그런 다음 이러한 데이터 포인트를 노이즈 제거 프로세스를 통해 파싱한다. 이 프로세스에서 랜덤 노이즈가渐渐적으로 사용자의 텍스트 프롬프트의 창의적인 해석으로 발전한다.

그러나 이 시점에서, 모델은 이미지의 모든 부분에 동일한 주목을한다. 2022년 OpenAI의 Dall-E 이미지 생성기 및 Stability.ai의 Stable Diffusion 프레임워크의 공개 이후, 사용자는 ‘중요한’ 이미지 섹션이 종종 부족하다는 것을 발견했다.

이 새로운 방법은 Saliency Guided Optimization of Diffusion Latents(SGOOL)라고 불리며, 살리언시 맵퍼를 사용하여 이미지의 忽視된 영역에 더 많은 주목을 할당한다.

방법

SGOOL 파이프라인에는 이미지 생성, 살리언시 맵핑, 및 최적화가 포함되며, 전체 이미지와 살리언시 精製된 이미지는 공동으로 처리된다.

SGOOL์˜ ๊ฐœ๋…์  ์Šคํ‚ค๋งˆ.

SGOOL의 개념적 스키마.

데이터 및 테스트

SGOOL을 테스트하기 위해, 연구자들은 Stable Diffusion V1.4의 ‘바닐라’ 배포판과 Stable Diffusion with CLIP 가이드를 사용했다.

시스템은 세 개의 공개 데이터셋에 대해 평가되었다: CommonSyntacticProcesses(CSP), DrawBench, 및 DailyDallE*.

결론

Stable Diffusion의 단점을 해결하기 위해, 다양한 맞춤형 방법이 등장했다. 그러나 이러한 접근 방식은 확산 시스템이 먼저 이미지의 모든 부분에 동일한 주목을 해야 한다.

SGOOL의 증거는 기본적인 인간 심리학을 이미지 섹션의 우선순위에 적용하면 초기 추론을 크게 향상시킬 수 있음을 시사한다.

이미지 생성 및 살리언시 맵핑의 결합은 이미지의 품질과 의미적 일관성을 향상시킬 수 있다. 이러한 접근 방식은 인간의 주목을 끌기 쉬운 이미지 섹션에 더 많은 주목을 할당하여, 더 나은 이미지 생성을 가능하게 한다.

๊ธฐ๊ณ„ ํ•™์Šต ์ž‘๊ฐ€, ์ธ๊ฐ„ ์ด๋ฏธ์ง€ ํ•ฉ์„ฑ ๋„๋ฉ”์ธ ์ „๋ฌธ๊ฐ€. Metaphysic.ai์˜ ์—ฐ๊ตฌ ์ฝ˜ํ…์ธ  ์ฑ…์ž„์ž ์ถœ์‹ .
๊ฐœ์ธ ์‚ฌ์ดํŠธ: martinanderson.ai
์—ฐ๋ฝ์ฒ˜: [email protected]
ํŠธ์œ„ํ„ฐ: @manders_ai