Connect with us

Stable Diffusion ์•ž์œผ๋กœ ๋‚˜์•„๊ฐˆ ์„ธ ๊ฐ€์ง€ ๋„์ „

์ธ๊ณต์ง€๋Šฅ

Stable Diffusion ์•ž์œผ๋กœ ๋‚˜์•„๊ฐˆ ์„ธ ๊ฐ€์ง€ ๋„์ „

mm

stability.ai의 Stable Diffusion 잠재 확산 이미지 합성 모델의 출시는 1999년 DeCSS 이후 가장 중요한 기술 공개 중 하나일 수 있으며, 2017년 DeepFaceLab 및 FaceSwap이 된 deepfakes 코드가 GitHub에 복사되어 포크된 이후 AI 생성 이미지에서 가장 큰 이벤트입니다. Stable Diffusion의 출시로 DALL-E 2 이미지 합성 API의 콘텐츠 제한에 대한 사용자 불만이 한꺼번에 해결되었습니다. Stable Diffusion의_NSFW_ 필터를 비활성화하는 것은 단일 코드 줄을 변경하는 것으로 가능했습니다. 포르노 중심의 Stable Diffusion Reddit은 거의 즉시 등장했으며, 개발자와 사용자 캠프는 Discord에서 공식 및_NSFW_ 커뮤니티로 분할되었습니다. Twitter는 Stable Diffusion의 환상적인 창의물로 채워졌습니다.

현재, 매일이면 Stable Diffusion을 채택한 개발자들이 혁신을 가져오고 있으며, Krita, Photoshop, Cinema4D, Blender 등을 위한 플러그인과 제3자 부속품이 빠르게 작성되고 있습니다.

Stable Diffusion은 현재 가장 흥미로운 도전 중 세 가지를 살펴보겠습니다.

1: 타일 기반 파이프라인 최적화

하드웨어 자원과 훈련 이미지의 해상도에 대한 엄격한 제한으로 인해 개발자들은 Stable Diffusion 출력의 품질과 해상도를 개선하기 위한 해결책을 찾을 것입니다. 이러한 프로젝트는 시스템의 한계를 이용하는 것을 포함하며, 시스템의 네이티브 해상도는 512×512 픽셀입니다.

Stable Diffusion은 512×512 픽셀의 정사각형 비율 이미지로 훈련되었으며, 이는 모델을 훈련하는 GPU의 제약에 맞게 조정되었습니다. 따라서 Stable Diffusion은 512×512 용어로 “생각”합니다. 많은 사용자는 시스템의 한계를 테스트하고 있으며, 512×512의 제한된 종횡비에서 가장 안정적이고 가장少한 결함이 발생한다고 보고합니다.

다양한 구현에는 RealESRGAN을 통한 업스케일링 기능이 포함되어 있으며, GFPGAN을 통해 잘 렌더링되지 않은 얼굴을 수정할 수 있습니다. 여러 사용자는 이미지를 512x512px 섹션으로 분할하고 이를 다시 조합하여 더 큰 합성 작품을 만드는 방법을 개발 중입니다.

이러한 추상적인 예는 Stable Diffusion의 현재 한계를 보여주며, 시스템의 제한을 극복하기 위한 다양한 해결책이 필요합니다.

2: 인간의 사지 결함 해결

Stable Diffusion은 인간의 사지 복잡성을 묘사할 때 이름에 걸맞지 않게 작동하지 않습니다. 손이 무작위로 증가하고, 손가락이 결합되며, 세 번째 다리가 나타나고, 기존의 사지가 흔적도 없이 사라집니다. 이는 DALL-E 2와 같은 다른 모델에서도 공통적인 문제입니다.

DALL-E 2์™€ Stable Diffusion (1.4)์˜ ๋น„ํŽธ์ง‘ ๊ฒฐ๊ณผ, ๋ชจ๋‘ ์‚ฌ์ง€ ๋ฌธ์ œ๋ฅผ ๋ณด์—ฌ์คŒ. ํ”„๋กฌํ”„ํŠธ๋Š” '์—ฌ์ž๊ฐ€ ๋‚จ์ž๋ฅผ ๊ปด์•ˆ์€ ์žฅ๋ฉด'

DALL-E 2와 Stable Diffusion (1.4)의 비편집 결과, 모두 사지 문제를 보여줌. 프롬프트는 ‘여자가 남자를 껴안은 장면’

Stable Diffusion의 1.5 체크포인트는 이러한 문제를 해결하지 못할 수 있으며, 이는 데이터 품질의 문제일 수 있습니다. 데이터베이스는 인간과 인간 간의 행동에 대한 레이블을 제공할 수 있지만, 이러한 레이블은 항상 일관적이지 않을 수 있으며, 이는 모델이 사지를 렌더링할 때 문제를 일으킬 수 있습니다.

Stable Diffusion ์‚ฌ์šฉ์ž๋Š” LAION-aesthetics ๋ฐ์ดํ„ฐ์…‹์„ ์ฟผ๋ฆฌํ•˜์—ฌ ๋ชจ๋ธ์— ํ›ˆ๋ จ๋œ ๊ฐœ๋…์„ ํƒ์ƒ‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฏธ์ง€๋“ค์€ ์•ŒํŒŒ๋ฒณ ๋ ˆ์ด๋ธ” ์ˆœ์„œ๊ฐ€ ์•„๋‹Œ '็พŽๅญฆ ์ ์ˆ˜'์— ๋”ฐ๋ผ ์ •๋ ฌ๋ฉ๋‹ˆ๋‹ค. ์ถœ์ฒ˜: https://rom1504.github.io/clip-retrieval/

Stable Diffusion 사용자는 LAION-aesthetics 데이터셋을 쿼리하여 모델에 훈련된 개념을 탐색할 수 있습니다. 이미지들은 알파벳 레이블 순서가 아닌 ‘美学 점수’에 따라 정렬됩니다. 출처: https://rom1504.github.io/clip-retrieval/

이 문제를 해결하기 위한 두 가지 방법이 제안되었습니다. 첫 번째는 모델을 재훈련하여 비현실적인 인간 기반 콘텐츠를 제외하고, 두 번째는 렌더링 시간에 이러한 콘텐츠를 필터링하는 것입니다. 그러나 이러한 방법은 모두 레이블이 존재하지 않는 이미지에 대한 문제를 해결하지 못하며, 이는 데이터 큐레이션의 어려운 문제입니다.

3: 사용자 정의

Stable Diffusion의 가장 흥미로운 가능성 중 하나는 사용자 또는 조직이 수정된 시스템을 개발할 수 있는 것입니다. 이는 LAION 데이터셋 외부의 콘텐츠를 시스템에 통합할 수 있게 하며, 이는 모델을 다시 훈련하는 엄청난 비용이나 모델의 성능을 저하시키는 위험 없이 가능합니다.

waifu-diffusion은 56,000개의 애니메이션 이미지를 Stable Diffusion 체크포인트에 성공적으로 포스트 훈련한 예입니다. 그러나 이 접근법은 많은 VRAM, 시간, 그리고忍耐心이 필요합니다.

현재, Stable Diffusion의 사용자 정의를 위한 가장 큰 희망은 텍스처 인버전입니다. 이는 사용자가少量의 CLIP-정렬 이미지를 훈련시켜 새로운 엔티티를 모델에 통합할 수 있습니다.

ํ…”์•„๋น„๋ธŒ ๋Œ€ํ•™๊ต์™€ NVIDIA์˜ ํ˜‘๋ ฅ์œผ๋กœ, ํ…์Šค์ฒ˜ ์ธ๋ฒ„์ „์„ ํ†ตํ•ด ์ƒˆ๋กœ์šด ์—”ํ‹ฐํ‹ฐ๋ฅผ ๋ชจ๋ธ์— ํ†ตํ•ฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ถœ์ฒ˜: https://textual-inversion.github.io/

텔아비브 대학교와 NVIDIA의 협력으로, 텍스처 인버전을 통해 새로운 엔티티를 모델에 통합할 수 있습니다. 출처: https://textual-inversion.github.io/

이러한 접근법의 주요한 제한은 추천되는 이미지 수가 매우 적다는 것입니다. 이는 스타일 전환 작업에 더 유용할 수 있지만, 사진적 실사 객체 삽입에는 적합하지 않을 수 있습니다.

현재, Stable Diffusion의 사용자 정의를 위한 더 복잡한 텍스처 인버전 실험은進行 중이며, 이 접근법이 얼마나 유용할 수 있는지 여부는 아직 불분명합니다.

๊ธฐ๊ณ„ ํ•™์Šต ์ž‘๊ฐ€, ์ธ๊ฐ„ ์ด๋ฏธ์ง€ ํ•ฉ์„ฑ ๋„๋ฉ”์ธ ์ „๋ฌธ๊ฐ€. Metaphysic.ai์˜ ์—ฐ๊ตฌ ์ฝ˜ํ…์ธ  ์ฑ…์ž„์ž ์ถœ์‹ .
๊ฐœ์ธ ์‚ฌ์ดํŠธ: martinanderson.ai
์—ฐ๋ฝ์ฒ˜: [email protected]
ํŠธ์œ„ํ„ฐ: @manders_ai