부본 안정적인 확산을 위한 세 가지 과제 - Unite.AI
Rescale 미팅 예약

인공 지능

안정적인 확산을 위한 세 가지 과제

mm
업데이트 on

XNUMXD덴탈의 공개 stability.ai의 안정적인 확산 잠재 확산 몇 주 전의 이미지 합성 모델은 가장 중요한 기술 공개 중 하나일 수 있습니다. 1999년 DeCSS 이후; 확실히 2017년 이후 AI 생성 이미지에서 가장 큰 이벤트입니다. 딥페이크 코드 GitHub에 복사되어 딥페이스랩페이스 스왑, 실시간 스트리밍 딥페이크 소프트웨어 딥페이스라이브.

일격에, 사용자 불만 이상 콘텐츠 제한 DALL-E 2의 이미지 합성 API에서 Stable Diffusion의 NSFW 필터는 유일한 코드 라인. 포르노 중심의 Stable Diffusion Reddits는 거의 즉시 생겨났고, 개발자와 사용자 캠프는 Discord에서 공식 및 NSFW 커뮤니티로 나뉘었고 Twitter는 환상적인 Stable Diffusion 창작물로 채워지기 시작했습니다.

현재 시스템을 채택한 개발자들로부터 매일매일이 놀라운 혁신을 가져오는 것 같습니다. 크리 타, 포토샵, Cinema4D, 믹서기, 및 기타 여러 애플리케이션 플랫폼.

안정적인 확산 Krita 애드온

한편, 프롬프트크래프트 – 'Filofax 바인더' 이후 가장 짧은 경력 옵션이 될 수 있는 'AI 속삭임'의 현재 전문 기술은 이미 상용화, Stable Diffusion의 조기 수익 창출이 패트리온 수준, 탐색을 꺼리는 사람들을 위해 더 정교한 서비스가 제공될 것이라는 확신과 함께 Conda 기반 소스 코드 설치 또는 웹 기반 구현의 규정 NSFW 필터.

개발의 속도와 사용자의 자유로운 탐색 감각은 아주 멀리 내다보기 어려울 정도로 아찔한 속도로 진행되고 있습니다. 본질적으로 우리는 아직 우리가 무엇을 다루고 있는지 또는 모든 제한이나 가능성이 무엇인지 정확히 알지 못합니다.

그럼에도 불구하고 빠르게 형성되고 빠르게 성장하는 Stable Diffusion 커뮤니티가 직면하고 극복해야 할 가장 흥미롭고 도전적인 세 가지 장애물을 살펴보겠습니다.

1: 타일 기반 파이프라인 최적화

제한된 하드웨어 리소스와 트레이닝 이미지의 해상도에 대한 엄격한 제한이 있는 상황에서 개발자는 Stable Diffusion 출력의 품질과 해상도를 모두 개선할 수 있는 해결 방법을 찾을 수 있을 것 같습니다. 이러한 프로젝트 중 다수는 기본 해상도가 512×512 픽셀에 불과한 것과 같은 시스템의 한계를 악용하도록 설정되어 있습니다.

컴퓨터 비전 및 이미지 합성 이니셔티브의 경우 항상 그렇듯이 Stable Diffusion은 정사각형 비율 이미지(이 경우 512×512로 리샘플링됨)에 대해 훈련되었으므로 소스 이미지를 정규화하고 GPU의 제약 조건에 맞출 수 있습니다. 모델을 훈련시켰습니다.

따라서 Stable Diffusion은 512×512 용어로, 확실히 정사각형 용어로 '생각'합니다. 현재 시스템의 한계를 조사하는 많은 사용자는 Stable Diffusion이 이 다소 제한된 종횡비에서 가장 신뢰할 수 있고 결함이 가장 적은 결과를 생성한다고 보고합니다(아래의 '어드레싱 사지' 참조).

다양한 구현을 통해 업스케일링 기능을 제공하지만 RealESRGAN (그리고 잘못 렌더링된 면을 다음을 통해 수정할 수 있습니다. GFPGAN) 여러 사용자가 현재 이미지를 512x512픽셀 섹션으로 분할하고 이미지를 결합하여 더 큰 합성 작업을 형성하는 방법을 개발하고 있습니다.

이 1024x576 렌더링은 단일 Stable Diffusion 렌더에서 관례적으로 불가능한 해상도로 Stable Diffusion(타일 기반 업스케일링을 구현하는 버전)의 DoggettX 포크에서 Attention.py Python 파일을 복사하여 다른 포크에 붙여넣어 생성되었습니다. 출처: https://old.reddit.com/r/StableDiffusion/comments/x6yeam/1024x576_with_6gb_nice/

이 1024×576 렌더링은 하나의 Stable Diffusion 렌더에서 관례적으로 불가능한 해상도로, Attention.py Python 파일을 도겟X Stable Diffusion(타일 기반 업스케일링을 구현하는 버전)의 포크를 다른 포크로. 출처: https://old.reddit.com/r/StableDiffusion/comments/x6yeam/1024x576_with_6gb_nice/

이러한 종류의 일부 이니셔티브는 원래 코드나 다른 라이브러리를 사용하지만 txt2imghd 포트 GOBIG(VRAM을 많이 사용하는 ProgRockDiffusion의 모드)는 곧 이 기능을 메인 브랜치에 제공하도록 설정됩니다. txt2imghd는 GOBIG의 전용 포트이지만 커뮤니티 개발자의 다른 노력에는 다양한 GOBIG 구현이 포함됩니다.

원본 512x512px 렌더링의 편리한 추상 이미지(왼쪽 및 왼쪽에서 두 번째); 이제 모든 Stable Diffusion 배포판에서 거의 네이티브인 ESGRAN에 의해 ​​업스케일링되었습니다. 그리고 GOBIG의 구현을 통해 '특별한 관심'을 주어 적어도 이미지 섹션의 범위 내에서 더 잘 확장된 것처럼 보이는 디테일을 생성합니다. 출처: https://old.reddit.com/r/StableDiffusion/comments/x72460/stable_diffusion_gobig_txt2imghd_easy_mode_colab/

원본 512x512px 렌더링의 편리한 추상 이미지(왼쪽 및 왼쪽에서 두 번째); 이제 모든 Stable Diffusion 배포판에서 거의 네이티브인 ESGRAN에 의해 ​​업스케일링되었습니다. 그리고 GOBIG의 구현을 통해 '특별한 관심'을 주어 적어도 이미지 섹션의 범위 내에서 더 잘 확장된 것처럼 보이는 디테일을 생성합니다. 에스출처: https://old.reddit.com/r/StableDiffusion/comments/x72460/stable_diffusion_gobig_txt2imghd_easy_mode_colab/

위에서 설명한 종류의 추상적인 예에는 업스케일링에 대한 이러한 유아론적 접근 방식에 적합한 많은 '작은 왕국'의 세부 정보가 있지만 반복적이지 않고 응집력 있는 업스케일링을 생성하기 위해 더 까다로운 코드 기반 솔루션이 필요할 수 있습니다. 보이 마치 여러 부분으로 조립된 것처럼. 특히 인간의 얼굴의 경우, 우리는 비정상적으로 수차나 '삐걱거리는' 인공물에 적응합니다. 따라서 얼굴에는 결국 전용 솔루션이 필요할 수 있습니다.

Stable Diffusion은 현재 인간이 얼굴 정보를 우선시하는 것과 같은 방식으로 렌더링 중에 얼굴에 주의를 집중시키는 메커니즘이 없습니다. Discord 커뮤니티의 일부 개발자는 이러한 종류의 '향상된 관심'을 구현하는 방법을 고려하고 있지만 현재는 초기 렌더링이 발생한 후 얼굴을 수동으로(그리고 결국에는 자동으로) 향상시키는 것이 훨씬 쉽습니다.

인간의 얼굴은 (예를 들어) 건물 하단 모서리의 '타일'에서 찾을 수 없는 내부적이고 완전한 의미론적 논리를 가지고 있으므로 현재 매우 효과적으로 '확대'하고 다시 렌더링할 수 있습니다. Stable Diffusion 출력의 '스케치' 얼굴.

왼쪽, Stable Diffusion의 초기 노력과 프롬프트 '비옷을 입고 붐비는 장소에 들어가는 Christina Hendricks의 전체 길이 컬러 사진; Canon50, 아이컨택, 높은 디테일, 높은 얼굴 디테일'. 오른쪽, Img2Img(아래 애니메이션 이미지 참조)를 사용하여 Stable Diffusion의 전체 주의에 첫 번째 렌더링에서 흐릿하고 스케치한 얼굴을 다시 공급하여 얻은 개선된 얼굴입니다.

왼쪽, Stable Diffusion의 초기 노력과 프롬프트 '비옷을 입고 붐비는 장소에 들어가는 Christina Hendricks의 전체 길이 컬러 사진; Canon50, 아이컨택, 높은 디테일, 높은 얼굴 디테일'. 오른쪽, Img2Img(아래 애니메이션 이미지 참조)를 사용하여 Stable Diffusion의 전체 주의에 첫 번째 렌더링에서 흐릿하고 스케치한 얼굴을 다시 공급하여 얻은 개선된 얼굴입니다.

전용 텍스트 반전 솔루션(아래 참조)이 없는 경우, 이는 해당 인물이 Stable Diffusion을 교육한 LAION 데이터 하위 집합에서 이미 잘 표현된 유명인 이미지에만 작동합니다. 따라서 Tom Cruise, Brad Pitt, Jennifer Lawrence 및 원본 데이터의 많은 이미지에 있는 제한된 범위의 진정한 미디어 조명에서 작동합니다.

'비옷을 입고 붐비는 장소에 들어가는 크리스티나 헨드릭스의 전체 길이 컬러 사진; Canon50, 아이컨택, 높은 디테일, 높은 얼굴 디테일'.

'비옷을 입고 붐비는 장소에 들어가는 크리스티나 헨드릭스의 전체 길이 컬러 사진; Canon50, 아이컨택, 높은 디테일, 높은 얼굴 디테일'.

오래 지속되는 경력을 가진 유명인의 경우 Stable Diffusion은 일반적으로 최근(즉, 나이가 많은) 사람의 이미지를 생성하며 다음과 같은 즉각적인 부속물을 추가해야 합니다. '어린' or '연도 [YEAR]' 어려보이는 이미지를 연출하기 위해

거의 40년에 걸쳐 눈에 띄고 많이 촬영되고 일관된 경력을 쌓은 여배우 Jennifer Connelly는 Stable Diffusion이 다양한 연령대를 대표할 수 있도록 하는 LAION의 소수 유명인사 중 한 명입니다. 출처: Prepack Stable Diffusion, 로컬, v1.4 체크포인트; 연령 관련 프롬프트.

거의 40년에 걸쳐 눈에 띄고 많이 촬영되고 일관된 경력을 쌓은 여배우 Jennifer Connelly는 Stable Diffusion이 다양한 연령대를 대표할 수 있도록 하는 LAION의 소수 유명인사 중 한 명입니다. 출처: Prepack Stable Diffusion, 로컬, v1.4 체크포인트; 연령 관련 프롬프트.

이는 2000년대 중반 이후 (고가의 유제 기반이 아닌) 디지털 프레스 사진의 확산과 이후 광대역 속도의 증가로 인해 이미지 출력량이 증가했기 때문입니다.

렌더링된 이미지는 '초점 영역'이 선택된 Stable Diffusion의 Img2Img로 전달되며, 해당 영역에 대해서만 새로운 최대 크기 렌더링이 이루어지므로 Stable Diffusion이 사용 가능한 모든 리소스를 얼굴 재현에 집중할 수 있습니다.

렌더링된 이미지는 '초점 영역'이 선택된 Stable Diffusion의 Img2Img로 전달되며, 해당 영역에 대해서만 새로운 최대 크기 렌더링이 이루어지므로 Stable Diffusion이 사용 가능한 모든 리소스를 얼굴 재현에 집중할 수 있습니다.

'높은 관심' 얼굴을 원래 렌더에 다시 합성합니다. 얼굴 외에도 이 프로세스는 시계나 자동차와 같은 고유한 개체가 있는 원본 사진의 일부와 같이 잠재적으로 알려지고 응집력 있고 통합된 모양을 가진 엔터티에만 작동합니다. 예를 들어 벽의 한 부분을 확대하면 매우 이상하게 보이는 재조립된 벽으로 이어질 것입니다. 왜냐하면 타일 렌더링에는 렌더링할 때 이 '직소 조각'에 대한 더 넓은 컨텍스트가 없었기 때문입니다.

'높은 관심' 얼굴을 원래 렌더에 다시 합성합니다. 얼굴 외에도 이 프로세스는 시계나 자동차와 같은 고유한 개체가 있는 원본 사진의 일부와 같이 잠재적으로 알려지고 응집력 있고 통합된 모양을 가진 엔터티에만 작동합니다. 예를 들어 벽의 한 섹션을 확대하면 매우 이상하게 보이는 재조립된 벽으로 이어질 것입니다.

데이터베이스의 일부 유명인은 조기에 사망했거나(예: Marilyn Monroe) 제한된 시간 동안 많은 양의 이미지를 생성하여 일시적인 주류 명성을 얻었기 때문에 시간이 지나면 '사전 동결'됩니다. Polling Stable Diffusion은 틀림없이 현대 및 이전 스타에 대한 일종의 '현재' 인기 지수를 제공합니다. 일부 이전 및 현재 유명인의 경우 소스 데이터에 매우 좋은 유사성을 얻기 위한 이미지가 충분하지 않은 반면 특정 오래 전에 사망했거나 빛이 바랜 별의 지속적인 인기는 시스템에서 합리적인 유사성을 얻을 수 있도록 보장합니다.

Stable Diffusion 렌더링은 훈련 데이터에서 잘 표현된 유명한 얼굴을 빠르게 보여줍니다. Millie Bobby Brown은 글을 쓰는 시점에 나이가 많은 XNUMX대 시절 엄청난 인기를 얻었음에도 불구하고 LAION 소스 데이터세트가 웹에서 스크랩되었을 때 더 젊고 잘 알려지지 않았기 때문에 현재 Stable Diffusion을 사용한 고품질 유사성이 문제가 되었습니다.

Stable Diffusion 렌더링은 훈련 데이터에서 잘 표현된 유명한 얼굴을 빠르게 보여줍니다. Millie Bobby Brown은 글을 쓰는 시점에 나이가 많은 XNUMX대 시절 엄청난 인기를 얻었음에도 불구하고 LAION 소스 데이터세트가 웹에서 스크랩되었을 때 더 젊고 잘 알려지지 않았기 때문에 현재 Stable Diffusion을 사용한 고품질 유사성이 문제가 되었습니다.

데이터를 사용할 수 있는 경우 Stable Diffusion의 타일 기반 업 해상도 솔루션은 얼굴을 찾는 것보다 더 나아갈 수 있습니다. 얼굴 특징을 분해하고 로컬 GPU의 전체 성능을 전환하여 훨씬 더 정확하고 상세한 얼굴을 가능하게 할 수 있습니다. 재조립하기 전에 주요 기능에 대한 리소스를 개별적으로 제공합니다. 이 프로세스는 현재 다시 수동입니다.

이것은 얼굴에 국한되지 않고 호스트 개체의 더 넓은 맥락에서 최소한 예측 가능하게 배치되고 하이퍼스케일에서 찾을 것으로 합리적으로 예상할 수 있는 높은 수준의 임베딩을 준수하는 개체의 일부로 제한됩니다. 데이터 세트.

실제 한계는 데이터 세트에서 사용 가능한 참조 데이터의 양입니다. 왜냐하면 결국 깊이 반복된 세부 사항은 완전히 '환각'(즉, 허구)되고 신뢰성이 떨어지기 때문입니다.

이러한 높은 수준의 세분화된 확대는 Jennifer Connelly의 경우에 효과가 있습니다. LAION-에스테틱 (기본 하위 집합 라이온 5B Stable Diffusion이 사용하는), 일반적으로 LAION 전반에 걸쳐; 다른 많은 경우에 정확도는 데이터 부족으로 인해 미세 조정(추가 교육, 아래 '사용자 지정' 참조) 또는 텍스트 반전(아래 참조)이 필요합니다.

타일은 Stable Diffusion이 고해상도 출력을 생성할 수 있는 강력하고 상대적으로 저렴한 방법이지만, 이러한 종류의 알고리즘 타일 업스케일링은 어떤 종류의 더 광범위하고 높은 수준의 주의 메커니즘이 없으면 기대에 미치지 못할 수 있습니다. 콘텐츠 유형의 범위에 대한 표준.

2: 인간 사지 문제 해결

Stable Diffusion은 인간 사지의 복잡성을 묘사할 때 그 이름에 걸맞지 않습니다. 손은 무작위로 번식할 수 있고, 손가락은 합쳐지며, 세 번째 다리는 의도하지 않은 것처럼 보이고, 기존 팔다리는 흔적도 없이 사라집니다. 방어 측면에서 Stable Diffusion은 안정적인 동료, 특히 DALL-E 2와 문제를 공유합니다.

2년 1.4월 말 DALL-E 2022 및 Stable Diffusion(XNUMX)의 편집되지 않은 결과, 둘 다 팔다리 문제를 나타냅니다. 프롬프트는 '남자를 껴안는 여자'

2년 1.4월 말 DALL-E 2022 및 Stable Diffusion(XNUMX)의 편집되지 않은 결과, 둘 다 팔다리 문제를 나타냅니다. 프롬프트는 '남자를 껴안는 여자'

곧 출시될 1.5 체크포인트(매개변수가 개선된 모델의 보다 강도 높은 훈련 버전)가 사지 혼란을 해결할 것이라고 기대하는 안정적인 확산 팬은 실망할 가능성이 높습니다. 올해 출시될 신모델 XNUMX주 정도의 시간, 현재 상업적 stability.ai 포털에서 초연 중입니다. DreamStudio, 기본적으로 1.5를 사용하고 사용자가 로컬 또는 다른 1.4 시스템의 렌더링과 새 출력을 비교할 수 있는 위치:

출처: 로컬 1.4 프리팩 및 https://beta.dreamstudio.ai/

출처: 로컬 1.4 프리팩 및 https://beta.dreamstudio.ai/

출처: 로컬 1.4 프리팩 및 https://beta.dreamstudio.ai/

출처: 로컬 1.4 프리팩 및 https://beta.dreamstudio.ai/

출처: 로컬 1.4 프리팩 및 https://beta.dreamstudio.ai/

출처: 로컬 1.4 프리팩 및 https://beta.dreamstudio.ai/

종종 그렇듯이 데이터 품질이 주요 원인일 수 있습니다.

Stable Diffusion 및 DALL-E 2와 같은 이미지 합성 시스템에 연료를 공급하는 오픈 소스 데이터베이스는 개인 및 인간 간 행동 모두에 많은 레이블을 제공할 수 있습니다. 이러한 레이블은 관련 이미지 또는 이미지 세그먼트와 공생적으로 학습됩니다.

Stable Diffusion 사용자는 시스템을 강화하는 더 큰 LAION 5B 데이터 세트의 하위 집합인 LAION-aesthetics 데이터 세트를 쿼리하여 모델에 훈련된 개념을 탐색할 수 있습니다. 이미지는 알파벳 레이블이 아니라 '미적 점수'로 정렬됩니다. 출처: https://rom1504.github.io/clip-retrieval/

Stable Diffusion 사용자는 시스템을 강화하는 더 큰 LAION 5B 데이터 세트의 하위 집합인 LAION-aesthetics 데이터 세트를 쿼리하여 모델에 훈련된 개념을 탐색할 수 있습니다. 이미지는 알파벳 레이블이 아니라 '미적 점수'로 정렬됩니다. 출처: https://rom1504.github.io/clip-retrieval/

A 좋은 계층 구조 인간 팔의 묘사에 기여하는 개별 레이블 및 클래스의 수는 다음과 같습니다. 몸>팔>손>손가락>[하위 손가락 + 엄지]> [손가락 세그먼트]>손톱.

손 부분의 세분화된 의미론적 분할. 이 비정상적으로 상세한 해체조차도 손가락의 세 부분과 엄지의 두 부분을 설명하지 않고 각 '손가락'을 단독 개체로 남겨 둡니다.

손 부분의 세분화된 의미론적 분할. 이 비정상적으로 상세한 해체조차도 손가락의 세 부분과 엄지의 두 부분을 설명하지 않고 각 '손가락'을 단독 개체로 남겨 둡니다. 출처: https://athitsos.utasites.cloud/publications/rezaei_petra2021.pdf

실제로 소스 이미지는 전체 데이터 세트에서 일관되게 주석이 지정되지 않을 가능성이 높으며 감독되지 않은 레이블 지정 알고리즘은 아마도 다음에서 멈출 것입니다. 더 높은 예를 들어 '손' 수준의 내부 픽셀(기술적으로 '손가락' 정보 포함)은 기능이 임의로 파생되고 이후 렌더링에서 거슬리는 요소로 나타날 수 있는 레이블이 지정되지 않은 픽셀 덩어리로 둡니다.

레이블 지정을 위한 제한된 리소스 또는 이러한 레이블이 데이터 세트에 존재하는 경우 이러한 레이블의 구조적 악용으로 인해 어떻게 되어야 하는지(오른쪽 상단, 상단 컷이 아닌 경우) 및 경향(오른쪽 하단).

레이블 지정을 위한 제한된 리소스 또는 이러한 레이블이 데이터 세트에 존재하는 경우 이러한 레이블의 구조적 악용으로 인해 어떻게 되어야 하는지(오른쪽 상단, 상단 컷이 아닌 경우) 및 경향(오른쪽 하단).

따라서 잠재 확산 모델이 팔을 렌더링하는 데까지 도달하면 거의 확실하게 해당 팔 끝에 있는 손을 렌더링할 수 있습니다. 팔>손 아키텍처가 '인체 해부학'에 대해 알고 있는 것보다 상당히 높은 최소한의 필수 계층 구조입니다.

그 다음에는 사람의 손을 묘사할 때 고려해야 할 14개의 추가 손가락/엄지 하위 부분이 있지만 '손가락'이 가장 작은 그룹일 수 있습니다.

이 이론이 맞다면 수동 주석을 위한 부문 전체의 예산 부족과 낮은 오류율을 생성하면서 라벨링을 자동화할 수 있는 충분히 효과적인 알고리즘의 부족으로 인해 실질적인 해결책이 없습니다. 실제로 모델은 현재 훈련된 데이터 세트의 단점에 대해 인간 해부학적 일관성에 의존하고 있을 수 있습니다.

가능한 한 가지 이유 수 없습니다 이것에 의지해, 최근 제안 된 Stable Diffusion Discord에서 모델이 (현실적인) 인간의 손에 있어야 할 정확한 손가락 수에 대해 혼란스러워할 수 있다는 점입니다. 노동 절약 지름길).

Stable Diffusion 및 유사한 모델에서 '누락된 손가락' 증후군의 잠재적 원인 중 두 가지. 아래는 Stable Diffusion을 지원하는 LAION-aesthetics 데이터 세트의 만화 손의 예입니다. 출처: https://www.youtube.com/watch?v=0QZFQ3gbd6I

Stable Diffusion 및 유사한 모델에서 '누락된 손가락' 증후군의 잠재적 원인 중 두 가지. 아래는 Stable Diffusion을 지원하는 LAION-aesthetics 데이터 세트의 만화 손의 예입니다. 출처: https://www.youtube.com/watch?v=0QZFQ3gbd6I

이것이 사실이라면 유일하게 분명한 해결책은 비현실적인 인간 기반 콘텐츠를 제외하고 모델을 재교육하여 실제 누락 사례(예: 절단 환자)가 예외로 적절하게 표시되도록 하는 것입니다. 데이터 큐레이션 지점에서만 볼 때 이것은 특히 리소스가 부족한 커뮤니티 노력의 경우 상당한 도전이 될 것입니다.

두 번째 접근 방식은 이러한 콘텐츠(예: '세 손가락/다섯 손가락이 있는 손')를 렌더링 시 나타나는 것을 제외하는 필터를 적용하는 것입니다. OpenAI가 어느 정도는 거르는 GPT-3 및 달-이 2, 소스 모델을 재교육할 필요 없이 출력을 조절할 수 있습니다.

Stable Diffusion의 경우 숫자와 심지어 팔다리 사이의 의미론적 구분이 끔찍하게 흐려질 수 있으며 David Cronenberg와 같은 1980년대 공포 영화의 '신체 공포' 가닥을 떠올리게 합니다. 출처: https://old.reddit.com/r/StableDiffusion/comments/x6htf6/a_study_of_stable_diffusions_strange_relationship/

Stable Diffusion의 경우 숫자와 심지어 팔다리 사이의 의미론적 구분이 끔찍하게 흐려질 수 있으며 David Cronenberg와 같은 1980년대 공포 영화의 '신체 공포' 가닥을 떠올리게 합니다. 출처: https://old.reddit.com/r/StableDiffusion/comments/x6htf6/a_study_of_stable_diffusions_strange_relationship/

그러나 이 경우 영향을 받는 모든 이미지에 존재하지 않을 수 있는 레이블이 필요하므로 동일한 물류 및 예산 문제가 발생합니다.

앞으로 남은 두 가지 길이 있다고 주장할 수 있습니다. 문제에 더 많은 데이터를 던지는 것과 여기에 설명된 유형의 물리적 바보가 최종 사용자에게 제시될 때 개입할 수 있는 타사 해석 시스템을 적용하는 것입니다(최소한 후자는 회사가 그렇게 하려는 동기가 있는 경우 OpenAI에 '신체 공포' 렌더링에 대한 환불을 제공하는 방법을 제공합니다.

3: 커스터마이징

안정적인 확산의 미래에 대한 가장 흥미로운 가능성 중 하나는 수정된 시스템을 개발하는 사용자 또는 조직의 전망입니다. 사전 교육된 LAION 영역 외부의 콘텐츠를 시스템에 통합할 수 있는 수정 – 이상적으로는 전체 모델을 다시 교육하는 관리할 수 없는 비용이나 기존의 성숙하고 유능한 이미지에 대량의 새로운 이미지를 교육할 때 수반되는 위험이 없습니다. 모델.

비유하자면, 재능이 부족한 두 명의 학생이 15명의 상급반에 합류하면 그들은 동화되어 따라잡거나 이상치로 실패할 것입니다. 두 경우 모두 클래스 평균 성능에는 영향을 미치지 않을 것입니다. 그러나 XNUMX명의 영재가 적은 학생이 합류하면 전체 학급의 성적 곡선이 나빠질 가능성이 있습니다.

마찬가지로 지속적이고 비용이 많이 드는 모델 교육을 통해 구축된 시너지 효과가 있고 상당히 섬세한 관계 네트워크는 과도한 새 데이터로 인해 손상될 수 있으며 경우에 따라 효과적으로 파괴되어 전반적으로 모델의 출력 품질이 저하될 수 있습니다.

이 작업을 수행하는 경우는 주로 관계 및 사물에 대한 모델의 개념적 이해를 완전히 하이재킹하고 추가한 추가 자료와 유사한 콘텐츠의 독점 제작을 위해 이를 전용하는 데 관심이 있는 경우입니다.

따라서 훈련 500,000 심슨 기존의 Stable Diffusion 체크포인트에 프레임을 추가하면 결국 더 나은 결과를 얻을 수 있습니다. 심슨 원래 빌드가 제공할 수 있었던 것보다 더 많은 시뮬레이터, 충분한 광범위한 의미 관계가 프로세스에서 살아남는다고 가정합니다(예: 핫도그를 먹는 호머 심슨, 추가 자료에는 없었지만 체크포인트에 이미 존재했던 핫도그에 대한 자료가 필요할 수 있음)에서 갑자기 전환하고 싶지 않다고 가정합니다. 심슨 만드는 내용 Greg Rutkowski의 멋진 풍경 – 사후 훈련된 모델이 주의를 크게 다른 곳으로 돌렸기 때문에 예전처럼 그런 종류의 작업을 잘 수행하지 못할 것입니다.

이에 대한 한 가지 주목할만한 예는 다음과 같습니다. waifu 확산, 성공적으로 사후 훈련된 56,000개의 애니메이션 이미지 완료되고 훈련된 Stable Diffusion 체크포인트로. 그러나 이 모델에는 NVIDIA의 향후 30XX 시리즈 릴리스에서 소비자 계층에서 사용할 수 있는 것보다 훨씬 더 눈에 띄게 최소 40GB의 VRAM이 필요하기 때문에 애호가에게는 어려운 전망입니다.

Stable Diffusion으로 맞춤 콘텐츠 교육: 모델은 이 수준의 일러스트레이션을 출력하기 위해 20220121주간의 사후 교육이 필요했습니다. 왼쪽에 있는 XNUMX개의 이미지는 새로운 교육 데이터를 기반으로 주제와 일관된 출력을 만드는 모델의 진행 상황을 보여줍니다. 출처: https://gigazine.net/gsc_news/en/XNUMX-how-waifu-labs-create/

waifu-diffusion을 통해 사용자 지정 콘텐츠를 안정적인 확산으로 교육: 모델은 이 수준의 일러스트레이션을 출력하기 위해 교육 후 XNUMX주가 걸렸습니다. 왼쪽에 있는 XNUMX개의 이미지는 훈련이 진행됨에 따라 새로운 훈련 데이터를 기반으로 주제와 일관된 출력을 만드는 모델의 진행 상황을 보여줍니다. 출처: https://gigazine.net/gsc_news/en/20220121-how-waifu-labs-create/

이러한 Stable Diffusion 체크포인트의 '분기점'에 많은 노력을 기울일 수 있지만 기술 부채로 인해 방해를 받을 수 있습니다. 공식 Discord의 개발자는 이전 버전에서 작동했을 수 있는 프롬프트 논리를 사용하더라도 최신 체크포인트 릴리스가 반드시 이전 버전과 호환되지는 않을 것이라고 이미 밝혔습니다. 레거시 애플리케이션 및 프로세스.

따라서 체크포인트를 상용 제품으로 효과적으로 분기하기로 결정한 회사나 개인은 되돌릴 수 없습니다. 그들의 모델 버전은 그 시점에서 '하드 포크'이며 stability.ai의 이후 릴리스에서 업스트림 이점을 끌어낼 수 없을 것입니다. 이는 상당한 노력입니다.

Stable Diffusion의 커스터마이즈에 대한 현재의 더 큰 희망은 텍스트 반전, 여기서 사용자는 소수의 쥐다-정렬된 이미지.

텔아비브 대학교와 NVIDIA 간의 협력을 통해 텍스트 반전을 통해 소스 모델의 기능을 파괴하지 않고 별개의 새로운 엔터티를 교육할 수 있습니다. 출처: https://textual-inversion.github.io/

텔아비브 대학교와 NVIDIA 간의 협력을 통해 텍스트 반전을 통해 소스 모델의 기능을 파괴하지 않고 별개의 새로운 엔터티를 교육할 수 있습니다. 출처: https://textual-inversion.github.io/

텍스트 반전의 주된 명백한 한계는 매우 적은 수의 이미지가 권장된다는 것입니다(적은 XNUMX개). 이는 사실적인 개체를 삽입하는 것보다 스타일 전송 작업에 더 유용할 수 있는 제한된 개체를 효과적으로 생성합니다.

그럼에도 불구하고 현재 훨씬 더 많은 수의 훈련 이미지를 사용하는 다양한 Stable Diffusion Discords 내에서 실험이 진행 중이며 이 방법이 얼마나 생산적인지 확인해야 합니다. 다시 말하지만 이 기술에는 많은 VRAM, 시간 및 인내가 필요합니다.

이러한 제한 요인으로 인해 Stable Diffusion 열광자들의 보다 정교한 텍스트 반전 실험을 보기 위해 잠시 기다려야 할 수도 있습니다. 공식 체크포인트의 놀라운 기능을 유지하면서 Photoshop 잘라내기 및 붙여넣기.

 

6년 2022월 XNUMX일에 처음 게시되었습니다.