stub Тогтвортой тархалт нь өргөн хэрэглээний бүтээгдэхүүний хувьд хэрхэн хөгжиж чадах вэ - Unite.AI
бидэнтэй хамт холбоно

Хиймэл оюун

Тогтвортой тархалт нь өргөн хэрэглээний бүтээгдэхүүний хувьд хэрхэн хөгжиж чадах вэ?

mm
шинэчлэгдсэн on

Сонирхолтой нь, Тогтвортой тархалтn, дэлхийг шуурганд автуулсан AI дүрсний синтезийн шинэ бүтэц нь тогтвортой биш, тийм ч "тарсан" ч биш - ядаж л хараахан биш.

Системийн бүх боломжууд нь Discord дээрх янз бүрийн яриа хэлээр хамгийн сүүлийн үеийн мэдээлэл, онолуудыг солих цөөн тооны хөгжүүлэгчдийн байнга өөрчлөгддөг саналуудаас бүрдсэн янз бүрийн smorgasbord-д тархсан бөгөөд тэдгээрийн үүсгэж буй багцуудыг суулгах процедурын дийлэнх нь юм. Өөрчлөлт хийх нь "залгаад тоглох"-оос маш хол байдаг.

Үүний оронд тэд командын мөр эсвэл BAT-д суурилсан GIT, Conda, Python, Miniconda болон бусад дэвшилтэт хөгжүүлэлтийн хүрээнүүдээр дамжуулан суулгах - програм хангамжийн багцууд нь хэрэглэгчдийн дунд маш ховор байдаг тул тэдгээрийг суулгах нь маш ховор байдаг. байнга дарцагладаг вирусны эсрэг болон хорлонт програм хангамжийн үйлдвэрлэгчид эвдэрсэн хост системийн нотолгоо.

Тогтвортой диффузийн стандарт суурилуулалтад одоогоор шаардлагатай байгаа гинжин хэлхээний зөвхөн цөөн тооны үе шатууд. Ихэнх түгээлтүүд нь Python-ийн тодорхой хувилбаруудыг шаарддаг бөгөөд энэ нь хэрэглэгчийн машин дээр суулгасан хувилбаруудтай зөрчилдөж болох боловч үүнийг Docker-д суурилсан суулгацууд болон тодорхой хэмжээгээр Conda орчныг ашиглах замаар арилгах боломжтой.

Тогтвортой диффузийн стандарт суурилуулалтад одоогоор шаардлагатай байгаа гинжин хэлхээний зөвхөн цөөн тооны үе шатууд. Ихэнх түгээлтүүд нь Python-ийн тодорхой хувилбаруудыг шаарддаг бөгөөд энэ нь хэрэглэгчийн машин дээр суулгасан хувилбаруудтай зөрчилдөж болох боловч үүнийг Docker-д суурилсан суулгацууд болон тодорхой хэмжээгээр Conda орчныг ашиглах замаар арилгах боломжтой.

SFW болон NSFW Stable Diffusion бүлгүүдийн аль алиных нь мессежийн хэлхээнүүд нь сайжруулсан функцийг идэвхжүүлэх, байнгын хамаарлын алдаа болон бусад олон асуудлыг шийдвэрлэхийн тулд Python скриптүүд болон стандарт суулгацуудыг хакердахтай холбоотой зөвлөмж, заль мэхээр дүүрэн байдаг.

Энэ нь энгийн хэрэглэгчдэд сонирхолтой байдаг гайхалтай дүр төрхийг бий болгох текст сануулгуудаас, мөнгө олох боломжтой API вэб интерфэйсүүдийн тоо өссөөр байгаа бөгөөд ихэнх нь жетон худалдаж авахаас өмнө хамгийн бага тооны үнэгүй дүрс үүсгэх боломжийг олгодог.

Нэмж дурдахад, эдгээр вэбд суурилсан бараг бүх саналууд нь OpenAI-ийн DALL-E-ийн үйлчилгээнээс Тогтвортой тархалтыг ялгаж өгдөг NSFW агуулгыг гаргахаас татгалздаг (ихэнх нь "дайн" гэх мэт ерөнхий сонирхлын порно бус сэдэвтэй холбоотой байж болно). 2.

"Тогтвортой тархалтад зориулсан Photoshop"

Твиттерийн #stablediffusion hashtag-д өдөр бүр байршуулдаг гайхалтай, бүдүүлэг эсвэл бусад ертөнцийн зургуудыг гайхшруулж, дэлхий даяар хүлээж байгаа зүйл бол яах аргагүй мөн. "Тогтвортой тархалтад зориулсан Photoshop" – Stability.ai-ийн архитектурын хамгийн шилдэг, хүчирхэг функцууд, мөн шинээр гарч ирж буй SD хөгжүүлэлтийн нийгэмлэгийн төрөл бүрийн ухаалаг шинэлэг зүйлүүдийг ямар ч хөвөгч CLI цонхгүй, бүрхэг, байнга өөрчлөгддөг суулгац, шинэчлэлтийг багтаасан платформ хоорондын суулгаж болох програм. хэвшил, эсвэл дутуу функцууд.

Ихэнх чадварлаг суулгацуудад одоо байгаа зүйл бол командын мөрийн цонхоор дүүрсэн янз бүрийн гоёмсог вэб хуудас бөгөөд URL нь localhost порт юм.

FaceSwap болон BAT-төвт суурилсан DeepFaceLab зэрэг CLI-д суурилсан синтезийн програмуудтай адил Stable Diffusion-ийн 'prepack' суулгац нь командын мөрийн үндэсийг харуулдаг бөгөөд интерфэйс нь холбогдох localhost портоор (дээрх зургийн дээд хэсгийг харна уу) ханддаг. CLI-д суурилсан Stable Diffusion функцтэй.

FaceSwap болон BAT-төвт суурилсан DeepFaceLab зэрэг CLI-д суурилсан синтезийн програмуудтай адил Stable Diffusion-ийн 'prepack' суулгац нь командын мөрийн үндэсийг харуулдаг бөгөөд интерфэйс нь холбогдох localhost портоор (дээрх зургийн дээд хэсгийг харна уу) ханддаг. CLI-д суурилсан Stable Diffusion функцтэй.

Илүү оновчтой програм гарч ирэх нь дамжиггүй. зэрэг татаж авах боломжтой хэд хэдэн Patreon-д суурилсан интеграл програмууд аль хэдийн бий ГРИск болон NMKD (доорх зургийг харна уу) - гэхдээ аль нь ч Тогтвортой тархалтын илүү дэвшилтэт, хүртээмж багатай зарим хэрэгжүүлэлтүүдийн санал болгож чадах бүх төрлийн функцуудыг нэгтгэдэггүй.

Тогтвортой тархалтын Patreon-д суурилсан эрт үеийн багцууд, бага зэрэг "апп-тай". NMKD нь CLI гаралтыг GUI-д шууд нэгтгэсэн анхных юм.

Тогтвортой тархалтын Patreon-д суурилсан эрт үеийн багцууд, бага зэрэг "апп-тай". NMKD нь CLI гаралтыг GUI-д шууд нэгтгэсэн анхных юм.

Энэхүү гайхамшигтай нээлттэй эхийн гайхамшгийг илүү боловсронгуй, салшгүй байдлаар хэрэгжүүлэх нь эцэстээ ямар харагдах, ямар сорилтуудтай тулгарч болохыг харцгаая.

Бүрэн санхүүжүүлсэн арилжааны тогтвортой тархалтын хэрэглээний хууль эрх зүйн асуудал

NSFW хүчин зүйл

Тогтвортой тархалтын эх кодыг дор гаргасан туйлын зөвшөөрөгдсөн лиценз Энэ нь арилжааны дахин ашиглахыг хориглодоггүй бөгөөд эх кодоос өргөн хүрээтэй бүтээгдсэн бүтээлүүд.

Дээр дурьдсан болон өсөн нэмэгдэж буй Patreon-д суурилсан Stable Diffusion-ийн бүтээн байгуулалтаас гадна олон тооны програмын нэмэлт өргөтгөлүүдээс гадна Фигма, Крита, Photoshop, GIMPБолон Blender (бусдын дунд) байхгүй практик Сайн санхүүжүүлсэн програм хангамж хөгжүүлэлтийн газар яагаад илүү боловсронгуй, чадвартай Stable Diffusion программыг хөгжүүлж чадахгүй байгаагийн шалтгаан. Зах зээлийн өнцгөөс харахад ийм хэд хэдэн санаачилга аль хэдийн хэрэгжиж эхэлсэн гэж үзэх бүрэн үндэслэл бий.

Тогтвортой тархалтад зориулсан ихэнх вэб API-уудын нэгэн адил энэ програм нь Stable Diffusion-ийн эх NSFW шүүлтүүрийг (a кодын хэсэг), унтраах.

NSFW шилжүүлэгчийг "булж байна"

Stability.ai-ийн тогтвортой тархалтын нээлттэй эхийн лиценз нь ашиглах боломжтой програмуудын өргөн тайлбартай жагсаалтыг агуулдаг. үгүй биш ашиглаж болно (маргаан оролцуулан порно агуулга болон гүнзгийрч байна), борлуулагчаас ийм хэрэглээг үр дүнтэй хориглох цорын ганц арга бол NSFW шүүлтүүрийг Python файл дахь параметрийн оронд тунгалаг гүйцэтгэгдэх файл болгон хөрвүүлэх, эсвэл Python файл эсвэл NSFW зааврыг агуулсан DLL дээр шалгах нийлбэрийг харьцуулах явдал юм. Ингэснээр хэрэглэгчид энэ тохиргоог өөрчилсөн тохиолдолд дүрслэл гарахгүй.

Энэ нь таамагласан програмыг үүнтэй ижил аргаар "саармагжуулах" болно DALL-E 2 одоогоор байна, түүний арилжааны сонирхлыг бууруулж байна. Түүнчлэн, эдгээр бүрэлдэхүүн хэсгүүдийн задалсан "эмчлэгдсэн" хувилбарууд (одоо AI дүрсийг сайжруулах хэрэгслийн Topaz мөрөнд ашиглагдаж байгаа Python-ийн ажиллах цагийн анхны элементүүд эсвэл эмхэтгэсэн DLL файлууд) торрент/хакерын нийгэмлэгт ийм хязгаарлалтыг тайлахын тулд гарч ирэх нь гарцаагүй. , зүгээр л саад болох элементүүдийг сольж, шалгах нийлбэрийн аливаа шаардлагыг үгүйсгэх замаар.

Эцсийн эцэст, борлуулагч нь Stability.ai-ийн буруугаар ашиглахаас сэрэмжлүүлснийг давтан хэлэх боломжтой бөгөөд энэ нь одоогийн олон тогтвортой тархалтын тархалтын эхний үеийг тодорхойлдог.

Гэсэн хэдий ч одоогоор ийм байдлаар тохиолдлын татгалзлыг ашиглаж байгаа жижиг нээлттэй эхийн хөгжүүлэгчид Stable Diffusion-ийг бүрэн боломжуудтай, хүртээмжтэй болгохын тулд ихээхэн хэмжээний цаг хугацаа, мөнгө зарцуулсан програм хангамжийн компанитай харьцуулахад алдах зүйл багатай бөгөөд энэ нь илүү гүнзгийрүүлэн авч үзэхийг урьж байна.

Гүн хуурамч хариуцлага

Бидэнд байгаа шиг саяхан тэмдэглэв, LAION-aesthetics мэдээллийн сан нь Stable Diffusion-ын одоо ажиллаж байгаа загваруудыг сургасан 4.2 тэрбум зургийн нэг хэсэг нь алдартнуудын олон тооны зургийг агуулж байгаа нь хэрэглэгчдэд гүн хуурамч, тэр дундаа алдартнуудын порно бичлэгийг үр дүнтэй бүтээх боломжийг олгодог.

Бидний саяхны нийтлэлээс Женнифер Коннеллигийн XNUMX гаруй жилийн карьерын дөрвөн үе шатыг Тогтвортой тархалтаас дүгнэв.

Бидний саяхны нийтлэлээс Женнифер Коннеллигийн XNUMX гаруй жилийн карьерын дөрвөн үе шатыг Тогтвортой тархалтаас дүгнэв.

Энэ нь "бодит" хүмүүсийг дүрсэлдэггүй (ихэвчлэн) хууль ёсны "хийсвэр" порно бүтээхээс тусдаа бөгөөд илүү маргаантай асуудал юм (хэдийгээр ийм зургуудыг сургалтын материал дахь олон бодит зургуудаас гаргасан байдаг).

АНУ-ын муж улсууд болон улс орнууд гүн хуурамч порнографын эсрэг хууль боловсруулж байгаа, эсхүл батлуулж байгаа тул Stable Diffusion нь алдартнуудын порно киног бүтээх чадвар нь бүрэн цензургүй (өөрөөр хэлбэл порнографын материал үүсгэх боломжтой) арилжааны программыг ашиглах шаардлагатай хэвээр байна гэсэн үг юм. алдартай хүмүүсийн царайг шүүх чадвар.

Нэг арга нь алдартнуудын нэрс болон тэдгээртэй холбоотой байж болох зохиомол дүрүүдтэй холбоотой хэрэглэгчийн сануулгад хүлээн зөвшөөрөгдөхгүй нэр томъёоны "хар жагсаалт"-ыг оруулах явдал юм. Гарал үүслийн өгөгдөл нь бусад хэлийг агуулж байгаа тул ийм тохиргоог зөвхөн англи хэлээс илүү олон хэл дээр хийх шаардлагатай болно. Өөр нэг арга бол Кларифайгийн боловсруулсан алдартай хүмүүсийг таних системийг оруулах явдал юм.

Програм хангамж үйлдвэрлэгчдэд ийм ажиллагааг хууль бус болгох шинэ хууль батлагдах хүртэл олны танил хүмүүсийн нүүр царайг үүсгэхээс бүрэн бие даасан Stable Diffusion программыг урьдчилан сэргийлэхэд туслахын тулд эхэндээ унтраасан ийм аргуудыг оруулах шаардлагатай байж магадгүй юм.

Гэсэн хэдий ч дахин нэг удаа, ийм функцийг сонирхогч талууд зайлшгүй задалж, буцаах болно; Гэсэн хэдий ч, програм хангамж үйлдвэрлэгч нь энэ төрлийн урвуу инженерчлэлийг хэтэрхий хялбар болгохгүй бол энэ нь үр дүнтэй зөвшөөрөлгүй сүйтгэгч гэж үзэж болно.

Оруулж болох онцлог шинж чанарууд

Тогтвортой тархалтын аливаа түгээлтийн үндсэн функцийг аливаа сайн санхүүжүүлсэн арилжааны программаас авах ёстой. Эдгээрт тохирох зураг үүсгэхийн тулд текстийн сануулгыг ашиглах чадвар орно (текстээс зураг руу); ноорог эсвэл бусад зургийг шинээр үүсгэсэн зургуудын удирдамж болгон ашиглах чадвар (зураг-зураг); системийг хэрхэн "төсөөлөх" зааварчилгааг тохируулах арга хэрэгсэл; үзүүлэх цагийг чанарын эсрэг солилцох арга; болон бусад "үндсэн" зүйлс, тухайлбал автоматаар зураг/шуурхай архивлах, ердийн нэмэлт өргөтгөл РеалЭСРГАН, наад зах нь үндсэн 'нүүр засах' GFPGAN or CodeFormer.

Энэ бол үнэхээр "ванилийн суулгац" юм. Одоо хөгжүүлж байгаа эсвэл өргөтгөж байгаа, бүрэн хэмжээний "уламжлалт" Тогтвортой тархалтын хэрэглээнд оруулж болох илүү дэвшилтэт функцуудыг харцгаая.

Стохастик хөлдөлт

Байсан ч гэсэн үрийг дахин ашиглах Өмнөх амжилттай дүрслэлээс харахад Тогтвортой тархалтыг авах нь маш хэцүү бөгөөд хэрэв өөрчлөлтийг яг таг давтвал ямар ч хэсэг сануулга эсвэл эх зураг (эсвэл хоёуланг нь) дараагийн дүрслэлд зориулж өөрчлөгдөнө.

Хэрэв та ашиглахыг хүсвэл энэ нь асуудал юм EbSynth Тогтвортой тархалтын өөрчлөлтийг бодит видеон дээр түр зуурын уялдаатайгаар нэвтрүүлэх - гэхдээ энэ техник нь энгийн толгой ба мөрний цохилтод маш үр дүнтэй байж болох юм:

Хязгаарлагдмал хөдөлгөөн нь EbSynth-ийг Тогтвортой тархалтын хувиргалтыг бодит видео болгон хувиргах үр дүнтэй хэрэгсэл болгож чадна. Эх сурвалж: https://streamable.com/u0pgzd

Хязгаарлагдмал хөдөлгөөн нь EbSynth-ийг Тогтвортой тархалтын хувиргалтыг бодит видео болгон хувиргах үр дүнтэй хэрэгсэл болгож чадна. Эх сурвалж: https://streamable.com/u0pgzd

EbSynth нь "өөрчлөгдсөн" түлхүүр фрэймүүдийн жижиг сонголтыг хэд хэдэн зургийн файл болгон хувиргасан (дараа нь дахин видео болгон угсарч болно) видео болгон хувиргах замаар ажилладаг.

EbSynth сайтын энэ жишээнд видеоны цөөн хэдэн хүрээг уран сайхны аргаар зурсан байна. EbSynth нь эдгээр фрэймүүдийг загварын чиглүүлэгч болгон ашигладаг бөгөөд энэ нь видеог бүхэлд нь будсан хэв маягтай тааруулахын тулд ижил төстэй байдлаар өөрчлөх болно. Эх сурвалж: https://www.youtube.com/embed/eghGQtQhY38

EbSynth сайтын энэ жишээнд видеоны цөөн хэдэн хүрээг уран сайхны аргаар зурсан байна. EbSynth нь эдгээр фрэймүүдийг загварын чиглүүлэгч болгон ашигладаг бөгөөд энэ нь видеог бүхэлд нь будсан хэв маягтай тааруулахын тулд ижил төстэй байдлаар өөрчлөх болно. Эх сурвалж: https://www.youtube.com/embed/eghGQtQhY38

Зүүн талд байгаа шаргал үст йогийн багшаас бараг ямар ч хөдөлгөөнгүй доорх жишээн дээр Stable Diffusion нь нүүр царайгаа тогтвортой байлгахад бэрхшээлтэй хэвээр байна, учир нь "гол хүрээ" болгон хувиргаж буй гурван зураг нь бүрэн ижил биш байна. Хэдийгээр тэд бүгд ижил тооны үрийг хуваалцдаг.

Энд, бүх гурван хувиргалтанд ижил шуурхай, үр өгөөжтэй, эх фрэймийн хооронд маш цөөхөн өөрчлөлттэй байсан ч биеийн булчингууд нь хэмжээ, хэлбэрийн хувьд өөр өөр байдаг ч хамгийн чухал нь нүүр нь хоорондоо нийцэхгүй байгаа нь EbSynth-ийн боломжит дүрслэл дэх түр зуурын тогтвортой байдалд саад болдог.

Энд, бүх гурван хувиргалтанд ижил шуурхай, үр өгөөжтэй, эх фрэймийн хооронд маш цөөхөн өөрчлөлттэй байсан ч биеийн булчингууд нь хэмжээ, хэлбэрийн хувьд өөр өөр байдаг ч хамгийн чухал нь нүүр нь хоорондоо нийцэхгүй байгаа нь EbSynth-ийн боломжит дүрслэл дэх түр зуурын тогтвортой байдалд саад болдог.

Доорх SD/EbSynth видео нь маш шинэлэг бөгөөд хэрэглэгчийн хурууг алхаж буй өмдний хөл, нугас болгон хувиргасан боловч өмдний нийцгүй байдал нь Тогтвортой тархалт нь өөр өөр түлхүүр фрэймүүдэд тогтвортой байдлыг хадгалахад тулгарч буй бэрхшээлийг харуулж байна. , эх фрэймүүд нь хоорондоо төстэй, үр нь тууштай байсан ч гэсэн.

Stable Diffusion болон EbSynth-ээр дамжуулан хүний ​​хуруу нь алхаж буй хүн, нугас болдог. Эх сурвалж: https://old.reddit.com/r/StableDiffusion/comments/x92itm/proof_of_concept_using_img2img_ebsynth_to_animate/

Stable Diffusion болон EbSynth-ээр дамжуулан хүний ​​хуруу нь алхаж буй хүн, нугас болдог. Эх сурвалж: https://old.reddit.com/r/StableDiffusion/comments/x92itm/proof_of_concept_using_img2img_ebsynth_to_animate/

Энэ видеог бүтээсэн хэрэглэгч Гэж хэлсэн Нугасыг хувиргах нь илүү үр дүнтэй, хэрэв тийм ч тод биш, анхных юм бол зөвхөн нэг хувиргасан гол хүрээ шаардлагатай байсан бол алхаж буй өмд бүтээхийн тулд 50 тогтвортой тархалттай зургийг гаргах шаардлагатай байсан. үл нийцэх байдал. Хэрэглэгч мөн 50 түлхүүр фрэйм ​​тус бүрийг тогтвортой байлгахын тулд таван оролдлого хийсэн гэж тэмдэглэжээ.

Тиймээс үндсэн фрэймүүдийн шинж чанарыг дээд зэргээр хадгалах функцээр хангах нь үнэхээр иж бүрэн Stable Diffusion програмын хувьд маш их ашиг тустай байх болно.

Нэг боломж бол программ нь хэрэглэгчдэд фрейм тус бүрийн өөрчлөлтийн стохастик кодчилолыг "хөлдөх" боломжийг олгох бөгөөд одоогоор үүнийг зөвхөн эх кодыг гараар өөрчлөх замаар л хийх боломжтой. Доорх жишээнээс харахад энэ нь цаг хугацааны тогтвортой байдлыг хангахад тусалдаг боловч энэ нь үүнийг шийдэж чадахгүй нь гарцаагүй:

Reddit-ийн нэг хэрэглэгч өөрийн вэбкамерын бичлэгийг өөр өөр алдартай хүмүүс болгон хувиргах замаар (Тогтвортой тархалтын аль ч хэрэгжүүлэлт нь үүнийг хийж чадна), харин хувиргалт бүрт stochastic_encode() параметрийг ижил байлгах замаар өөр өөр алдартай хүмүүс болгон хувиргасан. Энэ нь кодыг өөрчилснөөр хийгдсэн боловч хялбархан хэрэглэгчийн хүртээмжтэй шилжүүлэгч болж чаддаг. Гэхдээ энэ нь цаг хугацааны бүх асуудлыг шийдэж чадахгүй нь ойлгомжтой. Эх сурвалж: https://old.reddit.com/r/StableDiffusion/comments/wyeoqq/turning_img2img_into_vid2vid/

Reddit-ийн нэг хэрэглэгч өөрийн вэбкамерын бичлэгийг өөр өөр алдартай хүмүүс болгон хувиргах замаар (Тогтвортой тархалтын аль ч хэрэгжүүлэлт нь үүнийг хийж чадна), харин хувиргалт бүрт stochastic_encode() параметрийг ижил байлгах замаар өөр өөр алдартай хүмүүс болгон хувиргасан. Энэ нь кодыг өөрчилснөөр хийгдсэн боловч хялбархан хэрэглэгчийн хүртээмжтэй шилжүүлэгч болж чаддаг. Гэхдээ энэ нь цаг хугацааны бүх асуудлыг шийдэж чадахгүй нь ойлгомжтой. Эх сурвалж: https://old.reddit.com/r/StableDiffusion/comments/wyeoqq/turning_img2img_into_vid2vid/

Үүлэнд суурилсан текстийн урвуу

Түр зуурын хувьд нийцтэй дүр, объектыг олж авах илүү сайн шийдэл бол тэдгээрийг "жигнэх" явдал юм Текстийн урвуу – 5КБ хэмжээтэй файлыг зөвхөн таван тайлбартай зураг дээр үндэслэн хэдхэн цагийн дотор сургах боломжтой бөгөөд дараа нь тусгай зургийн тусламжтайгаар олж авах боломжтой. '*' жишээ нь өгүүллэгт оруулах романы баатруудын байнгын дүр төрхийг түргэн шуурхай болгох боломжийг олгодог.

Зориулалтын шошготой холбоотой зургуудыг Текстийн урвуулалтаар дамжуулан салангид объект болгон хувиргаж, тодорхой бус, зөв ​​контекст, хэв маягаар тусгай тэмдэгт үгсээр дуудаж болно. Эх сурвалж: https://huggingface.co/docs/diffusers/training/text_inversion

Зориулалтын шошготой холбоотой зургуудыг Текстийн урвуулалтаар дамжуулан салангид объект болгон хувиргаж, тодорхой бус, зөв ​​контекст, хэв маягаар тусгай тэмдэгт үгсээр дуудаж болно. Эх сурвалж: https://huggingface.co/docs/diffusers/training/text_inversion

Текстийн хөрвүүлэлт нь Stable Diffusion-ийн ашигладаг маш том бөгөөд бүрэн бэлтгэгдсэн загварт нэмэлт файлууд бөгөөд өдөөх/санах үйл явцад үр дүнтэй "гулсдаг" бөгөөд ингэснээр тэд оролцох загвараас гаралтай үзэгдэлд ашиглах ба объект, хэв маяг, хүрээлэн буй орчин, харилцан үйлчлэлийн талаарх мэдлэгийн асар том мэдээллийн сангаас ашиг тустай.

Гэсэн хэдий ч, Textual Inversion нь сургахад удаан хугацаа шаарддаггүй ч өндөр хэмжээний VRAM шаарддаг; Одоогийн янз бүрийн алхмуудын дагуу 12, 20, бүр 40 ГБ хүртэл.

Ихэнх энгийн хэрэглэгчид ийм төрлийн GPU-г ашиглах боломжгүй байдаг тул уг ажиллагааг хариуцах үүлэн үйлчилгээнүүд, тэр дундаа Hugging Face хувилбар аль хэдийн гарч ирж байна. Хэдийгээр байдаг Google Colab хэрэгжүүлэлтүүд Тогтвортой тархалтад зориулж текстийн урвуу үүсгэх боломжтой, шаардлагатай VRAM болон цаг хугацааны шаардлага нь чөлөөт түвшний Colab хэрэглэгчдэд эдгээрийг төвөгтэй болгож магадгүй юм.

Боломжит бүрэн гүйцэд, сайн хөрөнгө оруулалттай Stable Diffusion (суулгасан) програмын хувьд энэ хүнд даалгаврыг компанийн үүлэн серверүүдээр дамжуулах нь мөнгө олох тодорхой стратеги юм шиг санагдаж байна (хямд эсвэл үнэ төлбөргүй Stable Diffusion програм нь ийм бус программ хангамжтай байдаг гэж үзвэл). үнэ төлбөргүй функц, энэ нь ойрын 6-9 сарын дотор энэ технологиос гарч ирэх олон боломжит програмуудад байж магадгүй юм).

Нэмж дурдахад, илгээсэн зураг, текстийг тэмдэглэж, форматлах нэлээд төвөгтэй үйл явц нь нэгдсэн орчинд автоматжуулалтаас ашиг тустай байж болно. Тогтвортой тархалтын өргөн уудам ертөнцийг судалж, түүнтэй харилцаж чадах өвөрмөц элементүүдийг бий болгох "донтуулагч хүчин зүйл" нь ерөнхий сонирхогч болон залуу хэрэглэгчдийн аль алинд нь албадмал мэт санагдаж магадгүй юм.

Олон талт шуурхай жинлэлт

Хэрэглэгчид урт текст мөрийн хэсэгт илүү их ач холбогдол өгөх боломжийг олгодог олон одоогийн хэрэгжүүлэлтүүд байдаг ч хэрэглүүр нь эдгээрийн хооронд нэлээд ялгаатай бөгөөд ихэвчлэн бүдүүлэг эсвэл ойлгомжгүй байдаг.

Маш алдартай Stable Diffusion салаа AUTOMATIC1111-ээр, жишээ нь, дан эсвэл олон хаалтанд (онцлолыг арилгахын тулд) эсвэл дөрвөлжин хаалтанд оруулан нэмэлт онцлох үгийн утгыг бууруулж эсвэл өсгөж болно.

Дөрвөлжин хаалт ба/эсвэл хаалт нь Тогтвортой тархалтын шуурхай жингийн энэ хувилбарт өглөөний цайгаа хувиргаж болох боловч энэ нь холестерины хар дарсан зүүд юм.

Дөрвөлжин хаалт ба/эсвэл хаалт нь Тогтвортой тархалтын шуурхай жингийн энэ хувилбарт өглөөний цайгаа хувиргаж болох боловч энэ нь холестерины хар дарсан зүүд юм.

Тогтвортой тархалтын бусад давталтууд нь анхаарлын тэмдэгийг онцлон тэмдэглэхийн тулд ашигладаг бол хамгийн уян хатан хувилбар нь хэрэглэгчдэд GUI-ээр дамжуулан мэдэгдэл дэх үг бүрт жин оноох боломжийг олгодог.

Систем нь бас зөвшөөрөх ёстой сөрөг шуурхай жин - зөвхөн төлөө биш аймшгийн фенүүд, гэхдээ Тогтвортой тархалтын далд орон зайд бидний хэл ярианы хязгаарлагдмал хэрэглээнээс бага түгшүүртэй, илүү боловсронгуй нууцлаг зүйлс байж болох юм.

Гадуур будах

Stable Diffusion-ийн дуулиан шуугиантай нээлттэй эх сурвалжийн дараахан OpenAI DALL-E 2 аянгын зарим хэсгийг дахин авах гэж дэмий л оролдсон. зарлах 'зургаа' бөгөөд энэ нь хэрэглэгчдэд семантик логик, харааны уялдаа холбоотой дүрсийг хил хязгаараас нь давах боломжийг олгодог.

Мэдээжийн хэрэг, энэ нь түүнээс хойш болсон хэрэгжүүлсэн Тогтвортой тархалтын янз бүрийн хэлбэрээр, түүнчлэн Кристад, мөн Тогтвортой тархалтын Photoshop маягийн иж бүрэн хувилбарт заавал оруулах ёстой.

Хавтан дээр суурилсан өргөтгөл нь стандарт 512x512 рендерийг бараг хязгааргүй уртасгах боломжтой, хэрэв сануулгууд, одоо байгаа зураг, семантик логик үүнийг зөвшөөрдөг бол. Эх сурвалж: https://github.com/lkwq007/stablediffusion-infinity

Хавтан дээр суурилсан өргөтгөл нь стандарт 512 × 512 рендерийг бараг хязгааргүй уртасгах боломжтой бөгөөд энэ нь сануулгууд, одоо байгаа зураг, семантик логик нь үүнийг зөвшөөрдөг. Эх сурвалж: https://github.com/lkwq007/stablediffusion-infinity

Тогтвортой тархалт нь 512x512px зураг дээр (мөн бусад олон шалтгааны улмаас) бэлтгэгдсэн байдаг тул "толгой онцлох" гэх мэтийг тодорхой заасан байсан ч хүний ​​объектын толгойг (эсвэл биеийн бусад чухал хэсгүүдийг) байнга тасалдаг.

Тогтвортой тархалтын "толгойг таслах" ердийн жишээнүүд; гэхдээ илүү будах нь Жоржийг зурган дээрээ эргүүлэн оруулж чадна.

Тогтвортой тархалтын "толгойг таслах" ердийн жишээнүүд; гэхдээ илүү будах нь Жоржийг зурган дээрээ эргүүлэн оруулж чадна.

Дээрх хөдөлгөөнт зурагт үзүүлсэн (зөвхөн Unix номын сангууд дээр суурилсан, гэхдээ Windows дээр хуулбарлах боломжтой) төрлийн өнгөлгөөг нэг товшилтоор/шүргэх арга хэрэгсэл болгон ашиглах ёстой.

Одоогоор хэд хэдэн хэрэглэгчид "толгойгүй" дүрсний зургийг дээш нь сунгаж, толгойн хэсгийг ойролцоогоор дүүргэж, img2img-г ашиглан алдаатай дүрслэлийг дуусгаж байна.

Контекстийг ойлгодог үр дүнтэй маск

Нууцлах Энэ нь тухайн сэрээ эсвэл хувилбараас хамааран Stable Diffusion-д аймшигтай цохилт болж магадгүй юм. Ихэнхдээ нэгдмэл маск зурах боломжтой бол заасан хэсэг нь зургийн бүх контекстийг харгалздаггүй контентоор буддаг.

Нэг удаа би нүүрний зургийн эвэрлэг бүрхэвчийг далдлаад, заавар өгсөн 'цэнхэр нүд' Будсан маск шиг - би хүний ​​хоёр зүссэн нүдээр алс холын харцтай чонын зургийг харж байх шиг санагдлаа. Фрэнк Синатра биш байсан нь намайг азтай гэж бодож байна.

Утга зүйн засварлах нь мөн боломжтой дуу чимээг тодорхойлох Эхний ээлжинд зургийг бүтээсэн бөгөөд энэ нь хэрэглэгчдэд зурагны бусад хэсэгт хөндлөнгөөс оролцохгүйгээр рэндэр дэх тодорхой бүтцийн элементүүдийг шийдвэрлэх боломжийг олгодог:

Зургийн нэг элементийг уламжлалт далдлалгүйгээр, зэргэлдээ агуулгыг өөрчлөхгүйгээр өөрчлөх, зургийг анх үүсгэсэн чимээ шуугианыг тодорхойлж, зорилтот хэсэгт нөлөөлсөн хэсгүүдэд хандах замаар. Эх сурвалж: https://old.reddit.com/r/StableDiffusion/comments/xboy90/a_better_way_of_doing_img2img_by_finding_the/

Зургийн нэг элементийг уламжлалт далдлалгүйгээр, зэргэлдээ агуулгыг өөрчлөхгүйгээр өөрчлөх, зургийг анх үүсгэсэн чимээ шуугианыг тодорхойлж, зорилтот хэсэгт нөлөөлсөн хэсгүүдэд хандах замаар. Эх сурвалж: https://old.reddit.com/r/StableDiffusion/comments/xboy90/a_better_way_of_doing_img2img_by_finding_the/

Энэ арга нь дээр суурилдаг K-Diffusion дээж авагч.

Физиологийн тэнэгүүдэд зориулсан семантик шүүлтүүрүүд

Өмнө дурьдсанчлан, Тогтвортой тархалт нь ихэвчлэн өгөгдлийн асуудал, түүнийг сургасан зургуудын тэмдэглэгээний дутагдал зэргээс шалтгаалан мөчүүдийг нэмж, хасах боломжтой байдаг.

Сургуулийн бүлгийн зурган дээр хэлээ гаргасан тэр буруу хүүхэд шиг, Тогтвортой диффузын биологийн харгислал нь тэр дороо тодорхой харагддаггүй бөгөөд та нэмэлт гар эсвэл хайлсан мөчрийг анзаарахаасаа өмнө хиймэл оюун ухааны хамгийн сүүлийн үеийн бүтээлээ Instagram-д байршуулсан байж магадгүй юм.

Сургуулийн бүлгийн зурган дээр хэлээ гаргасан тэр буруу хүүхэд шиг, Тогтвортой диффузын биологийн харгислал нь тэр дороо тодорхой харагддаггүй бөгөөд та нэмэлт гар эсвэл хайлсан мөчрийг анзаарахаасаа өмнө хиймэл оюун ухааны хамгийн сүүлийн үеийн бүтээлээ Instagram-д байршуулсан байж магадгүй юм.

Эдгээр төрлийн алдааг засах нь маш хэцүү тул бүрэн хэмжээний Stable Diffusion програм нь ирж буй зурагт анатомийн ноцтой дутагдал байгаа эсэхийг тооцоолохын тулд семантик сегментчилэн ашигладаг анатомийн таних системийг агуулсан байвал ашигтай байх болно (дээрх зураг дээрх шиг). ), хэрэглэгчдэд үзүүлэхээс өмнө шинэ дүрслэлийг ашиглахаас татгалздаг.

Мэдээжийн хэрэг, та дарь эх Кали эсвэл Доктор наймаалжийг дүрслэх эсвэл бүр мөчид гэмтсэн зургийн өртөөгүй хэсгийг аврахыг хүсч магадгүй тул энэ функц нь нэмэлт унтраалга байх ёстой.

Хэрэв хэрэглэгчид телеметрийн асуудлыг тэвчиж чадвал ийм алдааг нэрээ нууцалсан холбооны сургалтын хамтын хүчин чармайлтаар дамжуулж болох бөгөөд энэ нь ирээдүйн загваруудад анатомийн логикийн талаарх ойлголтоо сайжруулахад туслах болно.

LAION-д суурилсан автомат нүүр царай сайжруулалт

Миний бичсэнчлэн өмнөх дүр төрх Тогтвортой тархалт нь ирээдүйд шийдвэрлэх гурван зүйлийн талаар, эхний ээлжинд дүрсэлсэн нүүр царайг "сайжруулах" оролдлогыг зөвхөн GFPGAN-ийн аль ч хувилбарт үлдээж болохгүй.

GFPGAN-ийн "сайжруулалтууд" нь маш ерөнхий шинжтэй, дүрслэгдсэн хүний ​​хувийн шинж чанарыг байнга гутаан доромжилдог бөгөөд зөвхөн зургийн бусад хэсгүүдээс илүү боловсруулах хугацаа, анхаарал хандуулаагүй тул ихэвчлэн тааруухан дүрслэгдсэн нүүрэн дээр л ажилладаг.

Иймд Тогтвортой тархалтын мэргэжлийн стандарт програм нь нүүр царайг таних чадвартай байх ёстой (YOLO гэх мэт стандарт бөгөөд харьцангуй хөнгөн номын сантай), түүнийг дахин үзүүлэхэд байгаа GPU-ийн хүчийг бүрэн ашиглаж, сайжруулсан нүүр царайг холих чадвартай байх ёстой. эх бүрэн контекст дүрслэх, эсвэл гараар дахин найруулахын тулд тусад нь хадгалах. Одоогийн байдлаар энэ нь нэлээд "гар" ажиллагаа юм.

Тогтвортой тархалтыг олны танил хүмүүсийн хангалттай тооны зураг дээр сургасан тохиолдолд GPU-ийн хүчин чадлыг бүхэлд нь зөвхөн үзүүлсэн зургийн нүүрэн дээр дараагийн дүрслэлд төвлөрүүлэх боломжтой бөгөөд энэ нь GFPGAN-аас ялгаатай нь мэдэгдэхүйц сайжруулалт юм. , дүрсэлсэн пикселийг зүгээр л тохируулахын оронд LAION-аар бэлтгэгдсэн өгөгдлөөс мэдээлэл авдаг.

Тогтвортой тархалтыг олны танил хүмүүсийн хангалттай тооны зураг дээр сургасан тохиолдолд GPU-ийн хүчин чадлыг бүхэлд нь зөвхөн үзүүлсэн зургийн нүүрэн дээр дараагийн дүрслэлд төвлөрүүлэх боломжтой бөгөөд энэ нь GFPGAN-аас ялгаатай нь мэдэгдэхүйц сайжруулалт юм. , дүрсэлсэн пикселийг зүгээр л тохируулахын оронд LAION-аар бэлтгэгдсэн өгөгдлөөс мэдээлэл авдаг.

Апп доторх LAION хайлтууд

Хэрэглэгчид LAION-ын мэдээллийн сангаас үзэл баримтлал, хүмүүс болон сэдвүүдийг хайж олох нь Stable Diffusion-ийг илүү сайн ашиглахад туслах болно гэдгийг ойлгож эхэлснээс хойш haveibeentrained.com зэрэг хэд хэдэн онлайн LAION судлаач бүтээгдсэн.

Haveibeentrained.com сайтын хайлтын функц нь хэрэглэгчдэд тогтвортой тархалтыг идэвхжүүлдэг зургуудыг судлах, системээс олж авахыг хүсч буй объект, хүмүүс эсвэл санаануудыг үүнд сургасан эсэхийг мэдэх боломжийг олгодог. Ийм системүүд нь оддын бөөгнөрөл, эсвэл одоогийнхоос гарах "дараагийн санаа" гэх мэт зэргэлдээх байгууллагуудыг илрүүлэхэд тустай. Эх сурвалж: https://haveibeentrained.com/?search_text=bowl%20of%20fruit

Haveibeentrained.com сайтын хайлтын функц нь хэрэглэгчдэд тогтвортой тархалтыг идэвхжүүлдэг зургуудыг судлах, системээс олж авахыг хүсч буй объект, хүмүүс эсвэл санаануудыг үүнд сургасан эсэхийг мэдэх боломжийг олгодог. Ийм системүүд нь оддын бөөгнөрөл, эсвэл одоогийнхоос гарах "дараагийн санаа" гэх мэт зэргэлдээх байгууллагуудыг илрүүлэхэд тустай. Эх сурвалж: https://haveibeentrained.com/?search_text=bowl%20of%20fruit

Хэдийгээр ийм вэбд суурилсан мэдээллийн сан нь зураг дагалддаг зарим хаягуудыг ихэвчлэн илчилдэг ерөнхийлөлт Загварын сургалтын үеэр явагддаг нь ямар нэгэн тодорхой дүрсийг түүний шошгыг сануулга болгон дуудах магадлал багатай гэсэн үг юм.

Үүнээс гадна, устгах "үгээ зогсоох" Байгалийн хэлний боловсруулалт дахь ишлэл, лемматжуулалтын дадлага нь Тогтвортой тархалтад сургагдахаасаа өмнө дэлгэцэнд байгаа олон хэллэгийг салгасан эсвэл орхигдсон гэсэн үг юм.

Гэсэн хэдий ч, гоо зүйн бүлгүүд нь эдгээр интерфэйсүүдийг хооронд нь холбох арга зам нь эцсийн хэрэглэгчдэд тогтвортой тархалтын логик (эсвэл "хувь хүний") талаар маш их зүйлийг зааж өгч, илүү сайн дүрс бүтээхэд туслах болно.

Дүгнэлт

Тогтвортой тархалтын процессыг буцаах, хэрэглэгчдэд системд байгаа хэллэг, үгсийг олж тогтоох боломжийг олгодог CLIP-д суурилсан зургийн шинжилгээ зэрэг Stable Diffusion-ийн бүрэн суурин компьютерийн хэрэгжилтээс харахыг хүсч буй өөр олон боломжууд бий. Энэ нь мэдээжийн хэрэг эх зураг эсвэл үзүүлэнтэй холбоотой байх болно.

Нэмж дурдахад, ESRGAN нь GFPGAN-тай адил бараг л мохоо хэрэгсэл учраас хавтан дээр суурилсан жинхэнэ масштаб нь таатай нэмэлт байх болно. Аз болоход, нэгтгэхээр төлөвлөж байна txt2imghd GOBIG-ийн хэрэгжилт нь үүнийг түгээлтийн хэмжээнд хурдацтай хэрэгжүүлж байгаа бөгөөд энэ нь ширээний давталтын хувьд ойлгомжтой сонголт мэт санагдаж байна.

Discord бүлгүүдийн бусад түгээмэл хүсэлтүүд, тухайлбал нэгдсэн шуурхай толь бичиг, зураач, хэв маягийн холбогдох жагсаалт зэрэг миний сонирхлыг бага татдаг ч апп доторх дэвтэр эсвэл өөрчлөх боломжтой үг хэллэгүүд нь логик нэмэлт мэт санагдах болно.

Үүний нэгэн адил, Тогтвортой тархалт дахь хүн төвтэй хөдөлгөөнт дүрслэлийн одоогийн хязгаарлалтууд хэдийгээр CogVideo болон бусад янз бүрийн төслүүдээр эхлүүлсэн боловч жинхэнэ хүний ​​​​хөдөлгөөнтэй холбоотой түр зуурын өмнөх судалгаануудын өршөөлөөр гайхалтай шинэчлэгдсэн хэвээр байна.

Одоогоор Тогтвортой тархалт видеог хатуу баримталж байна psychedelic, гэхдээ EbSynth болон бусад харьцангуй шинээр гарч ирж буй текстээс видео бичлэг хийх санаачилгуудаар дамжуулан гүн гүнзгий хүүхэлдэйн жүжиг илүү гэрэл гэгээтэй ирээдүйтэй байж болох юм (мөн Runway-д нийлэгжүүлсэн эсвэл "өөрчлөгдсөн" хүмүүс байхгүй байгааг тэмдэглэх нь зүйтэй. хамгийн сүүлийн үеийн сурталчилгааны видео).

Өөр нэг үнэ цэнэтэй функц бол Cinema4D-ийн бүтэц засварлагч дээр суулгаснаас хойш ил тод Photoshop дамжуулалт байх болно. Үүний тусламжтайгаар программуудын хооронд зургуудыг хялбархан шилжүүлж, програм бүрийг ашиглан өөрт тохирсон өөрчлөлтүүдийг хийж болно.

Эцэст нь, магадгүй хамгийн чухал нь, бүрэн ширээний Тогтвортой тархалтын програм нь хяналтын цэгүүдийн хооронд хялбархан солигдох (өөрөөр хэлбэл системийг идэвхжүүлдэг үндсэн загварын хувилбарууд) төдийгүй, мөн ажиллаж байсан захиалгат Текстийн хувиргалтыг шинэчлэх боломжтой байх ёстой. өмнөх албан ёсны загварын хувилбаруудтай, гэхдээ өөр тохиолдолд загварын дараагийн хувилбаруудад эвдэрсэн байж магадгүй (албан ёсны Discord-ийн хөгжүүлэгчид ийм байж магадгүй гэж хэлсэн).

Хамгийн хачирхалтай нь, Adobe Stable Diffusion-д зориулсан ийм хүчирхэг, нэгдсэн матрицыг бий болгох хамгийн сайн байр суурьтай байгууллага нь Adobe-д маш хүчтэй нэгдсэн юм. Агуулгын жинхэнэ байдлын санаачилга Энэ нь OpenAI-ийн DALL-E 2-тэй хийсэн адил Stable Diffusion-ийн үүсгэгч чадавхийг няцааж, үүний оронд хувьцааны гэрэл зургийн салбарт өөрийн эзэмшлийн байгалийн хувьсал гэж байрлуулахгүй бол энэ нь компанийн хувьд ухарсан PR-ийн алдаа мэт санагдаж магадгүй юм.

 

Анх 15 оны 2022-р сарын XNUMX-нд нийтлэгдсэн.