stub Шуурхай хэв маяг: Текстээс зураг үүсгэхэд хэв маягийг хадгалах - Unite.AI
бидэнтэй хамт холбоно

Хиймэл оюун

Шуурхай хэв маяг: Текстээс зураг үүсгэхэд хэв маягийг хадгалах

mm

Нийтэлсэн

 on

Сүүлийн хэдэн жилийн хугацаанд тааруулахад суурилсан тархалтын загварууд нь дүрсийг тохируулах, тохируулах олон төрлийн ажлуудад гайхалтай ахиц дэвшлийг харуулсан. Гэсэн хэдий ч, боломжит чадавхитай хэдий ч одоогийн тааруулахад суурилсан диффузын загварууд нь хэв маягт нийцсэн зураг бүтээх, бүтээхэд олон төвөгтэй бэрхшээлтэй тулгарсаар байгаа бөгөөд үүний цаана гурван шалтгаан байж болно. Нэгдүгээрт, загварын үзэл баримтлал нь тодорхойгүй, тодорхойгүй хэвээр байгаа бөгөөд агаар мандал, бүтэц, дизайн, материал, өнгө гэх мэт элементүүдийн хослолоос бүрддэг. Хоёрдахь урвуу байдалд суурилсан аргууд нь хэв маягийн доройтолд өртөмтгий байдаг тул нарийн ширхэгтэй нарийн ширийн зүйлийг байнга алддаг. Эцэст нь адаптерт суурилсан аргууд нь текстийн хяналт ба хэв маягийн эрчмийг тэнцвэржүүлэхийн тулд жишиг зураг бүрийн жинг байнга тааруулахыг шаарддаг. 

Цаашилбал, ихэнх хэв маягийг шилжүүлэх арга буюу хэв маягийн зураг үүсгэх үндсэн зорилго нь лавлагаа зургийг ашиглах, түүний тодорхой хэв маягийг тухайн дэд хэсэг эсвэл лавлагаа дүрсээс зорилтот агуулгын зураг руу ашиглах явдал юм. Гэсэн хэдий ч, хэв маягийн олон тооны шинж чанарууд нь судлаачдад загварчлагдсан мэдээллийн багц цуглуулах, хэв маягийг зөв илэрхийлэх, дамжуулалтын амжилтыг үнэлэхэд хэцүү болгодог. Өмнө нь нарийн тохируулгад суурилсан тархалтын процесстой холбоотой загварууд болон хүрээнүүд нь нийтлэг хэв маягийг хуваалцдаг зургийн өгөгдлийн багцыг нарийн тааруулдаг бөгөөд энэ процесс нь цаг хугацаа их шаарддаг бөгөөд бодит ертөнцийн даалгавруудыг ерөнхийд нь дүгнэхэд хязгаарлагдмал байдаг. ижил эсвэл бараг ижил хэв маягийг хуваалцсан зургийн дэд багцыг цуглуулах. 

Энэ нийтлэлд бид зураг үүсгэх, өөрчлөхөд зориулж тааруулахад суурилсан тархалтын загваруудад тулгарч буй асуудлуудыг шийдвэрлэх зорилготой InstantStyle хүрээний тухай ярих болно. InstantStyle хүрээний хэрэгжүүлсэн хоёр гол стратегийн талаар бид ярилцах болно. 

  1. Онцлог орон зайн доторх загвар, агуулгыг салгах энгийн хэрнээ үр дүнтэй арга бөгөөд нэг онцлог орон зайд байгаа шинж чанаруудыг нэг нэгээр нь нэмж эсвэл хасаж болно гэсэн таамаглалаар таамагласан. 
  2. Лавлах зургийн онцлогийг зөвхөн загварын тусгай блокуудад оруулах замаар хэв маяг алдагдахаас сэргийлж, нарийн тааруулахын тулд илүү хүнд жинг ашиглах шаардлагаас зориудаар зайлсхийж, ихэвчлэн илүү параметртэй загваруудыг тодорхойлдог. 

Энэхүү нийтлэл нь InstantStyle хүрээг нарийвчлан авч үзэх зорилготой бөгөөд бид механизм, арга зүй, архитектурыг орчин үеийн орчин үеийн хүрээтэй харьцуулан судлах болно. Бид мөн InstantStyle хүрээ нь харааны загварчлалын гайхалтай үр дүнг харуулж, текстийн элементүүдийн хяналт, хэв маягийн эрчмийг хэрхэн оновчтой тэнцвэржүүлдэг талаар ярих болно. Ингээд эхэлцгээе. 

InstantStyle: Текстээс зураг үүсгэхэд хэв маягийг хадгалах

Диффуз дээр суурилсан текстийг дүрс үүсгэх AI хүрээнүүд нь олон төрлийн өөрчлөх, хувийн болгох ажлууд, ялангуяа объектын тохиргоо, дүрс хадгалах, хэв маягийг шилжүүлэх зэрэг тууштай зураг үүсгэх даалгавруудад мэдэгдэхүйц бөгөөд гайхалтай амжилтанд хүрсэн. Гэсэн хэдий ч сүүлийн үеийн амжилт, гүйцэтгэлийн өсөлтийг үл харгалзан хэв маягийн тодорхойгүй, тодорхойгүй шинж чанараас шалтгаалан хэв маягийг шилжүүлэх нь судлаачдын хувьд хэцүү ажил хэвээр байгаа бөгөөд үүнд уур амьсгал, бүтэц, дизайн, материал, өнгө гэх мэт олон янзын элементүүд багтдаг. Үүний зэрэгцээ, загварчлагдсан зураг үүсгэх эсвэл хэв маягийг шилжүүлэх үндсэн зорилго нь өгөгдсөн жишиг зураг эсвэл зургийн лавлах дэд багцаас тодорхой хэв маягийг хэрэглэх явдал юм. зорилтот агуулгын зураг руу. Гэсэн хэдий ч хэв маягийн олон тооны шинж чанарууд нь судлаачдад загварчлагдсан өгөгдлийн багц цуглуулах, хэв маягийг зөв илэрхийлэх, дамжуулалтын амжилтыг үнэлэхэд хэцүү болгодог. Өмнө нь нарийн тохируулгад суурилсан тархалтын процесстой холбоотой загварууд болон хүрээнүүд нь нийтлэг хэв маягийг хуваалцдаг зургийн өгөгдлийн багцыг нарийн тааруулдаг бөгөөд энэ процесс нь цаг хугацаа их шаарддаг бөгөөд бодит ертөнцийн даалгавруудыг ерөнхийд нь дүгнэхэд хязгаарлагдмал байдаг. ижил эсвэл бараг ижил хэв маягийг хуваалцсан зургийн дэд багцыг цуглуулах. 

Өнөөгийн арга барилд тулгарч буй сорилтуудын улмаас судлаачид хэв маягийг шилжүүлэх эсвэл хэв маягийг өөрчлөхөд нарийн тааруулах арга барилыг хөгжүүлэх сонирхолтой болсон. загварчилсан дүрс үүсгэх, мөн эдгээр хүрээг хоёр өөр бүлэгт хувааж болно: 

  • Адаптергүй аргууд: Адаптергүй хандлагууд болон хүрээнүүд нь тархалтын процессын хүрээнд өөртөө анхаарал хандуулах хүчийг ашигладаг бөгөөд нийтлэг анхаарлын үйлдлийг хэрэгжүүлснээр эдгээр загварууд нь тухайн лавлагааны хэв маягийн зургуудаас түлхүүр, утгыг багтаасан чухал шинж чанаруудыг шууд гаргаж авах чадвартай. 
  • Адаптерт суурилсан аргууд: Нөгөө талаас адаптерт суурилсан арга барил, хүрээ нь лавлагааны хэв маягийн зургуудаас дүрсний нарийвчилсан дүрслэлийг гаргаж авахад зориулагдсан хөнгөн загварыг агуулдаг. Дараа нь уг хүрээ нь хөндлөнгийн анхаарлын механизмыг ашиглан эдгээр дүрслэлийг тархалтын процесст чадварлаг нэгтгэдэг. Интеграцийн үйл явцын үндсэн зорилго нь үүсгэх үйл явцыг удирдан чиглүүлэх бөгөөд үүссэн дүрс нь лавлагааны зургийн хүссэн стилист нюансуудтай нийцэж байгаа эсэхийг баталгаажуулах явдал юм. 

Гэсэн хэдий ч, амлалтаас үл хамааран тааруулахгүй аргууд нь цөөн хэдэн бэрхшээлтэй тулгардаг. Нэгдүгээрт, адаптергүй арга нь өөртөө анхаарал хандуулах давхаргууд дотор түлхүүр болон утгуудын солилцоог шаарддаг бөгөөд лавлагааны хэв маягийн зургуудаас гаргаж авсан түлхүүр ба утгын матрицуудыг урьдчилан барьж авдаг. Байгалийн зураг дээр хэрэгжсэн тохиолдолд адаптергүй арга нь DDIM эсвэл Denoising Diffusion Implicit Models inversion зэрэг техникийг ашиглан дүрсийг далд шуугиан руу буцаахыг шаарддаг. Гэсэн хэдий ч DDIM эсвэл бусад урвуу аргыг ашиглах нь өнгө, бүтэц гэх мэт нарийн ширхэгтэй мэдээлэл алдагдахад хүргэж болзошгүй тул үүсгэсэн зургийн хэв маягийн мэдээллийг бууруулдаг. Цаашилбал, эдгээр арга замаар нэвтрүүлсэн нэмэлт алхам нь цаг хугацаа шаардсан үйл явц бөгөөд практик хэрэглээнд ихээхэн сул тал үүсгэж болзошгүй юм. Нөгөөтэйгүүр, адаптерт суурилсан аргуудын гол сорилт нь контекст алдагдах ба хэв маягийн эрчмийг зөв тэнцвэржүүлэх явдал юм. Загварын эрчмийг нэмэгдүүлснээр үүсгэсэн гаралт дахь лавлагаа дүрсээс хэв маягийн бус элементүүд гарч ирэх үед агуулгын алдагдал үүсдэг бөгөөд үндсэн хүндрэл нь загваруудыг жишиг зургийн доторх контентоос үр дүнтэй салгах явдал юм. Энэ асуудлыг шийдвэрлэхийн тулд зарим хүрээ нь ижил объектыг өөр өөр загвараар төлөөлөх хосолсон өгөгдлийн багцуудыг бүтээж, агуулгын дүрслэл болон салангид хэв маягийг задлахад хялбар болгодог. Гэсэн хэдий ч хэв маягийн тодорхойгүй дүрслэлийн ачаар том хэмжээний хосолсон мэдээллийн багц үүсгэх ажил нь түүний барьж чадах хэв маягийн олон талт байдлын хувьд хязгаарлагдмал бөгөөд энэ нь нөөц их шаарддаг үйл явц юм. 

Эдгээр хязгаарлалтыг арилгахын тулд InstantStyle хүрээг нэвтрүүлсэн бөгөөд энэ нь одоо байгаа адаптерт суурилсан аргууд дээр суурилсан, бусад анхааралд суурилсан тарилгын аргуудтай саадгүй нэгтгэх, агуулга, хэв маягийг үр дүнтэйгээр салгах чадвартай шинэлэг тохируулгагүй механизм юм. Цаашилбал, InstantStyle хүрээ нь загвар, агуулгыг салгах нэг биш харин хоёр үр дүнтэй аргыг нэвтрүүлж, салгах, хосолсон өгөгдлийн багц үүсгэх нэмэлт аргуудыг нэвтрүүлэх шаардлагагүйгээр илүү сайн хэв маягийн шилжилтийг бий болгодог. 

Цаашилбал, өмнөх адаптерт суурилсан фрэймворкуудыг CLIP-д суурилсан аргуудад зургийн онцлог задлагч болгон өргөн ашиглаж байсан бөгөөд зарим хүрээ нь онцлог орон зайд функцийг салгах боломжийг судалж үзсэн бөгөөд хэв маяг нь тодорхойгүй байгаатай харьцуулахад илүү хялбар байдаг. агуулгыг текстээр тайлбарлах. Зураг болон текстүүд нь CLIP-д суурилсан аргуудын онцлог зайг хуваалцдаг тул контекст текстийн онцлогууд болон зургийн функцуудыг хасах энгийн үйлдэл нь агуулгын алдагдлыг мэдэгдэхүйц бууруулж чадна. Цаашилбал, ихэнх тохиолдолд диффузын загварууд, түүний архитектурт загварын мэдээллийг оруулдаг тодорхой давхарга байдаг бөгөөд зургийн онцлогийг зөвхөн тодорхой загварын блокуудад оруулах замаар агуулга, хэв маягийг салгах ажлыг гүйцэтгэдэг. Эдгээр хоёр энгийн стратегийг хэрэгжүүлснээр InstantStyle хүрээ нь хэв маягийн хүч чадлыг хадгалахын зэрэгцээ одоо байгаа хүрээнүүдийн дийлэнх нь тулгардаг контент алдагдах асуудлыг шийдэж чадна. 

Дүгнэж хэлэхэд, InstantStyle хүрээ нь лавлагаа зургуудаас агуулга, хэв маягийг үр дүнтэй салгах хоёр энгийн, ойлгомжтой боловч үр дүнтэй механизмыг ашигладаг. Instant-Style framework нь загвар дамжуулалтын даалгаврын гайхалтай гүйцэтгэлийг харуулсан бие даасан, тааруулахгүй загвар юм. 

Шуурхай хэв маяг: Арга зүй ба архитектур

Өмнөх аргуудаас харахад тааруулахгүй тархалтын загварт хэв маягийн нөхцлүүдийг шахах тэнцвэртэй байдаг. Хэрэв зургийн нөхцөлийн эрч хүч хэт өндөр байвал энэ нь контент алдагдах, харин зургийн нөхцөлийн эрч хүч хэт бага унавал хэв маяг нь хангалттай тод харагдахгүй байж магадгүй юм. Энэхүү ажиглалтын гол шалтгаан нь зураг дээрх хэв маяг, агуулга нь хоорондоо уялдаа холбоотой байдаг бөгөөд хэв маягийн тодорхой бус шинж чанаруудаас шалтгаалан хэв маяг, зорилгыг салгахад хэцүү байдаг. Үүний үр дүнд текстийн хяналт, хэв маягийн бат бөх чанарыг тэнцвэржүүлэхийн тулд жишиг зураг бүрт нарийн жинг тохируулдаг. Цаашилбал, өгөгдсөн оролтын лавлагааны зураг болон түүний харгалзах текстийн тайлбарыг урвуу байдалд суурилсан аргуудын хувьд урвуу тархалтын траекторийг авахын тулд DDIM гэх мэт урвуу хандлагыг зураг дээр ашигладаг бөгөөд энэ нь зургийг далд хэлбэр болгон хувиргах урвуу тэгшитгэлийг ойролцоолсон процесс юм. дуу чимээний төлөөлөл. Үүнтэй ижил зүйл дээр тулгуурлан, урвуу тархалтын замналаас эхлэн шинэ сануулгийн хамт эдгээр аргууд нь оролттой нийцүүлэн хэв маягаараа шинэ контент үүсгэдэг. Гэсэн хэдий ч дараах зурагт үзүүлсэнчлэн бодит зурагт зориулсан DDIM-ийн урвуу арга нь орон нутгийн шугаманчлалын таамаглалд тулгуурладаг тул тогтворгүй байдаг тул алдаа тархаж, контент алдагдах, дүрсийг буруу сэргээн засварлахад хүргэдэг. 

Аргачлалын тухайд гэвэл Instant-Style хүрээ нь зурагнаас агуулга, хэв маягийг салгах нарийн төвөгтэй стратеги ашиглахын оронд ижил төстэй гүйцэтгэлд хүрэх хамгийн энгийн аргыг ашигладаг. Дутуу тодорхойлогдоогүй хэв маягийн шинж чанаруудтай харьцуулбал контентыг байгалийн текстээр дүрсэлж болох бөгөөд энэ нь Instant-Style хүрээ нь агуулгын текстийн шинж чанарыг контекст дүрслэл болгон задлахын тулд CLIP-ээс текст кодлогч ашиглах боломжийг олгодог. Үүний зэрэгцээ Instant-Style framework нь жишиг зургийн онцлогуудыг задлахын тулд CLIP дүрс кодлогчийг хэрэгжүүлдэг. CLIP глобал шинж чанаруудын шинж чанарыг ашиглан зургийн онцлогоос агуулгын текстийн онцлогийг хасч, Instant-Style хүрээ нь хэв маяг, агуулгыг тодорхой салгах боломжтой. Хэдийгээр энэ нь энгийн стратеги боловч агуулгын алдагдлыг хамгийн бага хэмжээнд байлгахад Instant-Style хүрээ нь нэлээд үр дүнтэй байдаг. 

Цаашилбал, гүн сүлжээн дэх давхарга бүр өөр өөр семантик мэдээллийг авах үүрэгтэй бөгөөд өмнөх загваруудын гол ажиглалт нь хэв маягийг зохицуулах үүрэгтэй анхаарлын хоёр давхарга байгаа явдал юм. up Тодруулбал, энэ нь блок.0.анхаарал.1 ба доош блок.2.анхаарал.1 давхарга нь өнгө, материал, агаар мандал зэрэг хэв маягийг тусгах үүрэгтэй бөгөөд орон зайн байршлын давхарга нь бүтэц, найрлагыг тус тусад нь авдаг. Instant-Style framework нь загварын мэдээллийг задлахын тулд эдгээр давхаргыг далд байдлаар ашигладаг бөгөөд загварын хүч чадлаа алдалгүйгээр контент алдагдахаас сэргийлдэг. Энэхүү стратеги нь энгийн боловч үр дүнтэй бөгөөд загвар нь хэв маягийг саадгүй шилжүүлэхийн тулд эдгээр блокуудад зургийн онцлогийг оруулах боломжтой загварын блокуудыг байрлуулсан байдаг. Цаашилбал, загвар нь адаптерийн параметрийн тоог эрс багасгадаг тул фрэймворкийн текстийг хянах чадвар сайжирч, уг механизм нь засварлах болон бусад ажлуудад зориулагдсан бусад анхааралд суурилсан функцийг шахах загваруудад бас хэрэглэгдэх боломжтой. 

Шуурхай хэв маяг: Туршилт ба үр дүн

Instant-Style хүрээ нь Stable Diffusion XL хүрээн дээр хэрэгжсэн бөгөөд аргачлалаа баталгаажуулахын тулд түгээмэл хэрэглэгддэг урьдчилан бэлтгэгдсэн IR адаптерийг жишээ болгон ашигладаг бөгөөд зургийн онцлогт зориулсан загварын блокуудаас бусад бүх блокуудын дууг хаадаг. Instant-Style загвар нь мөн IR адаптерийг 4 сая том хэмжээний текст зураг хосолсон өгөгдлийн багц дээр эхнээс нь сургаж, бүх блокуудыг сургахийн оронд зөвхөн загварын блокуудыг шинэчилдэг. 

Instant-Style хүрээ нь өөрийн ерөнхий чадвар, бат бөх байдлыг хангахын тулд янз бүрийн агуулгаар янз бүрийн хэв маяг бүхий хэв маягийг шилжүүлэх олон тооны туршилтуудыг явуулдаг бөгөөд үр дүнг дараах зургуудаас харж болно. Янз бүрийн сануулгууд бүхий нэг загварын лавлагааны зураг өгөгдсөн бол Instant-Style хүрээ нь өндөр чанартай, тогтвортой хэв маягийг өгдөг. зураг үүсгэх

Цаашилбал, загвар нь зургийн мэдээллийг зөвхөн хэв маягийн блокуудад оруулдаг тул энэ нь агуулгын алдагдлын асуудлыг мэдэгдэхүйц бууруулах боломжтой тул жинг тохируулах шаардлагагүй болно. 

Шуурхай хэв маягийн хүрээ нь орон зайн хяналттай зураг дээр суурилсан загварчлалд хүрэхийн тулд ControlNet архитектурыг ашигладаг бөгөөд үр дүнг дараах зурагт үзүүлэв. 

StyleAlign, B-LoRA, Swapping Self Attention, IP-adapter зэрэг өмнөх сүүлийн үеийн аргуудтай харьцуулбал Instant-Style хүрээ нь хамгийн сайн харааны эффектүүдийг харуулж байна. 

Final бодол

Энэ нийтлэлд бид агуулгын болон хэв маягийг лавлагаа зургуудаас үр дүнтэй салгахад туслах энгийн боловч үр дүнтэй хоёр стратегийг ашигладаг Instant-Style ерөнхий тогтолцооны талаар ярилцсан. InstantStyle хүрээ нь зураг үүсгэх, өөрчлөхөд зориулагдсан одоогийн тааруулахад суурилсан тархалтын загваруудад тулгарч буй асуудлуудыг шийдвэрлэх зорилготойгоор бүтээгдсэн. Instant-Style хүрээ нь хоёр чухал стратегийг хэрэгжүүлдэг: Нэг функцын орон зайд байгаа шинж чанаруудыг бие биендээ нэмж эсвэл хасаж болно гэсэн таамаглалаар урьдчилан таамагласан, онцлог орон зай дахь лавлагаа зургуудаас хэв маяг, контентыг салгах энгийн боловч үр дүнтэй арга. Хоёрдугаарт, жишиг зургийн онцлогуудыг зөвхөн тухайн загварт хамаарах блокуудад оруулах замаар хэв маягийн алдагдлаас урьдчилан сэргийлэх, ихэвчлэн илүү их параметртэй дизайныг тодорхойлдог хүнд жинг нарийн тааруулахын тулд ашиглах шаардлагаас зориудаар зайлсхийх. 

"Мэргэжилээрээ инженер, цээжээрээ зохиолч". Кунал бол хиймэл оюун ухаан болон ML-д гүн гүнзгий хайртай, ойлголттой техникийн зохиолч бөгөөд эдгээр салбар дахь нарийн төвөгтэй ойлголтуудыг сонирхолтой, мэдээлэл сайтай баримт бичгүүдээрээ хялбарчлахад зориулагдсан.