stub UniTune: Google-ийн мэдрэлийн зураг засварлах өөр арга техник - Unite.AI
бидэнтэй хамт холбоно

Хиймэл оюун

UniTune: Google-ийн өөр мэдрэлийн зураг засварлах арга

mm
шинэчлэгдсэн on

Google Research нь текстэд суурилсан зураг засварлах ажлыг хэд хэдэн талаас нь довтолж байгаа бөгөөд юу болохыг харахыг хүлээж байгаа бололтой. Энэ долоо хоногт нээлтээ хийх гэж байна Ид шидийн цаас, хайлтын аварга компани нь текст командын тусламжтайгаар зураг дээр өөр боломжгүй хиймэл оюун ухаанд суурилсан засвар хийх нэмэлт далд тархалтад суурилсан аргыг санал болгосон бөгөөд энэ удаад UniTune.

Төсөлд өгсөн жишээн дээр үндэслэн шинэ цаас, UniTune ер бусын түвшинд хүрсэн салгах Бодит хатуу зургийн контентоос семантик поз ба санаа:

UniTune-ийн утга зохиолын команд нь гайхалтай юм. Зургийн хамгийн дээд эгнээнд байгаа эх зургийн бусад хэсэгт (баруун талд) ер бусын өөрчлөлт хийснээр хоёр хүний ​​царай хэрхэн гажсан болохыг анхаарна уу. Эх сурвалж: https://arxiv.org/pdf/2210.09477.pdf

UniTune-ийн утга зохиолын команд нь гайхалтай юм. Зургийн хамгийн дээд эгнээнд байгаа эх зургийн бусад хэсэгт (баруун талд) ер бусын өөрчлөлт хийснээр хоёр хүний ​​царай хэрхэн гажсан болохыг анхаарна уу. Эх сурвалж: https://arxiv.org/pdf/2210.09477.pdf

Тогтвортой тархалтын шүтэн бишрэгчид одоохондоо мэдэж байгаа байх, зургийн үлдсэн хэсэгт сөргөөр нөлөөлөхгүйгээр хэсэгчилсэн хэсэгт засвар хийх нь төвөгтэй, заримдаа боломжгүй үйлдэл байж болно. гэх мэт алдартай түгээлтүүд хэдий ч АВТОМАТ1111 орон нутгийн болон хязгаарлагдмал засварлах маск үүсгэж болно, үйл явц нь эрчилсэн бөгөөд ихэвчлэн урьдчилан таамаглах боломжгүй байдаг.

Наад зах нь компьютерийн харааны эмчийн хувьд тодорхой хариулт бол давхаргыг оруулах явдал юм семантик сегментчилэл Энэ нь хэрэглэгчийн оролцоогүйгээр зураг дээрх объектуудыг таних, тусгаарлах чадвартай бөгөөд сүүлийн үед энэ бодлын дагуу хэд хэдэн шинэ санаачлага гарч ирэв.

Өөр нэг боломж Эмх замбараагүй, орооцолдсон мэдрэлийн зураг засварлах үйлдлүүдийг түгжихийн тулд OpenAI-ийн нөлөө бүхий Эсрэг хэл-Зургийн өмнөх сургалтыг ашиглах явдал юм.КЛИП) модуль нь DALL-E 2 ба Тогтвортой тархалт зэрэг далд тархалтын загваруудын гол цөм нь бөгөөд текстээс зураг руу шилжих загвар нь тайлбарласан дүрслэлийг хэрэглэгч рүү буцааж илгээхэд бэлэн байх үед шүүлтүүрийн үүрэг гүйцэтгэдэг. . Энэ хүрээнд CLIP нь гажигтай эсвэл тохиромжгүй дүрслэлээс татгалзаж, харуул ба чанарын хяналтын модуль болж ажиллах ёстой. Энэ бол байгуулагдах гэж байна (Discord холбоос) Stability.ai-ийн DreamStudio API-д суурилсан портал дээр.

Гэсэн хэдий ч, CLIP нь ийм хувилбарын буруутан, шийдэл хоёулаа байж болох тул (учир нь энэ нь мөн чанар нь зураг хэрхэн өөрчлөгдсөнийг мэдээлсэн) бөгөөд техник хангамжийн шаардлага нь эцсийн хэрэглэгчдэд дотоодод байж болох хэмжээнээс давж магадгүй тул, Энэ арга нь тийм ч тохиромжтой биш байж магадгүй юм.

Шахсан хэл

Санал болгож буй UniTune нь оронд нь одоо байгаа тархалтын загварыг "нарийн тааруулж" - энэ тохиолдолд Google-ийн өөрийн Imagen, гэхдээ судлаачид энэ аргыг бусад далд тархалтын архитектуртай нийцтэй гэж мэдэгддэг - ингэснээр дуудаж болох өвөрмөц токеныг оруулдаг. текстийн сануулгад оруулах замаар.

Нэрлэсэн үнээр энэ нь Google шиг сонсогдож байна мөрөөдлийн лангуу, Тогтвортой диффузын хөгжөөн дэмжигчид болон хөгжүүлэгчдийн дунд маш их сонирхол татсан бөгөөд энэ нь зөвхөн цөөн хэдэн эх сурвалжийн зураг дээр тулгуурлан одоо байгаа хяналтын цэгт нэг цаг хүрэхгүй хугацаанд шинэ дүр эсвэл объектуудыг оруулж чаддаг; эсвэл өөр гэх мэт Текстийн урвуу, энэ нь хяналтын цэгт зориулж "хажуугийн" файлуудыг үүсгэдэг бөгөөд тэдгээрийг загварт анх бэлтгэгдсэн мэт авч үзэх ба текст ангилагчийг өөрчилснөөр загварын өөрийн асар их нөөцийг ашиглах боломжтой бөгөөд үүний үр дүнд жижиг файл (хэрэглэгчтэй харьцуулахад DreamBooth-ийн хамгийн багадаа 2 ГБ-ын тайрсан хяналтын цэгүүд).

Үнэн хэрэгтээ судлаачид UniTune эдгээр хоёр аргыг хоёуланг нь үгүйсгэсэн гэж мэдэгджээ. Тэд Textual Inversion нь хэтэрхий олон чухал мэдээллийг орхигдуулсан болохыг олж мэдсэн бол DreamBooth "Илүү муу ажиллаж, илүү удаан ажилласан" Тэд эцэст нь шийдсэн шийдлээс илүү.

Гэсэн хэдий ч UniTune нь DreamBooth-тэй ижил төстэй семантик 'метапромпт' арга барилыг ашигладаг бөгөөд сургагч багшийн сонгосон өвөрмөц үгсээр дуудагдсан бэлтгэгдсэн өөрчлөлтүүд нь одоогоор маш их бэлтгэгдсэн нийтийн хувилбарын загварт байгаа ямар ч нэр томъёотой зөрчилдөхгүй.

'Засах үйлдлийг гүйцэтгэхийн тулд бид нарийн тааруулсан загваруудыг “[ховор_токонууд] edit_prompt” (жишээ нь, “зоогийн газар дахь beikkpic хоёр нохой” эсвэл “beikkpic a minion”) командын тусламжтайгаар дээж авдаг.'

Үйл явц

Төгсгөлийн үйл ажиллагааны хувьд бараг ижил төстэй хоёр баримт яагаад нэг долоо хоногт Google-ээс ирэх ёстой нь хачирхалтай боловч хоёр санаачилгын хооронд асар олон тооны ижил төстэй зүйл байгаа хэдий ч UniTune болон Imagic хоёрын хооронд дор хаяж нэг тодорхой ялгаа бий. Сүүлийнх нь зураг засах үйлдлүүдийг удирдан чиглүүлэхийн тулд "шахаагүй" байгалийн хэлний сануулгыг ашигладаг бол UniTune нь DreamBooth загварын өвөрмөц жетоноор сургадаг.

Тиймээс, хэрэв та Imagic-ээр засварлаж байсан бөгөөд энэ шинж чанартай өөрчлөлтийг хийхийг хүсч байвал ...

UniTune цааснаас - UniTune нь Google-ийн хамгийн дуртай өрсөлдөгч мэдрэлийн засварлах SDEdit системтэй тулгардаг. UniTune-ийн үр дүн баруун талд байгаа бол тооцоолсон маск зүүн талын хоёр дахь зураг дээр харагдаж байна.

UniTune цааснаас - UniTune нь Google-ийн хамгийн дуртай өрсөлдөгч мэдрэлийн засварлах SDEdit системтэй тулгардаг. UniTune-ийн үр дүн баруун талд байгаа бол тооцоолсон маск зүүн талын хоёр дахь зураг дээр харагдаж байна.

.. Imagic-д та оруулах болно "Хөөрхөн үслэг мангас шиг ард сууж байгаа гуравдахь хүн".

Үүнтэй ижил UniTune тушаал байх болно 'Арын талын залуу [x]', хаана x Ямар ч хачирхалтай, өвөрмөц үг нь үслэг мангасын дүртэй холбоотой нарийн бэлтгэгдсэн ойлголттой холбоотой байв.

Хэд хэдэн зургийг DreamBooth эсвэл Textual Inversion-д оруулдаг бөгөөд үүнийг олон поз болгон тохируулах боломжтой гүн хуурамч хэв маягийн хийсвэрлэл үүсгэх зорилготой байдаг бол UniTune болон Imagic аль аль нь системд нэг зураг буюу эх, онгон дүрсийг оруулдаг.

Энэ нь сүүлийн хэдэн жилийн GAN-д суурилсан засварлах олон хэрэгслүүдийн үйл ажиллагаатай төстэй юм - оролтын зургийг GAN-ийн далд орон зайд далд код болгон хувиргаж, дараа нь тэдгээр кодуудыг хаяглаж, далд кодын бусад хэсгүүдэд илгээдэг. өөрчлөх орон зай (өөрөөр хэлбэл залуу хар үстэй хүний ​​зургийг оруулж, "хөгшин" эсвэл "шаргал" гэх мэт далд кодоор дамжуулан гаргах).

Гэсэн хэдий ч тархалтын загвар болон энэ аргын үр дүн нь харьцуулж үзвэл үнэхээр гайхалтай үнэн зөв бөгөөд тодорхой бус бага байна:

Нарийн тохируулах үйл явц

UniTune арга нь үндсэндээ загварт бэлтгэгдсэн өгөгдлийн агуулгыг ашиглан анхны зургийг хэрхэн өөрчлөх талаар зааварчилгаа бүхий тархалтын загвараар дамжуулан илгээдэг. Үнэн хэрэгтээ та яг одоо Stable Diffusion-ийн тусламжтайгаар үүнийг хийж чадна img2img функциональ байдал - гэхдээ таны хадгалахыг илүүд үздэг зургийн хэсгүүдийг гажуудуулахгүйгээр эсвэл ямар нэгэн байдлаар өөрчлөхгүй.

UniTune процессын явцад систем нь нарийн тааруулахd, энэ нь UniTune нь загварыг ихэнх давхаргыг нь хөлдөөгөөгүй сургалтыг үргэлжлүүлэхэд хүргэдэг (доороос харна уу). Ихэнх тохиолдолд нарийн тохируулга нь ерөнхий байдлыг хадгалах болно ерөнхий бий болгох эсвэл сайжруулахыг хүсч буй бусад талыг нэвтрүүлэх, боловсронгуй болгохын тулд шаргуу олж авсан өндөр гүйцэтгэлтэй загварын үнэ цэнийг алдах.

Гэсэн хэдий ч, UniTune-ийн тусламжтайгаар хэд хэдэн гигабайт ба түүнээс дээш жинтэй байсан ч загварчилсан хуулбарыг нэг удаагийн барьцааны "хөл" гэж үзэж, нэг зорилгын дагуу үйл явцын төгсгөлд хаях болно. Ийм энгийн дата тонн нь DreamBooth фэнүүдийн хувьд өдөр тутмын хадгалалтын хямрал болж байгаа бөгөөд тэдний загвар нь тайрсан ч нэг сэдэв бүрт 2 ГБ-аас багагүй байдаг.

Imagic-ийн нэгэн адил UniTune-ийн үндсэн тохируулга нь Imagen-ийн гурван давхаргын доод хоёр хэсэгт (суурь 64px, 64px>256px, 256px>1024px) хийгддэг. Imagic-ээс ялгаатай нь судлаачид энэхүү сүүлийн бөгөөд хамгийн том өндөр нягтралтай давхаргын тохируулгыг оновчтой болгоход зарим боломжит үнэ цэнийг олж хардаг (хэдийгээр тэд үүнийг хараахан оролдоогүй байна).

Хамгийн бага 64px давхаргын хувьд загвар нь сургалтын явцад үндсэн зураг руу хазайсан байх ба олон давхар зураг/текстийг системд 128 давталтаар нийлүүлж, багцын хэмжээ 4-тэй. Адафактор алдагдлын функцээр 0.0001 суралцах хурдаар ажилладаг. Хэдийгээр T5 кодлогч Зөвхөн энэ нарийн тохируулгын үед хөлддөг бол Imagen-ийн анхан шатны сургалтын үеэр мөн хөлддөг

Дараа нь Imagen-ийн анхны сургалтанд ашигласан дуу чимээг нэмэгдүүлэх процедурыг ашиглан дээрх үйлдлийг 64>256px давхаргад давтана.

Дээж авах

Нарийн тохируулсан загвараас хийсэн өөрчлөлтийг олж авах боломжтой түүвэрлэлтийн олон аргууд байдаг бөгөөд үүнд Ангилагч үнэгүй удирдамж (CFG), тогтвортой тархалтын гол тулгуур. CFG нь үндсэндээ тухайн загвар нь "төсөөлөлдөө дагах" болон үзүүлэх боломжуудыг судлах, эсхүл бага тохиргоотой үед оролтын эх сурвалжийн өгөгдөлд хэр зэрэг нийцэх, бага өргөн хүрээтэй эсвэл эрс өөрчлөлт хийх боломжтойг тодорхойлдог. .

Textual Inversion (DreamBooth-ийн хувьд арай бага) UniTune нь анхны зургуудад тодорхой график хэв маягийг ашиглахаас гадна илүү фото бодит засварлах боломжтой.

Textual Inversion (DreamBooth-ийн хувьд арай бага) шиг UniTune нь анхны зургуудад тодорхой график хэв маягийг ашиглахаас гадна илүү фото бодит засварлах боломжтой.

Судлаачид мөн туршилт хийсэн SDEdit"Хожуу эхлэх" арга бөгөөд систем нь анхнаасаа хэсэгчлэн "чимээ" байж, харин үндсэн шинж чанараа хадгалах замаар анхны нарийн ширийнийг хадгалахыг дэмждэг. Судлаачид үүнийг зөвхөн хамгийн доод давхаргад (64px) ашигласан хэдий ч энэ нь ирээдүйд нэмэлт түүвэрлэлтийн арга байж магадгүй гэж тэд үзэж байна.

Судлаачид мөн ашиглаж байсан шуурхай-to-prompt Загварыг нөхөх нэмэлт текстэд суурилсан техник болгон:

"Шуурхай зааварчилгаа" гэж бидний нэрлэсэн арга техник нь үнэнч байдал, илэрхийлэлийг тохируулахад онцгой ач холбогдолтой болохыг бид "шүргэх" тохиргоонд олж мэдсэн.

"Шуурхай удирдамж нь Ангилагчийн үнэгүй удирдамжтай төстэй бөгөөд үндсэн шугам нь болзолгүй загварын оронд өөр сануулга юм. Энэ нь загварыг хоёр дохионы хоорондох гурвалжин руу чиглүүлдэг.'

UniTune-д шуурхай мэдээлэх, өөрчлөх боломжтой хэсгүүдийг үр дүнтэй тусгаарлах.

UniTune-д шуурхай мэдээлэх, өөрчлөх боломжтой хэсгүүдийг үр дүнтэй тусгаарлах.

Гэсэн хэдий ч CFG хүссэн үр дүнд хүрч чадаагүй тохиолдолд л шуурхай удирдамж хэрэгтэй байсан гэж зохиогчид тэмдэглэжээ.

UniTune-ийг хөгжүүлэх явцад тулгарч байсан өөр нэг шинэ түүвэр арга интерполяци хийх, зургийн хэсгүүд нь хангалттай ялгаатай байх тул анхны болон өөрчилсөн зураг хоёулаа найрлагын хувьд маш төстэй бөгөөд илүү "гэнэн" интерполяцыг ашиглах боломжийг олгодог.

Интерполяци нь хувиргах хэсгүүд нь салангид, сайн хязгаарлагдмал тохиолдолд UniTune-ийн илүү их хүчин чармайлттай процессуудыг шаардлагагүй болгож чадна.

Интерполяци нь хувиргах хэсгүүд нь салангид, сайн хязгаарлагдмал тохиолдолд UniTune-ийн илүү их хүчин чармайлттай процессуудыг шаардлагагүй болгож чадна.

Зохиогчид интерполяци нь олон тооны зорилтот эх зургийн хувьд маш сайн ажиллах боломжтой бөгөөд үүнийг өгөгдмөл тохиргоо болгон ашиглаж болох бөгөөд нарийн төвөгтэй бөглөрөл байхгүй тохиолдолд энэ нь ер бусын хувиргалт хийх чадвартай гэдгийг ажиглаж байна. илүү эрчимтэй аргуудаар тохиролцох хэрэгтэй.

UniTune нь засварлах масктай болон засварлахгүйгээр орон нутгийн засваруудыг хийх боломжтой, гэхдээ орчуулгын хүч болон эх сурвалжийн оролтын өгөгдлийн бат бөх чухал зохицуулалтын ер бусын хослолоор засваруудыг хаана байрлуулахаа нэг талдаа шийдэж болно.

Хоёрдахь баганын хамгийн дээд талын зураг дээр "арын дэвсгэр дээр улаан галт тэрэг" оруулах үүрэгтэй UniTune үүнийг тохиромжтой бөгөөд жинхэнэ байрлалд байрлуулсан байна. Зургийн пикселийн агуулга, үндсэн хэв маягийн ер бусын өөрчлөлтүүдийн дунд ч гэсэн эх зургийн семантик бүрэн бүтэн байдал хэрхэн хадгалагдаж байгааг бусад жишээн дээр анхаарна уу.

Хоёрдахь баганын хамгийн дээд талын зураг дээр "арын дэвсгэр дээр улаан галт тэрэг" оруулах үүрэгтэй UniTune үүнийг тохиромжтой бөгөөд жинхэнэ байрлалд байрлуулсан байна. Зургийн пикселийн агуулга, үндсэн хэв маягийн ер бусын өөрчлөлтүүдийн дунд ч гэсэн эх зургийн семантик бүрэн бүтэн байдал хэрхэн хадгалагдаж байгааг бусад жишээн дээр анхаарна уу.

Лавлагаа

Хэдийгээр аливаа шинэ системийн эхний давталт удаан байх боловч олон нийтийн оролцоо эсвэл корпорацийн үүрэг хариуцлага (энэ нь ихэвчлэн хоёулаа байдаггүй) эцэстээ нөөц их шаарддаг хэвшлийг хурдасгаж, оновчтой болгох боломжтой ч UniTune болон Imagic аль аль нь зарим нэг ажлыг гүйцэтгэж байна. Эдгээр гайхалтай засваруудыг бий болгохын тулд маш том машин сургалтын маневрууд байдаг бөгөөд нөөцөд шунах үйл явцыг API-д суурилсан хандалтаас илүү дотоодын хэрэглээ болгон хэр зэрэг бууруулж болох вэ гэдэг нь эргэлзээтэй байна (хэдийгээр сүүлийнх нь Google-д илүү таалагдаж магадгүй юм). ).

Одоогоор T3 GPU дээр оролтоос үр дүн хүртэл 4 минут орчим үргэлжлэх бөгөөд дүгнэлт хийхэд 30 орчим секунд зарцуулагдана (ямар ч дүгнэлтийн горимын дагуу). Зохиогчид энэ нь өндөр хоцролт гэдгийг хүлээн зөвшөөрч, "интерактив" гэж бараг тохирохгүй, гэхдээ хэрэглэгч засварлах хугацаа багасч, анх тохируулсны дараа дахин засварлах боломжтой хэвээр байх болно гэдгийг тэмдэглэжээ. .

 

Анх 21 оны 2022-р сарын XNUMX-нд нийтлэгдсэн.