stub NVIDIA-ийн eDiffi диффузын загвар нь "Үгээр зурах" болон бусад зүйлийг зөвшөөрдөг - Unite.AI
бидэнтэй хамт холбоно

Хиймэл оюун

NVIDIA-ийн eDiffi диффузын загвар нь "Үгээр зурах" болон бусад зүйлийг зөвшөөрдөг.

mm
шинэчлэгдсэн on

зэрэг далд тархалт үүсгэгч дүрсний загваруудаар нарийн найруулга хийх оролдлого. Тогтвортой тархалт мал маллах муур шиг байж болно; Системд ер бусын нарийн ширийн зүйлийг бий болгож, харьцангуй энгийн текстийн сануулгаас ер бусын зургуудыг дуудах боломжийг олгодог ижил төсөөлөх, тайлбарлах чадварууд нь мөн адил юм. унтраахад хэцүү Хэрэв та зураг үүсгэх Photoshop түвшний хяналтыг хайж байгаа бол.

Одоо NVIDIA судалгааны шинэ арга барил, гарчигтай зургийн хувьд чуулга тархалт (eDiffi) нь үүсгэсэн агуулгыг илүү өндөр түвшинд хянах боломжийг олгохын тулд олон оруулах, тайлбарлах аргуудыг (хоолойн турш ижил аргаар биш) ашигладаг. Доорх жишээнд бид өнгө тус бүр нь текст мөрийн нэг үгийг төлөөлдөг хэрэглэгчийн будгийн элементүүдийг харж байна:

"Үгээр зурах" нь NVIDIA-ийн eDiffi тархалтын загварын хоёр шинэ боломжийн нэг юм. Бүрхэгдсэн өнгө бүр нь сануулгын үгийг илэрхийлдэг (үүсгэх явцад зүүн талд гарч ирэхийг харна уу) бөгөөд хэрэглэсэн талбайн өнгө нь зөвхөн тухайн элементээс бүрдэнэ. Өгүүллийн төгсгөлд суулгагдсан албан ёсны видеог илүү олон жишээ, илүү сайн нягтралтай үзнэ үү. Эх сурвалж: https://www.youtube.com/watch?v=k6cOx9YjHJc

"Үгээр зурах" нь NVIDIA-ийн eDiffi тархалтын загварын хоёр шинэ боломжийн нэг юм. Бүрхэгдсэн өнгө бүр нь сануулгын үгийг илэрхийлдэг (үүсгэх явцад зүүн талд гарч ирэхийг харна уу) бөгөөд хэрэглэсэн талбайн өнгө нь зөвхөн тухайн элементээс бүрдэнэ. Илүү олон жишээ, илүү сайн нягтралыг авахын тулд эх сурвалж (албан ёсны) видеог үзнэ үү https://www.youtube.com/watch?v=k6cOx9YjHJc

Энэ нь үр дүнтэй "маскаар будах" бөгөөд i-г эргүүлж өгдөгnpainting парадигм Тогтвортой тархалт нь эвдэрсэн эсвэл хангалтгүй зургийг засах, эсвэл хүссэн хэмжээгээрээ сунгах зэрэгт суурилдаг.

Энд оронд нь будсан будгийн ирмэгүүд нь нэг концепцийн цорын ганц өвөрмөц элементийн зөвшөөрөгдсөн ойролцоо хил хязгаарыг төлөөлж, хэрэглэгчдэд зурагны эцсийн хэмжээг анхнаасаа тохируулах, дараа нь элементүүдийг тусад нь нэмэх боломжийг олгоно.

Шинэ нийтлэлийн жишээнүүд. Эх сурвалж: https://arxiv.org/pdf/2211.01324.pdf

Шинэ нийтлэлийн жишээнүүд. Эх сурвалж: https://arxiv.org/pdf/2211.01324.pdf

eDiffi-д ашигладаг олон янзын аргууд нь систем нь элемент бүрийг урт, нарийвчилсан зааварт оруулах ажлыг илүү сайн гүйцэтгэдэг гэсэн үг бөгөөд харин Stable Diffusion болон OpenAI-ийн DALL-E 2 нь дохионы тодорхой хэсгийг эрэмбэлэх хандлагатай байдаг. Зорилтот үгс нь сануулгад эсвэл бусад хүчин зүйлээс шалтгаална, тухайлбал иж бүрэн, гэхдээ цогц (текстийн сануулгатай холбоотой) найрлагад шаардлагатай янз бүрийн элементүүдийг задлахад хүндрэлтэй байж болно:

Баримтаас: eDiffi нь хамгийн их боломжтой элементийн тоог гаргах хүртэл сануулгыг сайтар давтах чадвартай. Хэдийгээр eDiffi (баруун талд байгаа багана)-ийн сайжруулсан үр дүн интоор сонгогдсон ч Stable Diffusion болон DALL-E 2-ын харьцуулсан зургууд ч мөн адил.

Баримтаас: eDiffi нь хамгийн их боломжтой элементийн тоог гаргах хүртэл сануулгыг сайтар давтах чадвартай. Хэдийгээр eDiffi (баруун талд байгаа багана)-ийн сайжруулсан үр дүн интоор сонгогдсон ч Stable Diffusion болон DALL-E 2-ын харьцуулсан зургууд ч мөн адил.

Үүнээс гадна, тусгай зориулалтын ашиглах T5 Текстээс текст рүү кодлогч гэдэг нь eDiffi нь сануулгаас хийсвэрээр хүссэн англи текстийг ойлгомжтой болгох чадвартай гэсэн үг юм. зураг [x]-н зарим текстийг агуулж байна) эсвэл тодорхой хүсэлт гаргасан (өөрөөр хэлбэл футболк дээр "Nvidia Rocks" гэж бичсэн байна):

eDiffi-д тусгайлан текстийг текст болгон боловсруулах нь гаралтыг өөрчлөхөөс илүүтэйгээр зөвхөн текстээс зураг руу тайлбарлах давхаргаар дамжуулан ажиллуулахын оронд зураг дээр үгчлэн буулгах боломжтой гэсэн үг юм.

eDiffi-д тусгайлан текстийг текст болгон боловсруулах нь гаралтыг өөрчлөхөөс илүүтэйгээр зөвхөн текстээс зураг руу тайлбарлах давхаргаар дамжуулан ажиллуулахын оронд зураг дээр үгчлэн буулгах боломжтой гэсэн үг юм.

Шинэ хүрээний нэмэлт нэмэлт нь DreamBooth загварыг сургах эсвэл төрөл зүйлийн олон жишээн дээр бичвэр оруулах шаардлагагүй, харин нэг зургийг хэв маягийн сануулга болгон өгөх боломжтой юм. хэв маяг.

Загварын шилжүүлгийг лавлагаа зургаас текстээс зураг руу шилжүүлэх эсвэл бүр зурагнаас зураг руу шилжүүлэх горимд ашиглаж болно.

Загварын шилжүүлгийг лавлагаа зургаас текстээс зураг руу шилжүүлэх эсвэл бүр зурагнаас зураг руу шилжүүлэх горимд ашиглаж болно.

The шинэ цаас гэсэн гарчигтай eDiffi: Мэргэшсэн Denoisers-ийн чуулга бүхий текстээс зураг руу тархах загваруудБолон

T5 текст кодлогч

Google-ийн T-ийн хэрэглээext-to-Text Transfer Transformer (T5) нь eDiffi-д үзүүлсэн сайжруулсан үр дүнгийн гол элемент юм. Дундаж далд тархалтын дамжуулах хоолой нь сургагдсан зургууд болон тэдгээрийг интернетээс хассан үед дагалдан гарч ирсэн тайлбаруудын хоорондын холбоонд төвлөрдөг (эсвэл дараа нь гараар тохируулдаг, гэхдээ энэ нь үнэтэй, тиймээс ховор интервенц юм).

T2020-д зориулсан 5 оны 1910.10683-р сарын нийтлэлээс - eDiffi (болон бусад далд тархалтын загварууд) дахь зургийн ажлын урсгалыг бий болгоход туслах текст дээр суурилсан хувиргалт. Эх сурвалж: https://arxiv.org/pdf/XNUMX.pdf

T2020-д зориулсан 5 оны XNUMX-р сарын нийтлэлээс - eDiffi (болон бусад далд тархалтын загварууд) дахь зургийн ажлын урсгалыг бий болгоход туслах текст дээр суурилсан хувиргалт. Эх сурвалж: https://arxiv.org/pdf/1910.10683.pdf

Эх текстийг өөрчилснөөр T5 модулийг ажиллуулснаар загварт анх сургагдсанаас илүү нарийн холбоо, дүрслэлийг олж авах боломжтой. баримт илгээх Гарын авлагын шошго, хүсэлтийн текстийн заалтад илүү тодорхой, хэрэглэх боломжтой.

Зохиогчид тайлбарлав:

"Диффузийн загваруудын ихэнх бүтээлд дуу чимээг арилгах загварыг бүх дуу чимээний түвшинд хуваадаг бөгөөд цаг хугацааны динамикийг MLP сүлжээгээр дамжуулан шуугиан тайлах загварт нийлүүлдэг энгийн цагийн суулгацыг ашиглан илэрхийлдэг. Хязгаарлагдмал хүчин чадалтай хуваалцсан загварыг ашиглан өгөгдлөөс үр дүнтэйгээр ялгарах тархалтын цаг хугацааны нарийн төвөгтэй динамикийг олж мэдэх боломжгүй гэж бид үзэж байна.

'Харин бид шинжээч denoisers чуулга нэвтрүүлэх замаар denoising загварын хүчин чадлыг нэмэгдүүлэх санал болгож байна; Мэргэжилтэн тусгаарлагч бүр нь дуу чимээний тодорхой хүрээний [түвшин]-д зориулагдсан шуугиан тайлах загвар юм. Дуу чимээний түвшин бүрт [боловсруулсан элементийг] үнэлэх тооцооллын нарийн төвөгтэй байдал ижил хэвээр байгаа тул бид түүвэрлэлтийг удаашруулахгүйгээр загварын хүчин чадлыг нэмэгдүүлэх боломжтой.'

eDiffi-д зориулсан концепцийн ажлын урсгал.

eDiffi-д зориулсан концепцийн ажлын урсгал.

Одоо байгаа КЛИП DALL-E 2 болон Stable Diffusion-д багтсан кодчиллын модулиуд нь хэрэглэгчийн оруулсан мэдээлэлтэй холбоотой текстийн зургийн өөр тайлбарыг олох чадвартай. Гэсэн хэдий ч тэдгээрийг анхны загвартай ижил төстэй мэдээлэлд сургасан бөгөөд T5 нь eDiffi-д байдаг шиг тусдаа тайлбарлах давхарга болгон ашигладаггүй.

Зохиогчид eDiffi нь T5 болон CLIP кодлогчийг хоёуланг нь нэг хоолойд нэгтгэсэн анхны тохиолдол юм.

"Эдгээр хоёр кодлогч нь өөр өөр зорилготойгоор бэлтгэгдсэн байдаг тул тэдгээрийн суулгалт нь ижил оролтын тексттэй өөр өөр зураг үүсгэхийг дэмждэг. CLIP текст оруулах нь үүсгэсэн зургийн дэлхийн харагдах байдлыг тодорхойлоход тусалдаг ч гаралт нь текстийн нарийн ширийн зүйлийг алдах хандлагатай байдаг.

"Үүний эсрэгээр, T5 текст шигтгээгээр бүтээгдсэн зургууд нь текстэд дүрслэгдсэн бие даасан объектуудыг илүү сайн тусгадаг боловч тэдгээрийн дэлхийн харагдах байдал нь нарийвчлал багатай байдаг. Тэдгээрийг хамтран ашиглах нь манай загварт хамгийн сайн зураг үүсгэх үр дүнг өгдөг.'

Тархалтын процессыг тасалдуулах, нэмэгдүүлэх

Ердийн далд тархалтын загвар нь үүслийн эхний үе шатанд зөвхөн текст дээр тулгуурлан цэвэр шуугианаас зураг руу шилжих замыг эхлүүлнэ гэж уг нийтлэлд тэмдэглэжээ.

Дуу чимээ нь текстийн сануулга дахь тайлбарыг илэрхийлсэн бүдүүлэг бүдүүвч болж хувирвал процессын текстээр удирдуулсан тал үндсэндээ алга болж, үйл явцын үлдсэн хэсэг нь харааны онцлогийг нэмэгдүүлэх чиглэлд шилждэг.

Энэ нь текстийг удирдан чиглүүлсэн дуу чимээний тайлбарын шинэ шатанд шийдэгдээгүй аливаа элементийг дараа нь зураг руу оруулахад хэцүү байдаг, учир нь энэ хоёр процесс (текстээс зохион байгуулалт, зураглалаас зураг) харьцангуй бага давхцдаг. , мөн үндсэн зохион байгуулалт нь дүрсийг томруулах процесст ирэхэд нэлээд орооцолдсон байдаг.

Цааснаас: шуугиан>дүрслэлийн процесс боловсорч гүйцсэн үед дамжуулах хоолойн янз бүрийн хэсгүүдийн анхаарлын зураг. Бид доод эгнээнд байгаа зургийн CLIP-ийн нөлөөлөл огцом буурч байгааг харж болно, харин T5 нь дүрслэх үйл явцад илүү их нөлөө үзүүлсээр байна.

Цааснаас: шуугиан>дүрслэлийн процесс боловсорч гүйцсэн үед дамжуулах хоолойн янз бүрийн хэсгүүдийн анхаарлын зураг. Бид доод эгнээнд байгаа зургийн CLIP-ийн нөлөөлөл огцом буурч байгааг харж болно, харин T5 нь дүрслэх үйл явцад илүү их нөлөө үзүүлсээр байна.

Мэргэжлийн боломж

Төслийн хуудас болон PR-д ээлтэй өхөөрдөм зургуудыг бий болгох YouTube видео төвийн жишээнүүд. Уламжлал ёсоор NVIDIA-ийн судалгаа нь фото бодит эсвэл VFX ажлын урсгалыг сайжруулах хамгийн сүүлийн үеийн инновацийн боломж, түүнчлэн гүн хуурамч зураг, видеог сайжруулах боломжийг бууруулж байна.

Жишээнүүдэд шинэхэн эсвэл сонирхогч хэрэглэгч тухайн элементийн байршлын бүдүүвч тоймыг сараачдаг бол илүү системтэй VFX ажлын урсгалд eDiffi-г ашиглан видео элементийн олон хүрээг текстээс зураг руу тайлбарлах боломжтой. тоймууд нь маш нарийн бөгөөд жишээлбэл, ногоон дэлгэц эсвэл алгоритмын аргаар арын дэвсгэрийг хассан тоон дээр үндэслэсэн болно.

Runway ML нь хиймэл оюун ухаанд суурилсан ротоскопинг аль хэдийн хангадаг. Энэ жишээнд тухайн сэдвийг тойрсон "ногоон дэлгэц" нь альфа давхаргыг төлөөлж байгаа бол олборлолт нь бодит ногоон дэлгэцийн дэвсгэрийг алгоритмын аргаар арилгахаас илүүтэйгээр машин сургалтын тусламжтайгаар хийгдсэн. Эх сурвалж: https://twitter.com/runwayml/status/1330978385028374529

Runway ML нь хиймэл оюун ухаанд суурилсан ротоскопинг аль хэдийн хангадаг. Энэ жишээнд тухайн сэдвийг тойрсон "ногоон дэлгэц" нь альфа давхаргыг төлөөлдөг бол олборлолт нь бодит ногоон дэлгэцийн дэвсгэрийг алгоритмын аргаар арилгахаас илүүтэйгээр машин сургалтын тусламжтайгаар хийгдсэн. Эх сурвалж: https://twitter.com/runwayml/status/1330978385028374529

Бэлтгэгдсэн хүн ашиглах мөрөөдлийн лангуу дүрс болон eDiffi-тай дүрсийг дүрслэх шугамын тусламжтайгаар энэ нь алдааны аль нэгийг нь устгаж эхлэх боломжтой юм. ямар ч далд тархалтын загвар: цаг хугацааны тогтвортой байдал. Ийм тохиолдолд тавигдсан зургийн захын зай болон зургийн контент хоёулаа хэрэглэгчийн зотон дээр "урьдчилан хөвөгч" байх бөгөөд энэ нь үзүүлсэн агуулгын түр зуурын тасралтгүй байдал (жишээ нь бодит ертөнцийн Тай Чи дадлагажигчийг робот болгон хувиргах) юм. ) сургалтын өгөгдлөө "цээж" авсан түгжигдсэн DreamBooth загварыг ашигласнаар өгөгдсөн - тайлбарлах чадвар муу, давтагдах чадвар, үнэнч, тасралтгүй байдлын хувьд маш сайн.

Арга, өгөгдөл, тестүүд

Уг баримт бичигт eDiffi загварыг гаралтын ерөнхий гоо зүйн оноог бууруулах магадлалтай зургуудыг арилгахын тулд урьдчилан бэлтгэгдсэн CLIP загвараар сайтар шүүж, "нийтийн болон өмчийн мэдээллийн багцын цуглуулга" дээр сургасан гэж тэмдэглэжээ. Эцсийн шүүсэн зургийн багц нь "нэг тэрбум орчим" текст зургийн хосоос бүрдэнэ. Сургалтанд хамрагдсан зургийн хэмжээг "хамгийн богино тал нь 64 пикселээс их" гэж тодорхойлсон.

Уг процесст зориулж хэд хэдэн загварыг сургасан бөгөөд үндсэн болон хэт нягтралтай загваруудыг хоёуланг нь сургасан Адам В 0.0001-ийн суралцах хурдтай, 0.01-ийн жингийн бууралттай, 2048-ийн гайхалтай багцын хэмжээгээр оновчтой болгодог.

Үндсэн загварыг 256 NVIDIA A100 GPU, хоёр супер нягтралтай загварыг 128 NVIDIA дээр бэлтгэсэн. A100 Загвар бүрийн GPU.

Энэхүү систем нь NVIDIA-ийн өөрийнх нь систем дээр суурилдаг Төсөөлөгч PyTorch номын сан. Коко болон Visual Genome өгөгдлийн багцыг эцсийн загварт оруулаагүй ч үнэлгээнд ашигласан MS-COCO туршилтанд ашигласан тодорхой хувилбар. Өрсөлдөгч системийг туршиж үзсэн ГЛИД, Үзэгдэл бүтээ, DALL-E2, Тогтвортой тархалт, болон Google-ийн хоёр зургийн синтезийн систем, Imagen болон Үдэшлэг.

Үүнтэй адилаар өмнө ажил, тэг цохилттой FID-30K үнэлгээний хэмжүүр болгон ашигласан. FID-30K-ийн дагуу COCO баталгаажуулалтын багцаас 30,000 тайлбарыг санамсаргүй байдлаар гаргаж авдаг (өөрөөр хэлбэл сургалтанд ашигласан зураг эсвэл текст биш) тэдгээрийг дараа нь зургийг нэгтгэхэд текстийн сануулга болгон ашигласан.

Frechet эхлэх зай (FID) үүсгэсэн зургуудын CLIP оноог бүртгэхээс гадна үүсгэсэн болон газрын үнэн зургуудын хооронд тооцоолсон.

COCO 2014 баталгаажуулалтын өгөгдлийн багц дээрх хамгийн сүүлийн үеийн арга барилын эсрэг XNUMX-shot FID туршилтын үр дүн нь бага үр дүнтэй.

COCO 2014 баталгаажуулалтын өгөгдлийн багц дээрх хамгийн сүүлийн үеийн арга барилын эсрэг XNUMX-shot FID туршилтын үр дүн нь бага үр дүнтэй.

Үр дүнд нь eDiffi нь хамгийн өндөр үзүүлэлт дэх 20 тэрбум параметртэй харьцуулахад Партигийн 9.1 тэрбум параметр гэх мэт олон тооны параметртэй системүүдийн эсрэг ч тэг цохилттой FID дээр хамгийн бага (хамгийн сайн) оноог авч чадсан. Туршилтанд бэлтгэгдсэн eDiffi загвар.

Дүгнэлт

NVIDIA-ийн eDiffi нь далд тархалт үүсгэгч дүрсний системд орооцолдох, засварлах боломжгүй байхтай холбоотой хамгийн хэцүү саад бэрхшээлийг даван туулахын тулд илүү ухаалаг, давхраатай хандлагыг ашиглахын оронд одоо байгаа системүүдэд илүү их хэмжээний өгөгдөл, нарийн төвөгтэй байдлыг нэмэх таатай хувилбар юм.

Stable Diffusion subreddits болон Discords дээр eDiffi-д ашиглах боломжтой аливаа кодыг шууд оруулах, эсвэл цаадах зарчмуудыг тусад нь хэрэгжүүлэх талаар дахин хэлэлцэж байгаа. Гэсэн хэдий ч шинэ дамжуулах хоолой нь маш эрс ялгаатай тул SD-ийн бүхэл бүтэн хувилбарын дугаарыг бүрдүүлдэг бөгөөд зарим нэг хоцрогдсон нийцтэй байдлыг сулруулж, сэтгэл татам дүрслэлийг алдалгүйгээр эцсийн синтезлэгдсэн зургуудыг хянах маш сайжруулсан түвшний боломжийг санал болгодог. далд тархалтын төсөөллийн хүч.

 

Анх 3 оны 2022-р сарын XNUMX-нд нийтлэгдсэн.