Хиймэл оюун

GAN-ийн далд орон зайг "блобууд"-аар засах

шинэчлэгдсэн on Арванхоёрдугаар сар 9, 2022

UC Berkeley болон Adobe-ийн хийсэн шинэ судалгаа нь Generative Adversarial Network (GAN)-аар үүсгэгдэж болох, гэхдээ ихэвчлэн Photoshop-т танил болсон байдлаар удирдаж, хөдөлгөж, чөлөөтэй удирдах боломжгүй хэт бодит контентыг шууд засварлах аргыг санал болгож байна. хэрэглэгчид болон CGI эмч нар.

Нэртэй БлобГАН, арга нь GAN-ийн далд орон зайн доторх контент руу шууд зураглах математик бүтээц болох "блоб" сүлжээг бий болгохыг хамардаг.

Бөмбөлөгүүдийг хөдөлгөснөөр та GAN-ийн далд орон зайг зураглах, хянах олон оролдлоготой харьцуулахад CGI болон CAD аргад илүү ойр, ойлгомжтой байдлаар дүр зураг дүрслэл дэх "объектуудыг" зөөж болно.

BlobGAN-тай үзэгдлийн засвар: "блоб"-ыг хэрэглэгч зөөхөд GAN дахь далд объект болон хэв маягийн байрлал өөрчлөгддөг. Илүү олон жишээг энэ нийтлэлийн төгсгөлд оруулсан нийтлэлийн видеог үзнэ үү, эсвэл https://www.youtube.com/watch?v=KpUv82VsU5k

Бөмбөг нь GAN-д дүрслэгдсэн үзэгдэл дэх "объект"-тэй тохирч байгаа тул далд орон зай, бүх объектууд салсан байна a priori, тэдгээрийг тус тусад нь өөрчлөх боломжтой болгох:

Бусад үйлдлүүдийн дунд объектын хэмжээг өөрчлөх, багасгах, хувилах, устгах боломжтой.

Фото зураг засварлах (эсвэл бүр текст засварлах) програм хангамжийн аливаа объектын нэгэн адил blob-ийг хуулбарлаж, дараа нь өөрчлөх боломжтой.

Бөмбөлөгүүдийг интерфэйс дээр хуулбарлах боломжтой бөгөөд тэдгээрийн харгалзах далд дүрслэлийг мөн "хуулж, буулгах" болно. Эх сурвалж: https://dave.ml/blobgan/#results

BlobGAN нь мөн хэрэглэгчийн сонгосон шинэ зургуудыг далд орон зайд задлан шинжилж чаддаг:

BlobGAN-ийн тусламжтайгаар та сургалтын өгөгдөлд шууд өөрчлөхийг хүссэн зургуудаа оруулах шаардлагагүй бөгөөд тэдгээрийн далд кодыг хайж олох шаардлагагүй, харин сонгосон зургуудыг хүссэн үедээ оруулж, удирдах боломжтой. Энд өөрчилсөн зургууд нь хэрэглэгчийн оруулсан мэдээлэл юм. Эх сурвалж: https://dave.ml/blobgan/#results

Илүү их үр дүнг харж болно энд, мөн дагалдах хэсэгт YouTube видео (энэ нийтлэлийн төгсгөлд оруулсан болно). Мөн интерактив Colab байдаг Демо* болон GitHub репо**.

Photoshop-ын дараах эрин үед ийм хэрэглүүр болон хамрах хүрээ нь гэнэн мэт санагдаж болох бөгөөд Cinema4D, Blender зэрэг параметрийн програм хангамжийн багцууд нь олон арван жилийн турш хэрэглэгчдэд 3D ертөнцийг бий болгож, өөрчлөх боломжийг олгож ирсэн; гэхдээ энэ нь далд кодуудтай зурагдсан прокси нэгжүүдийг ашиглан үүсгэгч өрсөлдөгчийн сүлжээн дэх далд орон зайн хачирхалтай байдал, нууцлаг шинж чанарыг дарах ирээдүйтэй хандлагыг илэрхийлдэг.

Зохиогчид нотолж байна:

"Дотоод тайзны олон ангиллын өгөгдлийн багцад BlobGAN нь FID-ээр хэмжигдсэн зургийн чанараараа Style-GAN2-аас илүү гарсан."

The цаасан гэсэн гарчигтай BlobGAN: Орон зайн хувьд салангид үзэгдлийн дүрслэл, бөгөөд UC Berkeley-ийн хоёр судлаач, Adobe Research-ийн гурван судлаачийн хамт бичсэн.

Дунд зэргийн хүн

BlobGAN нь GAN зургийн синтезийн шинэ парадигмыг авчирдаг. Нууц орон зай дахь салангид объектуудыг шийдвэрлэх өмнөх арга барилууд нь "дээрээс доош" эсвэл "доороос дээш" байсныг шинэ баримт бичигт онцолсон байна.

GAN буюу дүрс ангилагч дахь дээрээс доош чиглэсэн арга нь үзэгдлийн зургийг "унтлагын өрөө", "сүм", "нүүр царай" гэх мэт ангиллаар авч үздэг. Ийм төрлийн текст/зураг хослуулах нь шинэ үеийн мультимодал зургийн синтезийн хүрээг идэвхжүүлдэг. , жишээ нь OpenAI-аас саяхан гарсан DALL-E 2.

Доороос дээш чиглэсэн хандлага нь зургийн пиксел бүрийг анги, шошго эсвэл ангилалд буулгана. Ийм хандлага нь янз бүрийн арга техникийг ашигладаг боловч семантик сегментчилэл нь a алдартай одоогийн судалгааны чиглэл.

Зохиогчид тайлбар:

"Хоёр зам хоёулаа сэтгэл ханамжгүй мэт санагдаж байна, учир нь аль аль нь үзэгдлийн хэсгүүдийн талаар хялбар аргаар дүгнэлт хийж чадахгүй. Үзэгдлийн хэсгүүдийг нэг орооцолдсон далд вектор (дээрээс доош) болгон шатаасан эсвэл тус тусад нь пикселийн шошго (доороос дээш) болгон бүлэглэх шаардлагатай.'

Харин BlobGAN санал болгож байна хараа хяналтгүй дунд шатны төлөөлөл, эсвэл үүсгэгч загваруудын прокси хүрээ.

Байршлын сүлжээ нь локал (болон хянах боломжтой) "блоб" байгууллагуудыг далд кодуудтай харуулдаг. Төв хэсэгт байгаа өнгөт дугуйнууд нь "блоб газрын зураг"-аас бүрдэнэ. Эх сурвалж: https://arxiv.org/pdf/2205.02837.pdf

Гауссын (өөрөөр хэлбэл чимээ шуугиан дээр суурилсан) бөмбөлөгүүд нь гүнд эрэмбэлэгдсэн бөгөөд бүтэц бүрд зураглалыг хуваарилдаг архитектурт саад тотгорыг төлөөлдөг бөгөөд GAN контентыг удирдахад тулгардаг хамгийн том саадыг шийддэг: задлах (мөн нэг асуудал автомат кодлогч дээр суурилсан архитектурын хувьд). Үүссэн "блоб газрын зураг" нь BlobGAN-ийн декодерыг удирдахад ашиглагддаг.

Энэхүү систем нь тодорхой шошго ашигладаггүй бэлэн ялгаварлагчаар дамжуулан үзэгдлүүдийг зохион байгуулалт, объект болгон задалж сурдагийг зохиогчид гайхаж байна.

Архитектур ба өгөгдөл

Blob газрын зураг дээрх объектуудыг шинэчлэгдсэн StyleGAN2-оос авсан зураг болгон хувиргадаг сүлжээ, өмнөх NVIDIA судалгаанаас санаа авсан арга барилаар.

NVIDIA Research-ийн шинэчилсэн StyleGAN 2 дериватив. Энэ ажлын зарчмуудын заримыг BlobGAN-д зориулж баталсан эсвэл тохируулсан. Эх сурвалж: https://arxiv.org/pdf/1912.04958.pdf

StyleGAN 2 нь ихэвчлэн тохиолддог шиг ганц глобал векторын оронд blob газрын зураг дээрх оролтыг хүлээн авахын тулд BlobGAN дээр өөрчлөгдсөн.

Унтлагын өрөөний дүр төрхийг "автоматаар дуусгах" болон өрөөний элементүүдийн хэмжээг өөрчлөх, нүүлгэн шилжүүлэх зэрэг хэд хэдэн залруулга хийх боломжтой болсон BlobGAN. Доорх эгнээнд бид үүнийг идэвхжүүлдэг хэрэглэгчийн хүртээмжтэй хэрэгслийг харж байна - blob map.

Хоосон унтлагын өрөөний дүр зургийг "автоматаар дуусгах" болон өрөөний элементүүдийн хэмжээг өөрчлөх, нүүлгэн шилжүүлэх зэрэг хэд хэдэн заль мэхийг BlobGAN боломжтой болгосон. Доорх эгнээнд бид үүнийг идэвхжүүлдэг хэрэглэгчийн хүртээмжтэй хэрэгслийг харж байна - blob map.

Үүнтэй адилтгаж үзвэл, өргөн уудам, нарийн төвөгтэй барилгыг (далд орон зай) нэг дор бий болгож, түүний төгсгөлгүй замыг судлахын оронд BlobGAN нь бүрэлдэхүүн хэсгүүдийн блокуудыг эхэнд нь илгээж, хаана байгааг нь үргэлж мэддэг. Агуулга, байршлыг ингэж салгасан нь ажлын гол шинэлэг зүйл юм.

BlobGAN: Орон зайн хувьд салангид үзэгдлийн дүрслэл

BlobGAN: Spatially Disentangled Scene Representations

Watch this video on YouTube

* Бичиж байх үед ажиллахгүй байна
** Бичиж байх үед код хараахан хэвлэгдээгүй байна

Анх 8 оны тавдугаар сарын 2022-нд нийтлэгдсэн.

Дараа хүртэл

Машины сургалтын тусламжтайгаар видеонуудын царайг өөрчлөх

Бүү саад бол

Судлаачид хиймэл оюун ухааны "наномагнит" тооцоолол үзүүлж байна

Мартин Андерсон

Машин сургалт, хиймэл оюун ухаан, том өгөгдлийн талаар зохиолч.
Хувийн сайт: martinanderson.ai
Холбоо барих: [имэйлээр хамгаалагдсан]
Twitter: @manders_ai