никулец Paint3D: Модел со дифузија со помалку осветлување за генерирање слики - Unite.AI
Поврзете се со нас

Вештачка интелигенција

Paint3D: Модел со помала дифузија на осветлување за генерирање слики

mm
Ажурирани on

Брзиот развој на моделите за генерирање на вештачка интелигенција, особено моделите со длабока генеративна вештачка интелигенција, има значително напредни способности во генерирањето на природен јазик, генерирањето 3Д, генерирање слики и синтеза на говор. Овие модели го револуционизираа 3D производството во различни индустрии. Сепак, многумина се соочуваат со предизвик: нивното сложено ожичување и генерираните мрежи често не се компатибилни со традиционалните цевководи за рендерирање како што е Физички базирано рендерирање (PBR). Моделите засновани на дифузија, особено без светлосни текстури, демонстрираат импресивно разновидно генерирање на 3D средства, подобрување на 3D рамки во снимање филмови, игри и AR/VR.

Оваа статија воведува Paint3D, нова рамка за производство на разновидни, 2K UV текстурни мапи со висока резолуција за нетекстурирани 3D мрежи, условени со визуелни или текстуални влезови. Главниот предизвик на Paint3D е генерирање на висококвалитетни текстури без вградено осветлување, овозможувајќи му на корисникот повторно уредување или повторно осветлување во современите графички цевководи. Користи претходно обучен 2D дифузен модел за фузија на текстура со повеќе прегледи, генерирајќи првични мапи со груба текстура. Сепак, овие мапи често прикажуваат артефакти на осветлување и нецелосни области поради ограничувањата на 2D моделот во оневозможувањето на светлосните ефекти и целосното претставување на 3D форми. Ќе истражуваме во работата, архитектурата и споредбите на Paint3D со други длабоки генеративни рамки. Да почнеме.

Paint3D: Вовед

Способностите на моделите Deep Generative AI во генерирање на природен јазик, генерирање 3D и задачи за синтеза на слики се добро познати и имплементирани во реални апликации, револуционизирајќи ја индустријата за 3D генерирање. И покрај нивните извонредни способности, модерни длабоки генеративна вештачка интелигенција Рамките генерираат мрежи кои се карактеризираат со сложени жици и хаотични светлосни текстури кои често се некомпатибилни со конвенционалните цевководи за рендерирање вклучувајќи PBR или Физички базирано рендерирање. Како и моделите со длабоко генерирање на вештачка интелигенција, синтезата на текстурата исто така брзо напредуваше, особено во користењето на моделите со 2D дифузија. Моделите за синтеза на текстура користат претходно обучена длабочина до слика модели на дифузија ефикасно да се користат текстуални услови за да се генерираат висококвалитетни текстури. Сепак, овие пристапи се соочуваат со проблеми со претходно осветлените текстури кои можат значително да влијаат на финалните 3D прикажувања на околината и да воведат грешки во осветлувањето кога светлата се менуваат во рамките на вообичаените работни текови како што е прикажано на следната слика. 

Како што може да се забележи, мапата на текстура со слободно осветлување работи во синхронизација со традиционалните цевководи за рендерирање и обезбедуваат точни резултати, додека картата на текстура со претходно осветлување вклучува несоодветни сенки кога се применува повторно осветлување. Од друга страна, рамки за генерирање текстура обучени за 3D податоци нудат алтернативен пристап во кој рамката ги генерира текстурите со разбирање на целата геометрија на одреден 3D објект. Иако тие може да дадат подобри резултати, рамки за генерирање текстура обучени на 3D податоци немаат можности за генерализација што ја попречува нивната способност да го применат моделот на 3D објекти надвор од нивните податоци за обука. 

Тековните модели за генерирање на текстура се соочуваат со два критични предизвици: користење насоки за слики или различни инструкции за да се постигне поширок степен на генерализација кај различни објекти, а вториот предизвик е елиминирање на поврзаното осветлување на резултатите добиени од пред-тренингот. Претходно осветлените текстури може потенцијално да се мешаат со конечните резултати на текстурираните објекти во моторите за рендерирање, и бидејќи претходно обучените 2D дифузни модели обезбедуваат 2D резултати само во доменот на погледот, тие немаат сеопфатно разбирање на формите што доведува до нивно неможност за одржување на конзистентноста на приказот за 3D објекти. 

Поради предизвиците споменати погоре, рамката Paint3D се обидува да развие модел на дифузија на текстура во две фази за 3Д објекти што се генерализира на различни претходно обучени генеративни модели и ја зачувува конзистентноста на погледот додека учи генерирање текстура без молња. 

Paint3D е двостепен модел за генерирање груба до фина текстура, кој има за цел да ги искористи силните брзи насоки и способности за генерирање слика на претходно обучени генеративна вештачка интелигенција модели за текстурирање на 3D објекти. Во првата фаза, рамката Paint3D прво зема примероци од слики со повеќекратни прегледи од претходно обучен модел за 2D дифузија на слики свесен за длабочина, прогресивно за да овозможи генерализација на висококвалитетни и богата текстура резултати од различни инструкции. Моделот потоа генерира почетна мапа на текстура со назад проектирање на овие слики на 3D мрежна површина. Во втората фаза, моделот се фокусира на генерирање на текстури без осветлување преку имплементирање на пристапи употребени од моделите за дифузија специјализирани за отстранување на влијанијата на осветлувањето и облагородување на нецелосни региони. Во текот на целиот процес, рамката Paint3D постојано може да генерира висококвалитетни 2K текстури семантички и ги елиминира внатрешните ефекти на осветлување. 

Да се ​​сумира, Paint3D е нов груб до фин генеративен модел со вештачка интелигенција, кој има за цел да произведе разновидни, без осветлување и 2K UV текстура мапи со висока резолуција за нетекстурирани 3D мрежи за да се постигнат најсовремени перформанси во текстурирање на 3D објекти со различни условени внесува текст и слики и нуди значителна предност за задачи за синтеза и графичко уредување. 

Методологија и Архитектура

Рамката Paint3D генерира и прогресивно ги усовршува мапите на текстурата за да генерира разновидни и висококвалитетни мапи на текстура за 3D модели користејќи ги саканите условни влезови, вклучувајќи слики и потсетници, како што е прикажано на следната слика. 

Во груба фаза, моделот Paint3D користи претходно обучени модели за дифузија на 2D слики за примерок на слики со повеќекратен преглед, а потоа ги создава првичните мапи на текстура кои ги враќаат овие слики на површината на мрежата. Во втората фаза, т.е. фазата на префинетост, моделот Paint3D користи процес на дифузија во УВ просторот за да ги подобри мапите со груба текстура, со што се постигнува висококвалитетна функција, внатрешно боење и без осветлување, што обезбедува визуелна привлечност и комплетност на конечната текстура. . 

Фаза 1: Прогресивно генерирање на груба текстура

Во фазата на прогресивно генерирање на груба текстура, моделот Paint3D генерира мапа на груба UV текстура за 3D мрежите кои користат претходно обучен 2D дифузен модел со свесен за длабочина. За да бидеме поконкретни, моделот прво користи различни прикази на камерата за да ја прикаже мапата на длабочина, потоа користи услови за длабочина за примерок на слики од моделот за дифузија на сликата, а потоа повторно ги проектира овие слики на површината на мрежата. Рамката ги изведува пристапите на рендерирање, земање примероци и задна проекција наизменично за да ја подобри конзистентноста на мрежите на текстурата, што на крајот помага во прогресивното генерирање на картата на текстурата. 

Моделот започнува да ја генерира текстурата на видливиот регион со приказите на камерата фокусирани на 3D мрежата и ја прикажува 3D мрежата на мапа на длабочина од првиот приказ. Моделот потоа зема примероци од текстура слика за состојба на изглед и состојба за длабочина. Моделот потоа повторно ја проектира сликата на 3D мрежа. За гледиштата, моделот Paint3D извршува сличен пристап, но со мала промена со изведување на процесот на земање примероци на текстура користејќи пристап за сликање слика. Понатаму, моделот ги зема предвид текстурираните региони од претходните гледни точки, овозможувајќи му на процесот на рендерирање не само да емитува длабинска слика, туку и делумно обоена RGB слика со необоена маска во тековниот приказ. 

Моделот потоа користи модел за сликање слика со свесен за длабочина со енкодер за сликање за да ја пополни необоената област во RGB сликата. Потоа, моделот ја генерира картата на текстурата од приказот со назад-проектирање на насликаната слика во 3D мрежата под тековниот приказ, дозволувајќи му на моделот да ја генерира мапата на текстурата прогресивно и пристигнувајќи до целата мапа на груба структура. Конечно, моделот го проширува процесот на земање примероци на текстура на сцена или објект со повеќекратни прикази. Да бидеме поконкретни, моделот користи пар камери за снимање на две длабочински мапи за време на првичното земање примероци на текстура од симетрични гледни точки. Моделот потоа комбинира две длабочински мапи и составува мрежа за длабочина. Моделот ја заменува сликата со единечна длабочина со мрежата за длабочина за да изврши земање примероци текстура со свесен за длабочината со повеќе прегледи. 

Фаза 2: Усовршување на текстурата во УВ просторот

Иако појавата на мапи со груба текстура е логична, таа се соочува со некои предизвици како што се дупките во текстурата предизвикани за време на процесот на рендерирање со само-оклузија или молњски сенки поради вклучувањето на моделите за дифузија на 2D слики. Моделот Paint3D има за цел да изврши процес на дифузија во УВ просторот врз основа на груба мапа на текстура, обидувајќи се да ги ублажи проблемите и да ја подобри визуелната привлечност на картата на текстурата уште повеќе за време на префинетоста на текстурата. Сепак, рафинирањето на главниот модел за дифузија на сликата со мапите на текстурата во УВ просторот воведува дисконтинуитет на текстурата бидејќи мапата на текстурата се генерира со УВ мапирање на текстурата на 3Д површината што ја пресекува континуираната текстура во низа поединечни фрагменти во УВ простор. Како резултат на фрагментацијата, на моделот му е тешко да ги научи односите на 3Д соседството меѓу фрагментите што доведува до проблеми со дисконтинуитетот на текстурата. 

Моделот ја усовршува мапата на текстурата во УВ просторот со изведување на процесот на дифузија под водство на информациите за соседството на фрагментите од текстурата. Важно е да се напомене дека во УВ просторот, мапата на позицијата ги претставува информациите за 3D соседството на фрагментите од текстурата, при што моделот го третира секој елемент што не е во позадина како координата на 3D точка. За време на процесот на дифузија, моделот ги спојува информациите за 3D соседството со додавање на индивидуален енкодер за мапа на позиција на претходно обучениот модел за дифузија на слики. Новиот енкодер наликува на дизајнот на рамката ControlNet и ја има истата архитектура како енкодерот имплементиран во моделот за дифузија на слики со слој со нулта конволуција што ги поврзува двете. Понатаму, моделот на дифузија на текстура е обучен на база на податоци што се состои од карти на текстура и позиција, а моделот учи да го предвидува шумот додаден на бучниот латентен. Потоа, моделот го оптимизира шифрирањето на позицијата и го замрзнува обучениот деноизер за неговата задача за дифузија на сликата. 

Потоа, моделот истовремено ја користи позицијата на условен енкодер и други енкодери за да изврши задачи за префинетост во просторот за УВ. Во овој поглед, моделот има две можности за префинетост: UVHD или UV висока дефиниција и UV бојадисување. Методот UVHD е структуриран да ја подобри визуелната привлечност и естетиката на картата на текстурата. За да се постигне UVHD, моделот користи енкодер за подобрување на сликата и енкодер за позиција со моделот за дифузија. Моделот го користи методот на UV бојадисување за да ги пополни дупките на текстурата во UV рамнината што е способна да ги избегне проблемите со само-оклузија генерирани при рендерирање. Во фазата на префинетост, моделот Paint3D најпрво врши UV бојадисување, а потоа врши UVHD за да ја генерира конечната рафинирана мапа на текстура. Со интегрирање на двата методи на префинетост, рамката Paint3D е во состојба да произведе целосни, разновидни, мапи на текстура на UV зраци со висока резолуција и без осветлување. 

Paint3D: Експерименти и резултати

Моделот Paint3D го користи Стабилна дифузија Модел text2image за да му помогне со задачите за генерирање текстура додека ја користи компонентата за шифрирање на слики за справување со условите на сликата. За понатамошно подобрување на неговата контрола врз условните контроли како што се сликање на слики, длабочина и висока дефиниција на сликата, рамката Paint3D користи енкодери за домени ControlNet. Моделот е имплементиран на рамката PyTorch со рендерирање и проекции на текстура имплементирани на Каолин. 

Споредба на текст со текстури

За да ги анализираме неговите перформанси, започнуваме со оценување на ефектот на генерирање текстура на Paint3D кога е условен со користење на текстуални потсетници и го споредуваме со најсовремените рамки, вклучувајќи ги Text2Tex, TEXTure и LatentPaint. Како што може да се забележи на следната слика, рамката Paint3D не само што се истакнува во генерирањето на висококвалитетни детали за текстурата, туку и разумно добро синтетизира мапа на текстура без осветлување. 

За споредба, рамката Latent-Paint е склона кон генерирање на матни текстури што резултира со неоптимални визуелни ефекти. Од друга страна, иако рамката TEXTure генерира јасни текстури, нема мазност и покажува забележително спојување и шевови. Конечно, рамката Text2Tex извонредно добро генерира мазни текстури, но не успева да ги повтори перформансите за генерирање фини текстури со сложени детали. 

Следната слика квантитативно ја споредува рамката Paint3D со најсовремените рамки. 

Како што може да се забележи, рамката Paint3D ги надминува сите постоечки модели и со значителна разлика со скоро 30% подобрување во основната линија на FID и приближно 40% подобрување во основната линија на KID. Подобрувањето на основните резултати на FID и KID ја демонстрира способноста на Paint3D да генерира висококвалитетни текстури низ различни објекти и категории. 

Споредба на слика со текстура

За да ги генерираме генеративните способности на Paint3D користејќи визуелни сигнали, го користиме моделот TEXTure како основна линија. Како што беше споменато претходно, моделот Paint3D користи енкодер за слики добиен од моделот text2image од Stable Diffusion. Како што може да се види на следната слика, рамката Paint3D извонредно добро ги синтетизира извонредните текстури и сè уште е во состојба да одржува висока верност според состојбата на сликата. 

Од друга страна, рамката TEXTure може да генерира текстура слична на Paint3D, но не може точно да ги претстави деталите за текстурата во состојбата на сликата. Понатаму, како што е прикажано на следнава слика, рамката Paint3D обезбедува подобри резултати на FID и KID во споредба со рамката TEXTure, при што првата се намалува од 40.83 на 26.86, додека втората покажува пад од 9.76 на 4.94. 

Последни мисли

Во оваа статија, зборувавме за Paint3D, груба до ситна нова рамка способна да произведува мапи на текстура со 2K УВ УВ без осветлување, разновидна и со висока резолуција за нетекстурирани 3Д мрежи условени или на визуелни или текстуални влезови. Главниот белег на рамката Paint3D е тоа што е способен да генерира 2K UV текстури со висока резолуција без осветлување, кои се семантички конзистентни без да бидат условени со внесување слика или текст. Благодарение на својот пристап од груб до фин, рамката Paint3D произведува мапи на текстури без осветлување, разновидни и со висока резолуција и обезбедува подобри перформанси од тековните рамки на уметноста. 

„Инженер по професија, писател напамет“. Кунал е технички писател со длабока љубов и разбирање за вештачката интелигенција и ML, посветен на поедноставување на сложените концепти во овие области преку неговата ангажирана и информативна документација.