Поврзете се со нас

Вештачка интелигенција

BrushNet: Вклучи и пушти сликање слика со дифузија со двојна гранка

mm
Ажурирани on
BrushNet: Вклучи и пушти сликање слика со дифузија со двојна гранка

Вградувањето на слики е еден од класичните проблеми во компјутерската визија и има за цел да ги врати маскираните области во слика со веродостојна и природна содржина. Постоечката работа која користи традиционални техники за сликање слики како што се Генеративни противнички мрежи или GANS, и варијациони авто-енкодери или VAE честопати бараат помошни рачно дизајнирани карактеристики, но во исто време, не даваат задоволителни резултати. Во текот на изминатите неколку години, методите засновани на дифузија се здобија со популарност во заедницата за компјутерска визија поради нивните извонредни способности за генерирање слики со висок квалитет, разновидност на излезот и ситно-грануларна контрола. Првичните обиди за примена на модели на дифузија за текстуално водено сликање на слики ја модифицираа стандардната стратегија за отпишување со земање примероци од маскираните региони од претходно обучен дифузен модел и демаскираните области од дадената слика. Иако овие методи резултираа со задоволителни перформанси во едноставни задачи за сликање слики, тие се бореа со сложени форми на маски, текстуални пораки и содржина на слики што резултираше со севкупен недостаток на кохерентност. Недостатокот на кохерентност забележан во овие методи може првенствено да се должи на нивното ограничено перцептивно знаење за границите на маската и контекстот на немаскираниот регион на сликата. 

И покрај напредокот, истражувањето и развојот на овие модели во изминатите неколку години, сликањето на слики сè уште е голема пречка за развивачите на компјутерска визија. Тековните адаптации на моделите за дифузија за задачите за сликање слики вклучуваат модификација на стратегијата за земање примероци или развојот на модели на дифузија специфични за внатрешно сликање честопати страдаат од намален квалитет на сликата и неконзистентна семантика. За да се справиме со овие предизвици и да го отвориме патот напред за моделите за сликање слики, во оваа статија, ќе зборуваме за BrushNet, нова инженерска рамка со двојна гранка која ги вградува карактеристиките на маскирани слики на ниво на пиксели во која било претходно обучена дифузија. модел, со што се гарантира кохерентност и подобрен исход на задачите за сликање слики. Рамката BrushNet воведува нова парадигма според која рамката ги дели карактеристиките на сликата и бучниот латентен во посебни гранки. Поделбата на карактеристиките на сликата и бучните латенти драстично го намалува оптоварувањето за учење за моделот и го олеснува нијансираното вградување на суштински маскирани информации за сликата на хиерархиски начин. Покрај рамката BrushNet, ќе зборуваме и за BrushBench и BrushData кои ја олеснуваат проценката на перформансите заснована на сегментација и обуката за сликање слика соодветно. 

Оваа статија има за цел да ја опфати рамката на BrushNet во длабочина, а ние ги истражуваме механизмите, методологијата, архитектурата на рамката заедно со нејзината споредба со најсовремените рамки. Па ајде да започнеме. 

BrushNet: сликање слика со дифузија со двојна гранка

Вградувањето на слики, метод кој се обидува да ги врати мисијата на сликата додека ја одржува целокупната кохерентност, е долгогодишен проблем во полето на компјутерската визија и веќе неколку години ги вознемирува програмерите и истражувачите. Вградувањето на слики ги наоѓа своите апликации во широк спектар на задачи за компјутерска визија, вклучително и уредување слики и виртуелни обиди. Неодамна, моделите за дифузија како Стабилна дифузија, и Stable Diffusion 1.5 покажаа извонредна способност за генерирање на висококвалитетни слики и на корисниците им обезбедуваат флексибилност да ги контролираат семантичките и структурните контроли. Извонредниот потенцијал на моделите за дифузија е она што ги поттикна истражувачите да прибегнат кон модели на дифузија за висококвалитетни задачи за сликање слики кои се усогласуваат со инструкциите за внесување текст. 

Методите што се користат од традиционалните рамки за сликање со водени текстови базирани на дифузија може да се поделат во две категории, Измена на стратегијата за земање примероци Посветени модели за сликање. Методот за модификација на стратегијата за примерок го модифицира стандардниот процес на обезгласување со земање примероци од маскираните региони од претходно обучен модел на дифузија и ги копира-залепува демаскираните региони од дадената слика во секој чекор на отпишување. Иако пристапите за модификација на стратегијата за земање примероци може да се имплементираат во произволни модели на дифузија, тие често резултираат со некохерентни резултати за внатрешно сликање бидејќи имаат ограничено перцептивно знаење за границите на маската и немаскиран контекст на регионот на сликата. Од друга страна, наменските модели за внатрешно сликање дотеруваат модел за сликање слика дизајниран специјално со проширување на димензиите на влезниот канал на основниот модел за дифузија за да се вклучат оштетена слика и маски. Додека наменските модели за внатрешно сликање му овозможуваат на моделот на дифузија да генерира позадоволителни резултати со специјализирани модели кои се свесни за формата и содржината, тој можеби е или не е најдобриот архитектонски дизајн за моделите за сликање слики. 

Како што е прикажано на следната слика, наменските модели за сликање спојуваат маскирани латентни слики, бучни латентни, текст и маски во рана фаза. Архитектонскиот дизајн на таквите наменски модели за сликање лесно влијае на карактеристиките на маскираната слика и ги спречува следните слоеви во архитектурата UNet да добијат чисти маскирани карактеристики на сликата поради влијанието на текстот. Понатаму, справувањето со генерирањето и состојбата во една гранка наметнува дополнително оптоварување на UNet архитектурата, и бидејќи овие пристапи исто така бараат дотерување во различни варијации на дифузиониот столб, овие пристапи честопати се исцрпувачки со време со ограничена преносливост. 

Можеби се чини дека додавањето дополнителна гранка посветена на извлекување карактеристики на маскирани слики може да биде соодветно решение за проблемите споменати погоре, меѓутоа, постоечките рамки честопати резултираат со извлекување и вметнување на несоодветни информации кога се применуваат директно на сликањето. Како резултат на тоа, постоечките рамки како ControlNet даваат незадоволителни резултати кога ќе се споредат со наменските модели за внатрешно сликање. За да се справи со ова прашање на најефикасен можен начин, рамката BrushNet воведува дополнителна гранка на оригиналната дифузна мрежа и на тој начин создава посоодветна архитектура за задачите за сликање слики. Дизајнот и архитектурата на рамката BrushNet може да се сумираат во три точки. 

  1. Наместо случајно да ги иницијализира слоевите на конволуција, рамката BrushNet имплементира VAE енкодер за обработка на маскирана слика. Како резултат на тоа, рамката BrushNet може поефективно да ги извлече карактеристиките на сликата за прилагодување кон дистрибуцијата на UNet. 
  2. Рамката BrishNet постепено ја инкорпорира целосната функција UNet слој по слој во претходно обучената UNet архитектура, хиерархиски пристап кој овозможува густа контрола по пиксел. 
  3. Рамката BrushNet го отстранува вкрстеното внимание на текстот од компонентата UNet за да обезбеди чисти информации за сликата да се земат предвид во дополнителната гранка. Понатаму, моделот BrushNet, исто така, предлага да се имплементира стратегија за заматено мешање за да се постигне подобра конзистентност заедно со поголем опсег на контролирање во демаскирани региони на сликата. 

BrushNet: Метод и архитектура

Следната слика ни дава краток преглед на рамката BrushNet. 

Како што може да се забележи, рамката користи стратегија со двојна гранка за вметнување маскирани насоки за слики и користи операции на мешање со заматена маска за да обезбеди подобро зачувување на немаскирани региони. Вреди да се напомене дека рамката BrushNet е способна да ја прилагоди додадената скала за да постигне флексибилна контрола. За даден внес на маскирани слики и маската, моделот BrushNet емитува слика со боја. Моделот најпрво ја намалува примерокот на маската за да се приспособи на големината на латентот, а маскираната слика се внесува како влез во VAE енкодерот за да се усогласи распределбата на латентниот простор. Моделот потоа ги спојува маскираната слика латентна, бучната латентна и маската со намален примерок и ја користи како влез. Карактеристиките што ги извлекува моделот потоа се додаваат во претходно обучениот UNet слој по блок на нула конволуција. По деноизирањето, моделот ги спојува маскираната слика и генерираната слика со заматена маска. 

Водење со маскирани слики

Рамката BrushNet ја вметнува карактеристиката за маскирани слики во претходно обучената дифузна мрежа користејќи дополнителна гранка, која експлицитно го одделува екстракцијата на карактеристиките на маскирани слики од процесот на генерирање слики. Влезот се формира со спојување на латентна маска на слика, латентен бучен и маска со намален примерок. Да бидам поконкретен, бучниот латентен обезбедува информации за генерирање слики за време на тековниот процес на генерирање и и помага на рамката да ја подобри семантичката кохерентност на карактеристиката за маскирани слики. Рамката BrushNet потоа ја извлекува маската латентна слика од маскираната слика користејќи Variational AutoEncoder. Понатаму, рамката користи кубна интерполација за да се намали примерокот на маската во обид да се осигура дека големината на маската се усогласува со латентот на маскираната слика и со бучниот латентен. За да се обработат карактеристиките на маскираната слика, рамката BrushNet имплементира клон на претходно обучениот дифузен модел и ги исклучува слоевите со вкрстено внимание на моделот за дифузија. Причината е што претходно обучените тежини на моделот за дифузија служат како силен предим за извлекување на карактеристиките на маскираната слика, а исклучувањето на слоевите со вкрстено внимание осигурува дека моделот ги разгледува само информациите за чиста слика во дополнителната гранка. Рамката BrushNet ги вметнува карактеристиките во моделот на замрзната дифузија слој по слој, со што се овозможува хиерархиска густа контрола по пиксел, а исто така користи нула конволуциони слоеви за да се воспостави врска помеѓу моделот BrushNet што може да се обучи и заклучениот модел, обезбедувајќи штетниот шум да има нема влијание врз скриените состојби во копијата што може да се обучи за време на почетните фази на обука. 

Операција на мешање

Како што беше споменато претходно, спроведувањето на операцијата за мешање во латентен простор ја менува големината на маските што често резултира со неколку неточности, а рамката BrushNet наидува на сличен проблем кога ја менува големината на маската за да одговара на големината на латентниот простор. Понатаму, вреди да се напомене дека операциите за кодирање и декодирање во варијационите автоматски енкодери имаат својствени ограничени операции и може да не обезбедат целосна реконструкција на сликата. За да се осигура дека рамката реконструира целосно конзистентна слика на демаскираниот регион, постојните дела имплементираа различни техники како копирање на демаскираните региони од оригиналната слика. Иако пристапот функционира, тој често резултира со недостаток на семантичка кохерентност во генерирањето на конечните резултати. Од друга страна, други методи како усвојување операции на латентно мешање се соочуваат со тешкотии во зачувувањето на саканите информации во демаскираните региони. 

Флексибилна контрола

Архитектонскиот дизајн на рамката BrushNet го прави соодветен избор за приклучување и играње интеграции инхерентно на различни претходно обучени модели на дифузија и овозможува флексибилна скала за зачувување. Бидејќи рамката BrishNet не ги менува тежините на претходно обучениот дифузен модел, програмерите имаат флексибилност да го интегрираат како plug and play компонента со фино прилагоден дифузен модел, овозможувајќи лесно усвојување и експериментирање со претходно обучени модели. Понатаму, програмерите имаат и опција да ја контролираат скалата на зачувување на демаскираните региони со инкорпорирање на карактеристиките на моделот BrushNet во моделот на замрзната дифузија со дадена тежина w што го одредува влијанието на рамката BrushNet врз скалата за зачувување, нудејќи им на програмерите способност за прилагодување на саканите нивоа на зачувување. Конечно, рамката BrushNet им овозможува на корисниците да ја приспособат скалата за замаглување и да одлучат дали да ја спроведат операцијата за замаглување или не, затоа лесно ја прилагодуваат скалата за зачувување на демаскираните региони, создавајќи простор за флексибилни прилагодувања и ситно-грануларна контрола врз процесот на сликање на сликата. . 

BrushNet: Имплементација и резултати

За да ги анализира своите резултати, рамката BrushNet предлага BrushBench, a врз основа на сегментација база на податоци за сликање слика со преку 600 слики, при што секоја слика е придружена со маска означена со човек и прибелешка на натпис. Сликите во базата на репер се распределени рамномерно помеѓу природни и вештачки слики, а исто така обезбедува рамномерна дистрибуција меѓу различни категории, овозможувајќи правична евалуација меѓу различни категории. За да ја подобри анализата на задачите за сликање уште повеќе, рамката BrushNet ја категоризира базата на податоци на два различни дела врз основа на употребените методи: заснована на сегментација и маски со четки. 

Квантитативна споредба

Следната табела ја споредува рамката BrushNet со постоечките модели за сликање слики базирани на дифузија на базата на податоци BrushBench со Стабилна дифузија како основен модел. 

Како што може да се забележи, рамката BrushNet покажува извонредна ефикасност во зачувувањето на маскираните региони, усогласувањето на текстот и квалитетот на сликата. Понатаму, моделите како што се стабилно дифузно боење, HD-Сликар, PowerPaint и други демонстрираат силни перформанси на задачите за внатрешно сликање на сликата, иако не успеваат да ги реплицираат нивните перформанси на задачите со надворешно сликање, особено во однос на усогласувањето на текстот и квалитетот на сликата. Генерално, рамката BrushNet дава најсилни резултати. 

Понатаму, следната табела ја споредува рамката BrushNet со постојните модели за сликање слики базирани на дифузија на базата на податоци EditBench, а перформансите се споредливи со оние забележани во базата на податоци BrushBench. Резултатите покажуваат дека рамката BrushNet обезбедува силни перформанси во широк опсег на задачи за сликање слики со различни типови маски. 

Квалитативна споредба

Следната слика квалитативно ја споредува рамката BrushNet со постојните методи за сликање слики, со резултати кои опфаќаат вештачка интелигенција и природни слики низ различни задачи за сликање, вклучително и случајно сликање со маска, маска за сегментација во внатрешно сликање и маска за сегментација надвор-боење. 

Како што може да се забележи, рамката BrushNet дава извонредни резултати во кохерентноста на демаскираниот регион и кохерентните региони и успешно ја реализира свесноста за позадинските информации благодарение на имплементацијата на пристапот за раздвојување со двојна гранка. Понатаму, недопрената гранка на претходно обучениот модел на дифузија, исто така, обезбедува предност за покривање на различни домени на податоци како аниме и подобро сликање, што резултира со подобри перформанси во различни сценарија. 

Последни мисли

Во оваа статија зборувавме за BrushNet, нова инженерска рамка со двојна гранка која ги вградува карактеристиките на маскирани слики на ниво на пиксели во кој било претходно обучен модел на дифузија, со што се гарантира кохерентност и подобрен резултат на задачите за сликање слики. Рамката BrushNet воведува нова парадигма според која рамката ги дели карактеристиките на сликата и бучниот латентен во посебни гранки. Поделбата на карактеристиките на сликата и бучните латенти драстично го намалува оптоварувањето за учење за моделот и го олеснува нијансираното вградување на суштински маскирани информации за сликата на хиерархиски начин. Покрај рамката BrushNet, ќе зборуваме и за BrushBench и BrushData кои ја олеснуваат проценката на перформансите заснована на сегментација и обуката за сликање слика соодветно. 

„Инженер по професија, писател напамет“. Кунал е технички писател со длабока љубов и разбирање за вештачката интелигенција и ML, посветен на поедноставување на сложените концепти во овие области преку неговата ангажирана и информативна документација.