никулец Инстант-стил: зачувување стил во генерирање текст во слика - Unite.AI
Поврзете се со нас

Вештачка интелигенција

Инстант-стил: зачувување стил во генерирање текст во слика

mm

Објавено

 on

Во текот на изминатите неколку години, моделите за дифузија базирани на подесување покажаа извонреден напредок во широк спектар на задачи за персонализација и прилагодување на сликата. Сепак, и покрај нивниот потенцијал, сегашните модели на дифузија базирани на тјунинг продолжуваат да се соочуваат со мноштво сложени предизвици во производството и генерирањето слики доследни на стилот, а може да има три причини зад истото. Прво, концептот на стил сè уште останува широко недефиниран и неодреден, и се состои од комбинација на елементи вклучувајќи атмосфера, структура, дизајн, материјал, боја и многу повеќе. Вторите методи базирани на инверзија се склони кон деградација на стилот, што резултира со често губење на ситно-гранулирани детали. Конечно, пристапите засновани на адаптер бараат често подесување на тежината за секоја референтна слика за да се одржи рамнотежа помеѓу контролирањето на текстот и интензитетот на стилот. 

Понатаму, примарна цел на повеќето пристапи за трансфер на стилови или генерирање стилски слики е да се користи референтната слика и да се примени нејзиниот специфичен стил од дадена подмножество или референтна слика на целна слика на содржина. Сепак, широкиот број на атрибути на стилот им ја отежнува работата на истражувачите да собираат стилизирани збирки на податоци, правилно да го претставуваат стилот и да го проценат успехот на трансферот. Претходно, моделите и рамки кои се занимаваат со процесот на дифузија базиран на фино подесување, фино ја прилагодуваат базата на слики што делат заеднички стил, процес кој одзема време и со ограничена генерализираност во задачите во реалниот свет бидејќи е тежок да се соберат подмножество слики што делат ист или речиси идентичен стил. 

Во оваа статија, ќе зборуваме за InstantStyle, рамка дизајнирана со цел да се справи со проблемите со кои се соочуваат тековните модели за дифузија базирани на подесување за генерирање и прилагодување на слики. Ќе зборуваме за двете клучни стратегии имплементирани од рамката InstantStyle: 

  1. Едноставен, но ефективен пристап за раздвојување на стилот и содржината од референтните слики во просторот за карактеристики, предвиден врз основа на претпоставката дека функциите во истиот простор на функции може да се додадат или одземат една од друга. 
  2. Спречување на протекување на стил со вбризгување на карактеристиките на референтната слика исклучиво во блоковите специфични за стилот и намерно избегнување на потребата да се користат незгодни тежини за дотерување, често карактеризирајќи дизајни со повеќе параметри. 

Оваа статија има за цел да ја опфати рамката InstantStyle во длабочина, а ние ги истражуваме механизмите, методологијата, архитектурата на рамката заедно со нејзината споредба со најсовремените рамки. Ќе зборуваме и за тоа како рамката InstantStyle покажува извонредни резултати од визуелната стилизација и постигнува оптимална рамнотежа помеѓу контролираноста на текстуалните елементи и интензитетот на стилот. Па ајде да започнеме. 

InstantStyle: Зачувување на стил во генерирање текст во слика

Рамките за вештачка интелигенција засновани на дифузија за генерирање на текст во слика собраа забележлив и извонреден успех во широк спектар на задачи за прилагодување и персонализација, особено во доследни задачи за генерирање слики, вклучително приспособување на објекти, зачувување на слики и трансфер на стилови. Сепак, и покрај неодамнешниот успех и зголемување на перформансите, трансферот на стил останува предизвик за истражувачите поради неодредената и недефинираната природа на стилот, често вклучувајќи различни елементи како атмосфера, структура, дизајн, материјал, боја и многу повеќе. Со тоа што е кажано, примарна цел на генерирање стилизирана слика или трансфер на стил е да се примени специфичниот стил од дадена референтна слика или референтна подмножество на слики до сликата на целната содржина. Сепак, големиот број на атрибути на стилот им ја отежнува работата на истражувачите да собираат стилизирани збирки на податоци, правилно да го претставуваат стилот и да го проценат успехот на трансферот. Претходно, моделите и рамки кои се занимаваат со процесот на дифузија базиран на фино подесување, фино ја прилагодуваат базата на слики што делат заеднички стил, процес кој одзема време и со ограничена генерализираност во задачите во реалниот свет бидејќи е тежок да се соберат подмножество слики што делат ист или речиси идентичен стил. 

Со предизвиците со кои се соочува тековниот пристап, истражувачите се заинтересираа да развијат пристапи за дотерување за трансфер на стил или генерирање на стилизирана слика, и овие рамки може да се поделат во две различни групи: 

  • Пристапи без адаптери: Пристапите и рамки без адаптери ја користат моќта на само-внимание во процесот на дифузија и со спроведување на операција за заедничко внимание, овие модели се способни директно да извлечат суштински карактеристики, вклучувајќи клучеви и вредности од дадени слики во референтен стил. 
  • Пристапи базирани на адаптери: Пристапите и рамки базирани на адаптери, од друга страна, вклучуваат лесен модел дизајниран да извлече детални претстави на слики од сликите во референтниот стил. Рамката потоа ги интегрира овие претстави во процесот на дифузија вешто користејќи механизми за вкрстено внимание. Примарната цел на процесот на интеграција е да се води процесот на генерирање и да се осигура дека добиената слика е усогласена со саканите стилски нијанси на референтната слика. 

Сепак, и покрај ветувањата, методите без подесување често се соочуваат со неколку предизвици. Прво, пристапот без адаптер бара размена на клучот и вредностите во слоевите за самовнимание, и однапред ги фаќа матриците на клучните и вредностите добиени од сликите на референтниот стил. Кога е имплементиран на природни слики, пристапот без адаптери бара инверзија на сликата назад кон латентен шум користејќи техники како што се DDIM или инверзија на имплицитни модели со дифузија на деноисирање. Сепак, користењето на DDIM или други пристапи за инверзија може да резултира со губење на ситно-гранулирани детали како боја и текстура, со што се намалуваат информациите за стилот на генерираните слики. Понатаму, дополнителниот чекор воведен со овие пристапи е процес кој одзема многу време и може да претставува значителни недостатоци во практичната примена. Од друга страна, примарниот предизвик за методите засновани на адаптери лежи во постигнувањето на вистинската рамнотежа помеѓу истекувањето на контекстот и интензитетот на стилот. Протекувањето на содржината се случува кога зголемувањето на интензитетот на стилот резултира со појава на елементи кои не се стилски од референтната слика во генерираниот излез, при што основната точка на тешкотија е ефективно одвојување на стиловите од содржината во референтната слика. За да се реши ова прашање, некои рамки конструираат спарени збирки на податоци кои го претставуваат истиот објект во различни стилови, олеснувајќи го извлекувањето на претставувањето на содржината и разделените стилови. Меѓутоа, благодарение на инхерентно неодреденото претставување на стилот, задачата за создавање на големи спарени збирки на податоци е ограничена во однос на разновидноста на стиловите што може да ги долови, а исто така е и процес кој бара ресурси. 

За да се решат овие ограничувања, воведена е рамката InstantStyle која е нов механизам без подесување базиран на постоечки методи базирани на адаптери со можност за беспрекорно интегрирање со други методи за инјектирање базирани на внимание и постигнување на ефикасно раздвојување на содржината и стилот. Понатаму, рамката InstantStyle воведува не еден, туку два ефективни начини за завршување на раздвојувањето на стилот и содржината, постигнувајќи подобра миграција на стилот без потреба од воведување дополнителни методи за постигнување раздвојување или градење на спарени сетови на податоци. 

Понатаму, претходните рамки засновани на адаптер беа широко користени во методите базирани на CLIP како извлекувач на карактеристики на слика, некои рамки ја истражуваа можноста за имплементација на раздвојување на карактеристиките во просторот на карактеристиките, и кога ќе се споредат со неодреденоста на стилот, полесно е да се опишете ја содржината со текст. Бидејќи сликите и текстовите споделуваат простор за функции во методите базирани на CLIP, едноставна операција за одземање на карактеристиките на контекстот на текстот и карактеристиките на сликата може значително да го намали истекувањето на содржината. Понатаму, во мнозинството од модели на дифузија, постои одреден слој во неговата архитектура што ги инјектира информациите за стилот и го постигнува раздвојувањето на содржината и стилот со вбризгување на карактеристиките на сликата само во одредени стилски блокови. Со имплементирање на овие две едноставни стратегии, рамката InstantStyle може да ги реши проблемите со истекување на содржината со кои се соочуваат мнозинството постоечки рамки, додека ја одржува силата на стилот. 

Да се ​​сумира, рамката InstantStyle користи два едноставни, јасни, но ефективни механизми за да се постигне ефективно раздвојување на содржината и стилот од референтните слики. Рамката Instant-Style е независен модел и пристап без подесување кој покажува извонредни перформанси во задачите за пренос на стилови со огромен потенцијал за задачи надолу. 

Инстант-стил: Методологија и архитектура

Како што е прикажано со претходните пристапи, постои рамнотежа во вбризгување на стилски услови во моделите со дифузија без тјунинг. Ако интензитетот на состојбата на сликата е превисок, тоа може да резултира со истекување на содржината, додека ако интензитетот на состојбата на сликата падне премногу ниско, стилот може да изгледа како да не е доволно очигледен. Главната причина зад оваа опсервација е тоа што на сликата, стилот и содржината се меѓусебно поврзани, а поради инхерентните неодредени стилски атрибути, тешко е да се раздвојат стилот и намерата. Како резултат на тоа, прецизните тежини често се подесуваат за секоја референтна слика во обид да се балансираат контролноста на текстот и силата на стилот. Понатаму, за дадена влезна референтна слика и нејзиниот соодветен текстуален опис во методите засновани на инверзија, пристапите на инверзија како DDIM се усвоени над сликата за да се добие инвертираната дифузна траекторија, процес што ја приближува равенката на инверзија за да ја трансформира сликата во латентна претставување на бучава. Надоврзувајќи се на истото, и тргнувајќи од траекторијата на превртена дифузија заедно со нов сет на инструкции, овие методи генерираат нова содржина со неговиот стил усогласен со влезот. Меѓутоа, како што е прикажано на следната слика, пристапот за инверзија на DDIM за реални слики често е нестабилен бидејќи се потпира на претпоставките за локална линеаризација, што резултира со ширење на грешки и доведува до губење на содржината и неправилна реконструкција на сликата. 

Доаѓајќи до методологијата, наместо да користи сложени стратегии за раздвојување на содржината и стилот од сликите, рамката Instant-Style го користи наједноставниот пристап за постигнување слични перформанси. Кога ќе се спореди со недоволно определените стилски атрибути, содржината може да биде претставена со природен текст, дозволувајќи ѝ на рамката Instant-Style да го користи текстуалниот енкодер од CLIP за да ги извлече карактеристиките на текстот на содржината како репрезентации на контекстот. Истовремено, рамката Instant-Style имплементира CLIP енкодер за слики за да ги извлече карактеристиките на референтната слика. Искористувајќи ги предностите на карактеризацијата на глобалните карактеристики на CLIP и објавувањето одземајќи ги карактеристиките на текстот на содржината од карактеристиките на сликата, рамката Instant-Style може експлицитно да ги раздвои стилот и содржината. Иако е едноставна стратегија, таа помага рамката за инстант стил да биде доста ефикасна во одржувањето на истекувањето на содржината на минимум. 

Понатаму, секој слој во длабока мрежа е одговорен за снимање на различни семантички информации, а клучното набљудување од претходните модели е дека постојат два слоја на внимание кои се одговорни за стилот на ракување. горе Поточно, тоа се слоевите блокови.0.вниманија.1 и блокови.2.вниманија.1 одговорни за доловување на стилот како боја, материјал, атмосфера, а слојот на просторен распоред ја доловува структурата и композицијата соодветно. Рамката Instant-Style ги користи овие слоеви имплицитно за да извлече информации за стилот и го спречува истекувањето на содржината без губење на јачината на стилот. Стратегијата е едноставна, но ефикасна бидејќи моделот има лоцирани стилски блокови кои можат да ги инјектираат карактеристиките на сликата во овие блокови за да се постигне беспрекорен трансфер на стил. Понатаму, бидејќи моделот во голема мера го намалува бројот на параметри на адаптерот, способноста за контрола на текстот на рамката е подобрена, а механизмот е исто така применлив и за други модели за вбризгување карактеристики базирани на внимание за уредување и други задачи. 

Инстант-стил: експерименти и резултати

Рамката Instant-Style се имплементира на рамката Stable Diffusion XL и го користи вообичаено усвоениот претходно обучен IR-адаптер како свој пример за да ја потврди својата методологија и ги исклучува сите блокови освен стилските блокови за карактеристиките на сликата. Моделот Instant-Style, исто така, го обучува IR-адаптерот на 4 милиони големи збирки на податоци спарени со текст-слика од нула, и наместо да ги тренира сите блокови, ги ажурира само блоковите на стилови. 

За да ги спроведе своите можности за генерализација и робусност, рамката Instant-Style спроведува бројни експерименти за пренос на стилови со различни стилови низ различни содржини, а резултатите може да се забележат на следните слики. Со оглед на референтната слика од еден стил, заедно со различни инструкции, рамката Instant-Style обезбедува висок квалитет, конзистентен стил генерирање слики

Понатаму, бидејќи моделот вбризгува информации за сликата само во стилските блокови, тој може значително да го ублажи проблемот со истекувањето на содржината и затоа нема потреба да врши подесување на тежината. 

Напредно, рамката Instant-Style ја прифаќа и архитектурата ControlNet за да постигне стилизација базирана на слика со просторна контрола, а резултатите се прикажани на следната слика. 

Во споредба со претходните најсовремени методи, вклучувајќи StyleAlign, B-LoRA, Swapping Self Attention и IP-Adapter, рамката Instant-Style ги покажува најдобрите визуелни ефекти. 

Последни мисли

Во оваа статија, зборувавме за Instant-Style, општа рамка која користи две едноставни, но ефективни стратегии за да постигне ефективно раздвојување на содржината и стилот од референтните слики. Рамката InstantStyle е дизајнирана со цел да се справи со проблемите со кои се соочуваат тековните модели на дифузија базирани на подесување за генерирање и прилагодување на слики. Рамката Instant-Style имплементира две витални стратегии: Едноставен, но ефективен пристап за раздвојување на стилот и содржината од референтните слики во просторот за карактеристики, предвиден врз основа на претпоставката дека функциите во истиот простор на карактеристики може да се додадат или одземат една од друга. Второ, спречување на протекување стилови со вбризгување на карактеристиките на референтната слика исклучиво во блоковите специфични за стилот и намерно избегнување на потребата од користење незгодни тежини за фино подесување, често карактеризирајќи дизајни со потешки параметри. 

„Инженер по професија, писател напамет“. Кунал е технички писател со длабока љубов и разбирање за вештачката интелигенција и ML, посветен на поедноставување на сложените концепти во овие области преку неговата ангажирана и информативна документација.