Изкуствен интелект

Instant-Style: Запазване на стила при генериране на текст към изображение

Публикуван

Преди 3 седмици

Април 19, 2024

През последните няколко години дифузионните модели, базирани на настройка, демонстрираха забележителен напредък в широк набор от задачи за персонализиране и персонализиране на изображения. Въпреки потенциала си обаче, настоящите дифузионни модели, базирани на настройка, продължават да се сблъскват с множество сложни предизвикателства при производството и генерирането на стилово последователни изображения и може да има три причини зад същото. Първо, концепцията за стил все още остава широко недефинирана и неопределена и включва комбинация от елементи, включително атмосфера, структура, дизайн, материал, цвят и много други. Вторите методи, базирани на инверсия, са склонни към влошаване на стила, което води до честа загуба на фини детайли. И накрая, базираните на адаптери подходи изискват честа настройка на теглото за всяко референтно изображение, за да се поддържа баланс между контролируемостта на текста и интензивността на стила.

Освен това основната цел на по-голямата част от подходите за прехвърляне на стилове или генериране на стилово изображение е да се използва референтното изображение и да се приложи неговият специфичен стил от дадено подмножество или референтно изображение към изображение на целево съдържание. Обаче големият брой атрибути на стила прави работата трудна за изследователите да събират стилизирани набори от данни, представяйки правилно стила и оценявайки успеха на трансфера. По-рано модели и рамки, които се занимават с базиран на фина настройка дифузионен процес, фино настройват набора от данни от изображения, които споделят общ стил, процес, който отнема време и с ограничена възможност за обобщаване в задачи от реалния свят, тъй като е трудно за да съберете подгрупа от изображения, които споделят същия или почти идентичен стил.

В тази статия ще говорим за InstantStyle, рамка, създадена с цел справяне с проблемите, пред които са изправени настоящите дифузионни модели, базирани на настройка, за генериране и персонализиране на изображения. Ще говорим за двете ключови стратегии, реализирани от рамката InstantStyle:

Прост, но ефективен подход за отделяне на стила и съдържанието от референтните изображения в рамките на пространството на характеристиките, предвиден при предположението, че функции в рамките на едно и също пространство на характеристики могат да бъдат добавени или извадени една от друга.
Предотвратяване на изтичане на стилове чрез инжектиране на функциите на референтното изображение изключително в специфичните за стила блокове и умишлено избягване на необходимостта от използване на тромави тегла за фина настройка, често характеризиращи дизайни с повече параметри.

Тази статия има за цел да покрие в дълбочина рамката InstantStyle и ние изследваме механизма, методологията, архитектурата на рамката, заедно с нейното сравнение с най-съвременните рамки. Ще говорим също за това как рамката InstantStyle демонстрира забележителни резултати от визуална стилизация и постига оптимален баланс между контролируемостта на текстовите елементи и интензивността на стила. Така че да започваме.

InstantStyle: Запазване на стила при генериране на текст към изображение

Базираните на дифузия AI рамки за генериране на текст към изображение са постигнали забележим и забележителен успех в широк спектър от задачи за персонализиране и персонализиране, особено при задачи за последователно генериране на изображения, включително персонализиране на обекти, запазване на изображения и трансфер на стил. Въпреки неотдавнашния успех и повишаване на производителността, прехвърлянето на стил остава предизвикателна задача за изследователите поради неопределената и недефинирана природа на стила, често включваща различни елементи, включително атмосфера, структура, дизайн, материал, цвят и много други. Като се има предвид това, основната цел на генерирането на стилизирано изображение или прехвърлянето на стил е да се приложи специфичният стил от дадено референтно изображение или референтно подмножество от изображения към изображението на целевото съдържание. Въпреки това, големият брой атрибути на стила затруднява работата на изследователите да събират стилизирани набори от данни, представящи правилно стила и оценявайки успеха на трансфера. По-рано модели и рамки, които се занимават с базиран на фина настройка дифузионен процес, фино настройват набора от данни от изображения, които споделят общ стил, процес, който отнема време и с ограничена възможност за обобщаване в задачи от реалния свят, тъй като е трудно за да съберете подгрупа от изображения, които споделят същия или почти идентичен стил.

С предизвикателствата, с които се сблъсква настоящият подход, изследователите се интересуват от разработването на подходи за фина настройка за трансфер на стилове или създаване на стилизирано изображениеи тези рамки могат да бъдат разделени на две различни групи:

Подходи без адаптер: Безадаптерните подходи и рамки използват силата на самовниманието в рамките на процеса на дифузия и чрез прилагане на операция за споделено внимание, тези модели са способни да извличат основни характеристики, включително ключове и стойности от дадени изображения на референтен стил директно.

Базирани на адаптери подходи: Базираните на адаптери подходи и рамки, от друга страна, включват олекотен модел, предназначен да извлича подробни изображения на изображения от референтните стилови изображения. След това рамката интегрира тези представяния в процеса на разпространение, използвайки умело механизми за кръстосано внимание. Основната цел на процеса на интегриране е да ръководи процеса на генериране и да гарантира, че полученото изображение е в съответствие с желаните стилистични нюанси на референтното изображение.

Въпреки обещанията обаче, методите без настройка често срещат няколко предизвикателства. Първо, подходът без адаптер изисква обмен на ключ и стойности в рамките на слоевете за самовнимание и предварително улавя матриците на ключа и стойността, получени от изображенията на референтния стил. Когато се прилага върху естествени изображения, подходът без адаптер изисква инверсия на изображението обратно към латентния шум, като се използват техники като DDIM или инверсия на имплицитни модели на обезшумяване на дифузия. Използването на DDIM или други подходи за инверсия обаче може да доведе до загуба на фини детайли като цвят и текстура, като по този начин намалява информацията за стила в генерираните изображения. Освен това, допълнителната стъпка, въведена от тези подходи, е отнемащ време процес и може да създаде значителни недостатъци в практическите приложения. От друга страна, основното предизвикателство за методите, базирани на адаптер, се крие в постигането на правилния баланс между изтичането на контекста и интензивността на стила. Изтичане на съдържание възниква, когато увеличаването на интензитета на стила води до появата на елементи без стил от референтното изображение в генерирания изход, като основната точка на трудност е ефективното разделяне на стиловете от съдържанието в референтното изображение. За да се справят с този проблем, някои рамки конструират сдвоени набори от данни, които представляват един и същ обект в различни стилове, улеснявайки извличането на представяне на съдържание и разпръснати стилове. Въпреки това, благодарение на присъщото неопределено представяне на стила, задачата за създаване на широкомащабни сдвоени набори от данни е ограничена по отношение на разнообразието от стилове, които може да улови, и това също е процес, изискващ много ресурси.

За да се справи с тези ограничения, се въвежда рамката InstantStyle, която е нов механизъм без настройка, базиран на съществуващи методи, базирани на адаптери, с възможност за безпроблемно интегриране с други методи за инжектиране, базирани на вниманието, и постигане на ефективно разделяне на съдържание и стил. Освен това рамката InstantStyle въвежда не един, а два ефективни начина за завършване на разделянето на стила и съдържанието, постигайки по-добра стилова миграция, без да е необходимо да въвеждате допълнителни методи за постигане на отделяне или изграждане на сдвоени набори от данни.

Освен това, предишни рамки, базирани на адаптери, са използвани широко в методите, базирани на CLIP, като инструмент за извличане на характеристики на изображения, някои рамки са изследвали възможността за внедряване на отделяне на функции в пространството на характеристиките и в сравнение с неопределянето на стила е по-лесно да опишете съдържанието с текст. Тъй като изображенията и текстовете споделят пространство на характеристиките в CLIP-базираните методи, една проста операция на изваждане на функциите на контекстния текст и характеристиките на изображенията може значително да намали изтичането на съдържание. Освен това, в мнозинството от дифузионни модели, има конкретен слой в неговата архитектура, който инжектира информацията за стила и осъществява разделянето на съдържанието и стила чрез инжектиране на характеристики на изображението само в специфични стилови блокове. Чрез прилагането на тези две прости стратегии рамката InstantStyle е в състояние да разреши проблемите с изтичане на съдържание, срещани от повечето съществуващи рамки, като същевременно поддържа силата на стила.

За да обобщим, рамката InstantStyle използва два прости, ясни, но ефективни механизма за постигане на ефективно разплитане на съдържание и стил от референтни изображения. Рамката Instant-Style е независим от модела подход без настройка, който демонстрира забележителна производителност при задачи за прехвърляне на стил с огромен потенциал за задачи надолу по веригата.

Instant-Style: Методология и архитектура

Както беше показано от предишни подходи, има баланс в инжектирането на стилови условия в модели на дифузия без настройка. Ако интензитетът на състоянието на изображението е твърде висок, това може да доведе до изтичане на съдържание, докато ако интензитетът на състоянието на изображението спадне твърде ниско, стилът може да не изглежда достатъчно очевиден. Основна причина зад това наблюдение е, че в едно изображение стилът и съдържанието са взаимосвързани и поради присъщите неопределени атрибути на стила е трудно да се отдели стилът и намерението. В резултат на това често се настройват прецизни тегла за всяко референтно изображение в опит да се балансира контролируемостта на текста и силата на стила. Освен това, за дадено входно референтно изображение и съответното му текстово описание в методите, базирани на инверсия, подходи за инверсия като DDIM се приемат над изображението, за да се получи обърнатата траектория на дифузия, процес, който приближава уравнението на инверсия, за да трансформира изображение в латентно шумово представяне. Надграждайки същото и започвайки от обърнатата дифузионна траектория заедно с нов набор от подкани, тези методи генерират ново съдържание със стил, съобразен с входа. Въпреки това, както е показано на следващата фигура, подходът на инверсия на DDIM за реални изображения често е нестабилен, тъй като разчита на местни предположения за линеаризация, което води до разпространение на грешки и води до загуба на съдържание и неправилна реконструкция на изображението.

Що се отнася до методологията, вместо да използва сложни стратегии за отделяне на съдържание и стил от изображения, рамката Instant-Style използва най-простия подход за постигане на подобна производителност. Когато се сравнява с недостатъчно определени стилови атрибути, съдържанието може да бъде представено чрез естествен текст, което позволява на рамката Instant-Style да използва текстовия енкодер от CLIP, за да извлече характеристиките на текста на съдържанието като контекстни представяния. Едновременно с това рамката Instant-Style внедрява CLIP енкодер за изображения, за да извлече характеристиките на референтното изображение. Възползвайки се от характеризирането на глобалните характеристики на CLIP и след изваждане на характеристиките на текста на съдържанието от характеристиките на изображението, рамката Instant-Style е в състояние да раздели стила и съдържанието изрично. Въпреки че е проста стратегия, тя помага на рамката Instant-Style да е доста ефективна за поддържане на изтичането на съдържание до минимум.

Освен това, всеки слой в една дълбока мрежа е отговорен за улавянето на различна семантична информация и ключовото наблюдение от предишните модели е, че съществуват два слоя за внимание, които са отговорни за стила на обработка. По-конкретно, слоевете blocks.0.attentions.1 и down blocks.2.attentions.1 са отговорни за улавянето на стил като цвят, материал, атмосфера, а слоят с пространствено оформление улавя съответно структурата и композицията. Рамката Instant-Style използва тези слоеве имплицитно, за да извлече информация за стила и предотвратява изтичането на съдържание, без да губи силата на стила. Стратегията е проста, но ефективна, тъй като моделът разполага със стилови блокове, които могат да инжектират характеристиките на изображението в тези блокове, за да постигнат безпроблемен стилов трансфер. Освен това, тъй като моделът значително намалява броя на параметрите на адаптера, способността за контрол на текста на рамката е подобрена и механизмът е приложим и към други модели за инжектиране на функции, базирани на вниманието, за редактиране и други задачи.

Instant-Style: Експерименти и резултати

Рамката Instant-Style е внедрена в рамката Stable Diffusion XL и използва общоприетия предварително обучен IR-адаптер като свой пример за валидиране на своята методология и заглушава всички блокове, с изключение на блоковете за стил за характеристиките на изображението. Моделът Instant-Style също обучава IR-адаптера на 4 милиона широкомащабни набора от данни, сдвоени от текст и изображение, от нулата и вместо да обучава всички блокове, актуализира само блоковете със стил.

За да проведе своите способности за обобщаване и устойчивост, рамката Instant-Style провежда многобройни експерименти за трансфер на стилове с различни стилове в различно съдържание и резултатите могат да се наблюдават на следващите изображения. Като се има предвид референтно изображение с един стил заедно с различни подкани, рамката Instant-Style предоставя висококачествен, последователен стил генериране на изображение.

Освен това, тъй като моделът инжектира информация за изображението само в стиловите блокове, той е в състояние значително да смекчи проблема с изтичането на съдържание и следователно не е необходимо да извършва настройка на теглото.

Продължавайки напред, рамката Instant-Style също възприема архитектурата ControlNet за постигане на базирана на изображение стилизация с пространствен контрол, а резултатите са демонстрирани на следното изображение.

В сравнение с предишни най-съвременни методи, включително StyleAlign, B-LoRA, Swapping Self Attention и IP-Adapter, рамката Instant-Style демонстрира най-добрите визуални ефекти.

Заключителни мисли

В тази статия говорихме за Instant-Style, обща рамка, която използва две прости, но ефективни стратегии за постигане на ефективно разплитане на съдържание и стил от референтни изображения. Рамката InstantStyle е проектирана с цел да се справи с проблемите, пред които са изправени настоящите дифузионни модели, базирани на настройка, за генериране и персонализиране на изображения. Рамката Instant-Style прилага две жизненоважни стратегии: Лесен, но ефективен подход за отделяне на стила и съдържанието от референтни изображения в рамките на пространството на характеристиките, предвидени при допускането, че функции в рамките на едно и също пространство на характеристики могат да бъдат добавени или извадени една от друга. Второ, предотвратяване на изтичане на стилове чрез инжектиране на характеристиките на референтното изображение изключително в специфичните за стила блокове и умишлено избягване на необходимостта от използване на тромави тегла за фина настройка, често характеризиращи дизайни с повече параметри.

Свързани теми:изкуствен интелект Компютърно зрение дифузионни модели генеративен ai генериране на изображение Незабавен стил InstantStyle

Следва

Топ 10 извода от доклада на Станфорд за 2024 AI Index

Не пропускайте

Възходът на AI софтуерните инженери: SWE-Agent, Devin AI и бъдещето на кодирането

Кунал Кейривал

„Инженер по професия, писател по душа“. Kunal е технически писател с дълбока любов и разбиране на AI и ML, посветен на опростяването на сложни концепции в тези области чрез своята ангажираща и информативна документация.