Inteligenta Artificiala

Instant-Style: conservarea stilului în generarea text-to-image

Publicat

în urmă cu 3 săptămâni

Aprilie 19, 2024

În ultimii câțiva ani, modelele de difuzie bazate pe tuning au demonstrat progrese remarcabile într-o gamă largă de sarcini de personalizare și personalizare a imaginii. Cu toate acestea, în ciuda potențialului lor, modelele actuale de difuzie bazate pe tuning continuă să se confrunte cu o serie de provocări complexe în producerea și generarea de imagini consistente cu stilul și ar putea exista trei motive în spatele aceluiași lucru. În primul rând, conceptul de stil rămâne încă nedefinit și nedeterminat și cuprinde o combinație de elemente, inclusiv atmosferă, structură, design, material, culoare și multe altele. Metodele bazate pe a doua inversare sunt predispuse la degradarea stilului, ceea ce duce la pierderea frecventă a detaliilor cu granulație fină. În cele din urmă, abordările bazate pe adaptoare necesită reglarea frecventă a greutății pentru fiecare imagine de referință pentru a menține un echilibru între controlabilitatea textului și intensitatea stilului.

În plus, scopul principal al majorității abordărilor de transfer de stil sau al generării de imagini de stil este de a utiliza imaginea de referință și de a aplica stilul ei specific dintr-un subset dat sau dintr-o imagine de referință la o imagine de conținut țintă. Cu toate acestea, numărul mare de atribute ale stilului este cel care îngreunează munca cercetătorilor să colecteze seturi de date stilizate, reprezentând stilul corect și evaluând succesul transferului. Anterior, modelele și cadrele care se ocupă de procesul de difuzie bazat pe reglarea fină, reglează fin setul de date de imagini care împărtășesc un stil comun, un proces care necesită atât timp, cât și cu o generalizare limitată în sarcinile din lumea reală, deoarece este dificil. pentru a aduna un subset de imagini care au același stil sau aproape identic.

În acest articol, vom vorbi despre InstantStyle, un cadru conceput cu scopul de a aborda problemele cu care se confruntă actualele modele de difuzie bazate pe tuning pentru generarea și personalizarea imaginilor. Vom vorbi despre cele două strategii cheie implementate de framework-ul InstantStyle:

O abordare simplă, dar eficientă, pentru a decupla stilul și conținutul de imaginile de referință din spațiul de caracteristici, prezisă pe baza presupunerii că caracteristicile din același spațiu de caracteristici pot fi fie adăugate, fie scăzute unele de altele.
Prevenirea scurgerilor de stil prin injectarea caracteristicilor imaginii de referință exclusiv în blocurile specifice stilului și evitarea în mod deliberat a necesității de a utiliza greutăți greoaie pentru reglare fină, care caracterizează adesea modele mai grele de parametri.

Acest articol își propune să acopere în profunzime cadrul InstantStyle și explorăm mecanismul, metodologia, arhitectura cadrului împreună cu compararea acestuia cu cadrele de ultimă generație. Vom vorbi, de asemenea, despre modul în care cadrul InstantStyle demonstrează rezultate remarcabile de stilizare vizuală și atinge un echilibru optim între controlabilitatea elementelor textuale și intensitatea stilului. Asadar, haideti sa începem.

InstantStyle: Păstrarea stilului în generarea textului în imagine

Cadrele de inteligență artificială generatoare de text în imagine bazate pe difuzare au obținut un succes remarcabil și remarcabil într-o gamă largă de sarcini de personalizare și personalizare, în special în sarcinile consistente de generare a imaginilor, inclusiv personalizarea obiectelor, conservarea imaginii și transferul de stil. Cu toate acestea, în ciuda succesului recent și a creșterii performanței, transferul stilului rămâne o sarcină dificilă pentru cercetători din cauza naturii nedeterminate și nedefinite a stilului, incluzând adesea o varietate de elemente, inclusiv atmosferă, structură, design, material, culoare și multe altele. Acestea fiind spuse, scopul principal al generării de imagini stilizate sau al transferului de stil este de a aplica stilul specific dintr-o anumită imagine de referință sau dintr-un subset de referință de imagini. la imaginea de conținut țintă. Cu toate acestea, numărul mare de atribute ale stilului îngreunează munca cercetătorilor să colecteze seturi de date stilizate, reprezentând stilul corect și evaluând succesul transferului. Anterior, modelele și cadrele care se ocupă de procesul de difuzie bazat pe reglarea fină, reglează fin setul de date de imagini care împărtășesc un stil comun, un proces care necesită atât timp, cât și cu o generalizare limitată în sarcinile din lumea reală, deoarece este dificil. pentru a aduna un subset de imagini care au același stil sau aproape identic.

Cu provocările întâmpinate de abordarea actuală, cercetătorii s-au interesat de dezvoltarea unor abordări de reglare fină pentru transferul de stil sau generare de imagini stilizate, iar aceste cadre pot fi împărțite în două grupuri diferite:

Abordări fără adaptor: Abordările și cadrele fără adaptoare valorifică puterea autoatenției în cadrul procesului de difuzare și, prin implementarea unei operațiuni de atenție partajată, aceste modele sunt capabile să extragă caracteristici esențiale, inclusiv chei și valori dintr-un anumit stil de referință imagini direct.

Abordări bazate pe adaptor: Pe de altă parte, abordările și cadrele bazate pe adaptoare încorporează un model ușor conceput pentru a extrage reprezentări detaliate ale imaginilor din imaginile de stil de referință. Cadrul integrează apoi aceste reprezentări în procesul de difuzie folosind mecanisme de atenție încrucișată. Scopul principal al procesului de integrare este de a ghida procesul de generare și de a se asigura că imaginea rezultată este aliniată cu nuanțele stilistice dorite ale imaginii de referință.

Cu toate acestea, în ciuda promisiunilor, metodele fără reglare întâmpină adesea câteva provocări. În primul rând, abordarea fără adaptor necesită un schimb de chei și valori în cadrul straturilor de auto-atenție și pre-captează matricele de chei și valori derivate din imaginile de stil de referință. Atunci când este implementată pe imagini naturale, abordarea fără adaptor necesită inversarea imaginii înapoi la zgomotul latent folosind tehnici precum DDIM sau inversarea modelelor implicite de difuzie de denoisare. Cu toate acestea, utilizarea DDIM sau a altor abordări de inversare poate duce la pierderea detaliilor cu granulație fină, cum ar fi culoarea și textura, diminuând astfel informațiile de stil din imaginile generate. Mai mult, pasul suplimentar introdus de aceste abordări este un proces consumator de timp și poate prezenta dezavantaje semnificative în aplicațiile practice. Pe de altă parte, principala provocare pentru metodele bazate pe adaptoare constă în atingerea echilibrului corect între scurgerea contextului și intensitatea stilului. Scurgerea conținutului are loc atunci când o creștere a intensității stilului are ca rezultat apariția unor elemente non-stil din imaginea de referință în rezultatul generat, punctul principal de dificultate fiind separarea eficientă a stilurilor de conținutul din imaginea de referință. Pentru a rezolva această problemă, unele cadre construiesc seturi de date pereche care reprezintă același obiect în stiluri diferite, facilitând extragerea reprezentării conținutului și stiluri dezlegate. Cu toate acestea, datorită reprezentării inerent nedeterminate a stilului, sarcina de a crea seturi de date pereche la scară largă este limitată în ceea ce privește diversitatea stilurilor pe care le poate capta și este, de asemenea, un proces care necesită resurse.

Pentru a aborda aceste limitări, este introdus cadrul InstantStyle, care este un mecanism nou, fără reglaj, bazat pe metode existente bazate pe adaptoare, cu capacitatea de a se integra perfect cu alte metode de injectare bazate pe atenție și de a realiza decuplarea conținutului și stilului în mod eficient. În plus, cadrul InstantStyle introduce nu una, ci două modalități eficiente de a finaliza decuplarea stilului și conținutului, realizând o migrare mai bună a stilului fără a fi nevoie să introducă metode suplimentare pentru a realiza decuplarea sau construirea de seturi de date pereche.

În plus, cadrele anterioare bazate pe adaptoare au fost utilizate pe scară largă în metodele bazate pe CLIP ca un extractor de caracteristici de imagine, unele cadre au explorat posibilitatea implementării decuplării caracteristicilor în spațiul caracteristicilor și, în comparație cu nedeterminarea stilului, este mai ușor să descrie conținutul cu text. Deoarece imaginile și textele împărtășesc un spațiu de caracteristici în metodele bazate pe CLIP, o operație simplă de scădere a caracteristicilor de text context și a caracteristicilor de imagine poate reduce scurgerea de conținut în mod semnificativ. În plus, în majoritatea modele de difuzie, există un anumit strat în arhitectura sa care injectează informațiile de stil și realizează decuplarea conținutului și stilului prin injectarea de caracteristici ale imaginii numai în anumite blocuri de stil. Prin implementarea acestor două strategii simple, cadrul InstantStyle este capabil să rezolve problemele de scurgere de conținut întâlnite de majoritatea cadrelor existente, păstrând în același timp puterea stilului.

Pentru a rezuma, cadrul InstantStyle folosește două mecanisme simple, simple, dar eficiente pentru a obține o dezlegare eficientă a conținutului și stilului de imaginile de referință. Cadrul Instant-Style este o abordare independentă de model și fără reglare, care demonstrează performanțe remarcabile în sarcinile de transfer de stil, cu un potențial imens pentru sarcinile din aval.

Instant-Style: Metodologie și Arhitectură

După cum a demonstrat abordările anterioare, există un echilibru în injectarea condițiilor de stil în modelele de difuzie fără reglaj. Dacă intensitatea stării imaginii este prea mare, poate duce la scurgeri de conținut, în timp ce dacă intensitatea condiției imaginii scade prea scăzut, stilul poate să nu pară suficient de evident. Un motiv major din spatele acestei observații este că într-o imagine, stilul și conținutul sunt intercuplate și, din cauza atributelor inerente de stil nedeterminate, este dificil să se decupleze stilul și intenția. Ca rezultat, greutățile meticuloase sunt adesea reglate pentru fiecare imagine de referință în încercarea de a echilibra controlabilitatea textului și puterea stilului. În plus, pentru o anumită imagine de referință de intrare și descrierea textului corespunzătoare în metodele bazate pe inversare, abordările de inversare precum DDIM sunt adoptate peste imagine pentru a obține traiectoria de difuzie inversată, un proces care aproximează ecuația de inversare pentru a transforma o imagine într-o imagine latentă. reprezentarea zgomotului. Bazându-se pe același, și pornind de la traiectoria de difuzie inversată împreună cu un nou set de prompturi, aceste metode generează conținut nou, cu stilul său aliniat cu intrarea. Cu toate acestea, așa cum se arată în figura următoare, abordarea inversării DDIM pentru imaginile reale este adesea instabilă, deoarece se bazează pe ipotezele de liniarizare locală, ceea ce duce la propagarea erorilor și duce la pierderea conținutului și la reconstrucția incorectă a imaginii.

Venind la metodologie, în loc să folosească strategii complexe pentru a dezlega conținutul și stilul de imagini, cadrul Instant-Style adoptă cea mai simplă abordare pentru a obține performanțe similare. În comparație cu atributele de stil subdeterminate, conținutul poate fi reprezentat prin text natural, permițând cadrului Instant-Style să folosească codificatorul de text din CLIP pentru a extrage caracteristicile textului de conținut ca reprezentări de context. Simultan, cadrul Instant-Style implementează codificatorul de imagine CLIP pentru a extrage caracteristicile imaginii de referință. Profitând de caracterizarea caracteristicilor globale CLIP și după scăderea caracteristicilor textului de conținut din caracteristicile imaginii, cadrul Instant-Style este capabil să decupleze stilul și conținutul în mod explicit. Deși este o strategie simplă, ajută cadrul Instant-Style să fie destul de eficient în menținerea scurgerilor de conținut la minimum.

În plus, fiecare strat dintr-o rețea profundă este responsabil pentru captarea diferitelor informații semantice, iar observația cheie de la modelele anterioare este că există două straturi de atenție care sunt responsabile pentru manipularea stilului. sus Mai exact, sunt straturile blocks.0.attentions.1 și down blocks.2.attentions.1 responsabile pentru captarea stilului, cum ar fi culoarea, materialul, atmosfera, iar stratul de aspect spațial surprinde structura și respectiv compoziția. Cadrul Instant-Style folosește implicit aceste straturi pentru a extrage informații despre stil și previne scurgerea conținutului fără a pierde puterea stilului. Strategia este simplă, dar eficientă, deoarece modelul a localizat blocuri de stil care pot injecta caracteristicile imaginii în aceste blocuri pentru a obține un transfer de stil fără întreruperi. În plus, deoarece modelul reduce foarte mult numărul de parametri ai adaptorului, capacitatea de control a textului a cadrului este îmbunătățită, iar mecanismul este aplicabil și altor modele de injecție de caracteristici bazate pe atenție pentru editare și alte sarcini.

Instant-Style: experimente și rezultate

Cadrul Instant-Style este implementat pe cadrul Stable Diffusion XL și folosește adaptorul IR pre-antrenat în mod obișnuit ca exemplu pentru a-și valida metodologia și dezactivează toate blocurile, cu excepția blocurilor de stil pentru caracteristicile imaginii. Modelul Instant-Style antrenează, de asemenea, adaptorul IR pe 4 milioane de seturi de date pereche text-imagine la scară mare de la zero și, în loc să antreneze toate blocurile, actualizează doar blocurile de stil.

Pentru a-și desfășura capacitățile de generalizare și robustețe, cadrul Instant-Style efectuează numeroase experimente de transfer de stil cu diferite stiluri în diferite conținuturi, iar rezultatele pot fi observate în imaginile următoare. Având o singură imagine de referință de stil, împreună cu diverse solicitări, cadrul Instant-Style oferă un stil de înaltă calitate, consecvent generarea imaginii.

În plus, deoarece modelul injectează informații despre imagine numai în blocurile de stil, este capabil să atenueze problema scurgerii de conținut în mod semnificativ și, prin urmare, nu trebuie să efectueze reglarea greutății.

Continuând, cadrul Instant-Style adoptă și arhitectura ControlNet pentru a realiza o stilizare bazată pe imagini cu control spațial, iar rezultatele sunt demonstrate în imaginea următoare.

În comparație cu metodele anterioare de ultimă generație, inclusiv StyleAlign, B-LoRA, Swapping Self Attention și IP-Adapter, cadrul Instant-Style demonstrează cele mai bune efecte vizuale.

Gânduri finale

În acest articol, am vorbit despre Instant-Style, un cadru general care folosește două strategii simple, dar eficiente pentru a obține o dezlegare eficientă a conținutului și stilului de imaginile de referință. Cadrul InstantStyle este conceput cu scopul de a aborda problemele cu care se confruntă actualele modele de difuzie bazate pe tuning pentru generarea și personalizarea imaginilor. Cadrul Instant-Style implementează două strategii vitale: O abordare simplă, dar eficientă, pentru a decupla stilul și conținutul de imaginile de referință din spațiul de caracteristici, prezisă din ipoteza că caracteristicile din același spațiu de caracteristici pot fi fie adăugate, fie scăzute unele de altele. În al doilea rând, prevenirea scurgerilor de stil prin injectarea caracteristicilor imaginii de referință exclusiv în blocurile specifice stilului și evitând în mod deliberat nevoia de a utiliza greutăți greoaie pentru reglare fină, care caracterizează adesea modele mai grele de parametri.

Subiecte asemănătoare:inteligență artificială Computer Vision modele de difuzie ai generativ generarea imaginii Instant-Style InstantStyle

Urmeaza

Top 10 concluzii din Raportul Stanford 2024 AI Index

Nu ratați

Ascensiunea inginerilor software AI: SWE-Agent, Devin AI și viitorul codificării

Kunal Kejriwal

„Un inginer de profesie, un scriitor pe de rost”. Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a AI și ML, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.