Umelá inteligencia

Concept Sliders: Presné ovládanie v difúznych modeloch s adaptérmi LoRA

Aktualizované on Januára 2, 2024

Vďaka ich schopnostiam, text-to-image difúzne modely sa stali v umeleckej komunite nesmierne populárne. Súčasné modely, vrátane najmodernejších rámcov, sa však často snažia udržať kontrolu nad vizuálnymi konceptmi a atribútmi vo vygenerovaných obrázkoch, čo vedie k neuspokojivým výstupom. Väčšina modelov sa spolieha výlučne na textové výzvy, čo predstavuje problémy pri modulácii nepretržitých atribútov, ako je intenzita počasia, ostrosť tieňov, výrazy tváre alebo presný vek osoby. To sťažuje koncovým používateľom upravovať obrázky tak, aby vyhovovali ich špecifickým potrebám. Okrem toho, hoci tieto generatívne rámce vytvárajú vysokokvalitné a realistické obrázky, sú náchylné na deformácie, ako sú pokrivené tváre alebo chýbajúce prsty.

Na prekonanie týchto obmedzení vývojári navrhli použitie interpretovateľných koncepčných posúvačov. Tieto posuvníky sľubujú väčšiu kontrolu pre koncových používateľov nad vizuálnymi atribútmi, čím zlepšujú vytváranie a úpravu obrázkov v rámci modelov difúzie. Koncepčné posúvače v modeloch difúzie fungujú tak, že identifikujú smer parametrov zodpovedajúci individuálnemu konceptu a zároveň minimalizujú interferenciu s inými atribútmi. Rámec vytvára tieto posuvníky pomocou vzorových obrázkov alebo sady výziev, čím stanovuje smery pre textové aj vizuálne koncepty.

V konečnom dôsledku použitie koncepčných posúvačov v texte na obrázok difúzne modely Výsledkom môže byť generovanie obrazu s minimálnym stupňom rušenia a lepšia kontrola nad konečným výstupom, pričom sa tiež zvyšuje vnímaný realizmus bez toho, aby sa zmenil obsah obrázkov, a tak sa generovali realistické obrázky. V tomto článku budeme diskutovať o koncepte používania Concept Sliders v rámcoch textu na obrázky do väčšej hĺbky a budeme analyzovať, ako môže jeho použitie viesť k obrazom generovaným umelou inteligenciou najvyššej kvality.

Úvod do konceptu Slider

Ako už bolo spomenuté, súčasné rámce šírenia textu na obrázok majú často problémy s ovládaním vizuálnych konceptov a atribútov vo generovaných obrázkoch, čo vedie k neuspokojivým výsledkom. Navyše pre mnohé z týchto modelov je náročné modulovať spojité atribúty, čo ďalej prispieva k neuspokojivým výstupom. Concept Sliders môžu pomôcť zmierniť tieto problémy a poskytnúť tvorcom obsahu a koncovým používateľom lepšiu kontrolu nad procesom generovania obrázkov a riešiť výzvy, ktorým čelia súčasné rámce.

Väčšina súčasných modelov šírenia textu do obrázka sa pri riadení atribútov obrázka spolieha na priamu úpravu textu. Aj keď tento prístup umožňuje generovanie obrázka, nie je optimálny, pretože zmena výzvy môže drasticky zmeniť štruktúru obrázka. Ďalší prístup, ktorý používajú tieto rámce, zahŕňa post-hoc techniky, ktoré invertujú proces difúzie a upravujú krížové pozornosti na úpravu vizuálnych konceptov. Post-hoc techniky však majú obmedzenia, pretože podporujú len obmedzený počet simultánnych úprav a vyžadujú si individuálne zásahové prechody pre každý nový koncept. Okrem toho môžu zaviesť koncepčné zapletenie, ak nie sú starostlivo navrhnuté.

Naproti tomu Concept Sliders ponúkajú efektívnejšie riešenie pre generovanie obrazu. Tieto ľahké, ľahko použiteľné adaptéry možno použiť na vopred vyškolené modely, čím sa zvyšuje kontrola a presnosť požadovaných konceptov v jedinom interferenčnom prechode s minimálnym zapletením. Posuvníky konceptov tiež umožňujú úpravu vizuálnych konceptov, ktoré nie sú zahrnuté v textových popisoch, čo je vlastnosť, ktorá ich odlišuje od metód úprav založených na riadení textu. Zatiaľ čo metódy prispôsobenia založené na obrázkoch môžu efektívne pridávať tokeny pre koncepty založené na obrázkoch, je ťažké ich implementovať na úpravu obrázkov. Na druhej strane Concept Sliders umožňuje koncovým používateľom poskytnúť malý počet spárovaných obrázkov definujúcich požadovaný koncept. Posuvníky potom zovšeobecnia tento koncept a automaticky ho aplikujú na iné obrázky s cieľom zlepšiť realizmus a opraviť skreslenia, ako napríklad v rukách.

Concept Sliders sa snažia poučiť a riešiť problémy spoločné pre štyri generatívne AI a koncepty rámca šírenia: úprava obrázkov, metódy založené na usmerneniach, úprava modelov a sémantické smery.

Úprava obrázkov

Súčasné rámce AI sa buď zameriavajú na používanie podmieneného vstupu na vedenie štruktúry obrazu, alebo manipulujú s krížovými pozornosťami zdrojového obrazu s jeho cieľovou výzvou, aby umožnili úpravu jedného obrazu v rámcoch difúzie textu do obrazu. Výsledkom je, že tieto prístupy možno implementovať iba na jednotlivých obrázkoch a tiež vyžadujú optimalizáciu latentného základu pre každý obrázok v dôsledku vývoja geometrickej štruktúry v priebehu časových krokov naprieč výzvami.

Metódy založené na usmerneniach

Použitie metód založených na vedení bez klasifikátora naznačilo ich schopnosť zlepšiť kvalitu generovaných obrázkov a posilniť zarovnanie textu a obrázku. Začlenením vodiacich pojmov počas interferencie metóda zlepšuje obmedzené zloženie zdedené difúznymi rámcami a môžu sa použiť na vedenie cez nebezpečné koncepty v difúznych rámcoch.

Úprava modelu

Použitie Concept Sliders možno považovať aj za techniku úpravy modelu, ktorá využíva adaptér nízkej úrovne na výstup jediného sémantického atribútu, ktorý vytvára priestor pre nepretržitú kontrolu, ktorá je v súlade s atribútom. Metódy prispôsobenia založené na jemnom ladení sa potom používajú na prispôsobenie rámca na pridanie nových konceptov. Okrem toho technika Custom Diffusion navrhuje spôsob, ako doladiť vrstvy krížovej pozornosti, aby sa do vopred pripravených modelov difúzie začlenili nové vizuálne koncepty. Technika Textual Diffusion naopak navrhuje optimalizovať vektor vkladania, aby sa aktivovali schopnosti modelu a zaviedli textové koncepty do rámca.

Sémantický smer v sieťach GAN

Manipulácia so sémantickými atribútmi je jedným z kľúčových atribútov generatívnych adverzných sietí s trajektóriami latentného priestoru, o ktorých sa zistilo, že sú zosúladené samokontrolovaným spôsobom. V rámcoch difúzie tieto trajektórie latentného priestoru existujú v stredných vrstvách architektúry U-Net a hlavný smer latentných priestorov v rámcoch difúzie zachytáva globálnu sémantiku. Concept Sliders priamo trénujú podpriestory nízkej úrovne zodpovedajúce špeciálnym atribútom a získavajú presné a lokalizované smery úprav pomocou párov textu alebo obrázkov na optimalizáciu globálnych smerov.

Koncepčné posúvače: Architektúra a práca

Difúzne modely a adaptéry LoRA alebo Low Rank

Difúzne modely sú v podstate podtriedou generatívnych rámcov AI, ktoré fungujú na princípe syntézy údajov obrátením procesu difúzie. Proces doprednej difúzie spočiatku pridáva k údajom šum, teda prechod z organizovaného stavu do stavu úplného Gaussovho šumu. Primárnym cieľom modelov difúzie je zvrátiť proces difúzie postupným odšumovaním obrazu a vzorkovaním náhodného gaussovského šumu na vytvorenie obrazu. V aplikáciách v reálnom svete je primárnym cieľom rámcov difúzie predpovedať skutočný šum, keď je ako vstup privádzaný úplný Gaussov šum s ďalšími vstupmi, ako je úprava a časový krok.

Technika LoRA alebo Low Rank Adapters rozkladá aktualizácie hmotnosti počas jemného ladenia, aby umožnila efektívne prispôsobenie veľkých vopred vyškolených rámcov na následné úlohy. Technika LoRA rozkladá aktualizácie hmotnosti pre vopred trénovanú modelovú vrstvu s ohľadom na vstupné aj výstupné rozmery a obmedzuje aktualizáciu na nízkorozmerný podpriestor.

Koncepčné posúvače

Primárnym cieľom Concept Sliders je slúžiť ako prístup na jemné doladenie adaptérov LoRA na difúznom rámci, aby sa uľahčila väčšia miera kontroly nad obrázkami zameranými na koncept, a to isté je demonštrované na nasledujúcom obrázku.

Keď sú podmienené cieľovými konceptmi, Concept Sliders sa učia smery parametrov nízkej úrovne, aby zvýšili alebo znížili vyjadrenie špecifických atribútov. Pre model a jeho cieľový koncept je primárnym cieľom Concept Sliders získať vylepšený model, ktorý modifikuje pravdepodobnosť vylepšenia a potlačenia atribútov pre obrázok, keď je podmienený cieľovým konceptom, aby sa zvýšila pravdepodobnosť vylepšenia atribútov a znížila pravdepodobnosť. potláčania atribútov. Pomocou reparametrizácie a Tweedieho vzorca zavádza rámec časovo premenlivý šumový proces a vyjadruje každé skóre ako predikciu odšumovania. Okrem toho cieľ rozpojenia jemne dolaďuje moduly v Concept Sliders, pričom udržiava vopred natrénované hmotnosti konštantné a škálovací faktor zavedený počas formulácie LoRA sa mení počas interferencie. Faktor mierky tiež uľahčuje úpravu sily úprav a zosilňuje úpravy bez pretrénovania rámca, ako je znázornené na nasledujúcom obrázku.

Metódy úprav, ktoré predtým používali rámce, uľahčili silnejšie úpravy preškolením rámca so zvýšeným vedením. Avšak zmena mierky počas rušenia poskytuje rovnaké výsledky úprav bez zvýšenia nákladov na preškolenie a času.

Učenie sa vizuálnych konceptov

Posuvníky konceptov sú navrhnuté tak, aby ovládali vizuálne koncepty, ktoré textové výzvy nedokážu dobre definovať, a tieto posuvníky využívajú na trénovanie týchto konceptov malé množiny údajov, ktoré sú buď spárované pred alebo po. Kontrast medzi pármi obrázkov umožňuje posúvačom naučiť sa vizuálne koncepty. Okrem toho tréningový proces Concept Sliders optimalizuje komponent LoRA implementovaný v smere dopredu aj dozadu. Výsledkom je, že komponent LoRA sa zarovná so smerom, ktorý spôsobuje vizuálne efekty v oboch smeroch.

Koncepčné posúvače: Výsledky implementácie

Na analýzu nárastu výkonu vývojári vyhodnotili používanie Concept Sliders predovšetkým na Stabilná difúzia XL, 1024-pixelový rámec s vysokým rozlíšením s ďalšími experimentmi vykonanými na frameworku Stable Diffusion v1.4 s modelmi, ktoré boli trénované na každý 500 epoch.

Posuvníky textových konceptov

Na vyhodnotenie výkonnosti textových posúvačov konceptov sa overí na súbore 30 konceptov založených na texte a metóda sa porovná s dvoma základnými líniami, ktoré využívajú štandardnú textovú výzvu pre pevný počet časových krokov, a potom sa spustí tvorba pridanie výziev na riadenie obrazu. Ako je možné vidieť na nasledujúcom obrázku, používanie Concept Sliders má za následok neustále vyššie skóre CLIP a neustále znižovanie skóre LPIPS v porovnaní s pôvodným rámcom bez Concept Sliders.

Ako je možné vidieť na obrázku vyššie, použitie Concept Sliders uľahčuje presnú úpravu požadovaných atribútov počas procesu generovania obrázka pri zachovaní celkovej štruktúry obrázka.

Posuvníky vizuálneho konceptu

Modely šírenia textu na obrázok, ktoré využívajú iba textové výzvy, majú často problém udržať si vyšší stupeň kontroly nad vizuálnymi atribútmi, ako sú ochlpenie na tvári alebo tvary očí. Na zabezpečenie lepšej kontroly nad podrobnými atribútmi využívajú Concept Sliders voliteľné textové navádzanie spárované so súbormi údajov obrázkov. Ako je možné vidieť na obrázku nižšie, Concept Sliders vytvárajú jednotlivé posuvníky pre „veľkosť očí“ a „tvar obočia“, ktoré zachytávajú požadované transformácie pomocou párov obrázkov.

Výsledky možno ďalej spresniť poskytnutím špecifických textov, aby sa smer zameral na túto oblasť tváre a vytvoril posuvníky s postupnou kontrolou nad cieľovým atribútom.

Skladanie posuvníkov

Jednou z hlavných výhod používania Concept Sliders je jeho skladateľnosť, ktorá umožňuje používateľom kombinovať viacero posúvačov pre vylepšené množstvo kontroly, namiesto toho, aby sa sústredili na jeden koncept naraz, čo možno vďačiť smerovaniu posúvačov nízkej úrovne, ktoré sa používajú v Concept Sliders. . Navyše, keďže Concept Sliders sú ľahké adaptéry LoRA, dajú sa ľahko zdieľať a možno ich jednoducho prekryť difúzne modely. Používatelia môžu tiež nastaviť viacero gombíkov súčasne a riadiť tak zložité generácie stiahnutím zaujímavých sád posuvníkov.

Nasledujúci obrázok demonštruje kompozičné schopnosti koncepčných posúvačov a viacero posúvačov sa skladá postupne v každom rade zľava doprava, čo umožňuje prechod cez vysokorozmerné priestory konceptov so zvýšeným stupňom kontroly nad konceptmi.

Zlepšenie kvality obrazu

Hoci najmodernejšie rámce na šírenie textu do obrázkov a rozsiahle generatívne modely majú radi Stabilná difúzia XL Modely sú schopné generovať realistické a vysokokvalitné obrázky, často trpia deformáciami obrazu, ako sú rozmazané alebo zabalené objekty, aj keď parametre týchto najmodernejších rámcov sú vybavené latentnou schopnosťou generovať vysokokvalitný výstup s menším počtom generácií. Použitie koncepčných posúvačov môže viesť ku generovaniu obrázkov s menším skreslením odomknutím skutočných schopností týchto modelov identifikáciou smerov parametrov nízkej úrovne.

Upevňovacie ruky

Vytváranie obrázkov s realisticky vyzerajúcimi rukami bolo vždy prekážkou pre difúzne rámce a použitie Concept Sliders má priamu kontrolu nad tendenciou deformovať ruky. Nasledujúci obrázok demonštruje účinok použitia koncepčných posúvačov „fix hands“, ktoré umožňujú rámcu vytvárať obrázky s realistickejšie vyzerajúcimi rukami.

Oprava posúvačov

Použitie Concept Sliders môže viesť nielen k vytvoreniu realistickejšie vyzerajúcich rúk, ale tiež ukázalo svoj potenciál pri zlepšovaní celkovej realizmu obrázkov generovaných rámcom. Concept Sliders tiež identifikuje jeden smer parametra nízkej úrovne, ktorý umožňuje posun v obrazoch od bežných problémov s deformáciou, a výsledky sú znázornené na nasledujúcom obrázku.

Záverečné myšlienky

V tomto článku sme hovorili o Concept Sliders, jednoduchej, ale škálovateľnej novej paradigme, ktorá umožňuje interpretovateľnú kontrolu nad generovaným výstupom v modeloch difúzie. Použitie konceptových posúvačov má za cieľ vyriešiť problémy, ktorým čelia súčasné rámce šírenia textu do obrázkov, pre ktoré je ťažké udržať požadovanú kontrolu nad vizuálnymi konceptmi a atribútmi zahrnutými vo vygenerovanom obrázku, čo často vedie k neuspokojivému výstupu. Okrem toho je pre väčšinu modelov difúzie textu do obrazu ťažké modulovať spojité atribúty v obraze, čo v konečnom dôsledku často vedie k neuspokojivým výstupom. Použitie Concept Sliders môže umožniť rámcom šírenia textu do obrázkov na zmiernenie týchto problémov a poskytnúť tvorcom obsahu a koncovým používateľom lepší stupeň kontroly nad procesom generovania obrázkov a vyriešiť problémy, ktorým čelia súčasné rámce.

Nasledujúci

Prečo model umelej inteligencie Orca-2 od spoločnosti Microsoft predstavuje významný pokrok v oblasti udržateľnej umelej inteligencie?

Nenechajte si ujsť

Ride the Hype: Udalosti AI v Bay Area

Kunal Kejriwal

"Povolaním inžinier, srdcom spisovateľ." Kunal je technický spisovateľ s hlbokou láskou a porozumením AI a ML, ktorý sa venuje zjednodušovaniu zložitých konceptov v týchto oblastiach prostredníctvom svojej pútavej a informatívnej dokumentácie.

Spojte sa.AI

Concept Sliders: Presné ovládanie v difúznych modeloch s adaptérmi LoRA

Umelá inteligencia

Concept Sliders: Presné ovládanie v difúznych modeloch s adaptérmi LoRA

Obsah