Spojte se s námi

Umělá inteligence

Concept Sliders: Přesné ovládání v difúzních modelech s adaptéry LoRA

mm
aktualizováno on

Díky jejich schopnostem, text-to-image difúzní modely se staly v umělecké komunitě nesmírně populární. Současné modely, včetně nejmodernějších frameworků, však často bojují s udržením kontroly nad vizuálními koncepty a atributy generovaných obrázků, což vede k neuspokojivým výstupům. Většina modelů se spoléhá pouze na textové výzvy, což představuje problémy při přesné modulaci souvislých atributů, jako je intenzita počasí, ostrost stínů, výrazy obličeje nebo věk osoby. To ztěžuje koncovým uživatelům úpravu obrázků tak, aby vyhovovaly jejich specifickým potřebám. Kromě toho, ačkoli tyto generativní rámce produkují vysoce kvalitní a realistické obrázky, jsou náchylné k deformacím, jako jsou pokřivené tváře nebo chybějící prsty.

K překonání těchto omezení vývojáři navrhli použití interpretovatelných Concept Sliders. Tyto posuvníky slibují koncovým uživatelům větší kontrolu nad vizuálními atributy, vylepšují generování a úpravy obrázků v rámci difúzních modelů. Koncepční posuvníky v modelech difúze fungují tak, že identifikují směr parametru odpovídající individuální koncepci a zároveň minimalizují interferenci s jinými atributy. Rámec vytváří tyto posuvníky pomocí vzorových obrázků nebo sady výzev, čímž určuje směry pro textové i vizuální koncepty.

Nakonec použití koncepčních posuvníků v textu na obrázek difúzní modely může mít za následek generování obrazu s minimálním stupněm interference a lepší kontrolu nad konečným výstupem a zároveň zvýšit vnímanou realističnost, aniž by se změnil obsah obrazů, a tím vytvářet realistické obrazy. V tomto článku budeme diskutovat o konceptu používání Concept Sliders v rámcích textu na obrázek do větší hloubky a analyzujeme, jak může jeho použití vést k obrázkům generovaným umělou inteligencí ve vynikající kvalitě. 

Úvod do koncepčních posuvníků

Jak již bylo zmíněno, současné rámce pro rozšiřování textu do obrázku mají často problémy s ovládáním vizuálních konceptů a atributů v generovaných obrázcích, což vede k neuspokojivým výsledkům. Navíc pro mnohé z těchto modelů je obtížné modulovat spojité atributy, což dále přispívá k neuspokojivým výstupům. Concept Sliders mohou pomoci zmírnit tyto problémy a umožnit tvůrcům obsahu a koncovým uživatelům lepší kontrolu nad procesem generování obrázků a řešení problémů, kterým čelí současné rámce.

Většina současných modelů šíření textu do obrázku spoléhá na přímou úpravu textových příkazů k řízení atributů obrázku. I když tento přístup umožňuje generování obrázku, není optimální, protože změna výzvy může drasticky změnit strukturu obrázku. Další přístup, který tyto rámce používají, zahrnuje post-hoc techniky, které invertují proces šíření a modifikují křížovou pozornost za účelem úpravy vizuálních konceptů. Post-hoc techniky však mají svá omezení, podporují pouze omezený počet simultánních úprav a vyžadují individuální interferenční průchody pro každý nový koncept. Navíc mohou zavést koncepční propletení, pokud nejsou pečlivě navrženy.

Naproti tomu Concept Sliders nabízí efektivnější řešení pro generování obrazu. Tyto lehké, snadno použitelné adaptéry lze použít na předem vycvičené modely, čímž se zlepší kontrola a přesnost požadovaných konceptů v jediném interferenčním průchodu s minimálním zapletením. Posuvníky konceptů také umožňují editaci vizuálních konceptů, které nejsou pokryty textovými popisy, což je vlastnost, která je odlišuje od metod editace založených na výzvě textu. Zatímco metody přizpůsobení založené na obrázcích mohou efektivně přidávat tokeny pro koncepty založené na obrázcích, je obtížné je implementovat pro úpravy obrázků. Koncepční posuvníky na druhé straně umožňují koncovým uživatelům poskytovat malý počet spárovaných obrázků definujících požadovaný koncept. Posuvníky pak tento koncept zobecňují a automaticky ho aplikují na další obrázky s cílem zlepšit realismus a opravit zkreslení, například v rukou.

Concept Sliders se snaží učit se a řešit problémy společné čtyřem generativním AI a konceptům rámce šíření: Úpravy obrázků, Metody založené na navádění, Úpravy modelů a Sémantické směry.

Úpravy snímků

Současné rámce umělé inteligence se buď zaměřují na použití podmíněného vstupu k vedení obrazové struktury, nebo manipulují s křížovou pozorností zdrojového obrazu s jeho cílovou výzvou, aby umožnily úpravy jednoho obrazu v rámcích pro šíření textu do obrazu. V důsledku toho mohou být tyto přístupy implementovány pouze na jednotlivých snímcích a také vyžadují optimalizaci latentní báze pro každý snímek v důsledku vyvíjející se geometrické struktury v průběhu časových kroků napříč výzvami. 

Metody založené na pokynech

Použití metod založených na vedení bez klasifikátoru ukázalo jejich schopnost zlepšit kvalitu generovaných obrázků a zlepšit zarovnání textu a obrázku. Začleněním vodících pojmů během interference metoda zlepšuje omezenou kompozičnost zděděnou difúzními rámci a lze je použít k vedení nebezpečnými koncepty v difúzních rámcích. 

Editace modelu

Použití Concept Sliders lze také chápat jako techniku ​​úpravy modelu, která využívá adaptér nízké úrovně pro výstup jediného sémantického atributu, který vytváří prostor pro nepřetržité ovládání, které je v souladu s atributem. Metody přizpůsobení založené na jemném ladění se pak používají k personalizaci rámce a přidávání nových konceptů. Technika Custom Diffusion dále navrhuje způsob, jak doladit vrstvy křížové pozornosti, aby bylo možné začlenit nové vizuální koncepty do předem trénovaných modelů difúze. Technika Textual Diffusion naopak navrhuje optimalizovat vektor vkládání pro aktivaci schopností modelu a zavedení textových konceptů do rámce. 

Sémantický směr v GAN

Manipulace se sémantickými atributy je jedním z klíčových atributů generativních adversariálních sítí, přičemž trajektorie latentního prostoru, o nichž se zjistilo, že jsou zarovnány způsobem s vlastním dohledem. V difúzních rámcích existují tyto trajektorie latentního prostoru ve středních vrstvách architektury U-Net a hlavní směr latentních prostorů v difúzních rámcích zachycuje globální sémantiku. Concept Sliders přímo trénují podprostory nízké úrovně odpovídající speciálním atributům a získávají přesné a lokalizované směry úprav pomocí textových nebo obrazových párů k optimalizaci globálních směrů. 

Koncepční posuvníky: Architektura a práce

Difúzní modely a adaptéry LoRA nebo Low Rank

Difúzní modely jsou v podstatě podtřídou generativních rámců AI, které fungují na principu syntézy dat obrácením procesu difúze. Proces dopředné difúze zpočátku přidává k datům šum, tedy přechod z organizovaného stavu do stavu úplného Gaussova šumu. Primárním cílem difúzních modelů je zvrátit proces difúze postupným odšumováním obrazu a vzorkováním náhodného Gaussova šumu pro vytvoření obrazu. V aplikacích v reálném světě je primárním cílem rámců Diffusion předpovídat skutečný šum, když je jako vstup přiváděn úplný Gaussův šum s dalšími vstupy, jako je úprava a časový krok. 

Technika LoRA nebo Low Rank Adapters rozkládá aktualizace hmotnosti během jemného ladění, aby umožnila efektivní přizpůsobení velkých předem vyškolených rámců na následné úkoly. Technika LoRA rozkládá aktualizace hmotnosti pro předem trénovanou modelovou vrstvu s ohledem na vstupní i výstupní rozměry a omezuje aktualizaci na nízkorozměrný podprostor. 

Koncepční posuvníky

Primárním cílem Concept Sliders je sloužit jako přístup k jemnému doladění adaptérů LoRA na difuzním rámci, aby se usnadnil větší stupeň kontroly nad obrázky cílenými na koncept, a totéž je demonstrováno na následujícím obrázku. 

Když jsou podmíněny cílovými koncepty, Concept Sliders se učí směry parametrů nízké úrovně, aby zvýšily nebo snížily vyjádření specifických atributů. Pro model a jeho cílový koncept je primárním cílem Concept Sliders získat vylepšený model, který modifikuje pravděpodobnost vylepšení a potlačení atributů obrazu, když je podmíněno cílovým konceptem, aby se zvýšila pravděpodobnost vylepšení atributů a snížila pravděpodobnost. potlačení atributů. Pomocí reparametrizace a Tweedieho vzorce zavádí rámec časově proměnný šumový proces a vyjadřuje každé skóre jako predikci potlačení šumu. Kromě toho cíl rozuzlení jemně dolaďuje moduly v Concept Sliders, přičemž udržuje předem připravené hmotnosti konstantní a faktor měřítka zavedený během formulace LoRA je modifikován během interference. Faktor měřítka také usnadňuje úpravu síly úprav a zesiluje úpravy bez přetrénování rámce, jak ukazuje následující obrázek. 

Metody úprav, které dříve používaly rámce, usnadnily silnější úpravy přeškolením rámce se zvýšeným vedením. Změna měřítka během interference však poskytuje stejné výsledky úprav bez zvýšení nákladů na přeškolení a času. 

Učení vizuálních konceptů

Posuvníky konceptů jsou navrženy tak, aby ovládaly vizuální koncepty, které textové výzvy nedokážou dobře definovat, a tyto posuvníky využívají malé datové sady, které jsou před nebo po spárování těchto konceptů. Kontrast mezi dvojicemi obrázků umožňuje posuvníkům naučit se vizuální koncepty. Tréninkový proces Concept Sliders dále optimalizuje komponentu LoRA implementovanou v dopředném i zpětném směru. V důsledku toho se komponenta LoRA zarovná se směrem, který způsobuje vizuální efekty v obou směrech. 

Koncepční posuvníky: Výsledky implementace

Aby bylo možné analyzovat nárůst výkonu, vývojáři vyhodnotili použití Concept Sliders především na Stabilní difúze XL, rámec s vysokým rozlišením 1024 pixelů s dalšími experimenty prováděnými na frameworku Stable Diffusion v1.4 s modely, které byly trénovány na každý 500 epoch. 

Textový koncept posuvníky

Pro vyhodnocení výkonu textových koncepčních posuvníků se ověřuje na sadě 30 textových pojmů a metoda se porovnává se dvěma základními liniemi, které využívají standardní textovou výzvu pro pevný počet časových kroků, a poté zahájí kompozici přidání výzev k řízení obrazu. Jak je vidět na následujícím obrázku, použití Concept Sliders má za následek neustále vyšší skóre CLIP a neustálé snižování skóre LPIPS ve srovnání s původním rámcem bez Concept Sliders. 

Jak je vidět na obrázku výše, použití Concept Sliders usnadňuje přesnou úpravu požadovaných atributů během procesu generování obrázku při zachování celkové struktury obrázku. 

Posuvníky vizuální koncepce

Modely šíření textu do obrazu, které využívají pouze textové výzvy, mají často potíže s udržením vyšší míry kontroly nad vizuálními atributy, jako jsou vousy v obličeji nebo tvary očí. Pro zajištění lepší kontroly nad zrnitými atributy využívají Concept Sliders volitelné textové navádění spárované s datovými sadami obrázků. Jak je vidět na obrázku níže, Concept Sliders vytvářejí jednotlivé posuvníky pro „velikost oka“ a „tvar obočí“, které zachycují požadované transformace pomocí dvojic obrázků. 

Výsledky lze dále upřesnit poskytnutím konkrétních textů, aby se směr zaměřil na tuto oblast obličeje a vytvořil posuvníky s postupnou kontrolou nad cíleným atributem. 

Skládání posuvníků

Jednou z hlavních výhod používání Concept Sliders je jeho skládací schopnost, která uživatelům umožňuje kombinovat více posuvníků pro lepší kontrolu, místo aby se soustředili na jeden koncept najednou, což lze vděčit za nízké směry posuvníků používané v Concept Sliders. . Navíc, protože Concept Sliders jsou lehké adaptéry LoRA, lze je snadno sdílet a lze je také snadno překrýt difúzní modely. Uživatelé mohou také nastavit více knobů současně a řídit složité generace stažením zajímavých sad posuvníků. 

Následující obrázek demonstruje kompoziční schopnosti koncepčních posuvníků a více posuvníků je složeno postupně v každé řadě zleva doprava, což umožňuje procházení vysokorozměrných koncepčních prostorů se zvýšeným stupněm kontroly nad koncepty. 

Zlepšení kvality obrazu

Ačkoli nejmodernější rámce pro šíření textu do obrazu a rozsáhlé generativní modely mají rády Stabilní difúze XL modely jsou schopny generovat realistické a vysoce kvalitní obrázky, často trpí deformacemi obrazu, jako jsou rozmazané nebo zabalené objekty, i když parametry těchto nejmodernějších frameworků jsou vybaveny latentní schopností generovat vysoce kvalitní výstup s menším počtem generací. Použití Concept Sliders může vést ke generování obrázků s menším zkreslením tím, že odemkne skutečné schopnosti těchto modelů identifikací směrů s nízkými parametry. 

Fixační ruce

Generování obrázků s realisticky vypadajícíma rukama bylo vždy překážkou pro difúzní rámce a použití Concept Sliders má přímou kontrolu nad sklonem ke zkreslení rukou. Následující obrázek demonstruje účinek použití „fixních rukou“ Concept Sliders, které umožňují frameworku generovat obrázky s realističtěji vypadajícími rukama. 

Opravy jezdců

Použití Concept Sliders může vést nejen ke generování realističtěji vypadajících rukou, ale také ukázalo svůj potenciál při zlepšování celkové realističnosti obrázků generovaných frameworkem. Concept Sliders také identifikuje jeden směr parametru nízké úrovně, který umožňuje posun v obrazech od běžných problémů zkreslení, a výsledky jsou ukázány na následujícím obrázku. 

Závěrečné myšlenky

V tomto článku jsme hovořili o Concept Sliders, jednoduchém, ale škálovatelném novém paradigmatu, které umožňuje interpretovatelnou kontrolu nad generovaným výstupem v difúzních modelech. Použití Concept Sliders má za cíl vyřešit problémy, kterým čelí současné rámce pro šíření textu do obrazu, pro které je obtížné udržet požadovanou kontrolu nad vizuálními koncepty a atributy obsaženými ve generovaném obrázku, což často vede k neuspokojivému výstupu. Navíc pro většinu modelů difúze textu do obrázku je obtížné modulovat spojité atributy v obrázku, což nakonec často vede k neuspokojivým výstupům. Použití Concept Sliders by mohlo umožnit, aby rámce pro šíření textu do obrazu tyto problémy zmírnily a umožnily tvůrcům obsahu a koncovým uživatelům vyšší míru kontroly nad procesem generování obrázků a řešení problémů, kterým čelí současné rámce. 

„Povoláním inženýr, srdcem spisovatel“. Kunal je technický spisovatel s hlubokou láskou a porozuměním AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím své poutavé a informativní dokumentace.