Kontakt med oss

Kunstig intelligens

Konseptskyvere: Nøyaktig kontroll i diffusjonsmodeller med LoRA-adaptere

mm
oppdatert on

Takket være deres evner, tekst-til-bilde diffusjonsmodeller har blitt enormt populær i det kunstneriske miljøet. Nåværende modeller, inkludert state-of-the-art rammeverk, sliter imidlertid ofte med å opprettholde kontroll over de visuelle konseptene og egenskapene i de genererte bildene, noe som fører til utilfredsstillende utganger. De fleste modeller er utelukkende avhengige av tekstmeldinger, noe som gir utfordringer med å modulere kontinuerlige attributter som intensiteten til været, skarpheten i skyggene, ansiktsuttrykk eller en persons alder. Dette gjør det vanskelig for sluttbrukere å justere bilder for å møte deres spesifikke behov. Videre, selv om disse generative rammene produserer høykvalitets og realistiske bilder, er de utsatt for forvrengninger som forvrengte ansikter eller manglende fingre.

For å overvinne disse begrensningene har utviklere foreslått bruk av tolkbare Concept Sliders. Disse glidebryterne lover større kontroll for sluttbrukere over visuelle attributter, og forbedrer bildegenerering og redigering i diffusjonsmodeller. Konseptskyvere i diffusjonsmodeller fungerer ved å identifisere en parameterretning som tilsvarer et individuelt konsept samtidig som interferens med andre attributter minimeres. Rammeverket lager disse glidebryterne ved å bruke eksempelbilder eller et sett med ledetekster, og etablerer dermed retninger for både tekstlige og visuelle konsepter.

Til syvende og sist, bruken av Concept Sliders i tekst til bilde diffusjonsmodeller kan resultere i bildegenerering med minimal grad av interferens, og forbedret kontroll over det endelige resultatet samtidig som det øker den opplevde realismen uten å endre innholdet i bildene, og dermed generere realistiske bilder. I denne artikkelen vil vi diskutere konseptet med å bruke Concept Sliders i tekst-til-bilde-rammeverk i større dybde, og analysere hvordan bruken kan resultere i AI-genererte bilder av overlegen kvalitet. 

En introduksjon til konseptglidere

Som tidligere nevnt, sliter nåværende rammeverk for tekst-til-bilde diffusjon ofte med å kontrollere visuelle konsepter og attributter i genererte bilder, noe som fører til utilfredsstillende resultater. Dessuten synes mange av disse modellene det er utfordrende å modulere kontinuerlige attributter, noe som ytterligere bidrar til utilfredsstillende utganger. Concept Sliders kan bidra til å redusere disse problemene, og gi innholdsskapere og sluttbrukere økt kontroll over bildegenereringsprosessen og håndtere utfordringer som dagens rammeverk står overfor.

De fleste nåværende tekst-til-bilde-diffusjonsmodeller er avhengige av direkte tekstpromptmodifisering for å kontrollere bildeattributter. Selv om denne tilnærmingen tillater bildegenerering, er den ikke optimal ettersom endring av ledeteksten kan drastisk endre bildets struktur. En annen tilnærming som brukes av disse rammeverkene involverer Post-hoc-teknikker, som inverterer diffusjonsprosessen og endrer kryssoppmerksomheter for å redigere visuelle konsepter. Post-hoc-teknikker har imidlertid begrensninger, og støtter bare et begrenset antall samtidige redigeringer og krever individuelle interferenspass for hvert nytt konsept. I tillegg kan de introdusere konseptuell sammenfiltring hvis de ikke konstrueres nøye.

Derimot tilbyr Concept Sliders en mer effektiv løsning for bildegenerering. Disse lette, brukervennlige adapterne kan brukes på forhåndstrente modeller, og forbedrer kontrollen og presisjonen over ønskede konsepter i et enkelt interferenspass med minimal sammenfiltring. Concept Sliders muliggjør også redigering av visuelle konsepter som ikke dekkes av tekstbeskrivelser, en funksjon som skiller dem fra tekst-prompt-baserte redigeringsmetoder. Mens bildebaserte tilpasningsmetoder effektivt kan legge til tokens for bildebaserte konsepter, er de vanskelige å implementere for redigering av bilder. Concept Sliders, derimot, lar sluttbrukere gi et lite antall sammenkoblede bilder som definerer et ønsket konsept. Skyveknappene generaliserer deretter dette konseptet og bruker det automatisk på andre bilder, med sikte på å forbedre realismen og fikse forvrengninger som i hender.

Concept Sliders streber etter å lære av og løse problemer som er felles for fire generative AI- og diffusjonsrammekonsepter: bilderedigering, veiledningsbaserte metoder, modellredigering og semantiske retninger.

Bilderedigering

Gjeldende AI-rammeverk fokuserer enten på å bruke en betinget inngang for å veilede bildestrukturen, eller de manipulerer kryssoppmerksomheter til kildebildet med målmeldingen for å muliggjøre enkeltbilderedigering i tekst-til-bildediffusjonsrammeverk. Resultatet er at disse tilnærmingene bare kan implementeres på enkeltbilder, og de krever også latent basisoptimalisering for hvert bilde som et resultat av utvikling av geometrisk struktur over tidstrinn på tvers av spørsmål. 

Veiledningsbaserte metoder

Bruken av klassifiseringsfrie veiledningsbaserte metoder har indikert deres evne til å forbedre kvaliteten på de genererte bildene og øke tekst-bildejusteringen. Ved å inkorporere veiledningsbegreper under interferens, forbedrer metoden den begrensede komposisjonen som arves av diffusjonsrammeverket, og de kan brukes til å veilede gjennom usikre konsepter i diffusjonsrammeverk. 

Modellredigering

Bruken av Concept Sliders kan også sees på som en modellredigeringsteknikk som bruker en lavrangsadapter for å sende ut et enkelt semantisk attributt som gir rom for kontinuerlig kontroll som er på linje med attributtet. Finjusteringsbaserte tilpasningsmetoder brukes deretter for å tilpasse rammeverket for å legge til nye konsepter. Videre foreslår Custom Diffusion-teknikken en måte å finjustere kryssoppmerksomhetslag for å inkorporere nye visuelle konsepter i forhåndstrente diffusjonsmodeller. Omvendt foreslår tekstdiffusjonsteknikken å optimalisere en innebyggingsvektor for å aktivere modellfunksjoner og introdusere tekstkonsepter i rammeverket. 

Semantisk retning i GAN-er

Manipulering av semantiske attributter er en av nøkkelattributtene til Generative Adversarial Networks med de latente rombanene funnet å være justert på en selvovervåket måte. I diffusjonsrammer eksisterer disse latente rombanene i de midtre lagene av U-Net-arkitekturen, og hovedretningen til latente rom i diffusjonsrammeverk fanger opp global semantikk. Concept Sliders trener lavrangerte underrom som tilsvarer spesielle attributter direkte, og oppnår presise og lokaliserte redigeringsretninger ved å bruke tekst- eller bildepar for å optimalisere globale retninger. 

Konseptglidere: Arkitektur og arbeid

Diffusjonsmodeller og LoRA eller Low Rank-adaptere

Diffusjonsmodeller er i hovedsak en underklasse av generative AI-rammeverk som opererer etter prinsippet om å syntetisere data ved å reversere en diffusjonsprosess. Foroverdiffusjonsprosessen legger til å begynne med støy til dataene, og dermed overgangen fra en organisert tilstand til en fullstendig Gaussisk støytilstand. Hovedmålet med diffusjonsmodeller er å reversere diffusjonsprosessen ved gradvis å forringe bildet, og prøve en tilfeldig Gaussisk støy for å generere et bilde. I applikasjoner i den virkelige verden er hovedmålet med diffusjonsrammeverk å forutsi den sanne støyen når den komplette Gauss-støyen mates som input med ekstra innganger som kondisjonering og tidstrinn. 

LoRA- eller Low Rank Adapters-teknikken dekomponerer vektoppdateringer under finjustering for å muliggjøre effektiv tilpasning av store forhåndstrente rammeverk på nedstrømsoppgaver. LoRA-teknikken dekomponerer vektoppdateringer for et forhåndstrent modelllag med hensyn til både inngangs- og utgangsdimensjonene, og begrenser oppdateringen til et lavdimensjonalt underrom. 

Konseptskyvere

Hovedmålet med Concept Sliders er å tjene som en tilnærming til å finjustere LoRA-adaptere på et diffusjonsrammeverk for å lette en større grad av kontroll over konseptmålrettede bilder, og det samme vises i følgende bilde. 

Når de er betinget av målkonsepter, lærer Concept Sliders parameterretninger med lav rangering for å enten øke eller redusere uttrykket av spesifikke attributter. For en modell og dens målkonsept er hovedmålet med Concept Sliders å oppnå en forbedret modell som modifiserer sannsynligheten for å forbedre og undertrykke attributter for et bilde når det er betinget av målkonseptet for å øke sannsynligheten for å forbedre attributter, og redusere sannsynligheten å undertrykke attributter. Ved å bruke reparametrisering og Tweedies formel, introduserer rammeverket en tidsvarierende støyprosess, og uttrykker hver poengsum som en prediksjon for denoising. Videre finjusterer disentanglement-målet modulene i Concept Sliders mens de forhåndstrente vektene holdes konstante, og skaleringsfaktoren som ble introdusert under LoRA-formuleringen modifiseres under interferens. Skaleringsfaktoren gjør det også lettere å justere styrken til redigeringen, og gjør redigeringene sterkere uten å trene opp rammeverket som vist i det følgende bildet. 

Redigeringsmetoder brukt tidligere av rammeverk gjorde det mulig for sterkere redigeringer ved å omskolere rammeverket med økt veiledning. Skalering av skaleringsfaktoren under interferens gir imidlertid de samme redigeringsresultatene uten å øke omskoleringskostnadene og tiden. 

Lære visuelle konsepter

Concept Sliders er utformet på en måte for å kontrollere visuelle konsepter som tekstmeldinger ikke er i stand til å definere godt, og disse gliderne utnytter små datasett som enten er sammenkoblet før eller etter for å trene på disse konseptene. Kontrasten mellom bildeparene lar glidere lære seg de visuelle konseptene. Videre optimaliserer Concept Sliders' treningsprosess LoRA-komponenten implementert i både forover og bakover. Som et resultat er LoRA-komponenten på linje med retningen som forårsaker de visuelle effektene i begge retningene. 

Concept Sliders: Implementeringsresultater

For å analysere gevinsten i ytelse, har utviklere evaluert bruken av Concept Sliders primært på Stabil diffusjon XL, et rammeverk med høy oppløsning på 1024 piksler med ytterligere eksperimenter utført på rammeverket Stable Diffusion v1.4, hvor modellene trenes i 500 epoker hver. 

Tekstuelle konseptglidere

For å evaluere ytelsen til tekstuelle Concept Sliders, valideres den på et sett med 30 tekstbaserte konsepter, og metoden sammenlignes med to grunnlinjer som benytter seg av en standard tekstprompt for et fast antall tidstrinn, og starter deretter komposisjonen med legge til spørsmål for å styre bildet. Som det kan sees i følgende figur, resulterer bruken av Concept Sliders i stadig høyere CLIP-score, og en konstant reduksjon i LPIPS-score sammenlignet med det originale rammeverket uten Concept Sliders. 

Som det kan sees på bildet ovenfor, letter bruken av Concept Sliders presis redigering av attributtene som ønskes under bildegenereringsprosessen, samtidig som den generelle strukturen til bildet opprettholdes. 

Visuelle konseptglidere

Tekst-til-bilde-diffusjonsmodeller som bare bruker tekstmeldinger, finner det ofte vanskelig å opprettholde en høyere grad av kontroll over visuelle egenskaper som ansiktshår eller øyeformer. For å sikre bedre kontroll over granulære attributter, utnytter Concept Sliders valgfri tekstveiledning sammen med bildedatasett. Som det kan sees i figuren nedenfor, lager Concept Sliders individuelle glidere for "øyestørrelse" og "øyenbrynsform" som fanger de ønskede transformasjonene ved hjelp av bildeparene. 

Resultatene kan foredles ytterligere ved å gi spesifikke tekster slik at retningen fokuserer på det ansiktsområdet, og skaper skyveknapper med trinnvis kontroll over den målrettede egenskapen. 

Å komponere glidebrytere

En av de største fordelene med å bruke Concept Sliders er dens komponerbarhet som lar brukere kombinere flere skyveknapper for en forbedret mengde kontroll i stedet for å fokusere på ett enkelt konsept om gangen som kan skyldes skyveretningene med lav rangering som brukes i Concept Sliders . I tillegg, siden Concept Sliders er lette LoRA-adaptere, er de enkle å dele, og de kan også enkelt legges på diffusjonsmodeller. Brukere kan også justere flere knotter samtidig for å styre komplekse generasjoner ved å laste ned interessante skyvesett. 

Følgende bilde demonstrerer komposisjonsegenskapene til konseptskyvere, og flere skyveknapper komponeres progressivt i hver rad fra venstre til høyre, og tillater dermed kryssing av høydimensjonale konseptrom med en forbedret grad av kontroll over konseptene. 

Forbedring av bildekvalitet

Selv om toppmoderne tekst-til-bildediffusjonsrammer og storskala generative modeller liker Stabil diffusjon XL modellen er i stand til å generere realistiske bilder av høy kvalitet, de lider ofte av bildeforvrengninger som uskarpe eller innpakket objekter, selv om parametrene til disse toppmoderne rammeverkene er utstyrt med latent evne til å generere høykvalitets utdata med færre generasjoner. Bruken av Concept Sliders kan resultere i å generere bilder med færre forvrengninger ved å låse opp de sanne egenskapene til disse modellene ved å identifisere parameterretninger med lav rangering. 

Feste hender

Generering av bilder med realistisk utseende hender har alltid vært et hinder for diffusjonsrammer, og bruken av Concept Sliders har direkte kontroll over tendensen til å forvrenge hendene. Følgende bilde demonstrerer effekten av å bruke "fix hands" Concept Sliders som lar rammeverket generere bilder med mer realistisk utseende hender. 

Reparasjon av glidere

Bruken av Concept Sliders kan ikke bare resultere i å generere mer realistisk utseende hender, men de har også vist sitt potensiale i å forbedre den generelle realismen til bildene generert av rammeverket. Concept Sliders identifiserer også en enkel parameterretning med lav rangering som muliggjør forskyvning av bilder fra vanlige forvrengningsproblemer, og resultatene vises i følgende bilde. 

Final Thoughts

I denne artikkelen har vi snakket om Concept Sliders, et enkelt, men skalerbart nytt paradigme som muliggjør tolkbar kontroll over generert utgang i diffusjonsmodeller. Bruken av Concept Sliders tar sikte på å løse problemene som gjeldende tekst-til-bilde-diffusjonsrammeverk står overfor som finner det vanskelig å opprettholde den nødvendige kontrollen over visuelle konsepter og attributter inkludert i det genererte bildet, noe som ofte fører til utilfredsstillende utdata. Videre finner et flertall av tekst-til-bilde-diffusjonsmodeller det vanskelig å modulere kontinuerlige attributter i et bilde som til slutt ofte fører til utilfredsstillende utdata. Bruken av Concept Sliders kan tillate rammeverk for tekst-til-bilde-spredning for å redusere disse problemene, og gi innholdsskapere og sluttbrukere en økt grad av kontroll over bildegenereringsprosessen, og løse problemer som gjeldende rammeverk står overfor. 

"En ingeniør av yrke, en forfatter utenat". Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse for AI og ML, dedikert til å forenkle komplekse konsepter på disse feltene gjennom sin engasjerende og informative dokumentasjon.