Kunstig intelligens

Konseptskriere: Presis kontroll i diffusjonsmodeller med LoRA-tilpasninger

Publisert 12. desember 2023

Oppdatert 22. mai 2026

Kunal Kejriwal

Takk til deres evner, har tekst-til-bilde diffusjonsmodeller blitt svært populære i den kunstneriske samfunnet. Imidlertid sliter nåværende modeller, inkludert state-of-the-art-rammeverk, ofte med å holde kontroll over visuelle konsepter og attributter i de genererte bildene, noe som fører til utilfredsstillende utdata. De fleste modellene baserer seg kun på tekstprompter, noe som fører til utfordringer i å modulere kontinuerlige attributter som intensiteten av vær, skarpheten av skygge, ansiktsuttrykk eller alderen til en person nøyaktig. Dette gjør det vanskelig for sluttbrukerne å justere bildene for å møte deres spesifikke behov. Videre, selv om disse generative rammeverkene produserer høykvalitets- og realistiske bilder, er de utsatt for forvrengninger som forvrengte ansikter eller manglende fingre.

For å overvinne disse begrensningene, har utviklere foreslått å bruke tolkbare Konseptskriere. Disse skriere lover større kontroll for sluttbrukerne over visuelle attributter, og forbedrer bildegenerering og -redigering innen diffusjonsmodeller. Konseptskriere i diffusjonsmodeller fungerer ved å identifisere en parameterretning som svarer til en enkelt konsept, samtidig som de minimiserer interferens med andre attributter. Rammeverket skaper disse skriere ved hjelp av eksempelbilder eller en sett med prompter, og etablerer dermed retninger for både tekstlige og visuelle konsepter.

Til slutt kan bruk av Konseptskriere i tekst-til-bilde diffusjonsmodeller føre til bildegenerering med minimal grad av interferens, og forbedret kontroll over sluttfølget, samt øke den opplevde realisme uten å endre innholdet i bildene, og dermed generere realistiske bilder. I denne artikkelen vil vi diskutere konseptet om å bruke Konseptskriere i tekst-til-bilde-rammeverk i større dybde, og analysere hvordan deres bruk kan føre til overlegen kvalitet AI-genererte bilder.

En introduksjon til Konseptskriere

Som tidligere nevnt, sliter nåværende tekst-til-bilde diffusjonsrammeverk ofte med å kontrollere visuelle konsepter og attributter i de genererte bildene, noe som fører til utilfredsstillende resultater. I tillegg finner mange av disse modellene det vanskelig å modulere kontinuerlige attributter, noe som bidrar til utilfredsstillende utdata. Konseptskriere kan hjelpe med å mildne disse problemene, og gi innholdsskapere og sluttbrukere større kontroll over bildegenereringsprosessen, og løse utfordringer som nåværende rammeverk møter.

De fleste nåværende tekst-til-bilde diffusjonsmodeller baserer seg på direkte tekstprompt-modifikasjon for å kontrollere bildeattributter. Selv om denne tilnærmingen tillater bildegenerering, er den ikke optimal, da endring av prompten kan dramatisk endre bildets struktur. En annen tilnærming brukt av disse rammeverkene innebærer post-hoc-teknikker, som inverterer diffusjonsprosessen og modifiserer kryss-oppmerksomhet for å redigere visuelle konsepter. Imidlertid har post-hoc-teknikker begrensninger, og støtter kun en begrenset mengde samtidige redigeringer, og krever individuelle interferens-passer for hver ny konsept. I tillegg kan de introdusere konseptuell forvirring hvis de ikke er konstruert omsorgsfullt.

I motsetning til dette tilbyr Konseptskriere en mer effektiv løsning for bildegenerering. Disse lette, enkle å bruke tilpasninger kan applikeres på forhåndstrede modeller, og forbedre kontroll og presisjon over ønskede konsepter i en enkelt interferens-passer med minimal forvirring. Konseptskriere muliggjør også redigering av visuelle konsepter som ikke er dekket av tekstlige beskrivelser, et trekk som skiller dem fra tekstprompt-baserte redigeringsmetoder. Selv om bilde-baserte tilpasningsmetoder kan effektivt legge til token for bilde-baserte konsepter, er de vanskelige å implementere for å redigere bilder. Konseptskriere, på den andre siden, tillater sluttbrukerne å angi en liten mengde parrede bilder som definerer et ønsket konsept. Skriere generaliserer deretter dette konseptet og anvender det automatisk på andre bilder, med mål om å forbedre realisme og fikse forvrengninger som i hendene.

Konseptskriere streber etter å lære av og løse problemer som er felles for fire generative AI- og diffusjonsrammeverkskonsepter: Bilde-redigering, veilednings-baserte metoder, modell-redigering og semantiske retninger.

Bilde-redigering

Nåværende AI-rammeverk fokuserer enten på å bruke en betinget innputt for å guide bildets struktur, eller de manipulerer kryss-oppmerksomhet av kildebild med dens mål-prompt for å muliggjøre enkelt bilde-redigering i tekst-til-bilde diffusjonsrammeverk. Resultatet er at disse tilnærmingene kan implementeres kun på enkeltbilder, og de krever også latent basis-optimering for hver bilde som følge av utviklingen av geometrisk struktur over tid og prompter.

Veilednings-baserte metoder

Bruk av klassifikator-frie veilednings-baserte metoder har vist deres evne til å forbedre kvaliteten på de genererte bildene, og øke tekst-bilde-tilpasningen. Ved å inkorporere veilednings-termer under interferens, forbedrer metoden den begrensede komposisjonen som arves av diffusjonsrammeverkene, og de kan brukes til å guide gjennom usikre konsepter i diffusjonsrammeverk.

Modell-redigering

Bruk av Konseptskriere kan også sees på som en modell-redigerings-teknikk som anvender en lav-rang-tilpasning for å utgi en enkelt semantisk attributt som åpner for kontinuerlig kontroll som stemmer overens med attributten. Fine-tuning-baserte tilpasningsmetoder brukes deretter til å tilpasse rammeverket til å legge til nye konsepter. Videre foreslår Custom Diffusion-teknikken en måte å finjustere kryss-oppmerksomhets-lag for å inkorporere nye visuelle konsepter i forhåndstrede diffusjonsmodeller. Omvendt foreslår Textual Diffusion-teknikken å optimere en innleggelses-vektor for å aktivere modellens evner og introdusere tekstlige konsepter i rammeverket.

Semantisk retning i GANs

Manipulering av semantiske attributter er en av de viktigste egenskapene til Generative Adversarial Networks, og de latente rommets trajektorier er funnet å være alignert på en selv-overvåket måte. I diffusjonsrammeverk finnes disse latente rommets trajektorier i midt-lagene av U-Net-arkitekturen, og hovedretningen av latente rom i diffusjonsrammeverk fanger globale semantiske konsepter. Konseptskriere trener lav-rang-underrom som svarer til spesielle attributter direkte, og oppnår presise og lokaliserede redigerings-retninger ved å bruke tekst- eller bilde-par for å optimere globale retninger.

Konseptskriere: Arkitektur og funksjon

Diffusjonsmodeller og LoRA eller Lav-Rang-Tilpasninger

Diffusjonsmodeller er i essensen en underklasse av generative AI-rammeverk som opererer på prinsippet om å syntetisere data ved å reversere en diffusjonsprosess. Den fremovergående diffusjonsprosessen legger til å begynne med støy til dataene, og overgangen fra en organisert tilstand til en fullstendig Gaussisk støy-tilstand. Hovedmålet med diffusjonsmodeller er å reversere diffusjonsprosessen ved å gradvis rense bildet, og å sampel en tilfeldig Gaussisk støy for å generere et bilde. I virkelige verden-applikasjoner er hovedmålet med Diffusjons-rammeverk å forutsi den sanne støyen når den fullstendige Gaussiske støyen er gitt som innputt sammen med ekstra innputt som betingelse og tidssteg.

LoRA- eller Lav-Rang-Tilpasnings-teknikken dekomponerer vekt-oppdateringer under finjustering for å muliggjøre effektiv tilpasning av store forhåndstrede rammeverk på nedstrøms-oppgaver. LoRA-teknikken dekomponerer vekt-oppdateringer for et forhåndstrede modell-lag med hensyn til både innputt- og utgangs-dimensjoner, og begrenser oppdateringen til et lav-dimensjonalt underrom.

Konseptskriere

Hovedmålet med Konseptskriere er å fungere som en tilnærming for å finjustere LoRA-tilpasninger på et diffusjonsrammeverk for å muliggjøre en større grad av kontroll over konsept-målrettede bilder, og det samme demonstreres i følgende bilde.

Når betinget på mål-konsepter, lærer Konseptskriere lav-rang-parameter-retninger for å øke eller redusere uttrykket av spesifikke attributter. For en modell og dens mål-konsept, er hovedmålet med Konseptskriere å oppnå en forbedret modell som modifiserer sannsynligheten for å øke og redusere attributter for et bilde når betinget på mål-konseptet for å øke sannsynligheten for å øke attributter, og redusere sannsynligheten for å redusere attributter. Ved å bruke reparameterisering og Tweedie’s formel, introduserer rammeverket en tid-variabel støy-prosess, og uttrykker hver score som en rensnings-prediksjon. Videre finjusterer disentanglement-objektivet modulene i Konseptskriere mens de holder de forhåndstrede vektene konstante, og skalerings-faktoren introdusert under LoRA-formuleringen modifiseres under interferens. Skalerings-faktoren muliggjør også justering av styrken på redigeringen, og gjør redigeringene sterkere uten å måtte finjustere rammeverket, som demonstrert i følgende bilde.

Redigerings-metodene som tidligere ble brukt av rammeverkene muliggjorde sterkere redigeringer ved å finjustere rammeverket med økt veiledning. Imidlertid produserer skalerings-faktoren under interferens de samme redigerings-resultatene uten å øke finjusterings-kosten og tiden.

Læring av visuelle konsepter

Konseptskriere er designet for å kontrollere visuelle konsepter som tekst-prompter ikke kan definere godt, og disse skriere utnytter små datamengder som er parrede før eller etter for å trene på disse konseptene. Kontrasten mellom bilde-parene tillater skriere å lære visuelle konsepter. Videre optimaliserer Konseptskrierens trening prosessen LoRA-komponenten implementert i både fremover- og bakover-retninger. Som resultat alignerer LoRA-komponenten med retningen som forårsaker visuelle effekter i begge retningene.

Konseptskriere: Implementerings-resultater

For å analysere gevinsten i ytelse, har utviklere evaluert bruk av Konseptskriere primært på Stable Diffusion XL, et høyoppløst 1024-piksel-rammeverk med ekstra eksperimenter utført på Stable Diffusion v1.4-rammeverket, med modellene trent for 500 epoker hver.

Tekstlige Konseptskriere

For å evaluere ytelsen av tekstlige Konseptskriere, er det valider på en sett med 30 tekst-baserte konsepter, og metoden sammenlignes mot to baseline som bruker en standard tekst-prompt for en fast mengde tidssteg, og deretter starter komposisjon ved å legge til prompter for å styre bildet. Som det kan ses i følgende figur, resulterer bruk av Konseptskriere i konstant høyere CLIP-score, og en konstant reduksjon i LPIPS-score sammenlignet med det opprinnelige rammeverket uten Konseptskriere.

Som det kan ses i bildet ovenfor, muliggjør bruk av Konseptskriere presis redigering av attributter som ønskes under bilde-genererings-prosessen, samtidig som den opprettholder den overordnede strukturen i bildet.

Visuelle Konseptskriere

Tekst-til-bilde diffusjonsmodeller som kun bruker tekst-prompter finner ofte det vanskelig å opprettholde en høyere grad av kontroll over visuelle attributter som f.eks. ansikts-hår eller øye-former. For å sikre bedre kontroll over granulære attributter, utnytter Konseptskriere valgfrie tekst-veiledninger parrede med bilde-datasett. Som det kan ses i figuren under, skaper Konseptskriere enkelt-skriere for “øye-størrelse” og “øyebryn-form” som fanger ønskede transformasjoner ved å bruke bilde-pare.

Resultatene kan videre forbedres ved å angi spesifikke tekster, så retningen fokuserer på det ansikts-området, og skaper skriere med trinnvis kontroll over mål-attributten.

Komponering av Skriere

En av de viktigste fordelene med å bruke Konseptskriere er deres komponerbarhet, som tillater brukerne å kombinere flere skriere for en forbedret mengde kontroll, i stedet for å fokusere på ett enkelt konsept om gangen, noe som kan tilskrives de lav-rang-skriere-retningene som brukes i Konseptskriere. I tillegg, siden Konseptskriere er lette LoRA-tilpasninger, er de enkle å dele, og de kan også enkelt overlappes på diffusjonsmodeller. Brukere kan også justere flere knapper samtidig for å styre komplekse genereringer ved å laste ned interessante skriere-sett.

Følgende bilde demonstrerer komposisjons-egenskapene til konsept-skriere, og flere skriere komponeres progressivt i hver rad fra venstre til høyre, og muliggjør dermed traversering av høy-dimensjonale konsept-rom med en forbedret grad av kontroll over konseptene.

Forbedring av bilde-kvalitet

Selv om state-of-the-art tekst-til-bilde diffusjonsrammeverk og store generative modeller som Stable Diffusion XL-modellen er i stand til å generere realistiske og høykvalitets-bilder, lider de ofte under bilde-forvrengninger som uskarpe eller vrangerte objekter, selv om parameterne til disse state-of-the-art-rammeverkene er utstyrt med den latente evnen til å generere høykvalitets-utdata med færre genereringer. Bruk av Konseptskriere kan føre til generering av bilder med færre forvrengninger ved å låse opp de sanne evnene til disse modellene ved å identifisere lav-rang-parameter-retninger.

Fixing av hender

Generering av bilder med realistisk-utseende hender har alltid vært en hindring for diffusjonsrammeverk, og bruk av Konseptskriere har direkte kontroll over tendensen til å forvrengne hender. Følgende bilde demonstrerer effekten av å bruke “fix hender”-Konseptskriere som tillater rammeverket å generere bilder med mer realistisk-utseende hender.

Reparasjonsskriere

Bruk av Konseptskriere kan ikke bare føre til generering av mer realistisk-utseende hender, men de har også vist deres potensiale i å forbedre den overordnede realisme i bildene generert av rammeverket. Konseptskriere identifiserer enkelt lav-rang-parameter-retning som muliggjør skift i bilder fra vanlige forvrengnings-problemer, og resultatene demonstreres i følgende bilde.

Slutt-tanker

I denne artikkelen har vi diskutert Konseptskriere, en enkel men skalerbar ny paradigme som muliggjør tolkbar kontroll over generert utdata i diffusjonsmodeller. Bruk av Konseptskriere har som mål å løse problemene som nåværende tekst-til-bilde diffusjonsrammeverk møter, som har vanskelig for å holde kontroll over visuelle konsepter og attributter i de genererte bildene, noe som ofte fører til utilfredsstillende utdata. Videre finner de fleste tekst-til-bilde diffusjonsmodeller det vanskelig å modulere kontinuerlige attributter i et bilde, noe som ofte fører til utilfredsstillende utdata. Bruk av Konseptskriere kan muliggjøre tekst-til-bilde diffusjonsrammeverk å mildne disse problemene, og gi innholdsskapere og sluttbrukere en forbedret grad av kontroll over bilde-genererings-prosessen, og løse problemene som nåværende rammeverk møter.