Artificiell intelligens

Konceptreglage: Exakt kontroll i diffusionsmodeller med LoRA-adaptrar

Publicerad 12 december 2023

Uppdaterad 22 maj 2026

Kunal Kejriwal

Tack vare deras förmågor har text-till-bild diffusionsmodeller blivit mycket populära i den konstnärliga gemenskapen. Men nuvarande modeller, inklusive state-of-the-art-ramverk, har ofta svårt att upprätthålla kontroll över de visuella koncepten och attributen i de genererade bilderna, vilket leder till otillfredsställande utdata. De flesta modeller förlitar sig enbart på textprompts, vilket medför utmaningar när det gäller att modulera kontinuerliga attribut som intensiteten hos vädret, skarpan hos skuggor, ansiktsuttryck eller en persons ålder exakt. Detta gör det svårt för slutanvändare att justera bilderna för att möta deras specifika behov. Dessutom, även om dessa generativa ramverk producerar högkvalitativa och realistiska bilder, är de benägna att förvrängningar som förvridna ansikten eller saknade fingrar.

För att övervinna dessa begränsningar har utvecklare föreslagit användningen av tolkningsbara Konceptreglage. Dessa reglage lovar större kontroll för slutanvändare över visuella attribut, vilket förbättrar bildgenerering och redigering inom diffusionsmodeller. Konceptreglage i diffusionsmodeller fungerar genom att identifiera en parameterriktning som motsvarar ett enskilt koncept samtidigt som de minimerar interferens med andra attribut. Ramverket skapar dessa reglage med hjälp av exempelbilder eller en uppsättning prompts, vilket etablerar riktningar för både textuella och visuella koncept.

Till slut kan användningen av Konceptreglage i text-till-bild diffusionsmodeller resultera i bildgenerering med minimal interferens och förbättrad kontroll över den slutliga utmatningen, samtidigt som den ökar den upplevda realismen utan att ändra bildinnehållet, och därmed genererar realistiska bilder. I den här artikeln kommer vi att diskutera konceptet att använda Konceptreglage i text-till-bild-ramverk i större detalj och analysera hur dess användning kan resultera i överlägsen kvalitet på AI-genererade bilder.

En introduktion till Konceptreglage

Som tidigare nämnts har nuvarande text-till-bild-diffusionsramverk ofta svårt att kontrollera visuella koncept och attribut i genererade bilder, vilket leder till otillfredsställande resultat. Dessutom har många av dessa modeller svårt att modulera kontinuerliga attribut, vilket ytterligare bidrar till otillfredsställande utdata. Konceptreglage kan hjälpa till att mildra dessa problem, vilket ger innehållsskapare och slutanvändare förbättrad kontroll över bildgenereringsprocessen och hanterar utmaningar som ställs av nuvarande ramverk.

De flesta nuvarande text-till-bild-diffusionsmodeller förlitar sig på direkt textpromptmodifiering för att kontrollera bildattribut. Medan denna metod tillåter bildgenerering är den inte optimal, eftersom ändringar av prompten kan drastiskt ändra bildens struktur. En annan metod som används av dessa ramverk innebär post-hoc-tekniker, som inverterar diffusionsprocessen och modifierar cross-attentions för att redigera visuella koncept. Men post-hoc-tekniker har begränsningar, och de stöder endast ett begränsat antal samtidiga redigeringar och kräver individuella interferenspass för varje nytt koncept. Dessutom kan de införa konceptuell sammanflätning om de inte konstrueras noggrant.

I kontrast erbjuder Konceptreglage en mer effektiv lösning för bildgenerering. Dessa lätta, enkla att använda adaptrar kan appliceras på förtränade modeller, vilket förbättrar kontrollen och precisionen över önskade koncept i en enda interferenspass med minimal sammanflätning. Konceptreglage möjliggör också redigering av visuella koncept som inte täcks av textbeskrivningar, en funktion som skiljer dem från textpromptbaserade redigeringsmetoder. Även om bildbaserade anpassningsmetoder kan effektivt lägga till token för bildbaserade koncept är de svåra att implementera för bildredigering. Konceptreglage, å andra sidan, tillåter slutanvändare att tillhandahålla ett litet antal parade bilder som definierar ett önskat koncept. Reglagen generaliserar sedan detta koncept och applicerar det automatiskt på andra bilder, i syfte att förbättra realismen och åtgärda förvrängningar som händer.

Konceptreglage strävar efter att lära sig av och hantera problem som är gemensamma för fyra generativa AI- och diffusionsramverkskoncept: Bildredigering, vägledningsbaserade metoder, modellredigering och semantiska riktningar.

Bildredigering

Nuvarande AI-ramverk fokuserar antingen på att använda en villkorsstyrd inmatning för att styra bildstrukturen eller manipulera cross-attentions av källbild med dess målprompt för att möjliggöra enkel bildredigering i text-till-bild-diffusionsramverk. Resultatet är att dessa metoder endast kan implementeras på enskilda bilder och de kräver också latent basoptimering för varje bild som ett resultat av den geometriska strukturens utveckling över tidssteg och prompter.

Vägledningsbaserade metoder

Användningen av klassificeringsfria vägledningsbaserade metoder har visat sin förmåga att förbättra kvaliteten på de genererade bilderna och öka text-bild-alignment. Genom att införa vägledningstermer under interferens förbättrar metoden den begränsade sammansättningen som ärvs av diffusionsramverken, och de kan användas för att vägleda genom osäkra koncept i diffusionsramverk.

Modellredigering

Användningen av Konceptreglage kan också ses som en modellredigeringsteknik som använder en låg-rankad adaptrar för att producera en enda semantisk attribut som gör det möjligt att ha kontinuerlig kontroll som överensstämmer med attributet. Fine-tuning-baserade anpassningsmetoder används sedan för att anpassa ramverket till att lägga till nya koncept. Dessutom föreslår Custom Diffusion-tekniken en metod för att finjustera cross-attentionslager för att införa nya visuella koncept i förtränade diffusionsmodeller. Å andra sidan föreslår Textual Diffusion-tekniken att optimera en inbäddningsvektor för att aktivera modellfunktioner och införa textkoncept i ramverket.

Semantisk riktning i GANs

Manipulering av semantiska attribut är en av de viktigaste egenskaperna hos Generativa Adversarial Networks, och de latenta rummets banor har visat sig vara anpassade på ett självständigt sätt. I diffusionsramverk finns dessa latenta rummets banor i mitten av U-Net-arkitekturen, och den primära riktningen av latenta rum i diffusionsramverk fångar globala semantik. Konceptreglage tränar låg-rank-underutrymmen som motsvarar särskilda attribut direkt, och erhåller precisa och lokaliserade redigeringsriktningar genom att använda text- eller bildpar för att optimera globala riktningar.

Konceptreglage: Arkitektur och funktion

Diffusionsmodeller och LoRA eller Låg-rankad adaptrar

Diffusionsmodeller är i princip en underklass av generativa AI-ramverk som fungerar på principen att syntetisera data genom att inversera en diffusionsprocess. Den främre diffusionsprocessen lägger till buller till datan, vilket övergår från en organiserad tillstånd till ett komplett gaussiskt buller tillstånd. Det primära målet med diffusionsmodeller är att inversera diffusionsprocessen genom att gradvis rensa bilden och samppla en slumpmässig gaussisk buller för att generera en bild. I reala applikationer är det primära målet med diffusionsramverk att förutsäga det sanna bullret när det fullständiga gaussiska bullret matas in som indata tillsammans med ytterligare indata som villkor och tidssteg.

LoRA- eller Låg-rankad adaptrar-tekniken dekomponerar viktuppdateringar under finjustering för att möjliggöra effektiv anpassning av stora förtränade ramverk på nedströmsuppgifter. LoRA-tekniken dekomponerar viktuppdateringar för ett förtränat modelllager med avseende på både indata- och utdatadimensioner och begränsar uppdateringen till ett lågdimensionellt underutrymme.

Konceptreglage

Det primära målet med Konceptreglage är att fungera som en metod för att finjustera LoRA-adaptrar på ett diffusionsramverk för att möjliggöra en större grad av kontroll över konceptinriktade bilder, och detta visas i följande bild.

När de villkorsstyrs av målkoncept lär sig Konceptreglage låg-rank-parameterriktningar för att antingen öka eller minska uttrycket av specifika attribut. För en modell och dess målkoncept är det primära målet med Konceptreglage att erhålla en förbättrad modell som modifierar sannolikheten för att förbättra och undertrycka attribut för en bild när den villkorsstyrs av målkonceptet för att öka sannolikheten för att förbättra attribut och minska sannolikheten för att undertrycka attribut. Genom reparameterisering och Tweedies formel introducerar ramverket en tidsvarierande bullerprocess och uttrycker varje poäng som en rensningsprediktion. Dessutom finjusterar disentanglement-målet modulerna i Konceptreglage medan de förtränade vikterna hålls konstanta, och skalningsfaktorn som introduceras under LoRA-formuleringen modifieras under interferens. Skalningsfaktorn möjliggör också justering av redigeringarnas styrka och gör redigeringarna starkare utan att behöva omträna ramverket, som visas i följande bild.

Redigeringsmetoder som användes tidigare av ramverk möjliggjorde starkare redigeringar genom att omträna ramverket med ökad vägledning. Men genom att skala skalningsfaktorn under interferens producerar det samma redigeringsresultat utan att öka omträningskostnaden och tiden.

Lärande av visuella koncept

Konceptreglage är utformade för att kontrollera visuella koncept som textprompts inte kan definiera väl, och dessa reglage utnyttjar små datamängder som antingen är parade före eller efter för att träna på dessa koncept. Kontrasten mellan bildparen tillåter reglagen att lära sig de visuella koncepten. Dessutom optimerar Konceptreglagens träningsprocess LoRA-komponenten som implementeras i både framåt- och bakåtriktning. Som ett resultat överensstämmer LoRA-komponenten med riktningen som orsakar de visuella effekterna i båda riktningarna.

Konceptreglage: Implementeringsresultat

För att analysera prestandaförbättringen har utvecklare utvärderat användningen av Konceptreglage främst på Stable Diffusion XL, ett högupplöst 1024-pixel-ramverk med ytterligare experiment som utförts på Stable Diffusion v1.4-ramverket, med modellerna som tränats i 500 epoker vardera.

Textuella Konceptreglage

För att utvärdera prestandan hos textuella Konceptreglage valideras det på en uppsättning av 30 textbaserade koncept, och metoden jämförs med två baslinjer som använder en standardtextprompt för ett fast antal tidssteg och sedan börjar komposition genom att lägga till prompts för att styra bilden. Som det kan ses i följande figur resulterar användningen av Konceptreglage i konstant högre CLIP-poäng och en konstant minskning av LPIPS-poängen jämfört med det ursprungliga ramverket utan Konceptreglage.

Som det kan ses i ovanstående bild möjliggör användningen av Konceptreglage exakt redigering av attribut som önskas under bildgenereringsprocessen samtidigt som den upprätthåller bildens övergripande struktur.

Visuella Konceptreglage

Text-till-bild-diffusionsmodeller som endast använder textprompts har ofta svårt att upprätthålla en högre grad av kontroll över visuella attribut som ansiktsbehåring eller ögonform. För att säkerställa bättre kontroll över granulära attribut utnyttjar Konceptreglage valfri textvägledning parat med bildsats. Som det kan ses i figuren nedan skapar Konceptreglage individuella reglage för “ögonstorlek” och “ögonbrynsform” som fångar de önskade transformationerna med hjälp av bildparen.

Resultaten kan ytterligare förfinas genom att tillhandahålla specifik text så att riktningen fokuserar på den ansiktsregionen och skapar reglage med stegvis kontroll över det målade attributet.

Sammansättning av reglage

En av de stora fördelarna med att använda Konceptreglage är dess sammansättbarhet, som tillåter användare att kombinera flera reglage för en förbättrad kontroll i stället för att fokusera på ett enda koncept åt gången, vilket kan tillskrivas de låg-rankade regleringsriktningarna som används i Konceptreglage. Dessutom, eftersom Konceptreglage är lätta LoRA-adaptrar, är de lätta att dela och kan också läggas över på diffusionsmodeller. Användare kan också justera flera knappar samtidigt för att styra komplexa generationer genom att ladda ner intressanta reglagsats.

Följande bild demonstrerar sammansättningsförmågan hos konceptreglage, och flera reglage sammansätts progressivt i varje rad från vänster till höger, vilket tillåter traversal av högdimensionella konceptutrymmen med en förbättrad grad av kontroll över koncepten.

Förbättring av bildkvalitet

Även om state-of-the-art-text-till-bild-diffusionsramverk och storskaliga generativa modeller som Stable Diffusion XL-modellen är kapabla att generera realistiska och högkvalitativa bilder, lider de ofta av bildförvrängningar som suddiga eller förvridna föremål, trots att parametrarna för dessa state-of-the-art-ramverk är utrustade med den latenta förmågan att generera högkvalitativa utdata med färre generationer. Användningen av Konceptreglage kan resultera i att generera bilder med färre förvrängningar genom att låsa upp de verkliga förmågorna hos dessa modeller genom att identifiera låg-rankade parameterriktningar.

Fixering av händer

Att generera bilder med realistiskt utseende på händer har alltid varit en utmaning för diffusionsramverk, och användningen av Konceptreglage har den direkta kontrollen över tendensen att förvränga händer. Följande bild demonstrerar effekten av att använda “fixa händer”-Konceptreglage, som tillåter ramverket att generera bilder med mer realistiskt utseende på händer.

Reparationsreglage

Användningen av Konceptreglage kan inte bara resultera i att generera mer realistiskt utseende på händer, utan de har också visat sin potential i att förbättra den övergripande realismen hos de bilder som genereras av ramverket. Konceptreglage identifierar också en enda låg-rankad parameterriktning som möjliggör skiftet i bilder från vanliga förvrängningsproblem, och resultaten visas i följande bild.

Slutliga tankar

I den här artikeln har vi talat om Konceptreglage, en enkel men skalbar ny paradigm som möjliggör tolkningsbar kontroll över genererad utdata i diffusionsmodeller. Användningen av Konceptreglage syftar till att lösa problemen som ställs av nuvarande text-till-bild-diffusionsramverk som har svårt att upprätthålla den önskade kontrollen över visuella koncept och attribut som ingår i den genererade bilden, vilket ofta leder till otillfredsställande utdata. Dessutom har de flesta text-till-bild-diffusionsmodeller svårt att modulera kontinuerliga attribut i en bild, vilket ofta leder till otillfredsställande utdata. Användningen av Konceptreglage kan möjliggöra text-till-bild-diffusionsramverk att mildra dessa problem och ge innehållsskapare och slutanvändare en förbättrad grad av kontroll över bildgenereringsprocessen och lösa problem som ställs av nuvarande ramverk.