Verbind je met ons

Artificial Intelligence

Conceptschuifregelaars: nauwkeurige controle in diffusiemodellen met LoRA-adapters

mm
Bijgewerkt on

Dankzij hun mogelijkheden, tekst-naar-beeld diffusiemodellen zijn immens populair geworden in de artistieke gemeenschap. De huidige modellen, waaronder de modernste raamwerken, hebben echter vaak moeite om de controle te behouden over de visuele concepten en attributen in de gegenereerde beelden, wat tot onbevredigende resultaten leidt. De meeste modellen vertrouwen uitsluitend op tekstprompts, wat uitdagingen met zich meebrengt bij het moduleren van continue kenmerken zoals de intensiteit van het weer, de scherpte van schaduwen, gezichtsuitdrukkingen of de leeftijd van een persoon. Dit maakt het voor eindgebruikers moeilijk om afbeeldingen aan te passen aan hun specifieke behoeften. Hoewel deze generatieve raamwerken hoogwaardige en realistische beelden produceren, zijn ze bovendien gevoelig voor vervormingen zoals kromgetrokken gezichten of ontbrekende vingers.

Om deze beperkingen te overwinnen, hebben ontwikkelaars het gebruik van interpreteerbare Concept Sliders voorgesteld. Deze schuifregelaars beloven eindgebruikers meer controle over visuele kenmerken, waardoor het genereren en bewerken van afbeeldingen binnen diffusiemodellen wordt verbeterd. Conceptschuifregelaars in diffusiemodellen werken door het identificeren van een parameterrichting die overeenkomt met een individueel concept, terwijl interferentie met andere attributen wordt geminimaliseerd. Het raamwerk creëert deze schuifregelaars met behulp van voorbeeldafbeeldingen of een reeks aanwijzingen, waardoor richtingen worden vastgesteld voor zowel tekstuele als visuele concepten.

Uiteindelijk is het gebruik van Concept Sliders van tekst naar beeld gekomen diffusiemodellen kan resulteren in het genereren van afbeeldingen met een minimale mate van interferentie, en verbeterde controle over de uiteindelijke uitvoer, terwijl ook het waargenomen realisme wordt vergroot zonder de inhoud van de afbeeldingen te veranderen, en zo realistische afbeeldingen te genereren. In dit artikel zullen we dieper ingaan op het concept van het gebruik van conceptschuifregelaars in tekst- en afbeeldingskaders, en analyseren hoe het gebruik ervan kan resulteren in door AI gegenereerde afbeeldingen van superieure kwaliteit. 

Een inleiding tot conceptschuifregelaars

Zoals eerder vermeld, hebben de huidige raamwerken voor tekst-naar-beeldverspreiding vaak moeite met het beheersen van visuele concepten en attributen in gegenereerde afbeeldingen, wat tot onbevredigende resultaten leidt. Bovendien vinden veel van deze modellen het een uitdaging om continue kenmerken te moduleren, wat verder bijdraagt ​​aan onbevredigende resultaten. Concept Sliders kunnen deze problemen helpen verzachten, waardoor makers van inhoud en eindgebruikers meer controle krijgen over het proces voor het genereren van afbeeldingen en het aanpakken van de uitdagingen waarmee de huidige raamwerken worden geconfronteerd.

De meeste huidige modellen voor tekst-naar-beeldverspreiding zijn afhankelijk van directe wijziging van tekstprompts om beeldkenmerken te controleren. Hoewel deze aanpak het genereren van afbeeldingen mogelijk maakt, is deze niet optimaal omdat het wijzigen van de prompt de structuur van de afbeelding drastisch kan veranderen. Een andere benadering die door deze raamwerken wordt gebruikt, omvat post-hoctechnieken, die het diffusieproces omkeren en kruisaandacht aanpassen om visuele concepten te bewerken. Post-hoc-technieken hebben echter hun beperkingen: ze ondersteunen slechts een beperkt aantal gelijktijdige bewerkingen en vereisen voor elk nieuw concept individuele interferentiepassages. Bovendien kunnen ze conceptuele verstrengeling introduceren als ze niet zorgvuldig worden ontworpen.

Concept Sliders bieden daarentegen een efficiëntere oplossing voor het genereren van afbeeldingen. Deze lichtgewicht, gebruiksvriendelijke adapters kunnen worden toegepast op vooraf getrainde modellen, waardoor de controle en precisie over gewenste concepten in één enkele interferentiepassage worden verbeterd met minimale verstrengeling. Conceptschuifregelaars maken ook het bewerken mogelijk van visuele concepten die niet onder tekstuele beschrijvingen vallen, een functie die deze onderscheidt van op tekstprompts gebaseerde bewerkingsmethoden. Hoewel op afbeeldingen gebaseerde aanpassingsmethoden effectief tokens kunnen toevoegen voor op afbeeldingen gebaseerde concepten, zijn ze moeilijk te implementeren voor het bewerken van afbeeldingen. Met Concept Sliders kunnen eindgebruikers daarentegen een klein aantal gepaarde afbeeldingen leveren die een gewenst concept definiëren. De schuifregelaars generaliseren dit concept vervolgens en passen het automatisch toe op andere afbeeldingen, met als doel het realisme te verbeteren en vervormingen zoals in handen te corrigeren.

Concept Sliders streven ernaar om te leren van en problemen aan te pakken die gemeenschappelijk zijn voor vier generatieve AI- en diffusieframework-concepten: beeldbewerking, op begeleiding gebaseerde methoden, modelbewerking en semantische richtingen.

beeldbewerking

De huidige AI-frameworks zijn óf gericht op het gebruik van voorwaardelijke invoer om de beeldstructuur te sturen, óf ze manipuleren de kruisaandacht van de bronafbeelding met de doelprompt om bewerking van afzonderlijke afbeeldingen in raamwerken voor de verspreiding van tekst naar afbeelding mogelijk te maken. Als gevolg hiervan kunnen deze benaderingen alleen op afzonderlijke afbeeldingen worden geïmplementeerd en vereisen ze ook latente basisoptimalisatie voor elk beeld als gevolg van de zich ontwikkelende geometrische structuur in tijdstappen over prompts heen. 

Op begeleiding gebaseerde methoden

Het gebruik van op classificaties gebaseerde methoden heeft aangetoond dat ze de kwaliteit van de gegenereerde afbeeldingen kunnen verbeteren en de uitlijning van tekst en afbeeldingen kunnen verbeteren. Door begeleidingstermen tijdens interferentie op te nemen, verbetert de methode de beperkte compositoriteit die wordt geërfd door de diffusieframeworks, en kunnen ze worden gebruikt om onveilige concepten in diffusieframeworks te begeleiden. 

Modelbewerking

Het gebruik van Concept Sliders kan ook worden gezien als een modelbewerkingstechniek waarbij gebruik wordt gemaakt van een low-rank adapter om een ​​enkel semantisch attribuut uit te voeren dat ruimte maakt voor continue controle die aansluit bij het attribuut. Op finetuning gebaseerde aanpassingsmethoden worden vervolgens gebruikt om het raamwerk te personaliseren en nieuwe concepten toe te voegen. Bovendien stelt de Custom Diffusion-techniek een manier voor om kruisaandachtslagen te verfijnen om nieuwe visuele concepten op te nemen in vooraf getrainde diffusiemodellen. Omgekeerd stelt de Textual Diffusion-techniek voor om een ​​inbeddingsvector te optimaliseren om modelmogelijkheden te activeren en tekstuele concepten in het raamwerk te introduceren. 

Semantische richting in GAN's

Manipulatie van semantische attributen is een van de belangrijkste attributen van Generative Adversarial Networks, waarbij de latente ruimtetrajecten op een zelfgecontroleerde manier uitgelijnd blijken te zijn. In diffusieframeworks bestaan ​​deze latente ruimtetrajecten in de middelste lagen van de U-Net-architectuur, en de hoofdrichting van latente ruimtes in diffusieframeworks weerspiegelt de mondiale semantiek. Conceptschuifregelaars trainen subruimten van lage rang die rechtstreeks overeenkomen met speciale attributen, en verkrijgen nauwkeurige en gelokaliseerde bewerkingsrichtingen door tekst- of afbeeldingsparen te gebruiken om de globale richtingen te optimaliseren. 

Conceptschuifregelaars: architectuur en werken

Diffusiemodellen en LoRA- of Low Rank-adapters

Diffusiemodellen zijn in wezen een subklasse van generatieve AI-frameworks die werken volgens het principe van het synthetiseren van gegevens door een diffusieproces om te keren. Het voorwaartse diffusieproces voegt aanvankelijk ruis toe aan de gegevens, en daarmee de overgang van een georganiseerde toestand naar een volledige Gaussiaanse ruistoestand. Het primaire doel van diffusiemodellen is om het diffusieproces om te keren door geleidelijk de ruis in het beeld te verminderen en willekeurige Gaussiaanse ruis te bemonsteren om een ​​beeld te genereren. In toepassingen in de echte wereld is het primaire doel van diffusieframeworks het voorspellen van de werkelijke ruis wanneer de volledige Gaussische ruis als invoer wordt ingevoerd met aanvullende invoer zoals conditionering en tijdstap. 

De LoRA- of Low Rank Adapters-techniek ontleedt gewichtsupdates tijdens het afstemmen om een ​​efficiënte aanpassing van grote, vooraf getrainde raamwerken voor stroomafwaartse taken mogelijk te maken. De LoRA-techniek ontleedt gewichtsupdates voor een vooraf getrainde modellaag met betrekking tot zowel de invoer- als de uitvoerdimensies, en beperkt de update tot een laagdimensionale subruimte. 

Concept-schuifregelaars

Het primaire doel van Concept Sliders is om te dienen als een benadering voor het verfijnen van LoRA-adapters op een diffusieframework om een ​​grotere mate van controle over conceptgerichte afbeeldingen mogelijk te maken, en hetzelfde wordt gedemonstreerd in de volgende afbeelding. 

Wanneer ze afhankelijk zijn van doelconcepten, leren Concept Sliders parameterrichtingen op een lagere rang om de expressie van specifieke attributen te verhogen of te verlagen. Voor een model en zijn doelconcept is het primaire doel van Concept Sliders het verkrijgen van een verbeterd model dat de waarschijnlijkheid van het versterken of onderdrukken van attributen voor een afbeelding wijzigt wanneer het wordt geconditioneerd op het doelconcept om de waarschijnlijkheid van het verbeteren van attributen te vergroten en de waarschijnlijkheid te verkleinen van het onderdrukken van attributen. Met behulp van herparameterisatie en de formule van Tweedie introduceert het raamwerk een tijdsvariërend ruisproces en drukt elke score uit als een ruisonderdrukkende voorspelling. Bovendien verfijnt het ontwarringsdoel de modules in Concept Sliders, terwijl de vooraf getrainde gewichten constant blijven, en wordt de schaalfactor die tijdens de LoRA-formulering wordt geïntroduceerd, gewijzigd tijdens interferentie. De schaalfactor vergemakkelijkt ook het aanpassen van de sterke punten van de bewerking, en maakt de bewerkingen sterker zonder het raamwerk opnieuw te trainen, zoals gedemonstreerd in de volgende afbeelding. 

Bewerkingsmethoden die eerder door raamwerken werden gebruikt, maakten sterkere bewerkingen mogelijk door het raamwerk opnieuw te trainen met meer begeleiding. Het schalen van de schaalfactor tijdens interferentie levert echter dezelfde bewerkingsresultaten op zonder de kosten en tijd voor herscholing te verhogen. 

Visuele concepten leren

Conceptschuifregelaars zijn ontworpen op een manier om visuele concepten te besturen die tekstprompts niet goed kunnen definiëren, en deze schuifregelaars maken gebruik van kleine datasets die vooraf of achteraf worden gekoppeld om op deze concepten te trainen. Door het contrast tussen de afbeeldingsparen kunnen schuifregelaars de visuele concepten leren. Bovendien optimaliseert het trainingsproces van de Concept Sliders de LoRA-component die zowel in voorwaartse als achterwaartse richting wordt geïmplementeerd. Als gevolg hiervan wordt de LoRA-component uitgelijnd met de richting die de visuele effecten in beide richtingen veroorzaakt. 

Conceptschuifregelaars: implementatieresultaten

Om de prestatiewinst te analyseren, hebben ontwikkelaars het gebruik van Concept Sliders voornamelijk op de Stabiele diffusie XL, een raamwerk met hoge resolutie van 1024 pixels met aanvullende experimenten uitgevoerd op het Stable Diffusion v1.4-framework, waarbij de modellen elk voor 500 tijdperken worden getraind. 

Tekstuele conceptschuifregelaars

Om de prestaties van tekstuele Concept Sliders te evalueren, wordt deze gevalideerd op een set van 30 op tekst gebaseerde concepten, en wordt de methode vergeleken met twee basislijnen die gebruik maken van een standaard tekstprompt voor een vast aantal tijdstappen, en start vervolgens de compositie door aanwijzingen toevoegen om het beeld te sturen. Zoals u in de volgende afbeelding kunt zien, resulteert het gebruik van Concept Sliders in een voortdurend hogere CLIP-score en een constante verlaging van de LPIPS-score in vergelijking met het oorspronkelijke raamwerk zonder Concept Sliders. 

Zoals u in de bovenstaande afbeelding kunt zien, vergemakkelijkt het gebruik van Concept Sliders het nauwkeurig bewerken van de gewenste attributen tijdens het beeldgeneratieproces, terwijl de algehele structuur van de afbeelding behouden blijft. 

Visuele conceptschuifregelaars

Modellen voor tekst-naar-beeldverspreiding die alleen gebruik maken van tekstprompts vinden het vaak moeilijk om een ​​hogere mate van controle te behouden over visuele kenmerken zoals gezichtshaar of oogvormen. Om een ​​betere controle over gedetailleerde kenmerken te garanderen, maken Concept Sliders gebruik van optionele tekstbegeleiding in combinatie met afbeeldingsgegevenssets. Zoals u kunt zien in de onderstaande afbeelding, creëren Concept Sliders individuele schuifregelaars voor “ooggrootte” en “wenkbrauwvorm” die de gewenste transformaties vastleggen met behulp van de beeldparen. 

De resultaten kunnen verder worden verfijnd door specifieke teksten aan te bieden, zodat de richting zich op dat gezichtsgebied concentreert en schuifregelaars worden gemaakt met stapsgewijze controle over het beoogde attribuut. 

Schuiven samenstellen

Een van de belangrijkste voordelen van het gebruik van Concept Sliders is de mogelijkheid om meerdere sliders te combineren voor meer controle, in plaats van zich op één enkel concept tegelijk te concentreren, wat te danken is aan de lage sliderrichtingen die worden gebruikt in Concept Sliders. . Omdat Concept Sliders lichtgewicht LoRA-adapters zijn, zijn ze bovendien gemakkelijk te delen en kunnen ze ook gemakkelijk over elkaar heen worden geplaatst. diffusiemodellen. Gebruikers kunnen ook meerdere knoppen tegelijkertijd aanpassen om complexe generaties te sturen door interessante schuifregelaarsets te downloaden. 

De volgende afbeelding demonstreert de compositiemogelijkheden van conceptschuifregelaars, en meerdere schuifregelaars zijn progressief in elke rij van links naar rechts samengesteld, waardoor hoogdimensionale conceptruimten kunnen worden doorkruist met een verbeterde mate van controle over de concepten. 

Beeldkwaliteit verbeteren

Hoewel state-of-the-art tekst om diffusiekaders en grootschalige generatieve modellen zoals beeld te schetsen Stabiele diffusie XL modellen in staat zijn om realistische beelden van hoge kwaliteit te genereren, hebben ze vaak last van beeldvervormingen zoals wazige of ingepakte objecten, ook al zijn de parameters van deze ultramoderne raamwerken uitgerust met het latente vermogen om met minder generaties uitvoer van hoge kwaliteit te genereren. Het gebruik van Concept Sliders kan resulteren in het genereren van afbeeldingen met minder vervormingen door de ware mogelijkheden van deze modellen te ontsluiten door parameterrichtingen van lage rangorde te identificeren. 

Handen repareren

Het genereren van afbeeldingen met realistisch ogende handen is altijd een hindernis geweest voor diffusieframeworks, en het gebruik van Concept Sliders heeft directe controle over de neiging om handen te vervormen. De volgende afbeelding demonstreert het effect van het gebruik van de ‘fix hands’-conceptschuifregelaars waarmee het raamwerk afbeeldingen kan genereren met realistischer uitziende handen. 

Reparatie schuifregelaars

Het gebruik van Concept Sliders kan niet alleen resulteren in het genereren van realistischer ogende handen, maar ze hebben ook hun potentieel getoond in het verbeteren van het algehele realisme van de afbeeldingen die door het raamwerk worden gegenereerd. Concept Sliders identificeert ook een enkele parameterrichting met een lage rangorde die de verschuiving in afbeeldingen mogelijk maakt van veelvoorkomende vervormingsproblemen. De resultaten worden gedemonstreerd in de volgende afbeelding. 

Conclusie

In dit artikel hebben we gesproken over Concept Sliders, een eenvoudig maar schaalbaar nieuw paradigma dat interpreteerbare controle over de gegenereerde output in diffusiemodellen mogelijk maakt. Het gebruik van Concept Sliders is bedoeld om de problemen op te lossen waarmee de huidige tekst-naar-beeld-diffusieframeworks worden geconfronteerd, die het moeilijk vinden om de vereiste controle te behouden over visuele concepten en attributen in de gegenereerde afbeelding, wat vaak tot onbevredigende output leidt. Bovendien vinden de meeste tekst-naar-beeld-diffusiemodellen het moeilijk om continue kenmerken in een beeld te moduleren, wat uiteindelijk vaak tot onbevredigende resultaten leidt. Het gebruik van Concept Sliders zou raamwerken voor tekst-naar-beeldverspreiding mogelijk kunnen maken om deze problemen te verminderen, en makers van inhoud en eindgebruikers een grotere mate van controle te geven over het beeldgeneratieproces, en problemen op te lossen waarmee de huidige raamwerken te maken hebben. 

"Een ingenieur van beroep, een schrijver in hart en nieren". Kunal is een technisch schrijver met een diepe liefde voor en begrip van AI en ML, toegewijd aan het vereenvoudigen van complexe concepten op deze gebieden door middel van zijn boeiende en informatieve documentatie.