stomp Instant-stijl: stijlbehoud bij het genereren van tekst naar afbeelding - Unite.AI
Verbind je met ons

Artificial Intelligence

Instant-stijl: stijlbehoud bij het genereren van tekst naar afbeelding

mm

gepubliceerd

 on

De afgelopen jaren hebben op afstemming gebaseerde diffusiemodellen opmerkelijke vooruitgang laten zien bij een breed scala aan beeldpersonalisatie- en aanpassingstaken. Ondanks hun potentieel blijven de huidige op stemmingen gebaseerde diffusiemodellen echter geconfronteerd met een groot aantal complexe uitdagingen bij het produceren en genereren van stijlconsistente beelden, en daar kunnen drie redenen achter zitten. Ten eerste is het concept van stijl nog steeds grotendeels ongedefinieerd en onbepaald, en omvat het een combinatie van elementen zoals sfeer, structuur, ontwerp, materiaal, kleur en nog veel meer. Op tweede inversie gebaseerde methoden zijn gevoelig voor stijlverslechtering, wat resulteert in frequent verlies van fijnkorrelige details. Ten slotte vereisen op adapters gebaseerde benaderingen dat de gewichten voor elk referentiebeeld regelmatig worden afgestemd om een ​​evenwicht te behouden tussen de bestuurbaarheid van de tekst en de stijlintensiteit. 

Bovendien is het primaire doel van de meeste benaderingen van stijloverdracht of het genereren van stijlafbeeldingen het gebruik van de referentieafbeelding en het toepassen van de specifieke stijl ervan uit een bepaalde subset of referentieafbeelding op een doelinhoudafbeelding. Het is echter het grote aantal kenmerken van stijl dat het voor onderzoekers moeilijk maakt om gestileerde datasets te verzamelen, de stijl correct weer te geven en het succes van de overdracht te evalueren. Voorheen verfijnden modellen en raamwerken die zich bezighouden met op fijnafstemming gebaseerde diffusieprocessen de dataset van afbeeldingen die een gemeenschappelijke stijl delen, een proces dat zowel tijdrovend is als met beperkte generaliseerbaarheid bij taken in de echte wereld, omdat het moeilijk is om een ​​subset van afbeeldingen te verzamelen die dezelfde of bijna identieke stijl delen. 

In dit artikel zullen we het hebben over InstantStyle, een raamwerk dat is ontworpen met als doel de problemen aan te pakken waarmee de huidige op afstemming gebaseerde diffusiemodellen voor het genereren en aanpassen van afbeeldingen worden geconfronteerd. We zullen het hebben over de twee belangrijkste strategieën die door het InstantStyle-framework worden geïmplementeerd: 

  1. Een eenvoudige maar effectieve benadering om stijl en inhoud los te koppelen van referentiebeelden binnen de kenmerkruimte, voorspeld in de veronderstelling dat kenmerken binnen dezelfde kenmerkruimte aan elkaar kunnen worden toegevoegd of van elkaar kunnen worden afgetrokken. 
  2. Het voorkomen van stijllekken door de kenmerken van het referentiebeeld uitsluitend in de stijlspecifieke blokken te injecteren, en het opzettelijk vermijden van de noodzaak om omslachtige gewichten te gebruiken voor het verfijnen, wat vaak kenmerkend is voor ontwerpen met meer parameters. 

Dit artikel heeft tot doel het InstantStyle-framework diepgaand te behandelen, en we onderzoeken het mechanisme, de methodologie en de architectuur van het raamwerk, samen met de vergelijking ervan met de modernste raamwerken. We zullen ook praten over hoe het InstantStyle-framework opmerkelijke resultaten op het gebied van visuele stilering laat zien, en een optimaal evenwicht vindt tussen de beheersbaarheid van tekstuele elementen en de intensiteit van stijl. Dus laten we beginnen. 

InstantStyle: stijlbehoud bij het genereren van tekst naar afbeelding

Op diffusie gebaseerde tekst-naar-afbeelding generatieve AI-frameworks hebben merkbaar en opmerkelijk succes geboekt bij een breed scala aan aanpassings- en personalisatietaken, met name bij consistente taken voor het genereren van afbeeldingen, waaronder objectaanpassing, beeldbehoud en stijloverdracht. Ondanks het recente succes en de prestatieverbetering blijft stijloverdracht echter een uitdagende taak voor onderzoekers vanwege de onbepaalde en ongedefinieerde aard van stijl, die vaak een verscheidenheid aan elementen omvat, waaronder sfeer, structuur, ontwerp, materiaal, kleur en nog veel meer. Dat gezegd hebbende, is het primaire doel van het genereren van gestileerde afbeeldingen of stijloverdracht het toepassen van de specifieke stijl van een bepaald referentiebeeld of een referentiesubset van afbeeldingen. naar de doelinhoudafbeelding. Het grote aantal kenmerken van stijl maakt het echter moeilijk voor onderzoekers om gestileerde datasets te verzamelen, de stijl correct weer te geven en het succes van de overdracht te evalueren. Voorheen verfijnden modellen en raamwerken die zich bezighouden met op fijnafstemming gebaseerde diffusieprocessen de dataset van afbeeldingen die een gemeenschappelijke stijl delen, een proces dat zowel tijdrovend is als met beperkte generaliseerbaarheid bij taken in de echte wereld, omdat het moeilijk is om een ​​subset van afbeeldingen te verzamelen die dezelfde of bijna identieke stijl delen. 

Gezien de uitdagingen waarmee de huidige aanpak wordt geconfronteerd, zijn onderzoekers geïnteresseerd geraakt in het ontwikkelen van verfijnde benaderingen voor stijloverdracht gestileerde beeldgeneratie, en deze raamwerken kunnen in twee verschillende groepen worden opgesplitst: 

  • Adaptervrije benaderingen: Adaptervrije benaderingen en raamwerken maken gebruik van de kracht van zelfaandacht binnen het diffusieproces, en door het implementeren van een gedeelde aandachtsoperatie zijn deze modellen in staat om essentiële kenmerken, waaronder sleutels en waarden, rechtstreeks uit een bepaalde referentiestijl te extraheren. 
  • Op adapters gebaseerde benaderingen: Op adapters gebaseerde benaderingen en raamwerken omvatten daarentegen een lichtgewicht model dat is ontworpen om gedetailleerde beeldrepresentaties uit de referentiestijlbeelden te extraheren. Het raamwerk integreert deze representaties vervolgens vakkundig in het diffusieproces met behulp van kruisaandachtsmechanismen. Het primaire doel van het integratieproces is om het generatieproces te begeleiden en ervoor te zorgen dat het resulterende beeld is uitgelijnd met de gewenste stilistische nuances van het referentiebeeld. 

Ondanks de beloften stuiten tuning-vrije methoden echter vaak op een aantal uitdagingen. Ten eerste vereist de adaptervrije benadering een uitwisseling van sleutels en waarden binnen de zelfaandachtslagen, en worden de sleutel- en waardematrices vooraf vastgelegd die zijn afgeleid van de referentiestijlafbeeldingen. Wanneer geïmplementeerd op natuurlijke beelden, vereist de adaptervrije benadering de inversie van het beeld terug naar de latente ruis met behulp van technieken als DDIM of Denoising Diffusion Implicit Models inversion. Het gebruik van DDIM of andere inversiebenaderingen kan echter resulteren in het verlies van fijnkorrelige details zoals kleur en textuur, waardoor de stijlinformatie in de gegenereerde afbeeldingen afneemt. Bovendien is de extra stap die door deze benaderingen wordt geïntroduceerd een tijdrovend proces, en kan dit aanzienlijke nadelen met zich meebrengen in praktische toepassingen. Aan de andere kant ligt de belangrijkste uitdaging voor op adapters gebaseerde methoden in het vinden van de juiste balans tussen contextlekkage en stijlintensiteit. Er treedt inhoudslekkage op wanneer een toename van de stijlintensiteit resulteert in de verschijning van niet-stijlelementen uit het referentiebeeld in de gegenereerde uitvoer, waarbij het voornaamste probleem het effectief scheiden van stijlen en inhoud binnen het referentiebeeld is. Om dit probleem aan te pakken, construeren sommige raamwerken gepaarde datasets die hetzelfde object in verschillende stijlen vertegenwoordigen, waardoor de extractie van inhoudrepresentatie en ontwarde stijlen wordt vergemakkelijkt. Dankzij de inherent onbepaalde representatie van stijl is de taak van het creëren van grootschalige gepaarde datasets echter beperkt in termen van de diversiteit aan stijlen die erin kunnen worden vastgelegd, en is het ook een proces dat veel middelen vergt. 

Om deze beperkingen aan te pakken, wordt het InstantStyle-framework geïntroduceerd, een nieuw afstemmingsvrij mechanisme gebaseerd op bestaande op adapters gebaseerde methoden met de mogelijkheid om naadloos te integreren met andere op aandacht gebaseerde injectiemethoden, en om de ontkoppeling van inhoud en stijl effectief te bereiken. Bovendien introduceert het InstantStyle-framework niet één, maar twee effectieve manieren om de ontkoppeling van stijl en inhoud te voltooien, waardoor een betere stijlmigratie wordt bereikt zonder de noodzaak om aanvullende methoden te introduceren om ontkoppeling te bereiken of gepaarde datasets te bouwen. 

Bovendien zijn eerdere, op adapters gebaseerde raamwerken op grote schaal gebruikt in de op CLIP gebaseerde methoden als extractor voor beeldkenmerken, hebben sommige raamwerken de mogelijkheid onderzocht om kenmerkontkoppeling binnen de kenmerkruimte te implementeren, en vergeleken met onbepaalde stijl is het gemakkelijker om beschrijf de inhoud met tekst. Omdat afbeeldingen en teksten een kenmerkruimte delen bij op CLIP gebaseerde methoden, kan een eenvoudige aftrekbewerking van contexttekstkenmerken en afbeeldingskenmerken het lekken van inhoud aanzienlijk verminderen. Bovendien is in een meerderheid van diffusiemodellen, is er een bepaalde laag in de architectuur die de stijlinformatie injecteert, en de ontkoppeling van inhoud en stijl tot stand brengt door beeldkenmerken alleen in specifieke stijlblokken te injecteren. Door deze twee eenvoudige strategieën te implementeren, kan het InstantStyle-framework de problemen met het weglekken van inhoud oplossen die de meeste bestaande raamwerken tegenkomen, terwijl de kracht van de stijl behouden blijft. 

Om het samen te vatten: het InstantStyle-framework maakt gebruik van twee eenvoudige, ongecompliceerde maar effectieve mechanismen om een ​​effectieve ontvlechting van inhoud en stijl van referentiebeelden te bereiken. Het Instant-Style-framework is een modelonafhankelijke en afstemmingsvrije aanpak die opmerkelijke prestaties demonstreert bij stijloverdrachtstaken met een enorm potentieel voor downstream-taken. 

Instant-stijl: methodologie en architectuur

Zoals aangetoond door eerdere benaderingen, is er een evenwicht in de injectie van stijlvoorwaarden in stemmingsvrije diffusiemodellen. Als de intensiteit van de beeldconditie te hoog is, kan dit resulteren in het lekken van inhoud, terwijl als de intensiteit van de beeldconditie te laag wordt, de stijl misschien niet duidelijk genoeg lijkt. Een belangrijke reden achter deze observatie is dat in een beeld de stijl en de inhoud met elkaar verbonden zijn, en vanwege de inherente onbepaalde stijlkenmerken is het moeilijk om de stijl en de intentie los te koppelen. Als gevolg hiervan worden voor elk referentiebeeld vaak nauwgezette gewichten afgestemd in een poging om de controleerbaarheid van de tekst en de kracht van de stijl in evenwicht te brengen. Bovendien worden voor een gegeven invoerreferentiebeeld en de bijbehorende tekstbeschrijving in de op inversie gebaseerde methoden inversiebenaderingen zoals DDIM over het beeld toegepast om het omgekeerde diffusietraject te verkrijgen, een proces dat de inversievergelijking benadert om een ​​beeld om te zetten in een latent beeld. ruis representatie. Voortbouwend op hetzelfde, en uitgaande van het omgekeerde verspreidingstraject samen met een nieuwe reeks aanwijzingen, genereren deze methoden nieuwe inhoud waarvan de stijl aansluit bij de invoer. Zoals u in de volgende afbeelding kunt zien, is de DDIM-inversiebenadering voor echte beelden echter vaak onstabiel omdat deze berust op aannames van lokale linearisatie, wat resulteert in de voortplanting van fouten, en leidt tot verlies van inhoud en onjuiste beeldreconstructie. 

Wat de methodologie betreft, in plaats van complexe strategieën te gebruiken om inhoud en stijl van afbeeldingen te ontwarren, kiest het Instant-Style-framework de eenvoudigste aanpak om vergelijkbare prestaties te bereiken. Vergeleken met de onderbepaalde stijlkenmerken kan de inhoud worden weergegeven door natuurlijke tekst, waardoor het Instant-Style-framework de tekstencoder van CLIP kan gebruiken om de kenmerken van de inhoudstekst te extraheren als contextrepresentaties. Tegelijkertijd implementeert het Instant-Style-framework de CLIP-beeldcodering om de kenmerken van het referentiebeeld te extraheren. Door gebruik te maken van de karakterisering van globale CLIP-kenmerken, en na het aftrekken van de inhoudstekstkenmerken van de afbeeldingskenmerken, kan het Instant-Style-framework de stijl en inhoud expliciet ontkoppelen. Hoewel het een eenvoudige strategie is, zorgt het ervoor dat het Instant-Style-framework behoorlijk effectief is in het tot een minimum beperken van het lekken van inhoud. 

Bovendien is elke laag binnen een diep netwerk verantwoordelijk voor het vastleggen van verschillende semantische informatie, en de belangrijkste observatie uit eerdere modellen is dat er twee aandachtslagen bestaan ​​die verantwoordelijk zijn voor het omgaan met stijl. up Concreet zijn het de lagen blocks.0.attentions.1 en down blocks.2.attentions.1 verantwoordelijk voor het vastleggen van stijl zoals kleur, materiaal, sfeer, en de ruimtelijke lay-outlaag legt respectievelijk structuur en compositie vast. Het Instant-Style-framework gebruikt deze lagen impliciet om stijlinformatie te extraheren en voorkomt het weglekken van inhoud zonder de stijlsterkte te verliezen. De strategie is eenvoudig maar effectief, omdat het model stijlblokken heeft gelokaliseerd die de afbeeldingskenmerken in deze blokken kunnen injecteren om een ​​naadloze stijloverdracht te bereiken. Bovendien wordt, omdat het model het aantal parameters van de adapter aanzienlijk reduceert, het tekstbeheervermogen van het raamwerk verbeterd, en is het mechanisme ook toepasbaar op andere op aandacht gebaseerde feature-injectiemodellen voor bewerking en andere taken. 

Instant-stijl: experimenten en resultaten

Het Instant-Style-framework is geïmplementeerd op het Stable Diffusion XL-framework en gebruikt de algemeen aanvaarde, vooraf getrainde IR-adapter als voorbeeld om de methodologie te valideren, en dempt alle blokken behalve de stijlblokken voor afbeeldingskenmerken. Het Instant-Style-model traint de IR-adapter ook helemaal opnieuw op 4 miljoen grootschalige tekst-beeld-gekoppelde datasets, en werkt in plaats van alle blokken te trainen alleen de stijlblokken bij. 

Om zijn generalisatiemogelijkheden en robuustheid uit te voeren, voert het Instant-Style-framework talloze stijloverdrachtsexperimenten uit met verschillende stijlen over verschillende inhoud, en de resultaten kunnen worden bekeken in de volgende afbeeldingen. Gegeven een enkele stijlreferentieafbeelding samen met verschillende aanwijzingen, levert het Instant-Style-framework een consistente stijl van hoge kwaliteit beeldgeneratie

Omdat het model bovendien alleen beeldinformatie in de stijlblokken injecteert, kan het het probleem van het lekken van inhoud aanzienlijk beperken, en hoeft het daarom geen gewichtsafstemming uit te voeren. 

Verderop gebruikt het Instant-Style-framework ook de ControlNet-architectuur om op afbeeldingen gebaseerde stilering met ruimtelijke controle te bereiken, en de resultaten worden gedemonstreerd in de volgende afbeelding. 

Vergeleken met eerdere geavanceerde methoden, waaronder StyleAlign, B-LoRA, Swapping Self Attention en IP-Adapter, demonstreert het Instant-Style-framework de beste visuele effecten. 

Conclusie

In dit artikel hebben we gesproken over Instant-Style, een algemeen raamwerk dat gebruik maakt van twee eenvoudige maar effectieve strategieën om de inhoud en stijl effectief te ontwarren van referentiebeelden. Het InstantStyle-framework is ontworpen met als doel de problemen aan te pakken waarmee de huidige op tuning gebaseerde diffusiemodellen voor het genereren en aanpassen van afbeeldingen worden geconfronteerd. Het Instant-Style-framework implementeert twee essentiële strategieën: Een eenvoudige maar effectieve benadering om stijl en inhoud te ontkoppelen van referentiebeelden binnen de kenmerkruimte, voorspeld in de veronderstelling dat kenmerken binnen dezelfde kenmerkruimte aan elkaar kunnen worden toegevoegd of van elkaar kunnen worden afgetrokken. Ten tweede, het voorkomen van stijllekken door de kenmerken van het referentiebeeld uitsluitend in de stijlspecifieke blokken te injecteren, en het opzettelijk vermijden van de noodzaak om omslachtige gewichten te gebruiken voor het verfijnen, wat vaak kenmerkend is voor ontwerpen met meer parameters. 

"Een ingenieur van beroep, een schrijver in hart en nieren". Kunal is een technisch schrijver met een diepe liefde voor en begrip van AI en ML, toegewijd aan het vereenvoudigen van complexe concepten op deze gebieden door middel van zijn boeiende en informatieve documentatie.