Artificiell intelligens

Instant-Style: Stil-bevarande i text-till-bild-generering

publicerade

3 veckor sedan

19 april 2024

Under de senaste åren har trimningsbaserade diffusionsmodeller visat anmärkningsvärda framsteg inom ett brett spektrum av bildpersonaliserings- och anpassningsuppgifter. Men trots sin potential fortsätter nuvarande tuningbaserade diffusionsmodeller att möta en mängd komplexa utmaningar när det gäller att producera och generera stilkonsekventa bilder, och det kan finnas tre skäl bakom detsamma. För det första är begreppet stil fortfarande i stor utsträckning odefinierat och obestämt, och består av en kombination av element inklusive atmosfär, struktur, design, material, färg och mycket mer. Andra inversionsbaserade metoder är benägna att försämra stilen, vilket resulterar i frekvent förlust av finkorniga detaljer. Slutligen kräver adapterbaserade tillvägagångssätt frekvent viktjustering för varje referensbild för att upprätthålla en balans mellan textkontrollerbarhet och stilintensitet.

Dessutom är det primära målet för en majoritet av stilöverföringsmetoder eller stilbildsgenerering att använda referensbilden och applicera dess specifika stil från en given delmängd eller referensbild till en målinnehållsbild. Det är dock det stora antalet stilattribut som gör jobbet svårt för forskare att samla in stiliserade datauppsättningar, som representerar stilen korrekt och utvärdera framgången med överföringen. Tidigare har modeller och ramverk som hanterar finjusteringsbaserad diffusionsprocess finjusterat datasetet av bilder som delar en gemensam stil, en process som är både tidskrävande och med begränsad generaliserbarhet i verkliga uppgifter eftersom det är svårt för att samla en delmängd av bilder som delar samma eller nästan identiska stil.

I den här artikeln kommer vi att prata om InstantStyle, ett ramverk designat med syftet att ta itu med de problem som de nuvarande tuning-baserade diffusionsmodellerna för bildgenerering och anpassning står inför. Vi kommer att prata om de två nyckelstrategierna som implementeras av ramverket InstantStyle:

Ett enkelt men effektivt tillvägagångssätt för att frikoppla stil och innehåll från referensbilder inom objektutrymmet, förutspått på antagandet att funktioner inom samma objektutrymme antingen kan läggas till eller subtraheras från varandra.
Förebygga stilläckor genom att injicera referensbildsfunktionerna uteslutande i de stilspecifika blocken och medvetet undvika behovet av att använda besvärliga vikter för finjustering, vilket ofta kännetecknar mer parametertunga mönster.

Den här artikeln syftar till att täcka ramverket InstantStyle på djupet, och vi utforskar mekanismen, metodiken, arkitekturen för ramverket tillsammans med dess jämförelse med toppmoderna ramverk. Vi kommer också att prata om hur ramverket InstantStyle visar anmärkningsvärda visuella stiliseringsresultat och uppnår en optimal balans mellan styrbarheten av textelement och stilens intensitet. Så låt oss börja.

InstantStyle: Stilbevarande i text till bildgenerering

Diffusionsbaserad text till bildgenerativa AI-ramverk har fått märkbar och anmärkningsvärd framgång över ett brett utbud av anpassnings- och personaliseringsuppgifter, särskilt i konsekventa bildgenereringsuppgifter inklusive objektanpassning, bildbevarande och stilöverföring. Men trots den senaste tidens framgång och prestationshöjning, är stilöverföring fortfarande en utmanande uppgift för forskare på grund av stilens obestämda och odefinierade karaktär, som ofta inkluderar en mängd olika element inklusive atmosfär, struktur, design, material, färg och mycket mer. Med det sagt är det primära målet med stiliserad bildgenerering eller stilöverföring att tillämpa den specifika stilen från en given referensbild eller en referensundergrupp av bilder till målinnehållsbilden. Men det stora antalet stilattribut gör jobbet svårt för forskare att samla in stiliserade datauppsättningar, som representerar stilen korrekt och utvärdera framgången med överföringen. Tidigare har modeller och ramverk som hanterar finjusteringsbaserad diffusionsprocess finjusterat datasetet av bilder som delar en gemensam stil, en process som är både tidskrävande och med begränsad generaliserbarhet i verkliga uppgifter eftersom det är svårt för att samla en delmängd av bilder som delar samma eller nästan identiska stil.

Med de utmaningar som det nuvarande tillvägagångssättet möter har forskare intresserat sig för att utveckla finjusterande metoder för stilöverföring eller stiliserad bildgenerering, och dessa ramverk kan delas upp i två olika grupper:

Adapterfria tillvägagångssätt: Adapterfria tillvägagångssätt och ramverk utnyttjar kraften i självuppmärksamhet inom spridningsprocessen, och genom att implementera en operation med delad uppmärksamhet kan dessa modeller extrahera väsentliga funktioner inklusive nycklar och värden från en given referensstilsbilder direkt.

Adapterbaserade tillvägagångssätt: Adapterbaserade tillvägagångssätt och ramverk innehåller å andra sidan en lätt modell utformad för att extrahera detaljerade bildrepresentationer från referensstilsbilderna. Ramverket integrerar sedan dessa representationer i diffusionsprocessen skickligt med hjälp av korsuppmärksamhetsmekanismer. Det primära målet med integrationsprocessen är att vägleda genereringsprocessen och att säkerställa att den resulterande bilden är i linje med de önskade stilistiska nyanserna i referensbilden.

Men trots löftena möter tuningfria metoder ofta några utmaningar. För det första kräver det adapterfria tillvägagångssättet ett utbyte av nyckel och värden inom självuppmärksamhetslagren, och förfångar nyckel- och värdematriserna som härrör från referensstilsbilderna. När den implementeras på naturliga bilder kräver det adapterfria tillvägagångssättet invertering av bilden tillbaka till det latenta bruset med hjälp av tekniker som DDIM eller Denoising Diffusion Implicit Models inversion. Användning av DDIM eller andra inversionsmetoder kan dock leda till förlust av finkorniga detaljer som färg och textur, vilket därför minskar stilinformationen i de genererade bilderna. Dessutom är det ytterligare steget som introduceras av dessa tillvägagångssätt en tidskrävande process och kan utgöra betydande nackdelar i praktiska tillämpningar. Å andra sidan ligger den primära utmaningen för adapterbaserade metoder i att hitta rätt balans mellan kontextläckage och stilintensitet. Innehållsläckage uppstår när en ökning av stilintensiteten resulterar i uppkomsten av icke-stilelement från referensbilden i den genererade utdata, med den primära svårighetsgraden att effektivt separera stilar från innehåll i referensbilden. För att lösa det här problemet konstruerar vissa ramverk parade datamängder som representerar samma objekt i olika stilar, vilket underlättar extrahering av innehållsrepresentation och frigjorda stilar. Men tack vare den inneboende obestämda representationen av stil är uppgiften att skapa storskaliga parade datamängder begränsad när det gäller mångfalden av stilar den kan fånga, och det är också en resurskrävande process.

För att ta itu med dessa begränsningar introduceras ramverket InstantStyle som är en ny tuningfri mekanism baserad på befintliga adapterbaserade metoder med förmågan att sömlöst integreras med andra uppmärksamhetsbaserade injiceringsmetoder och uppnå effektiv frikoppling av innehåll och stil. Dessutom introducerar InstantStyle-ramverket inte ett, utan två effektiva sätt att slutföra frikopplingen av stil och innehåll, vilket uppnår bättre stilmigrering utan att behöva introducera ytterligare metoder för att uppnå frikoppling eller bygga parade datamängder.

Dessutom har tidigare adapterbaserade ramverk använts flitigt i de CLIP-baserade metoderna som en bildfunktionsextraktor, vissa ramverk har undersökt möjligheten att implementera funktionsavkoppling inom funktionsutrymmet, och jämfört med obestämd stil är det lättare att beskriv innehållet med text. Eftersom bilder och texter delar ett funktionsutrymme i CLIP-baserade metoder, kan en enkel subtraktion av kontexttextfunktioner och bildfunktioner minska innehållsläckaget avsevärt. Dessutom i en majoritet av diffusionsmodeller, det finns ett särskilt lager i dess arkitektur som injicerar stilinformationen och åstadkommer frikopplingen av innehåll och stil genom att endast injicera bildegenskaper i specifika stilblock. Genom att implementera dessa två enkla strategier kan InstantStyle-ramverket lösa innehållsläckageproblem som en majoritet av befintliga ramverk stöter på, samtidigt som stilstyrkan bibehålls.

För att sammanfatta det, använder InstantStyle-ramverket två enkla, okomplicerade men ändå effektiva mekanismer för att uppnå en effektiv upplösning av innehåll och stil från referensbilder. Instant-Style-ramverket är ett modelloberoende och tuningfritt tillvägagångssätt som visar anmärkningsvärd prestation i stilöverföringsuppgifter med en enorm potential för nedströmsuppgifter.

Instant-Style: Metodik och arkitektur

Som visats av tidigare tillvägagångssätt, finns det en balans i injiceringen av stilförhållanden i avstämningsfria diffusionsmodeller. Om intensiteten på bildtillståndet är för högt kan det resultera i innehållsläckage, medan om intensiteten på bildtillståndet sjunker för lågt kanske stilen inte verkar vara tillräckligt tydlig. En viktig orsak bakom denna observation är att i en bild är stilen och innehållet sammankopplade, och på grund av de inneboende obestämda stilattributen är det svårt att frikoppla stilen och avsikten. Som ett resultat ställs noggranna vikter ofta in för varje referensbild i ett försök att balansera textkontrollerbarhet och stilstyrka. Dessutom, för en given ingångsreferensbild och dess motsvarande textbeskrivning i de inversionsbaserade metoderna, antas inversionsmetoder som DDIM över bilden för att få den inverterade diffusionsbanan, en process som approximerar inversionsekvationen för att omvandla en bild till en latent ljudrepresentation. Med utgångspunkt från den inverterade diffusionsbanan tillsammans med en ny uppsättning uppmaningar, genererar dessa metoder nytt innehåll med dess stil i linje med inmatningen. Men som visas i följande figur är DDIM-inversionsmetoden för verkliga bilder ofta instabil eftersom den bygger på lokala linjäriseringsantaganden, vilket resulterar i spridning av fel och leder till förlust av innehåll och felaktig bildrekonstruktion.

När det gäller metodiken, istället för att använda komplexa strategier för att skilja innehåll och stil från bilder, tar ramverket Instant-Style den enklaste metoden för att uppnå liknande prestanda. Jämfört med de underbestämda stilattributen kan innehåll representeras av naturlig text, vilket gör att ramverket för Instant-Style kan använda textkodaren från CLIP för att extrahera innehållstextens egenskaper som kontextrepresentationer. Samtidigt implementerar ramverket Instant-Style CLIP-bildkodare för att extrahera funktionerna i referensbilden. Genom att dra fördel av karaktäriseringen av CLIPs globala funktioner, och efter subtrahera innehållstextfunktionerna från bildfunktionerna, kan Instant-Style-ramverket frikoppla stilen och innehållet explicit. Även om det är en enkel strategi, hjälper den att ramverket för Instant-Style är ganska effektivt för att hålla innehållsläckage till ett minimum.

Dessutom är varje lager inom ett djupt nätverk ansvarigt för att fånga olika semantisk information, och den viktigaste observationen från tidigare modeller är att det finns två uppmärksamhetslager som är ansvariga för hanteringsstil. upp Specifikt är det blocks.0.attentions.1 och down blocks.2.attentions.1 lager som ansvarar för att fånga stil som färg, material, atmosfär och det rumsliga layoutlagret fångar struktur respektive komposition. Ramverket för Instant-Style använder dessa lager implicit för att extrahera stilinformation och förhindrar innehållsläckage utan att förlora stilstyrkan. Strategin är enkel men effektiv eftersom modellen har lokaliserat stilblock som kan injicera bildegenskaperna i dessa block för att uppnå sömlös stilöverföring. Dessutom, eftersom modellen kraftigt minskar antalet parametrar för adaptern, förbättras ramverkets textkontrollförmåga, och mekanismen är även tillämpbar på andra uppmärksamhetsbaserade funktionsinjektionsmodeller för redigering och andra uppgifter.

Instant-Style: Experiment och resultat

Instant-Style-ramverket är implementerat på Stable Diffusion XL-ramverket, och det använder den allmänt antagna förtränade IR-adaptern som sitt exempel för att validera dess metodik, och tystar alla block utom stilblocken för bildfunktioner. Instant-Style-modellen tränar också IR-adaptern på 4 miljoner storskaliga text-bildparade datamängder från grunden, och istället för att träna alla block, uppdaterar bara stilblocken.

För att utföra sin generaliseringsförmåga och robusthet genomför Instant-Style-ramverket många stilöverföringsexperiment med olika stilar över olika innehåll, och resultaten kan observeras i följande bilder. Med tanke på en enda stilreferensbild tillsammans med olika uppmaningar, ger ramverket Instant-Style högkvalitativ, konsekvent stil bildgenerering.

Dessutom, eftersom modellen injicerar bildinformation endast i stilblocken, kan den lindra problemet med innehållsläckage avsevärt och behöver därför inte utföra viktjustering.

I takt med att ramverket för Instant-Style använder sig av ControlNet-arkitekturen för att uppnå bildbaserad stilisering med rumslig kontroll, och resultaten visas i följande bild.

Jämfört med tidigare toppmoderna metoder inklusive StyleAlign, B-LoRA, Swapping Self Attention och IP-Adapter, visar ramverket Instant-Style de bästa visuella effekterna.

Avslutande tankar

I den här artikeln har vi pratat om Instant-Style, ett allmänt ramverk som använder två enkla men effektiva strategier för att uppnå en effektiv upplösning av innehåll och stil från referensbilder. InstantStyle-ramverket är designat med syftet att ta itu med de problem som de nuvarande inställningsbaserade diffusionsmodellerna för bildgenerering och anpassning står inför. Ramverket för Instant-Style implementerar två viktiga strategier: Ett enkelt men effektivt tillvägagångssätt för att frikoppla stil och innehåll från referensbilder inom objektutrymmet, förutspått utifrån antagandet att funktioner inom samma funktionsutrymme antingen kan läggas till eller subtraheras från varandra. För det andra, förebygga stilläckor genom att injicera referensbildsfunktionerna uteslutande i de stilspecifika blocken och medvetet undvika behovet av att använda besvärliga vikter för finjustering, vilket ofta kännetecknar mer parametertunga mönster.

Relaterade ämnen:artificiell intelligens Datorsyn diffusionsmodeller generativ ai bildgenerering Omedelbar stil InstantStyle

Strax

Topp 10 takeaways från Stanfords 2024 AI Index Report

Missa inte

The Rise of AI Software Engineers: SWE-Agent, Devin AI and the Future of Coding

Kunal Kejriwal

"En ingenjör till yrket, en författare utantill". Kunal är en teknisk skribent med en djup kärlek och förståelse för AI och ML, dedikerad till att förenkla komplexa koncept inom dessa områden genom sin engagerande och informativa dokumentation.