Kontakt med oss

Kunstig intelligens

Veiledning om selvoppmerksomhet: Forbedring av prøvekvaliteten til diffusjonsmodeller

mm
Selvoppmerksomhetsveiledning: Forbedring av prøvekvaliteten til diffusjonsmodeller

Denoising Diffusion Models er generative AI-rammeverk som syntetiserer bilder fra støy gjennom en iterativ denoising-prosess. De feires for sine eksepsjonelle bildegenereringsevner og mangfold, i stor grad tilskrevet tekst- eller klassebetingede veiledningsmetoder, inkludert klassifiseringsveiledning og klassifiseringsfri veiledning. Disse modellene har vært spesielt vellykkede med å lage forskjellige bilder av høy kvalitet. Nyere studier har vist at veiledningsteknikker som klassetekster og etiketter spiller en avgjørende rolle for å forbedre kvaliteten på bildene disse modellene genererer.

Imidlertid møter diffusjonsmodeller og veiledningsmetoder begrensninger under visse ytre forhold. Classifier-Free Guidance (CFG)-metoden, som bruker etikettslipp, legger til kompleksitet til opplæringsprosessen, mens Classifier-Guidance (CG)-metoden krever ekstra klassifiseringstrening. Begge metodene er noe begrenset av deres avhengighet av hardt opptjente ytre forhold, begrenser deres potensiale og begrenser dem til betingede innstillinger.

For å møte disse begrensningene har utviklere formulert en mer generell tilnærming til diffusjonsveiledning, kjent som Self-Attention Guidance (SAG). Denne metoden utnytter informasjon fra mellomprøver av diffusjonsmodeller for å generere bilder. Vi vil utforske SAG i denne artikkelen, og diskutere dets virkemåte, metodikk og resultater sammenlignet med dagens toppmoderne rammeverk og rørledninger.

Selvoppmerksomhetsveiledning: Forbedring av prøvekvaliteten til diffusjonsmodeller

Denoising Diffusion Models (DDM-er) har vunnet popularitet for deres evne til å lage bilder fra støy via en iterativ deoising-prosess. Bildesynteseevnen til disse modellene skyldes i stor grad de benyttede diffusjonsveiledningsmetodene. Til tross for deres styrker, møter diffusjonsmodeller og veiledningsbaserte metoder utfordringer som økt kompleksitet og økte beregningskostnader.

For å overvinne de nåværende begrensningene har utviklere introdusert metoden Self-Attention Guidance, en mer generell formulering av diffusjonsveiledning som ikke er avhengig av ekstern informasjon fra diffusjonsveiledning, og dermed tilrettelegge for en tilstandsfri og fleksibel tilnærming til veiledning. diffusjonsrammer. Tilnærmingen valgt av Self-Attention Guidance hjelper til slutt med å forbedre anvendeligheten til de tradisjonelle diffusjonsveiledningsmetodene for saker med eller uten eksterne krav. 

Selvoppmerksomhetsveiledning er basert på det enkle prinsippet om generalisert formulering, og antakelsen om at intern informasjon i mellomprøver også kan tjene som veiledning. På grunnlag av dette prinsippet introduserer SAG-metoden først Blur Guidance, en enkel og grei løsning for å forbedre prøvekvaliteten. Uskarphet-veiledning tar sikte på å utnytte de godartede egenskapene til Gaussisk uskarphet for å fjerne finskaladetaljer naturlig ved å veilede mellomprøver ved å bruke den eliminerte informasjonen som et resultat av Gaussisk uskarphet. Selv om uskarphet-veiledningsmetoden øker prøvekvaliteten med en moderat veiledningsskala, klarer den ikke å gjenskape resultatene på en stor veiledningsskala, da den ofte introduserer strukturell tvetydighet i hele regioner. Som et resultat finner metoden for uskarphet det vanskelig å justere den opprinnelige inngangen med prediksjonen av den forringede inngangen. For å forbedre stabiliteten og effektiviteten til Blur-veiledningsmetoden i en større veiledningsskala, forsøker Self-Attention Guidance å utnytte selvoppmerksomhetsmekanismen til diffusjonsmodellene, ettersom moderne diffusjonsmodeller allerede inneholder en selvoppmerksomhetsmekanisme i deres arkitektur. 

Med antagelsen om at selvoppmerksomhet er avgjørende for å fange frem fremtredende informasjon i sin kjerne, bruker Self-Attention Guidance-metoden selvoppmerksomhetskart av diffusjonsmodellene for å uskarpe områdene som inneholder fremtredende informasjon, og veileder i prosessen diffusjonsmodeller med nødvendig restinformasjon. Metoden utnytter deretter oppmerksomhetskartene under diffusjonsmodellenes omvendte prosess, for å øke kvaliteten på bildene og bruker selvkondisjonering for å redusere artefaktene uten å kreve ytterligere opplæring eller ekstern informasjon. 

For å oppsummere, metoden Self-Atention Guidance

  1. Er en ny tilnærming som bruker interne selvoppmerksomhetskart av diffusjonsrammer for å forbedre den genererte prøvebildekvaliteten uten å kreve ytterligere opplæring eller stole på eksterne forhold. 
  2. SAG-metoden forsøker å generalisere betingede veiledningsmetoder til en tilstandsfri metode som kan integreres med enhver diffusjonsmodell uten å kreve ekstra ressurser eller eksterne forhold, og dermed forbedre anvendeligheten av veiledningsbaserte rammeverk. 
  3. SAG-metoden forsøker også å demonstrere sine ortogonale evner til eksisterende betingede metoder og rammeverk, og dermed legge til rette for et løft i ytelse ved å legge til rette for fleksibel integrasjon med andre metoder og modeller. 

Selvoppmerksomhetsveiledningsmetoden lærer av funnene i relaterte rammeverk, inkludert Denoising Diffusion Models, Sampling Guidance, Generative AI Self-Atention-metoder og diffusjonsmodellers interne representasjoner. Men i kjernen implementerer selvoppmerksomhetsveiledningsmetoden læringen fra DDPM eller Denoising Diffusion Probabilistic Models, Classifier Guidance, Classifier-free Guidance og Self-Atention in Diffusion frameworks. Vi vil snakke om dem i dybden i den kommende delen. 

Veiledning for selvoppmerksomhet : Forberedelser, metodikk og arkitektur

Denoising Diffusion Probabilistic Model eller DDPM

DDPM eller Denoising Diffusion Probabilistic Model er en modell som bruker en iterativ denoising-prosess for å gjenopprette et bilde fra hvit støy. Tradisjonelt mottar en DDPM-modell et inngangsbilde og en variasjonsplan på et tidspunkt for å få bildet ved å bruke en fremadgående prosess kjent som Markovian-prosessen. 

Klassifiserings- og klassifiseringsfri veiledning med GAN-implementering

GAN eller Generative Adversarial Networks har unik handelsmangfold for troskap, og for å bringe denne muligheten til GAN-rammeverk til diffusjonsmodeller, foreslår Self-Attention Guidance-rammeverket å bruke en klassifiserveiledningsmetode som bruker en ekstra klassifikator. Motsatt kan en klassifiserfri veiledningsmetode også implementeres uten bruk av en ekstra klassifikator for å oppnå de samme resultatene. Selv om metoden gir de ønskede resultatene, er den fortsatt ikke beregningsmessig levedyktig, da den krever ekstra etiketter, og begrenser også rammeverket til betingede diffusjonsmodeller som krever tilleggsbetingelser som en tekst eller en klasse sammen med ytterligere opplæringsdetaljer som øker kompleksiteten til modellen. 

Generaliserende diffusjonsveiledning

Selv om klassifiserings- og klassifiseringsfrie veiledningsmetoder gir de ønskede resultatene og hjelper til med betinget generering i diffusjonsmodeller, er de avhengige av ytterligere input. For et gitt tidstrinn omfatter input for en diffusjonsmodell en generalisert tilstand og en forstyrret prøve uten den generaliserte tilstanden. Videre omfatter den generaliserte tilstanden intern informasjon i den forstyrrede prøven eller en ekstern tilstand, eller til og med begge deler. Den resulterende veiledningen er formulert med bruk av en imaginær regressor med antagelsen om at den kan forutsi den generaliserte tilstanden. 

Forbedre bildekvaliteten ved hjelp av selvoppmerksomhetskart

Den generaliserte diffusjonsveiledningen innebærer at det er mulig å gi veiledning til den omvendte prosessen til diffusjonsmodeller ved å trekke ut fremtredende informasjon i den generaliserte tilstanden i den forstyrrede prøven. Selvoppmerksomhetsveiledningsmetoden bygger på det samme, og fanger den fremtredende informasjonen for omvendte prosesser effektivt, samtidig som den begrenser risikoen som oppstår som følge av problemer med ut-av-distribusjon i forhåndstrente diffusjonsmodeller. 

Uskarp veiledning

Uskarphet-veiledning i selvoppmerksomhetsveiledning er basert på Gaussisk uskarphet, en lineær filtreringsmetode der inngangssignalet konvolveres med et Gaussisk filter for å generere en utgang. Med en økning i standardavviket reduserer Gaussisk uskarphet detaljene i finskalaen i inngangssignalene, og resulterer i lokalt utydelige inngangssignaler ved å jevne dem ut mot konstanten. Videre har eksperimenter indikert en informasjonsubalanse mellom inngangssignalet og det Gaussiske uskarphet utgangssignalet der utgangssignalet inneholder mer finskala informasjon. 

På grunnlag av denne læringen introduserer selvoppmerksomhetsveiledningsrammeverket Blur-veiledning, en teknikk som med hensikt utelukker informasjonen fra mellomliggende rekonstruksjoner under diffusjonsprosessen, og i stedet bruker denne informasjonen til å veilede sine spådommer mot å øke relevansen til bildene til legge inn informasjon. Sløringsveiledning får i hovedsak den opprinnelige prediksjonen til å avvike mer fra den uskarpe inndataprediksjonen. Videre forhindrer den godartede egenskapen i Gaussisk uskarphet utgangssignalene fra å avvike betydelig fra det opprinnelige signalet med et moderat avvik. Med enkle ord oppstår uskarphet i bildene naturlig som gjør Gaussisk uskarphet til en mer egnet metode for å brukes på forhåndstrente diffusjonsmodeller. 

I Self-Attention Guidance-rørledningen blir inngangssignalet først uskarpt ved hjelp av et gaussisk filter, og det blir deretter spredt med ekstra støy for å produsere utgangssignalet. Ved å gjøre dette, reduserer SAG-rørledningen bivirkningen av den resulterende uskarphet som reduserer Gaussisk støy, og gjør at veiledningen stoler på innhold i stedet for å være avhengig av tilfeldig støy. Selv om uskarphet gir tilfredsstillende resultater på rammeverk med moderat veiledningsskala, klarer den ikke å gjenskape resultatene på eksisterende modeller med en stor veiledningsskala ettersom den blir utsatt for å produsere støyende resultater som vist i bildet nedenfor. 

Disse resultatene kan være et resultat av den strukturelle tvetydigheten introdusert i rammeverket av global uskarphet som gjør det vanskelig for SAG-rørledningen å justere spådommene til den opprinnelige inngangen med den degraderte inngangen, noe som resulterer i støyende utganger. 

Selvoppmerksomhet mekanisme

Som nevnt tidligere har diffusjonsmodeller vanligvis en innebygget selvoppmerksomhetskomponent, og det er en av de mer essensielle komponentene i et diffusjonsmodellrammeverk. Selvoppmerksomhetsmekanismen er implementert i kjernen av diffusjonsmodellene, og den lar modellen ta hensyn til de fremtredende delene av input under den generative prosessen som demonstrert i følgende bilde med høyfrekvente masker i den øverste raden, og selvoppmerksomhetsmasker i den nederste raden av de endelig genererte bildene. 

Den foreslåtte metoden for selvoppmerksomhetveiledning bygger på samme prinsipp, og utnytter egenskapene til selvoppmerksomhetskart i diffusjonsmodeller. Totalt sett gjør Self-Attention Guidance-metoden de selvbetjente patchene i inngangssignalet uskarpe eller i enkle ord skjuler informasjonen om patcher som ivaretas av diffusjonsmodellene. Videre inneholder utgangssignalene i Self-Attention Guidance intakte områder av inngangssignalene, noe som betyr at det ikke resulterer i strukturell tvetydighet av inngangene, og løser problemet med global uskarphet. Rørledningen innhenter deretter de aggregerte selvoppmerksomhetskartene ved å utføre GAP eller Global Average Pooling for å samle selvoppmerksomhetskart til dimensjonen, og oppsample nærmeste nabo for å matche oppløsningen til inngangssignalet. 

Selvoppmerksomhetsveiledning: Eksperimenter og resultater

For å evaluere ytelsen er selvoppmerksomhetsveilednings-pipelinen samplet ved hjelp av 8 Nvidia GeForce RTX 3090 GPUer, og er bygget på forhåndsopplært IDDPM, ADM og Stabile diffusjonsrammer

Ubetinget generasjon med selvoppmerksomhetsveiledning

For å måle effektiviteten til SAG-rørledningen på ubetingede modeller og demonstrere den tilstandsfrie egenskapen som ikke er i besittelse av Classifier Guidance, og Classifier Free Guidance-tilnærmingen, kjøres SAG-rørledningen på ubetinget forhåndstrente rammeverk på 50 tusen prøver. 

Som det kan observeres, forbedrer implementeringen av SAG-rørledningen FID-, sFID- og IS-beregningene for ubetinget input samtidig som den senker tilbakekallingsverdien. Videre er de kvalitative forbedringene som et resultat av implementeringen av SAG-rørledningen tydelige i de følgende bildene der bildene på toppen er resultater fra ADM- og Stable Diffusion-rammeverk, mens bildene nederst er resultater fra ADM- og Stable Diffusion-rammeverket med SAG rørledning. 

Betinget generasjon med SAG

Integrasjonen av SAG-rørledningen i eksisterende rammeverk gir eksepsjonelle resultater i ubetinget generering, og SAG-rørledningen er i stand til tilstands-agnostisitet som gjør at SAG-rørledningen også kan implementeres for betinget generering. 

Stabil diffusjon med selvoppmerksomhetsveiledning

Selv om det originale Stable Diffusion-rammeverket genererer bilder av høy kvalitet, kan integrering av Stable Diffusion-rammeverket med Self-Attention Guidance-rørledningen forbedre resultatene drastisk. For å evaluere effekten bruker utviklere tomme meldinger for stabil diffusjon med tilfeldig frø for hvert bildepar, og bruker menneskelig evaluering på 500 bildepar med og uten selvoppmerksomhetsveiledning. Resultatene er vist i bildet nedenfor.  

Videre kan implementeringen av SAG forbedre egenskapene til rammeverket for stabil diffusjon, da sammensmelting av klassifiseringsfri veiledning med veiledning for selvoppmerksomhet kan utvide utvalget av stabile spredningsmodeller til tekst-til-bilde-syntese. Videre er de genererte bildene fra den stabile diffusjonsmodellen med selvoppmerksomhetsveiledning av høyere kvalitet med mindre artefakter takket være den selvkondisjonerende effekten av SAG-rørledningen som vist i bildet nedenfor. 

Gjeldende begrensninger

Selv om implementeringen av selvoppmerksomhetsveiledning kan forbedre kvaliteten på de genererte bildene betydelig, har den noen begrensninger. 

En av de største begrensningene er ortogonaliteten med klassifiserer-veiledning og klassifiserer-fri veiledning. Som det kan observeres i det følgende bildet, forbedrer implementeringen av SAG FID-skåren og prediksjonsskåren som betyr at SAG-rørledningen inneholder en ortogonal komponent som kan brukes med tradisjonelle veiledningsmetoder samtidig. 

Imidlertid krever det fortsatt at diffusjonsmodeller trenes på en spesifikk måte som øker kompleksiteten så vel som beregningskostnadene. 

Videre øker ikke implementeringen av selvoppmerksomhetsveiledning minnet eller tidsforbruket, en indikasjon på at overheaden som følge av operasjoner som maskering og uskarphet i SAG er ubetydelig. Imidlertid øker det fortsatt beregningskostnadene ettersom det inkluderer et ekstra trinn sammenlignet med ingen veiledningstilnærminger. 

Final Thoughts

I denne artikkelen har vi snakket om Self-Attention Guidance, en ny og generell formulering av veiledningsmetode som gjør bruk av intern informasjon tilgjengelig i diffusjonsmodellene for å generere bilder av høy kvalitet. Selvoppmerksomhetsveiledning er basert på det enkle prinsippet om generalisert formulering, og antakelsen om at intern informasjon i mellomprøver også kan tjene som veiledning. Self-Attention Guidance pipeline er en tilstandsfri og treningsfri tilnærming som kan implementeres på tvers av ulike diffusjonsmodeller, og bruker selvkondisjonering for å redusere artefaktene i de genererte bildene, og øker den generelle kvaliteten. 

"En ingeniør av yrke, en forfatter utenat". Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse for AI og ML, dedikert til å forenkle komplekse konsepter på disse feltene gjennom sin engasjerende og informative dokumentasjon.