Kunstmatige intelligentie

Self-Aandacht Begeleiding: Verbetering van de Kwaliteit van Steekproeven van Diffusiemodellen

Published January 2, 2024

Updated April 27, 2026

Kunal Kejriwal

Self-Attention Guidance : Improving Sample Quality of Diffusion Models

Denoising Diffusiemodellen zijn generatieve AI-kaders die afbeeldingen synthetiseren vanuit ruis via een iteratief denoiseringsproces. Ze worden gevierd om hun uitzonderlijke beeldgeneratiecapaciteiten en diversiteit, die grotendeels worden toegeschreven aan tekst- of klasse-voorwaardelijke begeleidingsmethoden, waaronder classificatiebegeleiding en classificatie-vrije begeleiding. Deze modellen zijn opvallend succesvol geweest in het creëren van diverse, hoge-kwaliteit afbeeldingen. Recent onderzoek heeft aangetoond dat begeleidingsmethoden zoals klassebijschriften en labels een cruciale rol spelen bij het verbeteren van de kwaliteit van de afbeeldingen die deze modellen genereren.

However, diffusiemodellen en begeleidingsmethoden hebben beperkingen onder bepaalde externe omstandigheden. De Classifier-Free Guidance (CFG)-methode, die label dropping gebruikt, voegt complexiteit toe aan het trainingsproces, terwijl de Classifier Guidance (CG)-methode additionele classificatietraining vereist. Beide methoden zijn enigszins beperkt door hun afhankelijkheid van hard-verdiende externe omstandigheden, waardoor hun potentieel wordt beperkt en ze worden beperkt tot voorwaardelijke instellingen.

Om deze beperkingen aan te pakken, hebben ontwikkelaars een meer algemene aanpak voor diffusiebegeleiding geformuleerd, bekend als Self-Aandacht Begeleiding (SAB). Deze methode maakt gebruik van informatie uit tussensteekproeven van diffusiemodellen om afbeeldingen te genereren. We zullen SAB in dit artikel onderzoeken, waarin we de werking, methodologie en resultaten bespreken in vergelijking met de huidige state-of-the-art-kaders en -pijplijnen.

Self-Aandacht Begeleiding : Verbetering van de Kwaliteit van Steekproeven van Diffusiemodellen

Denoising Diffusiemodellen (DDM’s) hebben populariteit gewonnen vanwege hun vermogen om afbeeldingen te creëren vanuit ruis via een iteratief denoiseringsproces. De beeldsynthese van deze modellen is grotendeels te danken aan de gebruikte diffusiebegeleidingsmethoden. Ondanks hun sterke punten, hebben diffusiemodellen en begeleidingsmethoden uitdagingen zoals toegevoegde complexiteit en verhoogde computationele kosten.

Om de huidige beperkingen te overwinnen, hebben ontwikkelaars de Self-Aandacht Begeleiding-methode geïntroduceerd, een meer algemene formulering van diffusiebegeleiding die niet afhankelijk is van externe informatie van diffusiebegeleiding, waardoor een voorwaardelijke en flexibele aanpak wordt gefaciliteerd om diffusiekaders te begeleiden. De aanpak die wordt gekozen door Self-Aandacht Begeleiding helpt uiteindelijk bij het verbeteren van de toepasbaarheid van traditionele diffusiebegeleidingsmethoden in gevallen met of zonder externe vereisten.

Self-Aandacht Begeleiding is gebaseerd op het eenvoudige principe van gegeneraliseerde formulering, en de veronderstelling dat interne informatie die wordt bevatten in tussensteekproeven ook als begeleiding kan dienen. Op basis van dit principe introduceert de SAB-methode eerst Blur Begeleiding, een eenvoudige en rechttoe-rechtaan oplossing om de kwaliteit van steekproeven te verbeteren. Blur-begeleiding heeft als doel om de gunstige eigenschappen van Gaussian blur te exploiteren om fijnschalige details natuurlijk te verwijderen door tussensteekproeven te begeleiden met de geëlimineerde informatie als gevolg van Gaussian blur. Hoewel de Blur-begeleidingsmethode de kwaliteit van steekproeven verhoogt met een matige begeleidingschaal, faalt het om de resultaten te repliceren op een grote begeleidingschaal, omdat het vaak structurele ambiguïteit introduceert in hele regio’s. Als gevolg hiervan heeft de Blur-begeleidingsmethode moeite om de oorspronkelijke invoer te aligneren met de voorspelling van de gedegradeerde invoer. Om de stabiliteit en effectiviteit van de Blur-begeleidingsmethode op een grotere begeleidingschaal te verbeteren, probeert Self-Aandacht Begeleiding de self-aandachtmethode van diffusiemodellen te exploiteren, aangezien moderne diffusiemodellen al een self-aandachtmethode in hun architectuur bevatten.

Met de veronderstelling dat self-aandacht essentieel is om opvallende informatie te capteren, gebruikt de Self-Aandacht Begeleiding-methode self-aandachtkaarten van diffusiemodellen om de regio’s met opvallende informatie te verbluren, en begeleidt zo de diffusiemodellen met de vereiste restinformatie. De methode maakt vervolgens gebruik van de aandachtkaarten tijdens het omgekeerde proces van diffusiemodellen om de kwaliteit van de afbeeldingen te verbeteren en gebruikt self-conditioning om de artifacten te verminderen zonder additionele training of externe informatie te vereisen.

Om samen te vatten, de Self-Aandacht Begeleiding-methode

Is een noviteit die interne self-aandachtkaarten van diffusiekaders gebruikt om de gegenereerde steekproefafbeeldingen van hoge kwaliteit te verbeteren zonder additionele training of externe omstandigheden te vereisen.
De SAB-methode probeert om voorwaardelijke begeleidingsmethoden te generaliseren tot een voorwaardelijke methode die kan worden geïntegreerd met elk diffusiemodel zonder additionele middelen of externe omstandigheden te vereisen, waardoor de toepasbaarheid van begeleidingskaders wordt verbeterd.
De SAB-methode probeert ook om zijn orthogonale capaciteiten te demonstreren ten opzichte van bestaande voorwaardelijke methoden en kaders, waardoor een verbetering van de prestaties wordt gefaciliteerd door een flexibele integratie met andere methoden en modellen.

Verder gaan, de Self-Aandacht Begeleiding-methode leert van de bevindingen van verwante kaders, waaronder Denoising Diffusiemodellen, Sampling Begeleiding, Generatieve AI Self-Aandacht methoden en Diffusiemodellen Interne Representaties. Echter, in zijn kern, de Self-Aandacht Begeleiding-methode implementeert de leerervaringen van DDPM of Denoising Diffusie Probabilistische Modellen, Classificatiebegeleiding, Classificatie-vrije Begeleiding en Self-Aandacht in Diffusiekaders. We zullen hier dieper op ingaan in het komende gedeelte.

Self-Aandacht Begeleiding : Voorlopers, Methodologie en Architectuur

Denoising Diffusie Probabilistisch Model of DDPM

DDPM of Denoising Diffusie Probabilistisch Model is een model dat een iteratief denoiseringsproces gebruikt om een afbeelding te herstellen vanuit witte ruis. Traditioneel, een DDPM-model ontvangt een invoerbeeld en een variantieschema op een tijdstap om het beeld te verkrijgen met behulp van een voorwaartse proces dat bekend staat als het Markoviaanse proces.

Classificatie- en Classificatie-vrije Begeleiding met GAN-implementatie

GAN of Generatieve Adversariale Netwerken bezitten unieke diversiteit voor geloofwaardigheid, en om deze capaciteit van GAN-kaders te brengen naar diffusiemodellen, stelt de Self-Aandacht Begeleiding-kader voor om een classificatiebegeleidingsmethode te gebruiken die een additionele classificator gebruikt. Omgekeerd, een classificatie-vrije begeleidingsmethode kan ook worden geïmplementeerd zonder het gebruik van een additionele classificator om dezelfde resultaten te bereiken. Hoewel de methode de gewenste resultaten levert, is het nog steeds niet computationeel haalbaar omdat het additionele labels vereist, en ook de kader beperkt tot voorwaardelijke diffusiemodellen die additionele omstandigheden vereisen, zoals een tekst of een klasse, samen met additionele trainingsdetails die de complexiteit van het model verhogen.

Generaliseren van Diffusiebegeleiding

Hoewel Classificatie- en Classificatie-vrije Begeleidingsmethoden de gewenste resultaten leveren en helpen bij voorwaardelijke generatie in diffusiemodellen, zijn ze afhankelijk van additionele invoer. Voor elke gegeven tijdstap, bestaat de invoer voor een diffusiemodel uit een gegeneraliseerde voorwaarde en een verstoord monster zonder de gegeneraliseerde voorwaarde. Bovendien omvat de gegeneraliseerde voorwaarde interne informatie binnen het verstoord monster of een externe voorwaarde, of beide. De resulterende begeleiding wordt geformuleerd met behulp van een imaginaire regressor met de veronderstelling dat het de gegeneraliseerde voorwaarde kan voorspellen.

Verbeteren van Beeldkwaliteit met Self-Aandachtkaarten

De Gegeneraliseerde Diffusiebegeleiding impliceert dat het haalbaar is om begeleiding te bieden aan het omgekeerde proces van diffusiemodellen door opvallende informatie te extraheren in de gegeneraliseerde voorwaarde die wordt bevatten in het verstoord monster. Gebouwd op hetzelfde, capteert de Self-Aandacht Begeleiding-methode de opvallende informatie voor omgekeerde processen effectief, terwijl het de risico’s beperkt die ontstaan als gevolg van out-of-distribution-problemen in voorgetrainde diffusiemodellen.

Blur Begeleiding

Blur-begeleiding in Self-Aandacht Begeleiding is gebaseerd op Gaussian Blur, een lineaire filtermethode waarin het invoersignaal wordt geconvolueerd met een Gaussian filter om een uitvoersignaal te genereren. Met een toename in de standaarddeviatie, reduceert Gaussian Blur de fijnschalige details binnen de invoersignalen, en resulteert in lokaal ononderscheidbare invoersignalen door ze te gladstrijken naar de constante. Bovendien hebben experimenten een informatie-ongelijkheid aangetoond tussen het invoersignaal en het Gaussian Blur-uitvoersignaal, waarbij het uitvoersignaal meer fijnschalige informatie bevat.

Op basis van deze kennis, introduceert de Self-Aandacht Begeleiding-kader Blur-begeleiding, een techniek die intentioneel informatie uitsluit uit tussenreconstructies tijdens het diffusieproces, en in plaats daarvan, gebruikt deze informatie om zijn voorspellingen te begeleiden naar het verhogen van de relevantie van afbeeldingen voor de invoerinformatie. Blur-begeleiding zorgt er eigenlijk voor dat de oorspronkelijke voorspelling meer afwijkt van de verbluurde invoervoorspelling. Bovendien voorkomt de gunstige eigenschap in Gaussian Blur dat de uitvoersignalen significant afwijken van het oorspronkelijke signaal met een matige afwijking. In eenvoudige woorden, treedt verblurring op in de afbeeldingen op een natuurlijke manier, waardoor Gaussian Blur een meer geschikte methode is om toe te passen op voorgetrainde diffusiemodellen.

In de Self-Aandacht Begeleiding-pijplijn wordt het invoersignaal eerst verblurd met behulp van een Gaussian filter, en vervolgens gediffundeerd met additionele ruis om het uitvoersignaal te produceren. Door dit te doen, mitigeert de SAB-pijplijn het neveneffect van de resulterende verblurring die de Gaussian ruis vermindert, en maakt de begeleiding afhankelijk van inhoud in plaats van afhankelijk te zijn van willekeurige ruis. Hoewel Blur-begeleiding bevredigende resultaten levert op kaders met een matige begeleidingschaal, faalt het om de resultaten te repliceren op bestaande modellen met een grote begeleidingschaal, omdat het vatbaar is voor het produceren van lawaaierige resultaten, zoals wordt aangetoond in de volgende afbeelding.

Deze resultaten kunnen het gevolg zijn van de structurele ambiguïteit die wordt geïntroduceerd in de kader door globale verblurring, waardoor het moeilijk wordt voor de SAB-pijplijn om de voorspellingen van de oorspronkelijke invoer te aligneren met de gedegradeerde invoer, resulterend in lawaaierige uitvoer.

Self-Aandachtmethode

Zoals eerder vermeld, hebben diffusiemodellen meestal een ingebouwde self-aandachtmethode, en het is een van de meer essentiële componenten in een diffusiemodelkader. De Self-Aandachtmethode wordt geïmplementeerd in de kern van de diffusiemodellen, en het staat de modellen toe om aandacht te besteden aan de opvallende delen van de invoer tijdens het generatieve proces, zoals wordt aangetoond in de volgende afbeelding met hoge-frequentie-masks in de bovenste rij, en self-aandachtmasks in de onderste rij van de gegenereerde afbeeldingen.

De voorgestelde Self-Aandacht Begeleiding-methode bouwt voort op hetzelfde principe, en benut de capaciteiten van self-aandachtkaarten in diffusiemodellen. Over het algemeen, de Self-Aandacht Begeleiding-methode verblurt de self-geattendeerde patches in het invoersignaal of, in eenvoudige woorden, verbergt de informatie van patches die wordt geattendeerd door de diffusiemodellen. Bovendien bevatten de uitvoersignalen in Self-Aandacht Begeleiding intacte regio’s van de invoersignalen, wat betekent dat het niet resulteert in structurele ambiguïteit van de invoer, en lost het probleem van globale verblurring op. De pijplijn verkrijgt vervolgens de geaggregeerde self-aandachtkaarten door GAP of Globale Gemiddelde Pooling uit te voeren om self-aandachtkaarten te aggregeren tot de dimensie, en door het dichtstbijzijnde buurman op te waarderen om de resolutie van het invoersignaal te matchen.

Self-Aandacht Begeleiding : Experimenten en Resultaten

Om zijn prestaties te evalueren, wordt de Self-Aandacht Begeleiding-pijplijn bemonsterd met behulp van 8 Nvidia GeForce RTX 3090 GPU’s, en is gebouwd op voorgetrainde IDDPM, ADM en Stable Diffusie-kaders.

Onvoorwaardelijke Generatie met Self-Aandacht Begeleiding

Om de effectiviteit van de SAB-pijplijn op onvoorwaardelijke modellen te meten en om de voorwaardelijke eigenschap te demonstreren die niet wordt bezeten door Classificatiebegeleiding en Classificatie-vrije Begeleiding, wordt de SAB-pijplijn uitgevoerd op onvoorwaardelijk getrainde kaders op 50.000 monsters.

Zoals te zien is, verbetert de implementatie van de SAB-pijplijn de FID, sFID en IS-metrieken van onvoorwaardelijke invoer, terwijl het de recall-waarde verlaagt. Bovendien is de kwalitatieve verbetering als gevolg van de implementatie van de SAB-pijplijn duidelijk zichtbaar in de volgende afbeeldingen, waar de afbeeldingen bovenaan de resultaten zijn van ADM en Stable Diffusie-kaders, terwijl de afbeeldingen onderaan de resultaten zijn van ADM en Stable Diffusie-kaders met de SAB-pijplijn.

Voorwaardelijke Generatie met SAB

De integratie van de SAB-pijplijn in bestaande kaders levert uitzonderlijke resultaten op in onvoorwaardelijke generatie, en de SAB-pijplijn is in staat om voorwaardelijke agnostiek te bereiken, waardoor de SAB-pijplijn kan worden geïmplementeerd voor voorwaardelijke generatie.

Stable Diffusie met Self-Aandacht Begeleiding

Hoewel het oorspronkelijke Stable Diffusie-kader hoge-kwaliteit afbeeldingen genereert, kan de integratie van het Stable Diffusie-kader met de Self-Aandacht Begeleiding-pijplijn de resultaten aanzienlijk verbeteren. Om zijn effect te evalueren, gebruiken ontwikkelaars lege prompts voor Stable Diffusie met een willekeurige zaad voor elke afbeeldingspaar, en gebruiken menselijke evaluatie op 500 paren van afbeeldingen met en zonder Self-Aandacht Begeleiding. De resultaten worden aangetoond in de volgende afbeelding.

Bovendien kan de implementatie van SAB de capaciteiten van het Stable Diffusie-kader verbeteren, aangezien het combineren van Classificatie-vrije Begeleiding met Self-Aandacht Begeleiding de reikwijdte van Stable Diffusie-modellen kan uitbreiden tot tekst-naar-afbeelding-synthese. Bovendien zijn de gegenereerde afbeeldingen van het Stable Diffusie-model met Self-Aandacht Begeleiding van hogere kwaliteit met minder artifacten, dankzij het self-conditioning-effect van de SAB-pijplijn, zoals aangetoond in de volgende afbeelding.

Huidige Beperkingen

Hoewel de implementatie van de Self-Aandacht Begeleiding-pijplijn de kwaliteit van de gegenereerde afbeeldingen aanzienlijk kan verbeteren, heeft het enkele beperkingen.

Een van de belangrijkste beperkingen is de orthogonaliteit met Classificatiebegeleiding en Classificatie-vrije Begeleiding. Zoals te zien is in de volgende afbeelding, verbetert de implementatie van SAB de FID-score en voorspellingscore, wat betekent dat de SAB-pijplijn een orthogonaal component bevat dat gelijktijdig kan worden gebruikt met traditionele begeleidingsmethoden.

Echter, het vereist nog steeds dat diffusiemodellen op een specifieke manier worden getraind, waardoor de complexiteit en computationele kosten toenemen.

Bovendien vereist de implementatie van Self-Aandacht Begeleiding geen extra geheugen of tijdsverbruik, een indicatie dat de overhead die resulteert uit operaties zoals masking en verblurring in SAB verwaarloosbaar is. Echter, het voegt nog steeds toe aan de computationele kosten, aangezien het een extra stap omvat in vergelijking met geen begeleidingsbenaderingen.

Slotbeschouwing

In dit artikel hebben we het gehad over Self-Aandacht Begeleiding, een noviteit en een meer algemene formulering van begeleidingsmethode die gebruikmaakt van interne informatie die beschikbaar is binnen de diffusiemodellen voor het genereren van hoge-kwaliteit afbeeldingen. Self-Aandacht Begeleiding is gebaseerd op het eenvoudige principe van gegeneraliseerde formulering, en de veronderstelling dat interne informatie die wordt bevatten in tussensteekproeven ook als begeleiding kan dienen. De Self-Aandacht Begeleiding-pijplijn is een voorwaardelijke en trainingsvrije aanpak die kan worden geïmplementeerd over verschillende diffusiemodellen, en gebruikt self-conditioning om de artifacten in de gegenereerde afbeeldingen te verminderen, en verhoogt de algehele kwaliteit.

Kunal Kejriwal

Een ingenieur van beroep, een schrijver van hart. Kunal is een technisch schrijver met een diepe liefde en begrip voor AI en ML, toegewijd aan het vereenvoudigen van complexe concepten in deze gebieden door middel van zijn boeiende en informatieve documentatie.