Kunstmatige intelligentie
HD-Painter: High Resolution Text-Guided Image Inpainting with Diffusion Models

Diffusion models hebben ongetwijfeld de AI en ML-industrie gerevolutioneerd, met hun toepassingen in real-time die een integraal onderdeel zijn geworden van ons dagelijks leven. Naarmate text-to-image-modellen hun opmerkelijke mogelijkheden hebben laten zien, zijn diffusiegebaseerde beeldmanipulatietechnieken, zoals controleerbare generatie, gespecialiseerde en gepersonaliseerde beeldsynthese, objectniveau-beeldbewerking, prompt-geconditioneerde variaties en bewerking, opgekomen als populaire onderwerpen van onderzoek vanwege hun toepassingen in de computer vision-industrie.
Hoe dan ook, ondanks hun indrukwekkende mogelijkheden en uitzonderlijke resultaten, hebben text-to-image-kaders, met name text-to-image-inpainting-kaders, nog steeds potentiële gebieden voor ontwikkeling. Deze omvatten de mogelijkheid om globale scènes te begrijpen, vooral wanneer het beeld wordt geruisd in hoge diffusietijdstappen. Om dit probleem aan te pakken, hebben onderzoekers HD-Painter geïntroduceerd, een volledig trainingsvrij kader dat prompt-instructies nauwkeurig volgt en zich uitbreidt tot high-resolution image-inpainting op een coherente manier. Het HD-Painter-kader maakt gebruik van een Prompt Aware Introverted Attention (PAIntA)-laag, die prompt-informatie gebruikt om de self-attention-scores te verbeteren, waardoor betere tekstalignatiegeneratie ontstaat.
Om de coherentie van de prompt verder te verbeteren, introduceert het HD-Painter-model een Reweighting Attention Score Guidance (RASG)-benadering. Deze benadering integreert een post-hoc steekproefstrategie in de algemene vorm van de DDIM-component naadloos, waardoor uit-distributie-latente verschuivingen worden voorkomen. Bovendien beschikt het HD-Painter-kader over een gespecialiseerde super-resolutietechniek die is aangepast voor inpainting, waardoor het zich kan uitbreiden tot grotere schalen en ontbrekende gebieden in het beeld kan voltooien met resoluties tot 2K.
HD-Painter: Text-Guided Image Inpainting
Text-to-image-diffusiemodellen zijn inderdaad een belangrijk onderwerp geweest in de AI- en ML-industrie in de afgelopen maanden, met modellen die indrukwekkende mogelijkheden in real-time hebben laten zien in verschillende praktische toepassingen. Vooraf getrainde text-to-image-generatiemodellen zoals DALL-E, Imagen en Stable Diffusion hebben hun geschiktheid voor beeldvoltooiing aangetoond door de gedenoiseerde (gegenereerde) onbekende gebieden te combineren met de gediffundeerde bekende gebieden tijdens het achterwaartse diffusieproces. Ondanks het feit dat ze visueel aantrekkelijke en goed geharmoniseerde uitvoer produceren, hebben bestaande modellen moeite om de globale scène te begrijpen, vooral onder het hoge diffusietijdstap-ruisproces. Door vooraf getrainde text-to-image-diffusiemodellen te modificeren om extra contextinformatie op te nemen, kunnen ze worden gefinetuned voor text-geleide beeldvoltooiing.
Verder zijn text-geleide inpainting en text-geleide beeldvoltooiing belangrijke onderwerpen van interesse voor onderzoekers binnen diffusiemodellen. Deze interesse wordt gedreven door het feit dat text-geleide inpainting-modellen inhoud kunnen genereren in specifieke gebieden van een invoerbeeld op basis van tekstuele prompts, wat leidt tot potentiële toepassingen zoals het retoucheren van specifieke beeldgebieden, het modificeren van onderwerpkenmerken zoals kleuren of kleding, en het toevoegen of vervangen van objecten. Samenvattend hebben text-to-image-diffusiemodellen ongekende successen behaald vanwege hun uitzonderlijk realistische en visueel aantrekkelijke generatiemogelijkheden.

Hoe dan ook, de meeste bestaande kaders laten prompt-verwaarlozing zien in twee scenario’s. Het eerste is Achtergrond Dominantie wanneer het model het onbekende gebied voltooit door de prompt in de achtergrond te negeren, terwijl het tweede scenario Nabijgelegen Object Dominantie is wanneer het model de bekende regio-objecten naar het onbekende gebied propageert met behulp van visuele contextwaarschijnlijkheid in plaats van de invoerprompt. Het is mogelijk dat beide problemen het gevolg zijn van de mogelijkheid van de standaard inpainting-diffusie om de tekstuele prompt nauwkeurig te interpreteren of te combineren met de contextinformatie die is verkregen uit de bekende regio.
Om deze obstakels te overwinnen, introduceert het HD-Painter-kader de Prompt Aware Introverted Attention of PAIntA-laag, die prompt-informatie gebruikt om de self-attention-scores te verbeteren, waardoor betere tekstalignatiegeneratie ontstaat. PAIntA gebruikt de gegeven tekstuele conditie om de self-attention-score te verbeteren met als doel de invloed van niet-prompt-relevante informatie van het beeldgebied te verminderen en tegelijkertijd de bijdrage van de bekende pixels die zijn uitgelijnd met de prompt te vergroten. Om de tekstalignatie van de gegenereerde resultaten verder te verbeteren, implementeert het HD-Painter-kader een post-hoc-guidancemethode die de cross-attention-scores gebruikt. Hoe dan ook, de implementatie van de standaard post-hoc-guidancemethode kan uit-distributie-shifts veroorzaken als gevolg van de extra gradiëntterm in de diffusievergelijking. De uit-distributie-shift zal uiteindelijk leiden tot een kwaliteitsafname van de gegenereerde uitvoer. Om dit obstakel te overwinnen, implementeert het HD-Painter-kader een Reweighting Attention Score Guidance of RASG, een methode die een post-hoc steekproefstrategie naadloos integreert in de algemene vorm van de DDIM-component. Het staat het kader toe om visueel plausibele inpainting-resultaten te genereren door de steekproef naar de prompt-gealigneerde latenten te leiden en deze in hun getrainde domein te houden.
Door zowel de RASH- als de PAIntA-componenten in hun architectuur te implementeren, heeft het HD-Painter-kader een aanzienlijk voordeel ten opzichte van bestaande, waaronder state-of-the-art, inpainting- en text-to-image-diffusiemodellen, omdat het erin slaagt het bestaande probleem van prompt-verwaarlozing op te lossen. Bovendien bieden zowel de RASH- als de PAIntA-componenten plug-and-play-functionaliteit, waardoor ze compatibel zijn met diffusie-gebaseerde inpainting-modellen om de bovengenoemde uitdagingen aan te pakken. Verder kan het HD-Painter-pijplijn effectief werken voor tot 2K-resolutie-inpainting door een tijd-iteratieve blending-technologie te implementeren en de mogelijkheden van high-resolution diffusiemodellen te benutten.
Om samen te vatten, beoogt het HD-Painter-kader de volgende bijdragen te leveren in het veld:
- Het beoogt het prompt-verwaarlozingsprobleem van de achtergrond en de nabijgelegen objectdominantie die wordt ervaren door text-geleide beeldinpainting-kaders op te lossen door de Prompt Aware Introverted Attention of PAIntA-laag in hun architectuur te implementeren.
- Het beoogt de tekstalignatie van de uitvoer te verbeteren door de Reweighting Attention Score Guidance of RASG-laag in hun architectuur te implementeren, waardoor het HD-Painter-kader post-hoc-geleide steekproeven kan uitvoeren terwijl het uit-distributie-shifts voorkomt.
- Het beoogt een effectief trainingsvrij text-geleid beeldvoltooiingspijplijn te ontwerpen die in staat is om de bestaande state-of-the-art-kaders te overtreffen, en die de eenvoudige maar effectieve inpainting-georiënteerde super-resolutietechniek gebruikt om text-geleide beeldinpainting tot 2K-resolutie uit te voeren.
HD-Painter: Methode en Architectuur
Voordat we naar de architectuur kijken, is het essentieel om de drie fundamentele concepten te begrijpen die de basis vormen van het HD-Painter-kader: Beeldinpainting, Post-Hoc-Guidance in Diffusiekaders, en Inpainting-Specifieke Architectuuronderdelen.
Beeldinpainting is een benadering die ertoe strekt de ontbrekende gebieden in een beeld te vullen terwijl de visuele aantrekkelijkheid van het gegenereerde beeld wordt gewaarborgd. Traditionele diepe leermodellen hebben methoden geïmplementeerd die bekende gebieden gebruikten om diepe kenmerken te propageren. Hoe dan ook, de introductie van diffusiemodellen heeft geleid tot de evolutie van inpainting-modellen, met name de text-geleide beeldinpainting-kaders. Traditioneel vervangt een vooraf getraind text-to-image-diffusiemodel het ongemaskeerde gebied van de latent door de geruisde versie van het bekende gebied te gebruiken tijdens het steekproefproces. Hoewel deze benadering tot op zekere hoogte werkt, vermindert het de kwaliteit van de gegenereerde uitvoer aanzienlijk, aangezien het denoiseringsnetwerk alleen de geruisde versie van het bekende gebied ziet. Om deze hindernis te overwinnen, zijn enkele benaderingen gericht op het finetunen van het vooraf getrainde text-to-image-model om text-geleide beeldinpainting te bereiken. Door deze benadering te implementeren, kan het kader een willekeurige masker genereren via concatenatie, aangezien het model de denoiseringskader kan conditioneren op het ongemaskeerde gebied.
Verder hebben traditionele diepe leermodellen speciale ontwerplagen geïmplementeerd voor efficiënte inpainting, waarbij sommige kaders in staat zijn om informatie effectief te extraheren en visueel aantrekkelijke beelden te produceren door speciale convolutionele lagen te introduceren om met de bekende gebieden van het beeld om te gaan. Sommige kaders voegen zelfs een contextuele aandachtlaag toe in hun architectuur om de ongewenste zware computationele vereisten van alle tot alle self-aandacht voor hoge kwaliteit inpainting te verminderen.
Tenslotte zijn post-hoc-guidancemethoden achterwaartse diffusiesteekproefmethoden die de volgende stap latentepredictie leiden naar een bepaald functie-minimalisatie-doel. Post-hoc-guidancemethoden zijn van grote hulp bij het genereren van visuele inhoud, vooral in de aanwezigheid van aanvullende beperkingen. Hoe dan ook, post-hoc-guidancemethoden hebben een groot nadeel: ze zijn bekend om beeldkwaliteitsafname te veroorzaken, aangezien ze de latentegeneratieproces verschuiven met een gradiëntterm.
Komend bij de architectuur van HD-Painter, formuleert het kader eerst het text-geleide beeldvoltooiingsprobleem en introduceert het vervolgens twee diffusiemodellen, namelijk Stable Inpainting en Stable Diffusion. Het HD-Painter-model introduceert vervolgens de PAIntA- en RASG-blokken en tenslotte komen we bij de inpainting-specifieke super-resolutietechniek.
Stable Diffusion en Stable Inpainting
Stable Diffusion is een diffusiemodel dat werkt binnen de latentruimte van een auto-encoder. Voor text-to-image-synthese implementeert het Stable Diffusion-kader een tekstuele prompt om het proces te leiden. De guidingsfunctie heeft een structuur die lijkt op de UNet-architectuur, en de cross-attention-lagen conditioneren het op de tekstuele prompts. Bovendien kan het Stable Diffusion-model beeldinpainting uitvoeren met enkele modificaties en finetuning. Om dit te bereiken, worden de kenmerken van het gemaskeerde beeld gegenereerd door de encoder geconcateneerd met de gedownsamplede binaire masker naar de latenten. De resulterende tensor wordt vervolgens ingevoerd in de UNet-architectuur om de geschatte ruis te verkrijgen. Het kader initialiseert de nieuw toegevoegde convolutionele filters met nullen, terwijl de rest van de UNet wordt geïnitialiseerd met vooraf getrainde checkpoints van het Stable Diffusion-model.

De bovenstaande figuur toont de overzicht van het HD-Painter-kader, bestaande uit twee fasen. In de eerste fase implementeert het HD-Painter-kader text-geleide beeldschildering, terwijl in de tweede fase het model specifieke super-resolutie van de uitvoer inpaint. Om de missende gebieden te vullen en consistent te blijven met de invoerprompt, neemt het model een vooraf getraind inpainting-diffusiemodel, vervangt de self-attention-lagen met PAIntA-lagen en implementeert de RASG-mechanisme om een achterwaartse diffusieproces uit te voeren. Het model decodeert de finale geschatte latent, resulterend in een ingepaint beeld. HD-Painter implementeert vervolgens het super-stabile diffusiemodel om het originele formaat van het beeld in te kleuren en implementeert het diffusie-achterwaartse proces van het Stable Diffusion-kader, geconditioneerd op het laagresolutie-invoerbeeld. Het model blendt de gedenoiseerde voorspellingen met de oorspronkelijke beeld-encoding na elke stap in het bekende gebied en leidt de volgende latent. Tenslotte decodeert het model de latent en implementeert Poisson-blending om randartefacten te voorkomen.
Prompt Aware Introverted Attention of PAIntA
Bestaande inpainting-modellen zoals Stable Inpainting zijn geneigd om meer te vertrouwen op de visuele context rond het inpainting-gebied en de invoerprompt te negeren. Op basis van de gebruikerservaring kan dit probleem worden gecategoriseerd in twee klassen: nabijgelegen objectdominantie en achtergronddominantie. Het probleem van visuele contextdominantie over de invoerprompt kan het gevolg zijn van de alleen-ruimtelijke en prompt-vrije aard van de self-attention-lagen. Om dit probleem te overwinnen, introduceert het HD-Painter-kader de Prompt Aware Introverted Attention of PAIntA, die cross-attention-matrices en een inpainting-masker gebruikt om de uitvoer van de self-attention-lagen in het onbekende gebied te controleren.
De Prompt Aware Introverted Attention-component past eerst projectielaag toe om de sleutel, waarden en queries te verkrijgen, samen met de gelijkenismatrix. Het model past vervolgens de aandachtsscore van de bekende pixels aan om de sterke invloed van het bekende gebied over het onbekende gebied te mitigeren en definieert een nieuwe gelijkenismatrix door de tekstuele prompt te benutten.

Reweighting Attention Score Guidance of RASG
Het HD-Painter-kader neemt een post-hoc steekproefguidancemethode om de generatie-alignatie met de tekstuele prompts verder te verbeteren. Samen met een objectiefunctie, beoogt de post-hoc steekproefguidancemethode om de open-vocabulaire-segmentatie-eigenschappen van de cross-attention-lagen te benutten. Hoe dan ook, deze benadering van standaard post-hoc-guidance kan de domein van diffusie-latent verschuiven, wat leidt tot een kwaliteitsafname van de gegenereerde beelden. Om dit probleem te overwinnen, implementeert het HD-Painter-model de Reweighting Attention Score Guidance of RASG, een methode die een gradiënt-herwegingsmechanisme introduceert, resulterend in latent-domeinbehoud.
HD-Painter: Experimenten en Resultaten
Om de prestaties te analyseren, wordt het HD-Painter-kader vergeleken met huidige state-of-the-art-modellen, waaronder Stable Inpainting, GLIDE en BLD of Blended Latent Diffusion, over 10000 willekeurige steekproeven waarbij de prompt wordt geselecteerd als het label van de geselecteerde instantie-masker.

Zoals te zien is, overtreft het HD-Painter-kader bestaande kaders op drie verschillende metrics met een aanzienlijke marge, vooral de verbetering van 1,5 punten op de CLIP-metric en het verschil in gegenereerde nauwkeurigheidsscore van ongeveer 10% van andere state-of-the-art-methoden.

Verder toont de volgende figuur de kwalitatieve vergelijking van het HD-Painter-kader met andere inpainting-kaders. Zoals te zien is, reconstrueren andere baseline-modellen het missende gebied in het beeld als een voortzetting van de bekende regio-objecten, waarbij de prompts worden genegeerd, of genereren ze een achtergrond. Aan de andere kant is het HD-Painter-kader in staat om de doelobjecten succesvol te genereren dankzij de implementatie van de PAIntA- en RASG-componenten in hun architectuur.

Slotgedachten
In dit artikel hebben we het over HD-Painter, een trainingsvrije text-geleide high-resolutie-inpainting-benadering die de uitdagingen aanpakt die worden ervaren door bestaande inpainting-kaders, waaronder prompt-verwaarlozing en nabijgelegen objectdominantie. Het HD-Painter-kader implementeert een Prompt Aware Introverted Attention of PAIntA-laag, die prompt-informatie gebruikt om de self-attention-scores te verbeteren, waardoor betere tekstalignatiegeneratie ontstaat.
Om de coherentie van de prompt verder te verbeteren, introduceert het HD-Painter-model een Reweighting Attention Score Guidance of RASG-benadering, die een post-hoc steekproefstrategie naadloos integreert in de algemene vorm van de DDIM-component om uit-distributie-latente verschuivingen te voorkomen. Bovendien introduceert het HD-Painter-kader een gespecialiseerde super-resolutietechniek die is aangepast voor inpainting, waardoor het zich kan uitbreiden tot grotere schalen en ontbrekende gebieden in het beeld kan voltooien met resoluties tot 2K.












