Kunstmatige intelligentie

HD-Painter: Hoge resolutie tekstgeleide beeldinpainting met diffusiemodellen

Gepubliceerd op 13 februari 2024

Bijgewerkt op 22 mei 2026

Door

Kunal Kejriwal

HD-Painter : High Resolution Text-Guided Image Inpainting with Diffusion Models

Diffusiemodellen hebben ongetwijfeld de AI- en ML-industrie gerevolutioneerd, met toepassingen in real-time die een integraal onderdeel zijn geworden van ons dagelijks leven. Naarmate tekst-naar-afbeeldingsmodellen hun opmerkelijke capaciteiten hebben gedemonstreerd, zijn diffusiegebaseerde beeldmanipulatietechnieken, zoals controleerbare generatie, gespecialiseerde en gepersonaliseerde beeldsynthese, objectniveau-beeldbewerking, prompt-geconditioneerde variaties en bewerking, opgekomen als populaire onderzoeksgebieden vanwege hun toepassingen in de computerzichtindustrie.

Hoewel ze indrukwekkende capaciteiten en uitzonderlijke resultaten hebben, hebben tekst-naar-afbeeldingskaders, met name tekst-naar-afbeeldingsinpaintingskaders, nog steeds potentieel ontwikkelingsgebieden. Deze omvatten de mogelijkheid om globale scènes te begrijpen, vooral bij het ontstoren van het beeld in hoge diffusietijdstappen. Om dit probleem aan te pakken, hebben onderzoekers HD-Painter geïntroduceerd, een volledig trainingsvrij kader dat promptinstructies nauwkeurig volgt en schaalt tot hoge resolutiebeelden coherently. Het HD-Painter-kader maakt gebruik van een Prompt Aware Introverted Attention (PAIntA)-laag, die promptinformatie gebruikt om de zelfaandachtpunten te verbeteren, waardoor betere tekstalignatiegeneratie ontstaat.

Om de coherentie van de prompt verder te verbeteren, introduceert het HD-Painter-model een Reweighting Attention Score Guidance (RASG)-aanpak. Deze aanpak integreert een post-hoc steekproefstrategie in de algemene vorm van de DDIM-component naadloos, waardoor uit-distributie latent verschuivingen worden voorkomen. Bovendien beschikt het HD-Painter-kader over een gespecialiseerde superresolutietechniek die is aangepast voor inpainting, waardoor het kan worden uitgebreid tot grotere schalen en ontbrekende regio’s in het beeld kan voltooien met resoluties tot 2K.

HD-Painter: Tekstgeleide beeldinpainting

Tekst-naar-afbeeldingsdiffusiemodellen zijn inderdaad een belangrijk onderwerp geweest in de AI- en ML-industrie in de afgelopen maanden, met modellen die indrukwekkende real-timecapaciteiten hebben gedemonstreerd in verschillende praktische toepassingen. Vooraf getrainde tekst-naar-afbeeldingsgeneratiemodellen zoals DALL-E, Imagen en Stable Diffusion hebben hun geschiktheid voor beeldvoltooiing aangetoond door gedenoiseerde (gegenereerde) onbekende regio’s te combineren met gediffundeerde bekende regio’s tijdens het omgekeerde diffusieproces. Ondanks het produceren van visueel aantrekkelijke en goed geharmoniseerde uitvoer, hebben bestaande modellen moeite om de globale scène te begrijpen, vooral onder het hoge diffusietijdstapontstorenproces. Door vooraf getrainde tekst-naar-afbeeldingsdiffusiemodellen aan te passen om extra contextinformatie op te nemen, kunnen ze worden gefinetuned voor tekstgeleide beeldvoltooiing.

Verder zijn tekstgeleide inpainting en tekstgeleide beeldvoltooiing belangrijke onderzoeksgebieden voor onderzoekers. Deze interesse wordt gedreven door het feit dat tekstgeleide inpaintingmodellen inhoud kunnen genereren in specifieke regio’s van een invoerbeeld op basis van tekstuele prompts, wat leidt tot potentiële toepassingen zoals het retoucheren van specifieke beeldregio’s, het wijzigen van onderwerpkenmerken zoals kleuren of kleding, en het toevoegen of vervangen van objecten. Samenvattend hebben tekst-naar-afbeeldingsdiffusiemodellen ongekende successen behaald vanwege hun uitzonderlijk realistische en visueel aantrekkelijke generatiecapaciteiten.

Echter, de meeste bestaande kaders vertonen promptverwaarlozing in twee scenario’s. Het eerste is AchtergrondDominantie wanneer het model de onbekende regio voltooit door de prompt in de achtergrond te negeren, terwijl het tweede scenario nabijgelegen objectdominantie is wanneer het model de bekende regio-objecten naar de onbekende regio propageert met behulp van visuele contextwaarschijnlijkheid in plaats van de invoerprompt. Het is mogelijk dat beide problemen het gevolg zijn van de enkel-spatiale en prompt-vrije aard van de zelfaandachtlagen.

Om deze obstakels aan te pakken, introduceert het HD-Painter-kader de Prompt Aware Introverted Attention (PAIntA)-laag, die promptinformatie gebruikt om de zelfaandachtpunten te verbeteren, waardoor betere tekstalignatiegeneratie ontstaat. PAIntA gebruikt de gegeven tekstuele voorwaarde om de zelfaandacht te verhogen met als doel de invloed van niet-prompt-relevante informatie van de beeldregio te verminderen en tegelijkertijd de bijdrage van de bekende pixels die zijn uitgelijnd met de prompt te vergroten. Om de tekstalignatie van de gegenereerde resultaten verder te verbeteren, implementeert het HD-Painter-kader een post-hoc guidance-methode die de cross-aandachtpunten benut. Echter, de implementatie van de vanilla post-hoc guidance-mechanisme kan uit-distributie latent verschuivingen veroorzaken als gevolg van de extra gradiëntterm in de diffusievergelijking. De uit-distributie latent verschuiving zal uiteindelijk leiden tot een kwaliteitsafname van de gegenereerde uitvoer. Om dit obstakel aan te pakken, implementeert het HD-Painter-kader de Reweighting Attention Score Guidance (RASG)-methode, die een gradiëntherwegingsmechanisme introduceert, waardoor de latentdomeinbehoud wordt bewerkstelligd.

Door zowel de RASH- als de PAIntA-componenten in de architectuur te implementeren, heeft het HD-Painter-kader een aanzienlijk voordeel ten opzichte van bestaande, waaronder state-of-the-art, inpainting- en tekst-naar-afbeeldingsdiffusiemodellen, omdat het erin slaagt het bestaande probleem van promptverwaarlozing op te lossen. Bovendien bieden zowel de RASH- als de PAIntA-componenten plug-and-play-functionaliteit, waardoor ze compatibel zijn met diffusiegebaseerde inpaintingmodellen om de bovengenoemde uitdagingen aan te pakken. Bovendien, door de implementatie van een tijd-iteratieve blending-technologie en door de mogelijkheden van hoge resolutie diffusiemodellen te benutten, kan de HD-Painter-pijplijn effectief werken voor inpainting tot 2K-resolutie.

Om samen te vatten, streeft het HD-Painter naar de volgende bijdragen in het veld:

Het streeft ernaar het promptverwaarlozingsprobleem van de achtergrond en de nabijgelegen objectdominantie die wordt ervaren door tekstgeleide beeldinpaintingskaders op te lossen door de Prompt Aware Introverted Attention (PAIntA)-laag in de architectuur te implementeren.
Het streeft ernaar de tekstalignatie van de uitvoer te verbeteren door de Reweighting Attention Score Guidance (RASG)-laag in de architectuur te implementeren, waardoor het HD-Painter-kader post-hoc gestuurde steekproeven kan uitvoeren terwijl het uit-distributie latent verschuivingen voorkomt.
Het streeft ernaar een effectieve trainingsvrije tekstgeleide beeldvoltooipijplijn te ontwerpen die in staat is om de bestaande state-of-the-art-kaders te overtreffen, en door het gebruik van een eenvoudige maar effectieve inpainting-georiënteerde superresolutietechniek om tekstgeleide beeldinpainting uit te voeren tot 2K-resolutie.

HD-Painter: Methode en Architectuur

Voordat we naar de architectuur kijken, is het essentieel om de drie fundamentele concepten te begrijpen die de basis vormen van het HD-Painter-kader: Beeldinpainting, Post-Hoc Guidance in Diffusiekaders, en Inpainting-Specifieke Architectuuronderdelen.

Beeldinpainting is een aanpak die ernaar streeft om de ontbrekende regio’s in een beeld te vullen terwijl de visuele aantrekkelijkheid van het gegenereerde beeld wordt gewaarborgd. Traditionele diepe leermodellen hebben methoden geïmplementeerd die gebruik maakten van bekende regio’s om diepe kenmerken te propageren. Echter, de introductie van diffusiemodellen heeft geleid tot de evolutie van inpaintingmodellen, met name de tekstgeleide beeldinpaintingskaders. Traditioneel vervangt een vooraf getraind tekst-naar-afbeeldingsdiffusiemodel de ongemaskeerde regio van de latent door de geraakte versie van de bekende regio te gebruiken tijdens het steekproefproces. Hoewel deze aanpak tot op zekere hoogte werkt, verslechtert het de kwaliteit van de gegenereerde uitvoer aanzienlijk, aangezien het ontstoren van het netwerk alleen de geraakte versie van de bekende regio ziet. Om dit obstakel aan te pakken, zijn er enkele aanpakken die ernaar streefden om de vooraf getrainde tekst-naar-afbeeldingsmodellen te finetunen om tekstgeleide beeldinpainting te bereiken. Door deze aanpak te implementeren, kan het kader een willekeurige masker genereren via concatenatie, aangezien het model de denoising-framework kan voorwaardelijk maken op de ongemaskeerde regio.

Verder hebben traditionele diepe leermodellen speciale ontwerplagen geïmplementeerd voor efficiënte inpainting, waarbij sommige kaders in staat waren om informatie effectief te extraheren en visueel aantrekkelijke beelden te produceren door speciale convolutionele lagen te introduceren om met de bekende regio’s van het beeld om te gaan. Sommige kaders voegden zelfs een contextuele aandachtlagen toe in hun architectuur om de ongewenste zware computationele vereisten van alle tot alle zelfaandacht voor hoge kwaliteit inpainting te verminderen.

Tenslotte zijn post-hoc guidance-methoden omgekeerde diffusiesteekproefmethoden die de volgende stap latent voorspelling naar een bepaalde functie-minimalisatieobjectief leiden. Post-hoc guidance-methoden zijn van grote hulp bij het genereren van visuele inhoud, vooral in de aanwezigheid van extra beperkingen. Echter, post-hoc guidance-methoden hebben een belangrijk nadeel: ze kunnen leiden tot beeldkwaliteitsverslechtering omdat ze de latent generatieproces verschuiven met een gradiëntterm.

Komen we bij de architectuur van HD-Painter, het kader formuleert eerst het tekstgeleide beeldvoltooiingsprobleem en introduceert vervolgens twee diffusiemodellen, namelijk de Stabile Inpainting en Stable Diffusion. Het HD-Painter-model introduceert vervolgens de PAIntA- en de RASG-blokken en tenslotte komen we bij de inpainting-specifieke superresolutietechniek.

Stable Diffusion en Stable Inpainting

Stable Diffusion is een diffusiemodel dat werkt binnen de latente ruimte van een auto-encoder. Voor tekst-naar-afbeeldingssynthese implementeert het Stable Diffusion-kader een tekstuele prompt om het proces te leiden. De leidende functie heeft een structuur die lijkt op de UNet-architectuur en de cross-aandachtlagen zijn voorwaardelijk op de tekstuele prompts. Bovendien kan het Stable Diffusion-model beeldinpainting uitvoeren met enkele aanpassingen en finetuning. Om dit te bereiken, worden de kenmerken van het gemaskeerde beeld gegenereerd door de encoder samengevoegd met de verkleinde binaire masker tot de latenten. De resulterende tensor wordt vervolgens ingevoerd in de UNet-architectuur om de geschatte ruis te verkrijgen. Het kader initialiseert vervolgens de nieuw toegevoegde convolutionele filters met nullen, terwijl de rest van de UNet wordt geïnitialiseerd met vooraf getrainde checkpoints van het Stable Diffusion-model.

De bovenstaande figuur toont de overzicht van het HD-Painter-kader, bestaande uit twee fasen. In de eerste fase implementeert het HD-Painter-kader tekstgeleide beeldschilderen, terwijl in de tweede fase het model specifieke superresolutie van de uitvoer inpaint. Om de missende regio’s te vullen en consistent te blijven met de invoerprompt, neemt het model een vooraf getraind inpainting-diffusiemodel, vervangt de zelfaandachtlagen door PAIntA-lagen en implementeert de RASG-mechanisme om een omgekeerd diffusieproces uit te voeren. Het model decodeert vervolgens de uiteindelijke geschatte latent, waardoor een ingepaint beeld ontstaat. HD-Painter implementeert vervolgens het superstabiele diffusiemodel om het oorspronkelijke formaat van het beeld in te kleuren en implementeert het diffusie-omgekeerde proces van het Stable Diffusion-kader, voorwaardelijk op het lage resolutie invoerbeeld. Het model mengt de gedenoiseerde voorspellingen met de oorspronkelijke beeldencoding na elke stap in de bekende regio en leidt de volgende latent af. Tenslotte decodeert het model de latent en implementeert Poisson-menging om randartefacten te voorkomen.

Prompt Aware Introverted Attention of PAIntA

Bestaande inpaintingmodellen zoals Stable Inpainting zijn meer afhankelijk van de visuele context rond de inpainting-regio en negeren de invoerprompt. Op basis van de gebruikerservaring kan dit probleem worden onderverdeeld in twee categorieën: nabijgelegen objectdominantie en achtergronddominantie. Het probleem van visuele contextdominantie over de invoerprompt kan het gevolg zijn van de enkel-spatiale en prompt-vrije aard van de zelfaandachtlagen. Om dit probleem aan te pakken, introduceert het HD-Painter-kader de Prompt Aware Introverted Attention (PAIntA), die cross-aandachtmatrixen en een inpainting-masker gebruikt om de uitvoer van de zelfaandachtlagen in de onbekende regio te controleren.

De Prompt Aware Introverted Attention-component past eerst projectielagen toe om de sleutel, waarden en vragen te verkrijgen, evenals de gelijkenheidsmatrix. Het model past vervolgens de aandachtpunten van de bekende pixels aan om de sterke invloed van de bekende regio over de onbekende regio te mitigeren en definieert een nieuwe gelijkenheidsmatrix door de tekstuele prompt te benutten.

Reweighting Attention Score Guidance of RASG

Het HD-Painter-kader neemt een post-hoc steekproefguidance-methode om de generatie-alignering met de tekstuele prompts verder te verbeteren. Naast een objectief, streeft de post-hoc steekproefguidance-aanpak ernaar om de open-vocabulaire segmentatie-eigenschappen van de cross-aandachtlagen te benutten. Echter, deze aanpak van vanilla post-hoc guidance heeft het potentieel om de domein van diffusie latent te verschuiven, wat kan leiden tot een kwaliteitsafname van de gegenereerde afbeelding. Om dit probleem aan te pakken, implementeert het HD-Painter-kader de Reweighting Attention Score Guidance (RASG)-methode, die een gradiëntherwegingsmechanisme introduceert, waardoor de latentdomeinbehoud wordt bewerkstelligd.

HD-Painter: Experimenten en Resultaten

Om de prestaties te analyseren, wordt het HD-Painter-kader vergeleken met huidige state-of-the-art-modellen, waaronder Stable Inpainting, GLIDE en BLD of Blended Latent Diffusion, over 10000 willekeurige steekproeven waarbij de prompt is geselecteerd als de label van de geselecteerde instantiemasker.

Zoals te zien is, overtreft het HD-Painter-kader de bestaande kaders op drie verschillende metrieken met een aanzienlijke marge, vooral de verbetering van 1,5 punten op de CLIP-metric en het verschil in gegenereerde nauwkeurigheidsscore van ongeveer 10% ten opzichte van andere state-of-the-art-methoden.

Verder toont de volgende figuur de kwalitatieve vergelijking van het HD-Painter-kader met andere inpainting-kaders. Zoals te zien is, reconstrueren andere baseline-modellen de missende regio’s in het beeld als een voortzetting van de bekende regio-objecten, waarbij de prompts worden genegeerd, of genereren ze een achtergrond. Aan de andere kant kan het HD-Painter-kader de doelobjecten succesvol genereren dankzij de implementatie van de PAIntA- en de RASG-componenten in de architectuur.

Slotgedachten

In dit artikel hebben we het over HD-Painter gehad, een trainingsvrije tekstgeleide hoge resolutie inpainting-aanpak die de uitdagingen aanpakt die worden ervaren door bestaande inpainting-kaders, waaronder promptverwaarlozing en nabijgelegen objectdominantie. Het HD-Painter-kader implementeert een Prompt Aware Introverted Attention (PAIntA)-laag, die promptinformatie gebruikt om de zelfaandachtpunten te verbeteren, waardoor betere tekstalignatiegeneratie ontstaat.

Om de coherentie van de prompt verder te verbeteren, introduceert het HD-Painter-model een Reweighting Attention Score Guidance (RASG)-aanpak, die een post-hoc steekproefstrategie integreert in de algemene vorm van de DDIM-component, waardoor uit-distributie latent verschuivingen worden voorkomen. Bovendien introduceert het HD-Painter-kader een gespecialiseerde superresolutietechniek die is aangepast voor inpainting, waardoor het kan worden uitgebreid tot grotere schalen en ontbrekende regio’s in het beeld kan voltooien met resoluties tot 2K.