Inteligență artificială

HD-Painter: Înțălțire de imagine cu ghidare de text de înaltă rezoluție cu modele de difuzie

Publicat 13 februarie 2024

Actualizat 22 mai 2026

Kunal Kejriwal

HD-Painter : High Resolution Text-Guided Image Inpainting with Diffusion Models

Modelele de difuzie au revoluționat cu siguranță industria AI și ML, cu aplicații în timp real devenind o parte integrantă a vieții noastre de zi cu zi. După ce modelele de text-la-imagini au demonstrat capacitățile lor remarcabile, tehnici de manipulare a imaginilor bazate pe difuzie, cum ar fi generarea controlată, sinteza de imagini specializate și personalizate, editarea la nivel de obiect, variațiile condiționate de prompt și editarea, au devenit subiecte de cercetare fierbinți datorită aplicațiilor lor în industria de viziune computerizată.

Cu toate acestea, în ciuda capacităților lor impresionante și a rezultatelor excepționale, cadrele de text-la-imagini, în special cadrele de text-la-înțălțire de imagini, încă au domenii potențiale de dezvoltare. Acestea includ capacitatea de a înțelege scene globale, în special atunci când se denoizează imaginea în timpi de difuzie ridicată. Pentru a aborda această problemă, cercetătorii au introdus HD-Painter, un cadru complet fără antrenament care urmează cu acuratețe instrucțiunile de prompt și se extinde la înțălțirea de imagini de înaltă rezoluție în mod coerent. Cadru HD-Painter folosește un strat de atenție introvertit conștient de prompt (PAIntA), care folosește informații de prompt pentru a îmbunătăți scorurile de auto-atenție, rezultând o generare mai bună de aliniere de text.

Pentru a îmbunătăți și mai mult coerența promptului, modelul HD-Painter introduce o abordare de ghidare a scorului de atenție de reponderare (RASG). Această abordare integrează o strategie de eșantionare post-hoc în forma generală a componentei DDIM, prevenind astfel deplasările latente din distribuție. În plus, cadru HD-Painter prezintă o tehnică specializată de super-rezoluție personalizată pentru înțălțire, care permite extinderea la scară mai mare și completarea regiunilor lipsă din imagine cu rezoluții de până la 2K.

HD-Painter: Înțălțire de imagine ghidată de text

Modelele de difuzie de text-la-imagini au fost cu adevărat un subiect semnificativ în industria AI și ML în ultimele luni, cu modele care demonstrează capacități remarcabile în timp real în diverse aplicații practice. Modelele pre-antrenate de generare de imagini de text, cum ar fi DALL-E, Imagen și Stable Diffusion, au demonstrat potențialul lor pentru completarea imaginilor prin combinarea regiunilor denoizate (generate) cu regiunile cunoscute difuzate în timpul procesului de difuzie inversă. În ciuda producerii de ieșiri vizual atractive și armonizate, modelele existente au dificultăți în înțelegerea scenei globale, în special sub procesul de denoizare cu timp de difuzie ridicat. Prin modificarea modelelor pre-antrenate de text-la-imagini pentru a include informații contextuale suplimentare, acestea pot fi ajustate pentru completarea imaginilor ghidate de text.

În plus, în cadrul modelelor de difuzie, înțălțirea de imagini ghidată de text și completarea imaginilor ghidate de text sunt domenii majore de interes pentru cercetători. Acest interes este determinat de faptul că modelele de înțălțire de imagini ghidate de text pot genera conținut în regiuni specifice ale unei imagini de intrare pe baza unor prompturi textuale, conducând la aplicații potențiale, cum ar fi retușarea unor regiuni specifice ale imaginii, modificarea atributelor subiectului, cum ar fi culorile sau hainele, și adăugarea sau înlocuirea obiectelor. În rezumat, modelele de difuzie de text-la-imagini au atins recent un succes fără precedent, datorită capacităților lor excepțional de realiste și vizual atractive de generare.

Cu toate acestea, majoritatea cadrelor existente demonstrează o neglijare a promptului în două scenarii. Primul este dominanța fondului, atunci când modelul completează regiunea necunoscută ignorând promptul în fundal, în timp ce al doilea scenariu este dominanța obiectului din apropiere, atunci când modelul propagă obiectele din regiunea cunoscută către regiunea necunoscută folosind probabilitatea contextuală a contextului vizual, mai degrabă decât promptul de intrare. Este posibil ca ambele aceste probleme să fie rezultatul capacității modelelor de difuzie de a interpreta promptul textual în mod precis sau de a-l combina cu informațiile contextuale obținute din regiunea cunoscută.

Pentru a aborda aceste obstacole, cadru HD-Painter introduce stratul de atenție introvertit conștient de prompt (PAIntA), care folosește informații de prompt pentru a îmbunătăți scorurile de auto-atenție, ceea ce duce la o generare mai bună de aliniere de text. PAIntA folosește condiționarea textuală dată pentru a îmbunătăți scorul de auto-atenție, cu scopul de a reduce impactul informațiilor ne-relevante pentru prompt din regiunea imaginii, în timp ce crește contribuția pixelilor cunoscuți aliniați cu promptul. Pentru a îmbunătăți și mai mult alinierea textului a rezultatelor generate, cadru HD-Painter implementează o metodă de ghidare post-hoc care folosește scorurile de atenție încrucișate. Cu toate acestea, implementarea mecanismului de ghidare post-hoc poate cauza deplasări latente din distribuție, ca urmare a termenului de gradient suplimentar în ecuația de difuzie. Deplasarea latentă va duce în final la o degradare a calității ieșirii generate. Pentru a aborda această problemă, cadru HD-Painter implementează mecanismul de ghidare a scorului de atenție de reponderare (RASG), o metodă care integrează o strategie de eșantionare post-hoc în forma generală a componentei DDIM, permițând astfel cadru să genereze rezultate de înțălțire de imagini plauzibile din punct de vedere vizual, ghidând eșantionul către latente aliniate cu promptul și menținându-le în domeniul lor de antrenament.

Prin implementarea atât a componentei RASH, cât și a PAIntA în arhitectura sa, cadru HD-Painter deține un avantaj semnificativ față de cadrele existente, inclusiv cele de ultimă generație, de înțălțire de imagini și de difuzie de text-la-imagini, deoarece reușește să rezolve problema existentă de neglijare a promptului. În plus, atât componenta RASH, cât și componenta PAIntA oferă funcționalitate plug-and-play, permițându-le să fie compatibile cu modelele de bază de înțălțire de imagini pentru a aborda provocările menționate mai sus. În plus, prin implementarea unei tehnici de amestecare iterativă în timp și prin valorificarea capacităților modelelor de difuzie de înaltă rezoluție, pipeline-ul HD-Painter poate funcționa eficient pentru înțălțire de imagini de până la 2K de rezoluție.

Pentru a rezuma, HD-Painter își propune să facă următoarele contribuții în domeniu:

Își propune să rezolve problema de neglijare a promptului a fondului și a obiectului din apropiere experimentate de cadrele de înțălțire de imagini ghidate de text prin implementarea stratului de atenție introvertit conștient de prompt (PAIntA) în arhitectura sa.
Își propune să îmbunătățească alinierea textului a ieșirii prin implementarea stratului de ghidare a scorului de atenție de reponderare (RASG) în arhitectura sa, care permite cadru HD-Painter să efectueze eșantionarea ghidată post-hoc, prevenind deplasările latente din distribuție.
Să proiecteze o pipeline de completare de imagini ghidate de text fără antrenament eficientă, care să poată depăși cadrele existente de ultimă generație, și să folosească o tehnică de super-rezoluție specializată pentru înțălțire pentru a efectua înțălțirea de imagini ghidate de text până la o rezoluție de 2K.

HD-Painter: Metodă și Arhitectură

Înainte de a examina arhitectura, este vital să înțelegem cele trei concepte fundamentale care stau la baza cadru HD-Painter: Înțălțire de imagini, Ghidare post-hoc în cadre de difuzie și Blocuri arhitecturale specifice pentru înțălțire.

Înțălțirea de imagini este o abordare care își propune să umple regiunile lipsă dintr-o imagine, asigurând în același timp aspectul vizual al imaginii generate. Cadrele de învățare profundă tradiționale au implementat metode care foloseau regiunile cunoscute pentru a propaga caracteristici profunde. Cu toate acestea, introducerea modelelor de difuzie a condus la evoluția modelelor de înțălțire, în special a cadrelor de înțălțire de imagini ghidate de text. În mod tradițional, un model pre-antrenat de generare de imagini de text înlocuiește regiunea nemascată a latentului prin utilizarea versiunii zgomotoase a regiunii cunoscute în timpul procesului de eșantionare. Deși această abordare funcționează până la un anumit punct, ea degradează calitatea ieșirii generate în mod semnificativ, deoarece rețeaua de denoizare vede doar versiunea zgomotoasă a regiunii cunoscute. Pentru a aborda această barieră, au fost propuse abordări care își propun să ajusteze modelul pre-antrenat de text-la-imagini pentru a obține înțălțirea de imagini ghidate de text. Prin implementarea acestei abordări, cadru este capabil să genereze o mască aleatorie prin concatenare, deoarece modelul poate condiționa rețeaua de denoizare pe regiunea nemascată.

În continuare, modelele de învățare profundă tradiționale au implementat straturi de proiectare specială pentru înțălțirea eficientă, cu unele cadre capabile să extragă informații în mod eficient și să producă imagini vizual atractive prin introducerea unor straturi de convoluție speciale pentru a face față regiunilor cunoscute ale imaginii. Unele cadre au adăugat chiar și un strat de atenție contextuală în arhitectura lor pentru a reduce cerințele computaționale grele și nedorite ale atenției de la toate la toate pentru înțălțirea de înaltă calitate.

În final, metodele de ghidare post-hoc sunt metode de eșantionare a difuziei inverse care ghidează predicția latentă a următorului pas către un obiectiv de minimizare particular. Metodele de ghidare post-hoc sunt de mare ajutor atunci când se generează conținut vizual, în special în prezența unor constrângeri suplimentare. Cu toate acestea, metodele de ghidare post-hoc au o mare dezavantaj: ele sunt cunoscute pentru a duce la degradări ale calității imaginii, deoarece tind să deplaseze procesul de generare a latentului prin un termen de gradient.

Venind la arhitectura HD-Painter, cadru formulează mai întâi problema de completare a imaginilor ghidate de text și introduce apoi două modele de difuzie, și anume Înțălțirea stabilă și Difuzia stabilă. Modelul HD-Painter introduce apoi straturile PAIntA și RASG și, în final, ajungem la tehnica de super-rezoluție specializată pentru înțălțire.

Difuzia stabilă și Înțălțirea stabilă

Difuzia stabilă este un model de difuzie care funcționează în spațiul latent al unui autoencoder. Pentru sinteza de imagini de text, cadru Difuzia stabilă implementează un prompt textual pentru a ghida procesul. Funcția de ghidare are o structură similară cu arhitectura UNet, iar straturile de atenție încrucișată o condiționează pe prompturile textuale. În plus, modelul Difuzia stabilă poate efectua înțălțirea de imagini cu unele modificări și ajustări. Pentru a face acest lucru, caracteristicile imaginii mascate generate de encoder sunt concatenate cu masca binară redusă la latente. Tensorul rezultat este apoi introdus în arhitectura UNet pentru a obține zgomotul estimat. Cadru initializează apoi noile filtre convoluționale cu zero, în timp ce restul arhitecturii UNet este inițializat folosind puncte de control pre-antrenate din modelul Difuzia stabilă.

Figura de mai sus prezintă o vedere de ansamblu a cadru HD-Painter, care constă în două etape. În prima etapă, cadru HD-Painter implementează înțălțirea de imagini ghidate de text, iar în a doua etapă, modelul efectuează înțălțirea super-rezoluției a ieșirii. Pentru a umple regiunile lipsă și a rămâne consecvent cu promptul de intrare, modelul ia un model pre-antrenat de înțălțire de imagini de difuzie, înlocuiește straturile de auto-atenție cu straturi PAIntA și implementează mecanismul RASG pentru a efectua un proces de difuzie inversă. Modelul decodifică apoi latentul estimat final, rezultând o imagine înțălțită. HD-Painter implementează apoi modelul de difuzie stabilă pentru a înțălți imaginea originală la dimensiunea sa inițială și implementează procesul de difuzie inversă a modelului Difuzia stabilă, condiționat de imaginea de intrare de joasă rezoluție. Modelul amestecă apoi predicțiile denoizate cu codarea imaginii originale din regiunea cunoscută, după fiecare pas, și derivă latentul următor. În final, modelul decodifică latentul și implementează amestecarea Poisson pentru a evita artefactele de margine.

Atenția introvertită conștientă de prompt sau PAIntA

Modelele de înțălțire existente, cum ar fi Înțălțirea stabilă, tind să se bazeze mai mult pe contextul vizual din jurul regiunii de înțălțire și să ignore prompturile de intrare. Pe baza experienței utilizatorului, această problemă poate fi împărțită în două categorii: dominația obiectului din apropiere și dominația fondului. Problema dominanței contextului vizual asupra prompturilor de intrare poate fi rezultatul naturii spațiale și lipsite de prompt a straturilor de auto-atenție. Pentru a aborda această problemă, cadru HD-Painter introduce atenția introvertită conștientă de prompt (PAIntA), care folosește matricele de atenție încrucișată și o mască de înțălțire pentru a controla ieșirea straturilor de auto-atenție din regiunea necunoscută.

Componenta de atenție introvertită conștientă de prompt aplică mai întâi straturi de proiecție pentru a obține chei, valori și întrebări, împreună cu matricea de similaritate. Modelul ajustează apoi scorul de atenție al pixelilor cunoscuți pentru a reduce influența puternică a regiunii cunoscute asupra regiunii necunoscute și definește o nouă matrice de similaritate, folosind promptul textual.

Ghidarea scorului de atenție de reponderare sau RASG

Cadru HD-Painter adoptă o metodă de ghidare a eșantionării post-hoc pentru a îmbunătăți și mai mult alinierea generării cu prompturile textuale. Împreună cu o funcție obiectiv, abordarea de ghidare a eșantionării post-hoc își propune să valorifice proprietățile de segmentare deschisă a vocabularului din straturile de atenție încrucișată. Cu toate acestea, această abordare de ghidare post-hoc standard poate avea potențialul de a deplasa domeniul latent de difuzie, ceea ce poate duce la o degradare a calității ieșirii generate. Pentru a aborda această problemă, modelul HD-Painter implementează mecanismul de ghidare a scorului de atenție de reponderare (RASG), care introduce un mecanism de reponderare a gradientului, permițând astfel cadru să genereze rezultate de înțălțire de imagini plauzibile din punct de vedere vizual, ghidând eșantionul către latente aliniate cu promptul și menținându-le în domeniul lor de antrenament.

HD-Painter: Experimente și Rezultate

Pentru a analiza performanța sa, cadru HD-Painter este comparat cu modelele actuale de ultimă generație, inclusiv Înțălțirea stabilă, GLIDE și BLD sau Difuzia latentă amestecată, pe 10.000 de eșantioane aleatorii, unde promptul este selectat ca etichetă a mascăi de instanță selectată.

După cum se poate observa, cadru HD-Painter depășește cadrele existente pe trei metrice diferite cu o marjă semnificativă, în special îmbunătățirea cu 1,5 puncte pe metrica CLIP și diferența de aproximativ 10% în scorul de acuratețe generată față de metodele de ultimă generație.

În continuare, figura de mai jos prezintă o comparație calitativă a cadru HD-Painter cu alte cadre de înțălțire. După cum se poate observa, alte modele de bază reconstruiesc regiunile lipsă din imagine ca o continuare a obiectelor din regiunea cunoscută, ignorând prompturile, sau generează un fond. Pe de altă parte, cadru HD-Painter reușește să genereze obiectele țintă cu succes, datorită implementării componentelor PAIntA și RASG în arhitectura sa.

Gânduri finale

În acest articol, am discutat despre HD-Painter, o abordare de înțălțire de imagini ghidate de text de înaltă rezoluție fără antrenament, care abordează provocările experimentate de cadrele de înțălțire existente, inclusiv neglijarea promptului și dominația obiectului din apropiere și a fondului. Cadru HD-Painter implementează un strat de atenție introvertit conștient de prompt (PAIntA), care folosește informații de prompt pentru a îmbunătăți scorurile de auto-atenție, ceea ce duce la o generare mai bună de aliniere de text.

Pentru a îmbunătăți și mai mult coerența promptului, modelul HD-Painter introduce o abordare de ghidare a scorului de atenție de reponderare (RASG), care integrează o strategie de eșantionare post-hoc în forma generală a componentei DDIM, prevenind astfel deplasările latente din distribuție. În plus, cadru HD-Painter introduce o tehnică specializată de super-rezoluție personalizată pentru înțălțire, care permite extinderea la scară mai mare și completarea regiunilor lipsă din imagine cu rezoluții de până la 2K.