Connect with us

Inteligență artificială

HD-Painter: Înlocuire de imagini cu rezoluție ridicată, ghidată de text, cu modele de difuzie

mm
HD-Painter : High Resolution Text-Guided Image Inpainting with Diffusion Models

Modelele de difuzie au revoluționat, fără îndoială, industria AI și ML, cu aplicații în timp real devenind o parte integrantă a vieții noastre de zi cu zi. După ce modelele text-imagini au demonstrat capacitățile lor remarcabile, tehnici de manipulare a imaginilor bazate pe difuzie, cum ar fi generarea controlabilă, sinteza de imagini specializate și personalizate, editarea la nivel de obiect, variațiile condiționate de prompt și editarea, au devenit subiecte de cercetare fierbinți datorită aplicațiilor lor în industria viziunii computaționale.

Cu toate acestea, în ciuda capacităților lor impresionante și a rezultatelor excepționale, cadrele text-imagini, în special cadrele text-imagini de înlocuire, încă au domenii potențiale de dezvoltare. Acestea includ capacitatea de a înțelege scene globale, în special atunci când se curăță imaginea în timpul difuziei de înaltă rezoluție. Pentru a aborda această problemă, cercetătorii au introdus HD-Painter, un cadru complet fără antrenament care urmează cu acuratețe instrucțiunile de prompt și se extinde la înlocuirea de imagini de înaltă rezoluție în mod coerent. Cadru HD-Painter folosește un strat de atenție introvertit conștient de prompt (PAIntA), care folosește informații de prompt pentru a îmbunătăți scorurile de auto-atenție, ceea ce duce la o generare mai bună a alinierii textului.

Pentru a îmbunătăți și mai mult coerența promptului, modelul HD-Painter introduce o abordare de ghidare a scorului de atenție de reponderare (RASG). Această abordare integrează o strategie de eșantionare post-hoc în forma generală a componentei DDIM, prevenind astfel deplasările latente în afara distribuției. În plus, cadru HD-Painter prezintă o tehnică specializată de superraționare concepută special pentru înlocuire, care îi permite să se extindă la scară mai mare și să completeze regiunile lipsă din imagine cu rezoluții de până la 2K.

HD-Painter: Înlocuire de imagini ghidată de text

Modelele de difuzie text-imagini au fost, într-adevăr, un subiect semnificativ în industria AI și ML în ultimele luni, cu modele care demonstrează capacități impresionante în timp real în diverse aplicații practice. Modelele pre-antrenate de generare text-imagini, cum ar fi DALL-E, Imagen și Stable Diffusion, au demonstrat potențialul lor pentru completarea imaginilor prin combinarea regiunilor necunoscute denoisate cu regiunile cunoscute difuzate în timpul procesului de difuzie inversă. În ciuda faptului că produc ieșiri vizual atractive și armonizate, modelele existente au dificultăți în a înțelege scena globală, în special sub procesul de curățare a difuziei de înaltă rezoluție. Prin modificarea modelelor pre-antrenate de difuzie text-imagini pentru a include informații contextuale suplimentare, acestea pot fi ajustate pentru completarea imaginilor ghidată de text.

Mai mult, în cadrul modelelor de difuzie, completarea imaginilor ghidată de text și completarea imaginilor ghidată de text sunt domenii majore de interes pentru cercetători. Acest interes este generat de faptul că modelele de completare a imaginilor ghidate de text pot genera conținut în regiuni specifice ale unei imagini de intrare pe baza de prompturi textuale, ceea ce conduce la aplicații potențiale, cum ar fi retușarea unor regiuni specifice ale imaginii, modificarea atributelor subiectului, cum ar fi culorile sau hainele, și adăugarea sau înlocuirea obiectelor. În rezumat, modelele de difuzie text-imagini au atins recent un succes fără precedent, datorită capacităților lor excepțional de realiste și vizual atractive de generare.

Cu toate acestea, majoritatea cadrelor existente demonstrează o neglijare a promptului în două scenarii. Primul este dominanța fondului, atunci când modelul completează regiunea necunoscută ignorând promptul în fond, în timp ce al doilea scenariu este dominanța obiectului din apropiere, atunci când modelul propagă obiectele din regiunea cunoscută către regiunea necunoscută, folosind probabilitatea contextuală vizuală, mai degrabă decât promptul de intrare. Este posibil ca ambele aceste probleme să fie rezultatul capacității modelelor de difuzie de a interpreta promptul textual în mod precis sau de a-l combina cu informațiile contextuale obținute din regiunea cunoscută.

Pentru a aborda aceste obstacole, cadru HD-Painter introduce stratul de atenție introvertit conștient de prompt (PAIntA), care folosește informații de prompt pentru a îmbunătăți scorurile de auto-atenție, ceea ce duce la o generare mai bună a alinierii textului. PAIntA folosește condiționarea textuală dată pentru a îmbunătăți scorul de auto-atenție, cu scopul de a reduce impactul informațiilor ne-relevante pentru prompt din regiunea imaginii, în timp ce crește contribuția pixelilor cunoscuți aliniați cu promptul. Pentru a îmbunătăți și mai mult alinierea textului a rezultatelor generate, cadru HD-Painter implementează o metodă de ghidare post-hoc care folosește scorurile de atenție încrucișate. Cu toate acestea, implementarea mecanismului de ghidare post-hoc poate cauza deplasări latente în afara distribuției, ca urmare a termenului de gradient suplimentar în ecuația de difuzie. Deplasarea în afara distribuției va duce, în cele din urmă, la o degradare a calității ieșirii generate. Pentru a aborda această problemă, cadru HD-Painter implementează o abordare de ghidare a scorului de atenție de reponderare (RASG), care integrează o strategie de eșantionare post-hoc în forma generală a componentei DDIM, permițând astfel modelului să genereze rezultate de înlocuire vizual plauzibile, ghidând eșantionul către latentele aliniate cu promptul și conținându-le în domeniul lor antrenat.

Prin implementarea ambelor componente RASH și PAIntA în arhitectura sa, cadru HD-Painter deține un avantaj semnificativ față de cadrele existente, inclusiv cadrele de ultimă generație, de înlocuire și de difuzie text-imagini, deoarece reușește să rezolve problema existentă de neglijare a promptului. În plus, ambele componente RASH și PAIntA oferă funcționalitate plug-and-play, permițându-le să fie compatibile cu modelele de difuzie bazate pe înlocuire pentru a aborda provocările menționate mai sus. În plus, prin implementarea unei tehnologii de amestecare iterativă în timp și prin valorificarea capacităților modelelor de difuzie de înaltă rezoluție, pipeline-ul HD-Painter poate funcționa eficient pentru înlocuirea de imagini de până la 2K de rezoluție.

Pentru a rezuma, HD-Painter își propune să facă următoarele contribuții în domeniu:

  1. Își propune să rezolve problema de neglijare a promptului a fondului și a dominanței obiectului din apropiere experimentate de cadrele de înlocuire de imagini ghidate de text, prin implementarea stratului de atenție introvertit conștient de prompt (PAIntA) în arhitectura sa.
  2. Își propune să îmbunătățească alinierea textului a ieșirii prin implementarea stratului de ghidare a scorului de atenție de reponderare (RASG) în arhitectura sa, care permite cadru HD-Painter să efectueze eșantionarea ghidată post-hoc, prevenind astfel deplasările latente în afara distribuției.
  3. Să proiecteze o pipeline de completare a imaginilor ghidată de text, fără antrenament, care să poată depăși cadrele existente de ultimă generație și să folosească o tehnică de superraționare specializată pentru înlocuire, pentru a efectua înlocuirea de imagini ghidată de text de până la 2K de rezoluție.

HD-Painter: Metodă și Arhitectură

Înainte de a examina arhitectura, este esențial să înțelegem cele trei concepte fundamentale care stau la baza cadru HD-Painter: Înlocuirea de imagini, Ghidarea post-hoc în cadrele de difuzie și Blocuri arhitecturale specifice pentru înlocuire.

Înlocuirea de imagini este o abordare care își propune să umple regiunile lipsă dintr-o imagine, asigurând în același timp aspectul vizual al imaginii generate. Cadrele de învățare profundă tradiționale au implementat metode care foloseau regiunile cunoscute pentru a propaga caracteristici profunde. Cu toate acestea, introducerea modelelor de difuzie a condus la evoluția modelelor de înlocuire, în special a cadrelor de înlocuire de imagini ghidate de text. În mod tradițional, un model de difuzie text-imagini pre-antrenat înlocuiește regiunea nemascată a latentului prin utilizarea versiunii zgomotoase a regiunii cunoscute în timpul procesului de eșantionare. Deși această abordare funcționează până la un anumit punct, ea degradează calitatea ieșirii generate în mod semnificativ, deoarece rețeaua de curățare vede doar versiunea zgomotoasă a regiunii cunoscute.

În continuare, modelele de învățare profundă tradiționale au implementat straturi de proiectare specială pentru înlocuirea eficientă, unele cadre fiind capabile să extragă informații în mod eficient și să producă imagini vizual atractive prin introducerea unor straturi de convoluție speciale pentru a face față regiunilor cunoscute ale imaginii. Unele cadre au adăugat chiar și un strat de atenție contextuală în arhitectura lor pentru a reduce cerințele computaționale grele și ne dorite ale atenției de la toate la toate pentru înlocuirea de înaltă calitate.

În final, metodele de ghidare post-hoc sunt metode de eșantionare a difuziei inverse care ghidează predicția latentă a următorului pas către un obiectiv de minimizare a funcției. Metodele de ghidare post-hoc sunt de mare ajutor atunci când se generează conținut vizual, în special în prezența unor constrângeri suplimentare. Cu toate acestea, metodele de ghidare post-hoc au un dezavantaj major: ele sunt cunoscute pentru a duce la degradări ale calității imaginii, deoarece tind să deplaseze procesul de generare a latentului printr-un termen de gradient.

Trecând la arhitectura HD-Painter, cadru formează mai întâi problema de completare a imaginilor ghidată de text și introduce apoi două modele de difuzie, și anume Stable Inpainting și Stable Diffusion. Modelul HD-Painter introduce apoi straturile PAIntA și RASG și, în final, ajungem la tehnica de superraționare specializată pentru înlocuire.

Stable Diffusion și Stable Inpainting

Stable Diffusion este un model de difuzie care funcționează în spațiul latent al unui autoencoder. Pentru sinteza text-imagini, cadru Stable Diffusion implementează un prompt textual pentru a ghida procesul. Funcția de ghidare are o structură similară cu arhitectura UNet, iar straturile de atenție încrucișată o condiționează pe prompturile textuale. În plus, modelul Stable Diffusion poate efectua înlocuirea de imagini cu unele modificări și ajustări. Pentru a realiza acest lucru, caracteristicile imaginii mascate generate de encoder sunt concatenate cu masca binară redusă la latente. Tensorul rezultat este apoi introdus în arhitectura UNet pentru a obține zgomotul estimat.

Figura de mai sus prezintă o vedere de ansamblu a cadru HD-Painter, care constă în două etape. În prima etapă, cadru HD-Painter implementează pictura de imagini ghidată de text, în timp ce în a doua etapă, modelul efectuează înlocuirea de imagini cu rezoluție superioară a ieșirii. Pentru a umple regiunile lipsă și pentru a rămâne consecvent cu promptul de intrare, modelul ia un model de difuzie de înlocuire pre-antrenat, înlocuiește straturile de auto-atenție cu straturi PAIntA și implementează mecanismul RASG pentru a efectua un proces de difuzie inversă. Modelul decodifică apoi latentul estimat final, rezultând o imagine înlocuită. HD-Painter implementează apoi modelul de difuzie stabilă pentru a înlocui imaginea la dimensiunea originală și implementează procesul de difuzie inversă a cadru Stable Diffusion, condiționat de imaginea de intrare de joasă rezoluție. Modelul amestecă predicțiile curățate cu codarea imaginii originale după fiecare pas în regiunea cunoscută și derivă latentul următor. În final, modelul decodifică latentul și implementează amestecarea Poisson pentru a evita artefactele de margine.

Atenție introvertită conștientă de prompt sau PAIntA

Modelele de înlocuire existente, cum ar fi Stable Inpainting, tind să se bazeze mai mult pe contextul vizual din jurul zonei de înlocuire și să ignore prompturile de intrare ale utilizatorului. Pe baza experienței utilizatorului, această problemă poate fi încadrată în două categorii: dominanța obiectului din apropiere și dominanța fondului. Problema dominanței contextului vizual asupra prompturilor de intrare poate fi rezultatul naturii spațiale și lipsite de prompt a straturilor de auto-atenție. Pentru a aborda această problemă, cadru HD-Painter introduce atenția introvertită conștientă de prompt (PAIntA), care folosește matricele de atenție încrucișate și o mască de înlocuire pentru a controla ieșirea straturilor de auto-atenție în regiunea necunoscută.

Componenta de atenție introvertită conștientă de prompt aplică mai întâi straturi de proiecție pentru a obține chei, valori și întrebări, împreună cu matricea de similaritate. Modelul ajustează apoi scorul de atenție al pixelilor cunoscuți pentru a mitiga influența puternică a regiunii cunoscute asupra regiunii necunoscute și definește o nouă matrice de similaritate, folosind promptul textual.

Ghidarea scorului de atenție de reponderare sau RASG

Cadru HD-Painter adoptă o abordare de eșantionare ghidată post-hoc pentru a îmbunătăți și mai mult alinierea generării cu prompturile textuale. Împreună cu o funcție obiectiv, abordarea de eșantionare ghidată post-hoc își propune să valorifice proprietățile de segmentare deschisă a vocabularului din straturile de atenție încrucișată. Cu toate acestea, această abordare de ghidare post-hoc standard poate deplasa domeniul latent de difuzie, ceea ce poate degrada calitatea imaginii generate. Pentru a aborda această problemă, modelul HD-Painter implementează mecanismul de ghidare a scorului de atenție de reponderare (RASG), care introduce un mecanism de reponderare a gradientului, rezultând conservarea domeniului latent.

HD-Painter: Experimente și Rezultate

Pentru a analiza performanța sa, cadru HD-Painter este comparat cu modelele actuale de ultimă generație, inclusiv Stable Inpainting, GLIDE și BLD sau Blended Latent Diffusion, pe 10000 de eșantioane aleatorii, unde promptul este selectat ca eticheta instanței mascate.

Așa cum se poate observa, cadru HD-Painter depășește cadrele existente pe trei metrice diferite, cu o marjă semnificativă, în special îmbunătățirea cu 1,5 puncte pe metrica CLIP și diferența de aproximativ 10% în scorul de acuratețe generat față de metodele de ultimă generație.

În continuare, figura de mai jos prezintă o comparație calitativă a cadru HD-Painter cu alte cadre de înlocuire. Așa cum se poate observa, alte modele de bază reconstruiesc regiunile lipsă din imagine fie ca o continuare a obiectelor din regiunea cunoscută, ignorând prompturile, fie generează un fond. Pe de altă parte, cadru HD-Painter reușește să genereze obiectele țintă cu succes, datorită implementării componentelor PAIntA și RASG în arhitectura sa.

Gânduri finale

În acest articol, am discutat despre HD-Painter, o abordare de înlocuire de imagini ghidată de text, fără antrenament, de înaltă rezoluție, care abordează provocările experimentate de cadrele de înlocuire existente, inclusiv neglijarea promptului și dominanța obiectului din apropiere și a fondului. Cadru HD-Painter implementează un strat de atenție introvertit conștient de prompt (PAIntA), care folosește informații de prompt pentru a îmbunătăți scorurile de auto-atenție, ceea ce duce la o generare mai bună a alinierii textului.

Pentru a îmbunătăți și mai mult coerența promptului, modelul HD-Painter introduce o abordare de ghidare a scorului de atenție de reponderare (RASG), care integrează o strategie de eșantionare post-hoc în forma generală a componentei DDIM, prevenind astfel deplasările latente în afara distribuției. În plus, cadru HD-Painter introduce o tehnică specializată de superraționare concepută special pentru înlocuire, care permite cadru HD-Painter să se extindă la scară mai mare și să completeze regiunile lipsă din imagine cu rezoluții de până la 2K.

"Un inginer de profesie, un scriitor din inimă". Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a inteligenței artificiale și a învățării automate, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.