Conectează-te cu noi

Inteligența artificială

HD-Painter: Înaltă rezoluție, imagine ghidată de text cu modele de difuzie

mm
HD-Painter: Înaltă rezoluție, imagine ghidată de text cu modele de difuzie

Modele de difuzie au revoluționat fără îndoială industria AI și ML, aplicațiile lor în timp real devenind o parte integrantă a vieții noastre de zi cu zi. După ce modelele text-to-image și-au arătat abilitățile remarcabile, tehnicile de manipulare a imaginilor bazate pe difuzie, cum ar fi generarea controlabilă, sinteza de imagini specializate și personalizate, editarea imaginilor la nivel de obiect, variațiile prompte condiționate și editarea, au apărut ca subiecte de cercetare fierbinți datorită la aplicațiile lor în industria viziunii computerizate.

Cu toate acestea, în ciuda capabilităților lor impresionante și a rezultatelor excepționale, cadrele text-to-image, în special cadrele text-to-image inpainting, au încă zone potențiale de dezvoltare. Acestea includ capacitatea de a înțelege scenele globale, în special atunci când se reduce zgomotul imaginii în intervale de difuzie ridicată. Rezolvând această problemă, cercetătorii au introdus HD-Painter, un cadru complet fără antrenament, care urmează cu acuratețe instrucțiunile prompte și scala la imaginea de înaltă rezoluție în mod coerent. Cadrul HD-Painter folosește un strat Prompt Aware Introverted Attention (PAIntA), care folosește informații prompte pentru a îmbunătăți scorurile de autoatenție, rezultând o generare mai bună de aliniere a textului.

Pentru a îmbunătăți și mai mult coerența promptului, modelul HD-Painter introduce o abordare RASG (Reweighting Attention Score Guidance). Această abordare integrează o strategie de eșantionare post-hoc în forma generală a componentei DDIM fără probleme, prevenind schimbările latente în afara distribuției. În plus, cadrul HD-Painter prezintă o tehnică specializată de super-rezoluție personalizată pentru pictură, permițându-i să se extindă la scale mai mari și să completeze regiunile lipsă din imagine cu rezoluții de până la 2K.

HD-Painter: Inpainting cu imagini ghidate de text

Modelele de difuzare text-to-image au fost într-adevăr un subiect semnificativ în industria AI și ML în ultimele luni, modelele care demonstrează capabilități impresionante în timp real în diverse aplicații practice. Modelele de generare text-to-imagine pre-antrenate, cum ar fi DALL-E, Imagen și Stable Diffusion, și-au demonstrat adecvarea pentru completarea imaginii prin îmbinarea regiunilor necunoscute dezgomotate (generate) cu regiuni cunoscute difuze în timpul procesului de difuzie înapoi. În ciuda faptului că produc rezultate atrăgătoare din punct de vedere vizual și bine armonizate, modelele existente se luptă să înțeleagă scena globală, în special în cadrul procesului de dezgomot cu interval de difuzie ridicat. Prin modificarea modelelor de difuzare text-la-imagine pre-antrenate pentru a încorpora informații suplimentare de context, acestea pot fi reglate fin pentru completarea imaginilor ghidate de text.

Mai mult, în cadrul modelelor de difuzie, pictura în interior ghidată de text și completarea imaginilor ghidate de text sunt domenii majore de interes pentru cercetători. Acest interes este determinat de faptul că modelele de pictură ghidate de text pot genera conținut în anumite regiuni ale unei imagini de intrare pe baza solicitărilor textuale, ceea ce duce la potențiale aplicații, cum ar fi retușarea anumitor regiuni ale imaginii, modificarea atributelor subiectului precum culorile sau hainele și adăugarea sau înlocuirea obiectelor. Pe scurt, modelele de difuzare text-to-image au obținut recent un succes fără precedent, datorită capacităților lor de generare excepțional de realiste și atrăgătoare din punct de vedere vizual.

Cu toate acestea, majoritatea cadrelor existente demonstrează neglijarea promptă în două scenarii. Primul este Dominanța de fundal când modelul completează regiunea necunoscută ignorând promptul din fundal, în timp ce al doilea scenariu este dominanța obiectului din apropiere când modelul propagă obiectele regiunii cunoscute în regiunea necunoscută folosind probabilitatea contextului vizual mai degrabă decât promptul de intrare. Este posibil ca ambele probleme să fie un rezultat al capacității difuziei de vanilie în pictura de a interpreta promptul textual cu precizie sau de a-l amesteca cu informațiile contextuale obținute din regiunea cunoscută. 

Pentru a rezolva aceste obstacole, cadrul HD-Painter introduce stratul Prompt Aware Introverted Attention sau PAIntA, care utilizează informații prompte pentru a îmbunătăți scorurile de autoatenție, ceea ce are ca rezultat o generare mai bună de aliniere a textului. PAIntA folosește condiționarea textuală dată pentru a îmbunătăți atenție de sine scor cu scopul de a reduce impactul informațiilor relevante non-prompt din regiunea imaginii, crescând în același timp contribuția pixelilor cunoscuți aliniați cu promptul. Pentru a îmbunătăți și mai mult alinierea textului rezultatelor generate, cadrul HD-Painter implementează o metodă de ghidare post-hoc care valorifică scorurile de atenție încrucișată. Cu toate acestea, implementarea mecanismului de ghidare post-hoc vanilie ar putea cauza schimbări în afara distribuției ca urmare a termenului de gradient suplimentar în ecuația de difuzie. Schimbarea în afara distribuției va duce în cele din urmă la degradarea calității producției generate. Pentru a rezolva acest obstacol, cadrul HD-Painter implementează un Reweighting Attention Score Guidance sau RASG, o metodă care integrează fără probleme o strategie de eșantionare post-hoc în forma generală a componentei DDIM. Permite cadrului să genereze rezultate de pictură plauzibile din punct de vedere vizual prin ghidarea eșantionului către latentele aliniate prompt și să le conțină în domeniul lor antrenat.

Prin implementarea atât a componentelor RASH, cât și a PAIntA în arhitectura sa, cadrul HD-Painter deține un avantaj semnificativ față de modelele existente, inclusiv cele de ultimă generație, inpainting și difuzare text la imagine, deoarece reușește să rezolve problema existentă a neglijării prompte. În plus, atât componentele RASH, cât și PAIntA oferă funcționalitate plug and play, permițându-le să fie compatibile cu modelele de vopsire pe bază de difuzie pentru a face față provocărilor menționate mai sus. În plus, prin implementarea unei tehnologii de amestecare iterativă în timp și prin valorificarea capacităților modele de difuzie de înaltă rezoluție, conducta HD-Painter poate funcționa eficient pentru o rezoluție de până la 2K în vopsire. 

Pentru a rezuma, HD-Painter își propune să aducă următoarele contribuții în domeniu:

  1. Acesta își propune să rezolve problema neglijării prompte a fundalului și a dominanței obiectelor din apropiere experimentată de cadrele de pictare a imaginilor ghidate de text prin implementarea stratului Prompt Aware Introverted Attention sau PAIntA în arhitectura sa. 
  2. Acesta își propune să îmbunătățească alinierea textului ieșirii prin implementarea stratului Reweighting Score Guidance sau RASG în arhitectura sa, care permite cadrului HD-Painter să efectueze eșantionare ghidată post-hoc, prevenind în același timp distribuțiile în afara schimburilor. 
  3. Pentru a proiecta o conductă eficientă de completare a imaginilor ghidate de text, fără antrenament, capabilă să depășească cadrele existente de ultimă generație și să utilizeze cadrul de super-rezoluție specializat în inpainting simplu, dar eficient, pentru a realiza imagini ghidate de text cu rezoluție de până la 2K. 

HD-Painter: Metodă și Arhitectură

Înainte de a arunca o privire asupra arhitecturii, este vital să înțelegem cele trei concepte fundamentale care formează fundamentul cadrului HD-Painter: Image Inpainting, Ghid post-hoc în cadre de difuzare, și Inpainting blocuri arhitecturale specifice. 

Image Inpainting este o abordare care urmărește să umple regiunile lipsă dintr-o imagine, asigurând în același timp atractivitatea vizuală a imaginii generate. Cadrele tradiționale de învățare profundă au implementat metode care au folosit regiuni cunoscute pentru a propaga caracteristici profunde. Cu toate acestea, introducerea modelelor de difuzie a dus la evoluția modelelor de inpainting, în special a cadrelor de inpainting cu imagini ghidate de text. În mod tradițional, un model de difuzare text la imagine pre-antrenat înlocuiește regiunea nemascata a latentului prin utilizarea versiunii zgomote a regiunii cunoscute în timpul procesului de eșantionare. Deși această abordare funcționează într-o anumită măsură, degradează semnificativ calitatea ieșirii generate, deoarece rețeaua de dezgomot vede doar versiunea zgomotată a regiunii cunoscute. Pentru a rezolva acest obstacol, câteva abordări au vizat ajustarea fină a modelului de text la imagine pre-antrenat pentru a obține imaginea ghidată de text în pictură. Prin implementarea acestei abordări, cadrul este capabil să genereze o mască aleatorie prin concatenare, deoarece modelul este capabil să condiționeze cadrul de dezgomot pe regiunea nemascata. 

Mergând de-a lungul, modelele tradiționale de învățare profundă au implementat straturi speciale de design pentru o pictură eficientă, unele cadre fiind capabile să extragă informații în mod eficient și să producă imagini atractive din punct de vedere vizual prin introducerea de straturi speciale de convoluție pentru a face față regiunilor cunoscute ale imaginii. Unele cadre au adăugat chiar și un strat de atenție contextuală în arhitectura lor pentru a reduce cerințele de calcul grele nedorite ale tuturor la atenția personală pentru pictura de înaltă calitate. 

În cele din urmă, metodele de ghidare post-hoc sunt metode de eșantionare cu difuzie inversă care ghidează următorul pas predicția latentă către un anumit obiectiv de minimizare a funcției. Metodele de îndrumare post-hoc sunt de mare ajutor atunci când vine vorba de generarea de conținut vizual mai ales în prezența unor constrângeri suplimentare. Cu toate acestea, metodele de ghidare post-hoc au un dezavantaj major: se știe că duc la degradarea calității imaginii, deoarece tind să modifice procesul de generare latentă cu un termen de gradient. 

Venind la arhitectura HD-Painter, cadrul formulează mai întâi problema completării imaginii ghidate de text, apoi introduce două modele de difuzie și anume Stable Inpainting și Difuzie stabilă. Modelul HD-Painter introduce apoi blocurile PAIntA și RASG, iar în final ajungem la tehnica de super rezoluție specifică inpainting-ului. 

Difuziune stabilă și pictură stabilă

Stable Diffusion este un model de difuzie care funcționează în spațiul latent al unui autoencoder. Pentru sinteza text în imagine, cadrul Stable Diffusion implementează un prompt textual pentru a ghida procesul. Funcția de ghidare are o structură similară cu arhitectura UNet, iar straturile de atenție încrucișată o condiționează pe prompturile textuale. În plus, modelul Stable Diffusion poate efectua pictura în interiorul imaginii cu unele modificări și reglaj fin. Pentru a realiza acest lucru, caracteristicile imaginii mascate generate de codificator sunt concatenate cu masca binară redusă la latente. Tensorul rezultat este apoi introdus în arhitectura UNet pentru a obține zgomotul estimat. Cadrul inițializează apoi filtrele convoluționale nou adăugate cu zerouri, în timp ce restul UNet-ului este inițializat folosind puncte de control pre-antrenate din modelul Stable Diffusion. 

Figura de mai sus demonstrează imaginea de ansamblu a cadrului HD-Painter constând din două etape. În prima etapă, cadrul HD-Painter implementează pictura de imagini ghidată de text, în timp ce în a doua etapă, modelul are o super-rezoluție specifică a rezultatului. Pentru a completa regiunile misiunii și pentru a rămâne în concordanță cu promptul de intrare, modelul ia un model de difuzie în pictură pre-antrenat, înlocuiește straturile de auto-atenție cu straturi PAIntA și implementează mecanismul RASG pentru a efectua un proces de difuzie înapoi. Modelul decodifică apoi ultima estimare latentă, rezultând o imagine încorporată. HD-Painter implementează apoi modelul de difuzie super stabilă pentru a picta imaginea cu dimensiunea originală și implementează procesul de difuzie înapoi al cadrului de difuzie stabilă condiționat de imaginea de intrare cu rezoluție joasă. Modelul îmbină predicțiile cu dezgomot cu codificarea imaginii originale după fiecare pas în regiunea cunoscută și derivă următoarea latentă. În cele din urmă, modelul decodifică latentul și implementează amestecarea Poisson pentru a evita artefactele de margine. 

Prompt Aware Introvertited Attention sau PAintA

Modelele de inpainting existente, cum ar fi Stable Inpainting, tind să se bazeze mai mult pe contextul vizual din jurul zonei de inpainting și să ignore solicitările introduse de utilizator. Pe baza experienței utilizatorului, această problemă poate fi clasificată în două clase: dominanța obiectului din apropiere și dominarea fundalului. Problema dominantă a contextului vizual asupra solicitărilor de intrare ar putea fi rezultatul naturii doar spațiale și fără prompte a straturilor de autoatenție. Pentru a rezolva această problemă, cadrul HD-Painter introduce Prompt Aware Introverted Attention sau PAIntA care utilizează matrice de atenție încrucișată și o mască de pictură pentru a controla rezultatul straturilor de autoatenție în regiunea necunoscută. 

Componenta Prompt Aware Introverted Attention aplică mai întâi straturi de proiecție pentru a obține cheia, valorile și interogările împreună cu matricea de similaritate. Modelul ajustează apoi scorul de atenție al pixelilor cunoscuți pentru a atenua influența puternică a regiunii cunoscute asupra regiunii necunoscute și definește o nouă matrice de similitudine prin folosirea promptului textual. 

Reponderare Atenție Score Orientare sau RASG

Cadrul HD-Painter adoptă o metodă de ghidare de eșantionare post-hoc pentru a îmbunătăți și mai mult alinierea generației cu instrucțiunile textuale. Alături de o funcție obiectivă, abordarea de ghidare a eșantionării post-hoc își propune să valorifice proprietățile de segmentare a vocabularului deschis ale straturilor de atenție încrucișată. Cu toate acestea, această abordare a ghidării post-hoc de vanilie are potențialul de a schimba domeniul de difuzie latent care ar putea degrada calitatea imaginii generate. Pentru a rezolva această problemă, modelul HD-Painter implementează Reponderarea Atenției Score Guidance sau mecanismul RASG care introduce un mecanism de reponderare a gradientului care are ca rezultat păstrarea domeniului latent. 

HD-Painter: Experimente și rezultate

Pentru a-și analiza performanța, cadrul HD-Painter este comparat cu modelele actuale de ultimă generație, inclusiv Stable Inpainting, GLIDE și BLD sau Blended Latent Diffusion, peste 10000 de mostre aleatorii în care promptul este selectat ca etichetă a măștii de instanță selectată. 

După cum se poate observa, cadrul HD-Painter depășește cadrele existente pe trei metrici diferite cu o marjă semnificativă, în special îmbunătățirea cu 1.5 puncte a metricii CLIP și diferența de scor de precizie generat de aproximativ 10% față de alte metode de ultimă generație. . 

În continuare, figura următoare demonstrează comparația calitativă a cadrului HD-Painter cu alte cadre de pictură. După cum se poate observa, alte modele de bază fie reconstruiesc regiunile lipsă din imagine ca o continuare a obiectelor regiunii cunoscute, ignorând solicitările, fie generează un fundal. Pe de altă parte, cadrul HD-Painter este capabil să genereze cu succes obiectele țintă datorită implementării componentelor PAIntA și RASG în arhitectura sa. 

Gânduri finale

În acest articol, am vorbit despre HD-Painter, o abordare de înaltă rezoluție, ghidată de text gratuit, care abordează provocările cu care se confruntă cadrele de inpainting existente, inclusiv neglijarea promptă și dominarea obiectelor din apropiere și din fundal. Cadrul HD-Painter implementează un strat Prompt Aware Introverted Attention sau PAIntA, care utilizează informații prompte pentru a îmbunătăți scorurile de autoatenție, ceea ce are ca rezultat o generare mai bună de aliniere a textului. 

Pentru a îmbunătăți și mai mult coerența promptului, modelul HD-Painter introduce o abordare de Reponderare a punctajului de atenție sau RASG care integrează o strategie de eșantionare post-hoc în forma generală a componentei DDIM pentru a preveni schimbările latente în afara distribuției. În plus, cadrul HD-Painter introduce o tehnică specializată de super-rezoluție personalizată pentru pictură, care are ca rezultat extinderea la scări mai mari și permite cadrului HD-Painter să completeze regiunile lipsă din imagine cu rezoluție de până la 2K.

„Un inginer de profesie, un scriitor pe de rost”. Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a AI și ML, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.