Refresh

This website www.unite.ai/ro/ghidare-de-autoaten%C8%9Bie-%C3%AEmbun%C4%83t%C4%83%C8%9Bind-calitatea-e%C8%99antionului-modelelor-de-difuzie/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

ciot Ghid de auto-atenție: Îmbunătățirea calității eșantionului de modele de difuzie - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

Ghid de auto-atenție: îmbunătățirea calității eșantionului de modele de difuzie

mm
Actualizat on
Ghid de auto-atenție: îmbunătățirea calității eșantionului de modele de difuzie

Modelele de difuzie pentru eliminarea zgomotului sunt cadre AI generative care sintetizează imagini din zgomot printr-un proces iterativ de eliminare a zgomotului. Ele sunt celebrate pentru capacitățile și diversitatea lor excepționale de generare de imagini, atribuite în mare măsură metodelor de ghidare condiționată de text sau de clasă, inclusiv ghidare pentru clasificare și ghidare fără clasificator. Aceste modele au avut un succes deosebit în crearea de imagini diverse, de înaltă calitate. Studii recente au arătat că tehnicile de ghidare, cum ar fi legendele și etichetele de clasă, joacă un rol crucial în îmbunătățirea calității imaginilor pe care aceste modele le generează.

Cu toate acestea, modelele de difuzie și metodele de ghidare se confruntă cu limitări în anumite condiții externe. Metoda Clasifier-Free Guidance (CFG), care folosește eliminarea etichetelor, adaugă complexitate procesului de formare, în timp ce metoda Classifier Guidance (CG) necesită o pregătire suplimentară a clasificatorului. Ambele metode sunt oarecum limitate de dependența lor de condițiile externe câștigate cu greu, limitându-le potențialul și limitându-le la setări condiționate.

Pentru a aborda aceste limitări, dezvoltatorii au formulat o abordare mai generală a ghidării difuzării, cunoscută sub numele de Self-Attention Guidance (SAG). Această metodă folosește informațiile din eșantioane intermediare de modele de difuzie pentru a genera imagini. Vom explora SAG în acest articol, discutând despre funcționarea, metodologia și rezultatele acestuia în comparație cu cadrele și conductele actuale de ultimă generație.

Ghid de auto-atenție: îmbunătățirea calității eșantionului de modele de difuzie

Modelele de difuzie de dezgomot (DDM) au câștigat popularitate pentru capacitatea lor de a crea imagini din zgomot printr-un proces iterativ de eliminare a zgomotului. Performanța de sinteză a imaginilor a acestor modele se datorează în mare măsură metodelor de ghidare a difuziei utilizate. În ciuda punctelor lor forte, modelele de difuzie și metodele bazate pe ghidare se confruntă cu provocări precum complexitate suplimentară și costuri de calcul crescute.

Pentru a depăși limitările actuale, dezvoltatorii au introdus metoda Self-Attention Guidance, o formulare mai generală a ghidării difuzării care nu se bazează pe informațiile externe din ghidarea difuziei, facilitând astfel o abordare flexibilă și lipsită de condiții pentru ghidare. cadre de difuzie. Abordarea optată de Self-Attention Guidance ajută în cele din urmă la îmbunătățirea aplicabilității metodelor tradiționale de difuzie-ghidare la cazurile cu sau fără cerințe externe. 

Îndrumarea auto-atenției se bazează pe principiul simplu al formulării generalizate și pe presupunerea că informațiile interne conținute în eșantioanele intermediare pot servi și ca ghid. Pe baza acestui principiu, metoda SAG introduce mai întâi Blur Guidance, o soluție simplă și simplă pentru îmbunătățirea calității probei. Ghidarea încețoșării își propune să exploateze proprietățile benigne ale estompării gaussiene pentru a elimina detaliile la scară fină în mod natural, ghidând probe intermediare folosind informațiile eliminate ca urmare a estomparii gaussiene. Deși metoda de ghidare Blur îmbunătățește calitatea eșantionului cu o scară de ghidare moderată, nu reușește să reproducă rezultatele la o scară mare de ghidare, deoarece introduce adesea ambiguitate structurală în regiuni întregi. Ca urmare, metoda de ghidare Blur consideră că este dificil să alinieze intrarea inițială cu predicția intrării degradate. Pentru a spori stabilitatea și eficacitatea metodei de ghidare Blur la o scară mai mare de ghidare, Ghidul de autoatenție încearcă să exploateze mecanismul de autoatenție al modelelor de difuzie, deoarece modelele moderne de difuzie conțin deja un mecanism de autoatenție în arhitectura lor. 

Cu ipoteza că autoatenția este esențială pentru a capta informații importante în esență, metoda de ghidare a autoatenției utilizează hărți de autoatenție ale modelelor de difuzie pentru a estompa în mod advers regiunile care conțin informații importante și, în acest proces, ghidează modele de difuzie cu informațiile reziduale necesare. Metoda folosește apoi hărțile de atenție în timpul procesului invers al modelelor de difuzie, pentru a crește calitatea imaginilor și folosește autocondiționarea pentru a reduce artefactele fără a necesita instruire suplimentară sau informații externe. 

Pentru a rezuma, metoda de auto-atenție

  1. Este o abordare nouă care utilizează hărți interne de auto-atenție ale cadrelor de difuzie pentru a îmbunătăți calitatea imaginii eșantionului generat fără a necesita vreo pregătire suplimentară sau a se baza pe condiții externe. 
  2. Metoda SAG încearcă să generalizeze metodele de ghidare condiționată într-o metodă fără condiții care poate fi integrată cu orice model de difuzie fără a necesita resurse suplimentare sau condiții externe, sporind astfel aplicabilitatea cadrelor bazate pe ghidare. 
  3. Metoda SAG încearcă, de asemenea, să-și demonstreze abilitățile ortogonale la metodele și cadrele condiționale existente, facilitând astfel o creștere a performanței prin facilitarea integrării flexibile cu alte metode și modele. 

Mergând mai departe, metoda de ghidare a autoatenției învață din constatările cadrelor înrudite, inclusiv modelele de difuzie de dezgomot, ghidarea de eșantionare, metodele de autoatenție generativă AI și reprezentările interne ale modelelor de difuzie. Cu toate acestea, în esență, metoda de ghidare a autoatenției implementează învățăturile din DDPM sau modelele probabilistice de difuzie de deznodare, ghidarea clasificatorului, ghidarea fără clasificator și cadrele de autoatenție în difuzare. Vom vorbi despre ele în profunzime în secțiunea următoare. 

Ghid de auto-atenție : preliminarii, metodologie și arhitectură

Modelul probabilistic de difuzie de dezgomot sau DDPM

DDPM sau Model probabilistic de difuzie de dezgomot este un model care utilizează un proces iterativ de eliminare a zgomotului pentru a recupera o imagine din zgomotul alb. În mod tradițional, un model DDPM primește o imagine de intrare și un program de variație la un pas de timp pentru a obține imaginea folosind un proces înainte cunoscut sub numele de procesul Markovian. 

Ghid fără clasificator și clasificator cu implementarea GAN

GAN sau Generative Adversarial Networks posedă o diversitate unică de tranzacționare pentru fidelitate și pentru a aduce această capacitate a cadrelor GAN la modelele de difuzie, cadrul de ghidare de auto-atenție propune utilizarea unei metode de ghidare a clasificatorului care utilizează un clasificator suplimentar. În schimb, o metodă de ghidare fără clasificator poate fi implementată și fără utilizarea unui clasificator suplimentar pentru a obține aceleași rezultate. Deși metoda oferă rezultatele dorite, încă nu este viabilă din punct de vedere computațional, deoarece necesită etichete suplimentare și, de asemenea, limitează cadrul la modele de difuzie condiționată care necesită condiții suplimentare, cum ar fi un text sau o clasă, împreună cu detalii suplimentare de antrenament care adaugă complexității modelul. 

Ghid generalizat de difuzie

Deși metodele de clasificare și ghidare fără clasificator oferă rezultatele dorite și ajută la generarea condiționată în modelele de difuzie, ele depind de intrări suplimentare. Pentru orice pas de timp dat, intrarea pentru un model de difuzie cuprinde o condiție generalizată și o probă perturbată fără condiția generalizată. Mai mult, condiția generalizată cuprinde informații interne din eșantionul perturbat sau o condiție externă, sau chiar ambele. Ghidarea rezultată este formulată cu utilizarea unui regresor imaginar cu presupunerea că poate prezice condiția generalizată. 

Îmbunătățirea calității imaginii folosind hărți de auto-atenție

Ghidul de difuzie generalizată implică faptul că este fezabil să se ofere îndrumări pentru procesul invers al modelelor de difuzie prin extragerea de informații importante în condiția generalizată conținută în eșantionul perturbat. Bazându-se pe aceeași metodă, metoda de ghidare a auto-atenției captează informațiile importante pentru procesele inverse în mod eficient, limitând în același timp riscurile care apar ca urmare a problemelor în afara distribuției în modelele de difuzie pre-antrenate. 

Ghidare încețoșată

Ghidarea încețoșării în Ghidarea autoatenției se bazează pe estomparea gaussiană, o metodă de filtrare liniară în care semnalul de intrare este combinat cu un filtru gaussian pentru a genera o ieșire. Odată cu o creștere a abaterii standard, Gaussian Blur reduce detaliile la scară fină din semnalele de intrare și are ca rezultat semnale de intrare care nu se pot distinge la nivel local, netezindu-le spre constantă. Mai mult, experimentele au indicat un dezechilibru de informații între semnalul de intrare și semnalul de ieșire de estompare Gaussian, unde semnalul de ieșire conține mai multe informații la scară fină. 

Pe baza acestei învățări, cadrul de ghidare pentru auto-atenție introduce ghidarea Blur, o tehnică care exclude în mod intenționat informațiile din reconstrucțiile intermediare în timpul procesului de difuzie și, în schimb, utilizează aceste informații pentru a-și ghida predicțiile către creșterea relevanței imaginilor pentru informații de intrare. Îndrumarea încețoșată determină în esență predicția inițială să se abate mai mult de la predicția de intrare neclară. În plus, proprietatea benignă în estomparea gaussiană împiedică semnalele de ieșire să devieze semnificativ de la semnalul original cu o abatere moderată. Cu cuvinte simple, estomparea apare în imagini în mod natural, ceea ce face ca estomparea Gaussiană să fie o metodă mai potrivită pentru a fi aplicată modelelor de difuzie pre-antrenate. 

În conducta de ghidare de auto-atenție, semnalul de intrare este mai întâi estompat folosind un filtru gaussian și apoi este difuzat cu zgomot suplimentar pentru a produce semnalul de ieșire. Făcând acest lucru, conducta SAG atenuează efectul secundar al neclarității rezultate care reduce zgomotul gaussian și face ca ghidarea să se bazeze mai degrabă pe conținut decât să fie dependentă de zgomotul aleatoriu. Deși ghidarea neclară oferă rezultate satisfăcătoare pe cadre cu o scară de ghidare moderată, nu reușește să reproducă rezultatele pe modelele existente cu o scară mare de ghidare, deoarece devine predispusă să producă rezultate zgomotoase, așa cum se demonstrează în imaginea următoare. 

Aceste rezultate ar putea fi rezultatul ambiguității structurale introduse în cadru de neclaritatea globală, care face dificilă pentru conducta SAG să alinieze predicțiile intrării inițiale cu intrarea degradată, rezultând ieșiri zgomotoase. 

Mecanismul de auto-atenție

După cum am menționat mai devreme, modelele de difuzie au de obicei o componentă de auto-atenție în construcție și este una dintre componentele mai esențiale într-un cadru de model de difuzie. Mecanismul de auto-atenție este implementat la baza modelelor de difuzie și permite modelului să acorde atenție părților importante ale intrării în timpul procesului generativ, așa cum se demonstrează în imaginea următoare cu măști de înaltă frecvență în rândul de sus, și măști de autoatenție în rândul de jos al imaginilor generate în final. 

Metoda de ghidare a autoatenției propusă se bazează pe același principiu și valorifică capacitățile hărților de autoatenție în modelele de difuzie. În general, metoda Self-Attention Guidance estompează patch-urile auto-asistate în semnalul de intrare sau, în cuvinte simple, ascunde informațiile patch-urilor care sunt îngrijite de modelele de difuzie. În plus, semnalele de ieșire din Ghidul de autoatenție conțin regiuni intacte ale semnalelor de intrare, ceea ce înseamnă că nu are ca rezultat o ambiguitate structurală a intrărilor și rezolvă problema neclarității globale. Conducta obține apoi hărțile de auto-atenție agregate prin efectuarea GAP sau Global Average Pooling pentru a agrega hărțile de autoatenție la dimensiune și eșantionarea celui mai apropiat vecin pentru a se potrivi cu rezoluția semnalului de intrare. 

Ghid de auto-atenție: experimente și rezultate

Pentru a-și evalua performanța, conducta de ghidare de auto-atenție este eșantionată folosind 8 GPU-uri Nvidia GeForce RTX 3090 și este construită pe IDDPM, ADM și pre-antrenați. Cadre stabile de difuzie

Generație necondiționată cu ghidare de auto-atenție

Pentru a măsura eficiența conductei SAG pe modele necondiționate și pentru a demonstra proprietatea fără condiție care nu este deținută de Clasifier Guidance și Clasifier Free Guidance, conducta SAG este rulată pe cadre pre-antrenate necondiționat pe 50 de mii de mostre. 

După cum se poate observa, implementarea conductei SAG îmbunătățește valorile FID, sFID și IS ale intrării necondiționate, reducând în același timp valoarea de retragere. În plus, îmbunătățirile calitative ca urmare a implementării conductei SAG sunt evidente în următoarele imagini, în care imaginile de sus sunt rezultate din cadrele ADM și Stable Diffusion, în timp ce imaginile din partea de jos sunt rezultate din cadrele ADM și Stable Diffusion cu Conducta SAG. 

Generare condiționată cu SAG

Integrarea conductei SAG în cadrele existente oferă rezultate excepționale în generarea necondiționată, iar conducta SAG este capabilă de o agnosticitate a condiției, ceea ce permite ca conducta SAG să fie implementată și pentru generarea condiționată. 

Difuzie stabilă cu ghidare de auto-atenție

Chiar dacă cadrul original Stable Diffusion generează imagini de înaltă calitate, integrarea cadrului Stable Diffusion cu canalul de orientare pentru auto-atenție poate îmbunătăți drastic rezultatele. Pentru a-și evalua efectul, dezvoltatorii folosesc indicații goale pentru Difuziune stabilă cu semințe aleatorii pentru fiecare pereche de imagini și folosesc evaluarea umană pe 500 de perechi de imagini cu și fără ghidare de auto-atenție. Rezultatele sunt demonstrate în imaginea următoare.  

În plus, implementarea SAG poate îmbunătăți capacitățile cadrului Stable Diffusion, deoarece fuzionarea îndrumării fără clasificare cu ghidarea auto-atenției poate extinde gama de modele de difuzie stabilă la sinteza text-imagine. Mai mult, imaginile generate din modelul de difuzie stabilă cu ghidare de auto-atenție sunt de calitate superioară, cu artefacte mai mici, datorită efectului de auto-condiționare al conductei SAG, așa cum este demonstrat în imaginea următoare. 

Limitări curente

Deși implementarea ghidului de auto-atenție poate îmbunătăți substanțial calitatea imaginilor generate, are unele limitări. 

Una dintre limitările majore este ortogonalitatea cu ghidarea clasificatorului și ghidarea fără clasificare. După cum se poate observa în imaginea următoare, implementarea SAG îmbunătățește scorul FID și scorul de predicție, ceea ce înseamnă că conducta SAG conține o componentă ortogonală care poate fi utilizată cu metodele tradiționale de ghidare simultan. 

Cu toate acestea, încă necesită ca modelele de difuzie să fie antrenate într-un mod specific, care adaugă la complexitate, precum și la costurile de calcul. 

Mai mult, implementarea Ghidului de auto-atenție nu crește memoria sau consumul de timp, ceea ce indică faptul că supraîncărcarea rezultată din operațiuni precum mascarea și estomparea în SAG este neglijabilă. Cu toate acestea, se adaugă în continuare la costurile de calcul, deoarece include un pas suplimentar în comparație cu abordările fără ghidare. 

Gânduri finale

În acest articol, am vorbit despre Self-Attention Guidance, o formulare nouă și generală a metodei de ghidare care folosește informațiile interne disponibile în modelele de difuzie pentru a genera imagini de înaltă calitate. Îndrumarea auto-atenției se bazează pe principiul simplu al formulării generalizate și pe presupunerea că informațiile interne conținute în eșantioanele intermediare pot servi și ca ghid. Conducta de ghidare pentru auto-atenție este o abordare fără condiții și fără antrenament, care poate fi implementată în diferite modele de difuzie și utilizează autocondiționarea pentru a reduce artefactele din imaginile generate și pentru a crește calitatea generală. 

„Un inginer de profesie, un scriitor pe de rost”. Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a AI și ML, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.