Unghiul lui Anderson
Îmbunătățirea acurateței editării de imagini AI

Deși modelul de difuziune latentă (LDM) Firefly de la Adobe este, probabil, unul dintre cele mai bune disponibile în prezent, utilizatorii de Photoshop care au încercat funcțiile sale generative au observat că nu este capabil să editeze cu ușurință imagini existente – în schimb, înlocuiește complet zona selectată de utilizator cu imagini bazate pe promptul de text furnizat de utilizator (deși Firefly este priceput în integrarea secțiunii generate rezultate în contextul imaginii).
În versiunea beta curentă, Photoshop poate cel puțin să incorporeze o imagine de referință ca prompt parțial de imagine, ceea ce aduce produsul emblematic al Adobe la nivelul de funcționalitate de care utilizatorii de Stable Diffusion s-au bucurat timp de peste doi ani, mulțumită unor cadre terțe precum Controlnet:

Versiunea beta curentă a Adobe Photoshop permite utilizarea imaginilor de referință la generarea de conținut nou în interiorul unei selecții – deși este o chestiune de noroc în acest moment.
Acest lucru ilustrează o problemă deschisă în cercetarea sintezei de imagini – dificultatea cu care modelele de difuziune au în editarea imaginilor existente fără implementarea unei “reimaginări” pe scară largă a selecției indicate de utilizator.

Deși această inpaintare bazată pe difuziune respectă promptul utilizatorului, reinventează complet subiectul materialului sursă fără a lua în considerare imaginea originală (cu excepția amestecării noii generații cu mediul). Source: https://arxiv.org/pdf/2502.20376
Această problemă apare deoarece LDM-urile generează imagini prin denoising iterativ, unde fiecare etapă a procesului este condiționată de promptul de text furnizat de utilizator. Cu conținutul promptului de text transformat în tokeni de încorporare, și cu un model hiperscale precum Stable Diffusion sau Flux care conține sute de mii (sau milioane) de încorporări aproape identice legate de prompt, procesul are o distribuție condițională calculată pentru a urmări; și fiecare pas făcut este un pas către această “țintă de distribuție condițională”.
Așadar, aceasta este imaginea la text – un scenariu în care utilizatorul “speră la cel mai bun”, deoarece nu există nicio modalitate de a ști exact ce va fi generat.
În schimb, mulți au căutat să utilizeze capacitatea generativă puternică a unui LDM pentru a edita imagini existente – ceea ce implică un act de echilibru între fidelitate și flexibilitate.
Când o imagine este proiectată în spațiul latent al modelului prin metode precum inversarea DDIM, scopul este de a recupera originalul cât mai exact posibil, permițând totuși editări semnificative.

La fel ca multe alte cadre de editare de imagini bazate pe difuziune propuse în ultimii ani, arhitectura Renoise are dificultăți în a face orice schimbare reală a aspectului imaginii, cu doar o indicație perfunctorie a unei cravate apărând la baza gâtului pisicii.
Pe de altă parte, dacă procesul prioritizează editabilitatea, modelul slăbește strânsoarea asupra originalului, făcându-l mai ușor de introdus schimbări – dar la costul consistenței generale cu imaginea sursă:

Misiunea îndeplinită – dar este o transformare în loc de o ajustare, pentru majoritatea cadrelor de editare de imagini bazate pe IA.
Deoarece este o problemă cu care chiar și resursele considerabile ale Adobe se luptă să o abordeze, putem considera în mod rezonabil că provocarea este notabilă și poate nu permite soluții ușoare, dacă există.
Inversarea Strânsă
Prin urmare, exemplele dintr-o lucrare nouă publicată în această săptămână au atras atenția mea, deoarece lucrarea oferă o îmbunătățire valoroasă și notabilă a stării actuale a artei în acest domeniu, demonstrând capacitatea de a aplica editări subtile și rafinate asupra imaginilor proiectate în spațiul latent al unui model – fără ca editările să fie nesemnificative sau să înăbușe conținutul original din imaginea sursă:

Cu Inversarea Strânsă aplicată metodelor de inversare existente, selecția sursă este considerată într-un mod mult mai granular, iar transformările se conformează materialului original în loc de a-l suprascrie.
Hobbyiștii și practicienii LDM pot recunoaște acest tip de rezultat, deoarece multe dintre acestea pot fi create într-un flux de lucru complex utilizând sisteme externe precum Controlnet și IP-Adapter.
De fapt, noua metodă – denumită Inversarea Strânsă – utilizează într-adevăr IP-Adapter, împreună cu un model dedicat bazat pe față, pentru reprezentări umane.

Din lucrarea originală IP-Adapter din 2023, exemple de editări adecvate ale materialului sursă. Source: https://arxiv.org/pdf/2308.06721
Realizarea semnificativă a Inversării Strânse, atunci, este de a fi proceduralizat tehnici complexe într-o singură modalitate de plug-in care poate fi aplicată sistemelor existente, inclusiv multe dintre cele mai populare distribuții LDM.
În mod natural, acest lucru înseamnă că Inversarea Strânsă (TI), la fel ca sistemele auxiliare pe care le utilizează, folosește imaginea sursă ca factor de condiționare pentru versiunea editată, în loc de a se baza numai pe prompturi de text precise:

Mai multe exemple ale capacității Inversării Strânse de a aplica editări cu adevărat amestecate materialului sursă.
Deși autorii recunosc că abordarea lor nu este lipsită de tensiunea tradițională și continuă între fidelitate și editabilitate în tehnici de editare de imagini bazate pe difuziune, ei raportează rezultate de ultimă generație atunci când injectează TI în sisteme existente, față de performanța de bază.
Lucrarea nouă se intitulează Inversarea Strânsă: Inversarea condiționată de imagine pentru editarea reală de imagini, și provine de la cinci cercetători de la Universitatea Tel Aviv și Snap Research.
Metodă
Inițial, un model de limbaj mare (LLM) este utilizat pentru a genera un set de prompturi de text variate din care o imagine este generată. Apoi, inversarea DDIM menționată anterior este aplicată fiecărei imagini cu trei condiții de text: promptul de text utilizat pentru a genera imaginea; o versiune prescurtată a acestuia; și un prompt gol (vid).
Cu zgomotul inversat returnat din aceste procese, imaginile sunt regenerate cu aceeași condiție, și fără ghidarea clasificatorului gratuit (CFG).

Scoruri de inversare DDIM pe diverse metrice cu setări de prompt variate.
Așa cum se poate vedea din graficul de mai sus, scorurile pe diverse metrice sunt îmbunătățite cu lungimea textului crescută. Metricile utilizate au fost Raportul de semnal la zgomot de vârf (PSNR); distanța L2; indicele de similaritate structurală (SSIM); și similaritatea perceptuală a patch-urilor de imagine învățate (LPIPS).
Conștient de imagine
Eficient, Inversarea Strânsă schimbă modul în care un model de difuziune gazduiește editarea imaginilor reale prin condiționarea procesului de inversare de imaginea însăși, și nu doar de prompturile de text.
Normal, inversarea unei imagini în spațiul de zgomot al unui model de difuziune necesită estimarea zgomotului inițial care, atunci când este denzumat, reconstruiește intrarea. Metodele standard utilizează un prompt de text pentru a ghida acest proces; dar un prompt imperfect poate duce la erori, pierderea detaliilor sau alterarea structurilor.
Inversarea Strânsă utilizează în schimb IP Adapter pentru a alimenta informații vizuale în model, astfel încât acesta să reconstruiască imaginea cu o acuratețe mai mare, transformând imaginile sursă în tokeni de condiționare și proiectându-le în conducta de inversare.
Acești parametri sunt editabili: creșterea influenței imaginii sursă face reconstrucția aproape perfectă, în timp ce reducerea acesteia permite schimbări mai creative. Acest lucru face Inversarea Strânsă utilă atât pentru modificări subtile, cum ar fi schimbarea culorii unei cămăși, cât și pentru editări mai semnificative, cum ar fi schimbarea obiectelor – fără efectele secundare comune ale altor metode de inversare, cum ar fi pierderea detaliilor fine sau aberații neașteptate în conținutul de fundal.
Autorii afirmă:
‘Remarcăm că Inversarea Strânsă poate fi integrată ușor cu metodele de inversare anterioare (de exemplu, Edit Friendly DDPM, ReNoise) prin [înlocuirea nucleului de difuziune nativ cu modelul modificat IP Adapter], [și] Inversarea Strânsă îmbunătățește în mod constant aceste metode în ceea ce privește atât reconstrucția, cât și editabilitatea.’
Date și teste
Cercetătorii au evaluat TI pe capacitatea sa de a reconstrui și de a edita imagini reale din lume. Toate experimentele au utilizat Stable Diffusion XL cu un programator DDIM, așa cum este descris în lucrarea originală Stable Diffusion; și toate testele au utilizat 50 de pași de denoising la o scară de ghidare implicită de 7,5.
Pentru condiționarea imaginii, a fost utilizat IP-Adapter-plus sdxl vit-h. Pentru testele cu câteva pași, cercetătorii au utilizat SDXL-Turbo cu un programator Euler, și au efectuat, de asemenea, experimente cu FLUX.1-dev, condiționând modelul în acest ultim caz pe PuLID-Flux, utilizând RF-Inversarea la 28 de pași.
PulID a fost utilizat doar în cazurile care implică fețe umane, deoarece acesta este domeniul în care PulID a fost antrenat pentru a aborda – și, deși este demn de remarcat că un subsistem specializat este utilizat pentru acest tip particular de prompt, interesul nostru excesiv pentru generarea de fețe umane sugerează că a te baza numai pe greutățile mai ample ale unui model de bază, cum ar fi Stable Diffusion, poate să nu fie adecvat pentru standardele pe care le cerem pentru această sarcină particulară.
Testele de reconstrucție au fost efectuate pentru evaluarea calitativă și cantitativă. În imaginea de mai jos, vedem exemple calitative pentru inversarea DDIM:

Rezultate calitative pentru inversarea DDIM. Fiecare rând arată o imagine foarte detaliată lângă versiunile sale reconstructate, cu fiecare pas utilizând condiții din ce în ce mai precise în timpul inversării și denoisingului. Pe măsură ce condiționarea devine mai precisă, calitatea reconstrucției se îmbunătățește. Coloana din dreapta arată cele mai bune rezultate, unde imaginea originală însăși este utilizată ca condiție, realizând fidelitatea cea mai ridicată. CFG nu a fost utilizat în niciun stadiu. Vă rugăm să consultați documentul sursă pentru o rezoluție și detalii mai bune.
Autorii afirmă:
‘Aceste exemple subliniază că condiționarea procesului de inversare pe o imagine îmbunătățește semnificativ reconstrucția în regiunile foarte detaliate. ‘
‘În mod remarcabil, în al treilea exemplu [din imaginea de mai jos], metoda noastră reconstruiește cu succes tatuajul de pe spatele boxerului din dreapta. Mai mult, poza piciorului boxerului este păstrată mai exact, și tatuajul de pe picior devine vizibil.’

Rezultate calitative suplimentare pentru inversarea DDIM. Condițiile descriptive îmbunătățesc inversarea DDIM, cu condiționarea pe imagine care depășește textul, în special pentru imagini complexe.
Autorii au testat, de asemenea, Inversarea Strânsă ca modul de plug-in pentru sisteme existente, comparând versiunile modificate cu performanța lor de bază.
Cele trei sisteme testate au fost inversarea DDIM menționată anterior și RF-Inversarea; și, de asemenea, ReNoise, care împărtășește o parte din autorii lucrării discutate aici. Deoarece rezultatele DDIM nu au dificultăți în a obține o reconstrucție de 100%, cercetătorii s-au concentrat doar pe editabilitate.
(Rezultatele calitative sunt formate într-un mod care este dificil de reprodus aici, așa că ne referim cititorul la PDF-ul sursă pentru o acoperire mai bună și o claritate mai semnificativă)

Stânga, rezultate calitative de reconstrucție pentru Inversarea Strânsă cu SDXL. Dreapta, reconstrucție cu Flux. Layout-ul acestor rezultate în lucrarea publicată face dificilă reproducerea aici, așa că vă rugăm să consultați PDF-ul sursă pentru o impresie adevărată a diferențelor obținute.
Aici, autorii comentează:
‘Așa cum se arată, integrarea Inversării Strânse cu metodele existente îmbunătățește în mod constant reconstrucția. De exemplu, metoda noastră reconstruiește cu exactitate balustrada din exemplul din stânga și bărbatul cu cămașa albastră din exemplul din dreapta [din figura 5 a lucrării].’
Autorii au testat, de asemenea, sistemul în mod cantitativ. În conformitate cu lucrările anterioare, ei au utilizat setul de validare al MS-COCO, și notează că rezultatele (ilustrate mai jos) au îmbunătățit reconstrucția pe toate metricile pentru toate metodele.

Compararea metricilor pentru performanța sistemelor cu și fără Inversarea Strânsă.
Următorul, autorii au testat capacitatea sistemului de a edita fotografii, comparându-l cu versiunile de bază ale abordărilor anterioare prompt2prompt; Edit Friendly DDPM; LED-ITS++; și RF-Inversarea.
Sunt prezentate mai jos o selecție din rezultatele calitative ale lucrării pentru SDXL și Flux (și ne referim cititorul la layout-ul destul de comprimat al lucrării originale pentru exemple suplimentare).

Selecții din rezultatele calitative extinse (destul de confuz) răspândite în lucrare. Ne referim cititorul la PDF-ul sursă pentru o rezoluție îmbunătățită și o claritate semnificativă.
Autorii susțin că Inversarea Strânsă depășește în mod constant tehnici de inversare existente, găsind un echilibru mai bun între reconstrucție și editabilitate. Metodele standard, cum ar fi inversarea DDIM și ReNoise, pot recupera o imagine bine, dar lucrarea afirmă că acestea adesea se luptă să păstreze detaliile fine atunci când se aplică editări.
Prin contrast, Inversarea Strânsă utilizează condiționarea pe imagine pentru a ancora ieșirea modelului mai strâns de original, prevenind distorsiunile nedorite. Autorii susțin că, chiar și atunci când abordările concurente produc reconstrucții care par precise, introducerea editărilor adesea duce la artefacte sau incoerențe structurale, și că Inversarea Strânsă atenuează aceste probleme.
În final, rezultate cantitative au fost obținute prin evaluarea Inversării Strânse împotriva benchmark-ului MagicBrush, utilizând inversarea DDIM și LEDITS++, măsurate cu CLIP Sim.

Comparații cantitative ale Inversării Strânse împotriva benchmark-ului MagicBrush.
Autorii concluzionează:
‘În ambele grafice, compromisul dintre păstrarea imaginii și conformarea cu editarea țintă este clar observat. Inversarea Strânsă oferă un control mai bun asupra acestui compromis și păstrează mai bine imaginea de intrare, aliniindu-se în același timp cu editarea [prompt]. ‘
‘Notăm, de asemenea, că o similaritate CLIP de peste 0,3 între o imagine și un prompt de text indică o aliniere plauzibilă între imagine și prompt.’
Concluzie
Deși nu reprezintă o “descoperire” în una dintre cele mai spinoase provocări ale sintezei de imagini bazate pe LDM, Inversarea Strânsă consolidează o serie de abordări auxiliare dificile într-o metodă unificată de editare de imagini bazată pe IA.
Deși tensiunea dintre editabilitate și fidelitate nu a dispărut sub această metodă, ea este în mod semnificativ redusă, conform rezultatelor prezentate. Având în vedere că provocarea centrală pe care această lucrare o abordează poate dovedi a fi în cele din urmă intractabilă dacă este abordată pe cont propriu (în loc de a căuta dincolo de arhitecturile LDM în sistemele viitoare), Inversarea Strânsă reprezintă o îmbunătățire incrementală binevenită a stării actuale a artei.
Publicat pentru prima dată vineri, 28 februarie 2025












