Η γωνία του Anderson

Βελτιώνοντας την Ακρίβεια της Επεξεργασίας Εικόνων του AI

Published February 28, 2025

Updated April 26, 2026

Martin Anderson

Images from the paper ' Tight Inversion: Image-Conditioned Inversion for Real Image Editing'

Αν και το μοντέλο.latent diffusion (LDM) του Adobe Firefly είναι πιθανώς ένα από τα καλύτερα που είναι διαθέσιμα αυτή τη στιγμή, οι χρήστες του Photoshop που έχουν δοκιμάσει τις γεννητικές του λειτουργίες θα έχουν παρατηρήσει ότι δεν είναι σε θέση να επεξεργαστούν εύκολα τις υφιστάμενες εικόνες – αντίθετα, αντικαθιστά完全 την επιλεγμένη περιοχή του χρήστη με εικόνες που βασίζονται στην κείμενη πρόταση του χρήστη (αν και το Firefly είναι ικανό να ενσωματώνει την παραγόμενη ενότητα στο контекστό της εικόνας).

Στην τρέχουσα έκδοση beta, το Photoshop μπορεί τουλάχιστον να ενσωματώσει μια αναφορά εικόνας ως μερική εικόνα πρόταση, η οποία φέρνει το προϊόν της Adobe σε ένα επίπεδο λειτουργικότητας που οι χρήστες του Stable Diffusion απολαύουν για πάνω από δύο χρόνια, χάρη σε εξωτερικά πλαίσια όπως το Controlnet:

Η τρέχουσα beta του Adobe Photoshop επιτρέπει τη χρήση αναφοράς εικόνας κατά τη δημιουργία νέου περιεχομένου μέσα σε μια επιλογή – αν και είναι ένα hit-and-miss affair στο παρόν.

Αυτό εικονογραφεί ένα ανοιχτό πρόβλημα στην έρευνα σύνθεσης εικόνων – τη δυσκολία που έχουν τα μοντέλα διάχυσης να επεξεργαστούν τις υφιστάμενες εικόνες χωρίς να εφαρμόσουν μια πλήρη ‘ανασύνθεση’ της επιλογής που υποδεικνύεται από τον χρήστη.

Αν και η διάχυση-βασισμένη inpaint υπακούει στην πρόταση του χρήστη, ανασυνθέτει完全 το αρχικό υλικό της εικόνας χωρίς να λαμβάνει υπόψη την αρχική εικόνα (εκτός από το ότι συνδυάζει τη νέα γεννήθηκε με το περιβάλλον). Source: https://arxiv.org/pdf/2502.20376

Το πρόβλημα αυτό προκύπτει επειδή τα LDMs γεννούν εικόνες μέσω επαναλαμβανόμενου θορύβου, όπου κάθε στάδιο της διαδικασίας προϋποθέτει την πρόταση κειμένου που παρέχεται από τον χρήστη. Με το περιεχόμενο της πρότασης κειμένου που μετατρέπεται σε embedding tokens, και με ένα υπερκλίμακα μοντέλο όπως το Stable Diffusion ή το Flux που περιέχει εκατοντάδες χιλιάδες (ή εκατομμύρια) σχεδόν-ταίριασμα embeddings που σχετίζονται με την πρόταση, η διαδικασία έχει einen υπολογισμένο условную κατανομή να στοχεύσει προς; και κάθε βήμα που λαμβάνεται είναι ένα βήμα προς αυτήν την ‘условную κατανομή στόχο’.

Έτσι, αυτό είναι το κείμενο προς εικόνα – μια tình huống όπου ο χρήστης ‘ελπίζει για το καλύτερο’,既然 δεν υπάρχει τρόπος να γνωρίζουμε ακριβώς τι θα είναι η γεννήθηκε.

Αντίθετα, πολλοί έχουν προσπαθήσει να χρησιμοποιήσουν την ισχυρή γεννητική ικανότητα ενός LDM για να επεξεργαστούν τις υφιστάμενες εικόνες – αλλά αυτό απαιτεί ένα ισορροπία μεταξύ πιστότητας και ευελιξίας.

Όταν μια εικόνα προβάλλεται στο.latent χώρο του μοντέλου με μεθόδους όπως η DDIM inversion, ο στόχος είναι να ανακτήσει την αρχική όσο το δυνατόν πιο κοντά ενώ vẫn επιτρέπει σημαντικές επεξεργασίες. Το πρόβλημα είναι ότι όσο πιο ακριβώς μια εικόνα ανακτάται, τόσο περισσότερο το μοντέλο προσκολλάται στην αρχική του δομή, καθιστώντας τις σημαντικές τροποποιήσεις δύσκολες.

Συνηθισμένα με πολλά άλλα πλαίσια επεξεργασίας εικόνων που βασίζονται στη διάχυση που έχουν προταθεί τα τελευταία χρόνια, η αρχιτεκτονική Renoise έχει δυσκολία να κάνει οποιαδήποτε πραγματική αλλαγή στην εμφάνιση της εικόνας, με μόνο μια περιστασιακή ένδειξη ενός παπιγιόν να εμφανίζεται στη βάση του λαιμού του γάτου.

Από την άλλη πλευρά, αν η διαδικασία προτεραιότητα στην επεξεργασία, το μοντέλο χαλαρώνει την πίστωση του στην αρχική, καθιστώντας ευκολότερη την εισαγωγή αλλαγών – αλλά με το κόστος της συνολικής συν nhấtότητας με την πηγή εικόνας:

Αποστολή ολοκληρωμένη – αλλά είναι μια μεταμόρφωση αντί για μια ρύθμιση, για την πλειοψηφία των πλασίων επεξεργασίας εικόνων που βασίζονται στο AI.

Αφού είναι ένα πρόβλημα που ακόμη και οι σημαντικές πόρων της Adobe αγωνίζονται να αντιμετωπίσουν, τότε μπορούμε να θεωρήσουμε ότι η πρόκληση είναι αξιοσημείωτη και μπορεί να μην επιτρέπει εύκολες λύσεις, αν υπάρχουν.

Στενή Επίλυση

Έτσι, τα παραδείγματα σε μια νέα εργασία που κυκλοφόρησε αυτή την εβδομάδα drew την προσοχή μου, καθώς η εργασία προσφέρει μια αξιοσημείωτη και σημαντική βελτίωση στην τρέχουσα κατάσταση της τέχνης σε αυτήν την περιοχή, αποδεικνύοντας ικανότητα να εφαρμόσει λεπτές και εξευγενισμένες επεξεργασίες σε εικόνες που προβάλλονται στο.latent χώρο ενός μοντέλου – χωρίς τις επεξεργασίες να είναι αμελητέες ή να υπερβαίνουν το αρχικό περιεχόμενο της πηγή εικόνας:

Με τη Στενή Επίλυση που εφαρμόζεται σε υφιστάμενες μεθόδους επίλυσης, η πηγή επιλογή λαμβάνεται υπόψη με έναν πολύ πιο λεπτομερή τρόπο, και οι μεταμορφώσεις συμμορφώνονται με το αρχικό υλικό αντί να το αντικαθιστούν.

Οι χόμπι και οι πρακτικοί του LDM μπορεί να αναγνωρίσουν αυτό το είδος αποτελέσματος,既然 πολύ από αυτό μπορεί να δημιουργηθεί σε một σύνθετο workflow χρησιμοποιώντας εξωτερικά συστήματα όπως το Controlnet και το IP-Adapter.

Στην πραγματικότητα, η νέα μέθοδος – που ονομάζεται Στενή Επίλυση – χρησιμοποιεί πράγματι το IP-Adapter, μαζί με ένα αφιερωμένο μοντέλο πρόσωπου, για ανθρώπινες απεικονίσεις.

Από το αρχικό 2023 IP-Adapter paper, παραδείγματα της δημιουργίας κατάλληλων επεξεργασιών στο αρχικό υλικό. Source: https://arxiv.org/pdf/2308.06721

Η σημαντική επίτευξη της Στενής Επίλυσης, τότε, είναι να έχει διαδικαστικοποιηθεί σύνθετες τεχνικές σε ένα單ο drop-in plug-in modality που μπορεί να εφαρμοστεί σε υφιστάμενα συστήματα, συμπεριλαμβανομένων πολλών από τα πιο δημοφιλή LDM διανομών.

Φυσικά, αυτό σημαίνει ότι η Στενή Επίλυση (TI), όπως και τα συνηθισμένα συστήματα που χρησιμοποιεί, χρησιμοποιεί την πηγή εικόνα ως einen παράγοντα κατάστασης για την δική της επεξεργασμένη έκδοση, αντί να βασίζεται αποκλειστικά σε ακριβείς κειμενές προτάσεις:

Πρόσθετα παραδείγματα της ικανότητας της Στενής Επίλυσης να εφαρμόσει πραγματικά μπλέντερες επεξεργασίες στο αρχικό υλικό.

Αν και οι συγγραφείς παραδέχονται ότι η προσέγγισή τους δεν είναι ελεύθερη από την παραδοσιακή και συνεχιζόμενη ένταση μεταξύ πιστότητας και επεξεργασίας στις τεχνικές επεξεργασίας εικόνων που βασίζονται στη διάχυση, αναφέρουν αποτελέσματα κατάστασης της τέχνης όταν ενσωματώνουν την TI σε υφιστάμενα συστήματα, σε σύγκριση με την απόδοση baseline.

Η νέα εργασία ονομάζεται Στενή Επίλυση: Εικόνα-Κατα/／μένη Επίλυση για Πραγματική Επεξεργασία Εικόνας, και προέρχεται από πέντε ερευνητές σε όλη τη Tel Aviv University και Snap Research.

Μέθοδος

Αρχικά, ένα Μεγάλο Γλωσσικό Μοντέλο (LLM) χρησιμοποιείται για να γεννήσει ένα σύνολο ποικίλων κειμενών προτάσεων από τις οποίες μια εικόνα γεννιέται. Στη συνέχεια, η προαναφερθείσα DDIM inversion εφαρμόζεται σε κάθε εικόνα με τρεις κειμενές προϋποθέσεις: η κειμενή πρόταση που χρησιμοποιήθηκε για να γεννήσει την εικόνα; μια συντομευμένη έκδοση της ίδιας; και μια κενή (κενή) πρόταση.

Με το αναστραμμένο θόρυβο που επιστρέφεται από αυτές τις διαδικασίες, οι εικόνες γεννιούνται ξανά με την ίδια προϋπόθεση, και χωρίς κατάσταση-ελεύθερη καθοδήγηση (CFG).

DDIM inversion σκορ σε διάφορους μετρητές με ποικίλες ρυθμίσεις πρότασης.

Όπως μπορούμε να δούμε από το γράφημα παραπάνω, τα σκορ σε διάφορους μετρητές βελτιώνονται με την αύξηση του μήκους του κειμένου. Οι μετρητές που χρησιμοποιήθηκαν ήταν Peak Signal-to-Noise Ratio (PSNR); L2 απόσταση; Δομική Ομοιότητα Δείκτης (SSIM); και Μαθήματα Περιφρονημένα Εικόνα Patch Ομοιότητα (LPIPS).

Εικόνα-Συνείδηση

Εфективικά, η Στενή Επίλυση αλλάζει τον τρόπο με τον οποίο ένα host diffusion μοντέλο επεξεργάζεται πραγματικές εικόνες με την κατάσταση της επίλυσης διαδικασίας στην εικόνα herself αντί να βασίζεται μόνο στο κείμενο.

Κανονικά, η ανάστροφη μιας εικόνας στο θόρυβο χώρο ενός μοντέλου διάχυσης απαιτεί την εκτίμηση της αρχικής θόρυβου που, όταν αποθορυβοποιείται, ανακτά την είσοδο. Τυπικές μεθόδους χρησιμοποιούν μια κειμενή πρόταση για να οδηγήσουν αυτήν τη διαδικασία; αλλά μια ατελής πρόταση μπορεί να οδηγήσει σε σφάλματα, χάνοντας λεπτομέρειες ή αλλάζοντας δομές.

Η Στενή Επίλυση αντίθετα χρησιμοποιεί το IP Adapter για να τροφοδοτήσει οπτική πληροφορία στο μοντέλο, ώστε να ανακτά την εικόνα με μεγαλύτερη ακρίβεια, μετατρέποντας τις πηγή εικόνες σε conditioning tokens, και προβάλλοντας τις στην επίλυση pipeline.

Αυτά τα παράμετρα είναι επεξεργάσιμα: αύξηση της επιρροής της πηγή εικόνας κάνει την ανακατασκευή σχεδόν τέλεια, ενώ μειώνει την επιτρέπει για περισσότερες δημιουργικές αλλαγές. Αυτό κάνει τη Στενή Επίλυση χρήσιμη για τόσο λεπτές τροποποιήσεις, όπως η αλλαγή του χρώματος ενός πουκάμισου, ή πιο σημαντικές επεξεργασίες, όπως η ανταλλαγή αντικειμένων – χωρίς τις συνήθεις παρενέργειες άλλων μεθόδων επίλυσης, όπως η απώλεια λεπτών λεπτομερειών ή απρόβλεπτες ανωμαλίες στο περιεχόμενο του φόντου.

Οι συγγραφείς δηλώνουν:

‘Σημειώνουμε ότι η Στενή Επίλυση μπορεί να ενσωματωθεί εύκολα με προηγούμενες μεθόδους επίλυσης (π.χ., Edit Friendly DDPM, ReNoise) με [αντικαθιστώντας το εγγενές πυρήνα διάχυσης με το IP Adapter τροποποιημένο μοντέλο], [και] η Στενή Επίλυση βελτιώνει συνεχώς αυτές τις μεθόδους σε όρους ανακατασκευής και επεξεργασίας.’

Δεδομένα και Τεστ

Οι ερευνητές αξιολόγησαν την TI στην ικανότητά της να ανακτά και να επεξεργαστεί πραγματικές εικόνες. Όλα τα πειράματα χρησιμοποιούσαν Stable Diffusion XL με ένα DDIM προγραμματιστή όπως περιγράφεται στο αρχικό Stable Diffusion paper; και όλα τα τεστ χρησιμοποιούσαν 50 βήματα αποθορυβοποίησης με ένα προεπιλεγμένο προγραμματιστή οδηγίας 7.5.

Για την κατάσταση εικόνας, IP-Adapter-plus sdxl vit-h χρησιμοποιήθηκε. Για τεστ με λίγα βήματα, οι ερευνητές χρησιμοποιούσαν SDXL-Turbo με ένα Euler προγραμματιστή, και επίσης διεξήγαγαν πειράματα με FLUX.1-dev, κατάσταση του μοντέλου σε αυτήν την περίπτωση με PuLID-Flux, χρησιμοποιώντας RF-Inversion σε 28 βήματα.

PulID χρησιμοποιήθηκε αποκλειστικά σε περιπτώσεις που απεικονίζουν ανθρώπινες προσόψεις,既然 αυτό είναι το domaine που PulID εκπαιδεύτηκε να αντιμετωπίσει – και ενώ είναι αξιοσημείωτο ότι ένα εξειδικευμένο υποσύστημα χρησιμοποιείται για αυτόν τον έναν πιθανό τύπο πρότασης, η υπερβολική μας ενδιαφέρον για τη δημιουργία ανθρώπινων προσώπων υποδηλώνει ότι η εξάρτηση αποκλειστικά στα ευρύτερα βάρη ενός θεμελιώδους μοντέλου όπως το Stable Diffusion μπορεί να μην είναι επαρκής για τα πρότυπα που απαιτούμε για αυτήν την ειδική εργασία.

Τεστ ανακατασκευής πραγματοποιήθηκαν για ποιοτική και ποσοτική αξιολόγηση. Στην εικόνα παρακάτω, βλέπουμε ποιοτικά παραδείγματα για DDIM inversion:

Ποιοτικά αποτελέσματα για DDIM inversion. Κάθε σειρά δείχνει μια λεπτομερή εικόνα μαζί με τις ανακατασκευασμένες εκδόσεις της, με κάθε βήμα που χρησιμοποιεί ολοένα και πιο ακριβείς προϋποθέσεις κατά τη διάρκεια της επίλυσης και της αποθορυβοποίησης. Όσο πιο ακριβής γίνεται η κατάσταση, η ποιότητα της ανακατασκευής βελτιώνεται. Η δεξιά στήλη δείχνει τα καλύτερα αποτελέσματα, όπου η αρχική εικόνα herself χρησιμοποιείται ως προϋπόθεση, επιτυγχάνοντας την υψηλότερη πιστότητα. CFG δεν χρησιμοποιήθηκε σε κανένα στάδιο. Παρακαλώ αναφερθείτε στο αρχικό έγγραφο για καλύτερη ανάλυση και λεπτομέρειες.

Το έγγραφο δηλώνει:

‘Αυτά τα παραδείγματα υπογραμμίζουν ότι η κατάσταση της επίλυσης διαδικασίας στην εικόνα βελτιώνει σημαντικά την ανακατασκευή σε περιοχές με υψηλή λεπτομέρεια.

‘Σημειώνουμε ιδιαίτερα ότι, στην τρίτη περίπτωση [της εικόνας παρακάτω], η μέθοδός μας ανακτά επιτυχώς το τατουάζ στο πίσω μέρος του δεξιού μποξέρ. Επιπλέον, η στάση του μποξέρ είναι πιο ακριβής και το τατουάζ στο πόδι γίνεται ορατό.’

Πρόσθετα ποιοτικά αποτελέσματα για DDIM inversion. Περιγραφικές προϋποθέσεις βελτιώνουν την DDIM inversion, με την κατάσταση εικόνας να υπερβαίνει το κείμενο, ιδιαίτερα σε σύνθετες εικόνες.

Οι συγγραφείς επίσης ε-tested την TI ως ένα drop-in module για υφιστάμενα συστήματα, πιτTING την ενσωματωμένη έκδοση ενάντια στην απόδοση baseline.

Τα τρία συστήματα που ε-tested ήταν η προαναφερθείσα DDIM Inversion και RF-Inversion; και επίσης ReNoise, η οποία μοιράζεται κάποια συγγραφείς με το έγγραφο που συζητιέται εδώ.既然 τα αποτελέσματα DDIM δεν έχουν δυσκολία να επιτύχουν 100% ανακατασκευή, οι ερευνητές εστίασαν μόνο στην επεξεργασία.

(Τα ποιοτικά αποτελέσματα εικόνας είναι διαμορφωμένα με έναν τρόπο που είναι δύσκολο να αναπαραχθεί εδώ, οπότε αναφερόμαστε τον αναγνώστη στο αρχικό PDF για καλύτερη ανάλυση και σημαντική σαφήνεια)

Αριστερά, ποιοτικά αποτελέσματα ανακατασκευής για Στενή Επίλυση με SDXL. Δεξιά, ανακατασκευή με Flux. Η διάταξη αυτών των αποτελεσμάτων στο δημοσιευμένο έργο κάνει δύσκολο να αναπαραχθεί εδώ, οπότε παρακαλώ αναφερθείτε στο αρχικό PDF για μια αληθινή εντύπωση των διαφορών που επιτυγχάνονται.

Εδώ οι συγγραφείς σχολιάζουν:

‘Όπως φαίνεται, η ενσωμάτωση της Στενής Επίλυσης με υφιστάμενα συστήματα βελτιώνει συνεχώς την ανακατασκευή. Για [παράδειγμα,] η μέθοδός μας ανακτά ακριβώς το χειροράβδο στο αριστερό παράδειγμα και τον άνδρα με το μπλε πουκάμισο στο δεξί παράδειγμα [στο σχήμα 5 του εγγράφου].’

Το έγγραφο καταλήγει:

‘Σε ambos γραφήματα, η ανταλλαγή μεταξύ της διατήρησης της εικόνας και της συμμόρφωσης με την στόχο επεξεργασία είναι σαφής. Η Στενή Επίλυση παρέχει καλύτερη έλεγχο σε αυτήν την ανταλλαγή, και διατηρεί καλύτερα την είσοδο εικόνας ενώ vẫn συμμορφώνεται με την επεξεργασία [πρόταση].

‘Σημειώνουμε ότι μια CLIP ομοιότητα πάνω από 0.3 μεταξύ μιας εικόνας και μιας κειμενής πρότασης υποδηλώνει πιθανή συμμόρφωση μεταξύ της εικόνας και της πρότασης.’

Συμπέρασμα

Αν και δεν αντιπροσωπεύει μια ‘επανάσταση’ σε μια από τις πιο δυσκολές προκλήσεις στις LDM-βασισμένες σύνθεσης εικόνων, η Στενή Επίλυση συντηρεί μια σειρά από δυσκολίες輔助 προσεγγίσεις σε μια ενιαία μέθοδο AI-βασισμένης επεξεργασίας εικόνας.

Αν και η ένταση μεταξύ επεξεργασίας και πιστότητας δεν έχει εξαφανιστεί με αυτήν τη μέθοδο, είναι αξιοσημείωτα μειωμένη, σύμφωνα με τα αποτελέσματα που παρουσιάζονται. Λαμβάνοντας υπόψη ότι η κεντρική πρόκληση που αντιμετωπίζει αυτή η εργασία μπορεί να αποδειχθεί τελικά ακατόρθωτη αν αντιμετωπίζεται με τις δικές της όρους (αντί να κοιτάζει πέρα από LDM-βασισμένες αρχιτεκτονικές σε μελλοντικά συστήματα), η Στενή Επίλυση αντιπροσωπεύει μια ευπρόσδεκτη βελτίωση στην κατάσταση της τέχνης.

Πρώτη δημοσίευση Παρασκευή, 28 Φεβρουαρίου 2025

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]