Η γωνία του Anderson

Επεξεργασία Εικόνων με Gaussian Splatting

mm
A montage of images from the various sources available in support of the paper 'MiraGe: Editable 2D Images using Gaussian Splatting' (https://arxiv.org/abs/2410.01521)

Μια νέα συνεργασία ερευνητών στην Πολωνία και το Ηνωμένο Βασίλειο προτείνει την προοπτική χρήσης Gaussian Splatting για την επεξεργασία εικόνων, tạmως ερμηνεύοντας ένα επιλεγμένο μέρος της εικόνας σε 3D χώρο, επιτρέποντας στον χρήστη να τροποποιήσει και να χειριστεί την 3D αναπαράσταση της εικόνας και στη συνέχεια εφαρμόζοντας τη μεταμόρφωση.

Για να αλλάξετε την προοπτική του κεφαλιού της γάτας, το σχετικό τμήμα μεταφέρεται στο 3D χώρο μέσω Gaussian Splatting και στη συνέχεια χειρίζεται από τον χρήστη. Η τροποποίηση εφαρμόζεται στη συνέχεια. Η διαδικασία είναι ανάλογη με διάφορες modales τεχνικές στο λογισμικό Adobe, που κλειδώνουν τη διεπαφή μέχρι να ολοκληρωθεί μια τρέχουσα σύνθετη διαδικασία. Πηγή: https://github.com/waczjoan/MiraGe/

Για να αλλάξετε την προοπτική του κεφαλιού της γάτας, το σχετικό τμήμα μεταφέρεται στο 3D χώρο μέσω Gaussian Splatting και στη συνέχεια χειρίζεται από τον χρήστη. Η τροποποίηση εφαρμόζεται στη συνέχεια. Η διαδικασία είναι ανάλογη με διάφορες modales τεχνικές στο λογισμικό Adobe, που κλειδώνουν τη διεπαφή μέχρι να ολοκληρωθεί μια τρέχουσα σύνθετη διαδικασία. Πηγή: https://github.com/waczjoan/MiraGe/

Καθώς το στοιχείο Gaussian Splatting αντιπροσωπεύεται προσωρινά από ένα πλέγμα τριγώνων και εισέρχεται σε μια ‘CGI κατάσταση’, ένας φυσικός μηχανισμός που είναι ενσωματωμένος στη διαδικασία μπορεί να ερμηνεύσει φυσική κίνηση, είτε για να αλλάξει την στατική κατάσταση ενός αντικειμένου, είτε για να παράγει μια κινούμενη εικόνα.

Ένας φυσικός μηχανισμός που είναι ενσωματωμένος στο νέο σύστημα MiraGe μπορεί να ερμηνεύσει φυσική κίνηση, είτε για κινούμενες εικόνες είτε για στατικές αλλαγές σε μια εικόνα.

Ένας φυσικός μηχανισμός που είναι ενσωματωμένος στο νέο σύστημα MiraGe μπορεί να ερμηνεύσει φυσική κίνηση, είτε για κινούμενες εικόνες είτε για στατικές αλλαγές σε μια εικόνα.

Δεν υπάρχει γεννητική τεχνητή νοημοσύνη που συμμετέχει στη διαδικασία, που σημαίνει ότι δεν υπάρχουν Λατινικές διαχύσεις (LDMs) που συμμετέχουν, σε αντίθεση με το σύστημα Firefly της Adobe, το οποίο έχει εκπαιδευτεί με Adobe Stock (πρώην Fotolia).

Το σύστημα – που ονομάζεται MiraGe – ερμηνεύει επιλογές σε 3D χώρο και υποθέτει γεωμετρία δημιουργώντας μια κατοπτρική εικόνα της επιλογής και προσεγγίζοντας 3D συντεταγμένες που μπορούν να ενσωματωθούν σε ένα Splat, το οποίο στη συνέχεια ερμηνεύει την εικόνα σε ένα πλέγμα.

Πατήστε για αναπαραγωγή. Παραδείγματα στοιχείων που έχουν τροποποιηθεί χειροκίνητα από τον χρήστη του συστήματος MiraGe ή έχουν υποβληθεί σε φυσική παραμόρφωση.

Οι συγγραφείς σύγκριναν το σύστημα MiraGe με προηγούμενες προσεγγίσεις και βρήκαν ότι επιτυγχάνει την καλύτερη απόδοση στην επιθυμητή εργασία.

Οι χρήστες του συστήματος zBrush modeling θα είναι εξοικειωμένοι με αυτή τη διαδικασία, καθώς το zBrush επιτρέπει στον χρήστη να «παρα平» ένα 3D μοντέλο και να προσθέσει 2D λεπτομέρειες, διατηρώντας το υποκείμενο πλέγμα και ερμηνεύοντας τις νέες λεπτομέρειες σε αυτό – μια «παγίδευση» που είναι το αντίθετο της μεθόδου MiraGe, η οποία λειτουργεί περισσότερο όπως οι modal τεχνικές στο λογισμικό Adobe, όπως η διαμόρφωση ή η груβή 3D ερμηνεία.

Οι παραμετροποιημένοι Gaussian Splats επιτρέπουν στο MiraGe να δημιουργούν υψηλής ποιότητας ανακατασκευές επιλεγμένων περιοχών μιας 2D εικόνας και να εφαρμόζουν μαλακές σωματικές φυσικές σε μια προσωρινά 3D επιλογή.

Οι παραμετροποιημένοι Gaussian Splats επιτρέπουν στο MiraGe να δημιουργούν υψηλής ποιότητας ανακατασκευές επιλεγμένων περιοχών μιας 2D εικόνας και να εφαρμόζουν μαλακές σωματικές φυσικές σε μια προσωρινά 3D επιλογή.

Το έγγραφο αναφέρει:

‘[Επrowadουμε] ένα μοντέλο που κωδικοποιεί 2D εικόνες προσομοιώνοντας την ανθρώπινη ερμηνεία. Συγκεκριμένα, το μοντέλο μας αντιλαμβάνεται μια 2D εικόνα όπως ένας άνθρωπος θα έβλεπε μια φωτογραφία ή ένα φύλλο χαρτιού, τη θεωρώντας ως ένα επίπεδο αντικείμενο σε einen 3D χώρο.

‘Αυτή η προσέγγιση επιτρέπει μια直觉 και ευέλικτη επεξεργασία εικόνων, καταγράφοντας τις νουανσές της ανθρώπινης αντίληψης ενώ επιτρέπει σύνθετες μεταμορφώσεις.’

Το νέο έγγραφο είναι τίτλος MiraGe: Editable 2D Images using Gaussian Splatting και προέρχεται από τέσσερις συγγραφείς από το Jagiellonian University στο Κρακοβία και το Πανεπιστήμιο του Κέιμπριτζ. Ο πλήρης κώδικας του συστήματος έχει κυκλοφορήσει στο GitHub.

Ας δούμε πώς οι ερευνητές αντιμετώπισαν την πρόκληση.

Μέθοδος

Η προσέγγιση MiraGe χρησιμοποιεί Gaussian Mesh Splatting (GaMeS) παραμετροποίηση, μια τεχνική που αναπτύχθηκε από μια ομάδα που περιλαμβάνει δύο από τους συγγραφείς του νέου εγγράφου. GaMeS επιτρέπει τους Gaussian Splats να ερμηνεύονται ως παραδοσιακά CGI πλέγματα και να γίνονται αντικείμενο των τυπικών τεχνικών διαμόρφωσης και τροποποίησης που έχει αναπτύξει η κοινότητα CGI τις τελευταίες δεκαετίες.

Το MiraGe ερμηνεύει ‘επίπεδες’ Gaussians σε ένα 2D χώρο και χρησιμοποιεί GaMeS για να ‘τραβήξει’ περιεχόμενο σε GSplat-enabled 3D χώρο, προσωρινά.

Κάθε επίπεδη Gaussian αντιπροσωπεύεται από τρία σημεία σε ένα σύννεφο τριγώνων, που ονομάζεται 'τρίγωνο σούπα', ανοίγοντας την ερμηνεία της εικόνας στην χειρισμό. Πηγή: https://arxiv.org/pdf/2410.01521

Κάθε επίπεδη Gaussian αντιπροσωπεύεται από τρία σημεία σε ένα σύννεφο τριγώνων, που ονομάζεται ‘τρίγωνο σούπα’, ανοίγοντας την ερμηνεία της εικόνας στην χειρισμό. Πηγή: https://arxiv.org/pdf/2410.01521

Μπορούμε να δούμε στη κάτω αριστερή γωνία της εικόνας ότι το MiraGe δημιουργεί μια ‘κατοπτρική’ εικόνα του τμήματος μιας εικόνας που θα ερμηνευτεί.

Οι συγγραφείς αναφέρουν:

‘[Επrowadουμε] μια νέα προσέγγιση που χρησιμοποιεί δύο αντίθετες κάμερες τοποθετημένες κατά μήκος του άξονα Y, συμμετρικά ευθυγραμμισμένες γύρω από την προέλευση και κατευθυνόμενες η μία προς την άλλη. Η πρώτη κάμερα έχει ανατεθεί να ανακατασκευάσει την αρχική εικόνα, ενώ η δεύτερη μοντελοποιεί την αντανάκλαση.

‘Η φωτογραφία είναι έτσι концепτοποιημένη ως ένα διαφανές φύλλο χαρτιού, ενσωματωμένο στο 3D χωρικό контέκστ. Η αντανάκλαση μπορεί να αναπαρασταθεί αποτελεσματικά με την οριζόντια αναστροφή της [εικόνας].

Το έγγραφο σημειώνει ότι όταν αυτή η εξαγωγή έχει επιτευχθεί, οι ρυθμίσεις προοπτικής που θα ήταν συνήθως προκλητικές γίνονται προσβάσιμες μέσω άμεσης επεξεργασίας σε 3D. Στο παρακάτω παράδειγμα, βλέπουμε μια επιλογή μιας εικόνας μιας γυναίκας που περιλαμβάνει μόνο το χέρι της. Σε αυτή την περίπτωση, ο χρήστης έχει κλίνετε το χέρι προς τα κάτω με έναν πιθανό τρόπο, το οποίο θα ήταν μια προκλητική εργασία με την απλή μετακίνηση pixel.

Παράδειγμα της τεχνικής επεξεργασίας MiraGe

Παράδειγμα της τεχνικής επεξεργασίας MiraGe.

Η προσπάθεια αυτή με τη χρήση των γεννητικών εργαλείων Firefly στο Photoshop θα σήμαινε συνήθως ότι το χέρι αντικαθίσταται από ένα συνθετικό, διαχυτικό φαντασμένο χέρι, σπάζοντας την αυθεντικότητα της επεξεργασίας. Ακόμη και τα πιο ικανά συστήματα, όπως το ControlNet σύστημα για Stable Diffusion και άλλα Latent Diffusion Models, όπως Flux, αγωνίζονται να επιτύχουν αυτό το είδος επεξεργασίας σε μια εικόνα-σε-εικόνα διαδικασία.

Αυτή η συγκεκριμένη προσπάθεια έχει κυριαρχηθεί από μεθόδους που χρησιμοποιούν Implicit Neural Representations (INRs), όπως SIREN και WIRE. Η διαφορά μεταξύ μιας implicit και explicit αναπαράστασης μεθόδου είναι ότι οι συντεταγμένες του μοντέλου δεν είναι απευθείας προσβάσιμες στις INRs, οι οποίες χρησιμοποιούν μια συνεχής συνάρτηση.

Αντίθετα, το Gaussian Splatting προσφέρει ρητές και απευθείας προσβάσιμες X/Y/Z Καρτεσιανές συντεταγμένες, ακόμη και αν χρησιμοποιεί Gaussian ελλείψεις αντί για voxels ή άλλες μεθόδους αναπαράστασης περιεχομένου σε einen 3D χώρο.

Η ιδέα της χρήσης GSplat σε einen 2D χώρο έχει παρουσιαστεί πιο εξέχοντα, οι συγγραφείς σημειώνουν, στην κινεζική ακαδημαϊκή συνεργασία GaussianImage, η οποία πρόσφερε μια 2D εκδοχή του Gaussian Splatting, επιτρέποντας inference frame rates των 1000fps. Ωστόσο, αυτό το μοντέλο δεν έχει καμία υλοποίηση σχετική με την επεξεργασία εικόνων.

Μετά την εξαγωγή GaMeS, η εικόνα ανακατασκευάζεται χρησιμοποιώντας τη μέθοδο Material Points Method (MPM) τεχνική που περιγράφηκε για πρώτη φορά σε ένα έγγραφο του 2018 CSAIL.

Στο MiraGe, κατά τη διάρκεια της διαδικασίας της αλλαγής, το Gaussian Splat υπάρχει ως ένας οδηγός για μια ισοδύναμη mesh εκδοχή, πολύ σαν 3DMM CGI μοντέλα που χρησιμοποιούνται συχνά ως μεθόδους ορχήστρας για τεχνικές αναπαράστασης neuronals όπως Neural Radiance Fields (NeRF).

Κατά τη διάρκεια της διαδικασίας, двυδιάστατα αντικείμενα μοντελοποιούνται σε 3D χώρο και τα μέρη της εικόνας που δεν επηρεάζονται δεν είναι ορατά για τον τελικό χρήστη, ώστε η контекстική επίδραση των χειρισμών δεν είναι εμφανής μέχρι να ολοκληρωθεί η διαδικασία.

Το MiraGe μπορεί να ενσωματωθεί στο δημοφιλές ανοιχτό 3D πρόγραμμα Blender, το οποίο χρησιμοποιείται τώρα συχνά σε ροές εργασίας που περιλαμβάνουν τεχνητή νοημοσύνη, κυρίως για σκοπούς εικόνας-σε-εικόνα.

Μια ροή εργασίας για MiraGe στο Blender, που περιλαμβάνει την κίνηση του βραχίονα ενός σχήματος σε μια 2D εικόνα.

Μια ροή εργασίας για MiraGe στο Blender, που περιλαμβάνει την κίνηση του βραχίονα ενός σχήματος σε μια 2D εικόνα.

Οι συγγραφείς προσφέρουν δύο εκδοχές μιας προσέγγισης παραμόρφωσης που βασίζεται στο Gaussian Splatting – Amorphous και Graphite.

Η προσέγγιση Amorphous χρησιμοποιεί απευθείας τη μέθοδο GaMeS και επιτρέπει την εξαγωγή της 2D επιλογής να κινηθεί ελεύθερα σε 3D χώρο, ενώ η προσέγγιση Graphite περιορίζει τους Gaussians σε 2D χώρο κατά την αρχικοποίηση και την εκπαίδευση.

Οι ερευνητές βρήκαν ότι αν και η προσέγγιση Amorphous μπορεί να χειριστεί πιο σύνθετα σχήματα από το Graphite, ‘δάκρυα’ ή ρήγματα ήταν πιο εμφανή, όπου η άκρη της παραμόρφωσης ευθυγραμμίζεται με το ανεπηρέαστο μέρος της εικόνας*.

Επομένως, ανέπτυξαν το προαναφερθέν ‘κατοπτρικό’ σύστημα:

‘[Επrowadουμε] μια νέα προσέγγιση που χρησιμοποιεί δύο αντίθετες κάμερες τοποθετημένες κατά μήκος του άξονα Y, συμμετρικά ευθυγραμμισμένες γύρω από την προέλευση και κατευθυνόμενες η μία προς την άλλη.

‘Η πρώτη κάμερα έχει ανατεθεί να ανακατασκευάσει την αρχική εικόνα, ενώ η δεύτερη μοντελοποιεί την αντανάκλαση. Η φωτογραφία είναι έτσι концепτοποιημένη ως ένα διαφανές φύλλο χαρτιού, ενσωματωμένο στο 3D χωρικό контέκστ. Η αντανάκλαση μπορεί να αναπαρασταθεί αποτελεσματικά με την οριζόντια αναστροφή της [εικόνας].

‘Αυτή η ρύθμιση κάμερας βελτιώνει την πιστότητα των παραγόμενων ανακλάσεων, παρέχοντας μια ροβούστα λύση για την ακριβή καταγραφή οπτικών στοιχείων.’

Το έγγραφο σημειώνει ότι το MiraGe μπορεί να χρησιμοποιήσει εξωτερικούς φυσικούς μηχανισμούς όπως αυτούς που είναι διαθέσιμοι στο Blender ή στο Taichi_Elements.

Δεδομένα και Δοκιμές

Για την αξιολόγηση της ποιότητας εικόνας στις δοκιμές που διεξήχθησαν για το MiraGe, χρησιμοποιήθηκαν οι μετρήσεις Σημάτων-Θορύβου (SNR) και MS-SIM.

Τα δεδομένα που χρησιμοποιήθηκαν ήταν το Kodak Lossless True Color Image Suite και το DIV2K έλεγχος σύνολο. Οι αναλύσεις αυτών των δεδομένων ήταν κατάλληλες για σύγκριση με την πιο gầnη προηγούμενη εργασία, Gaussian Image. Τα άλλα αντίπαλα πλαίσια που δοκιμάστηκαν ήταν SIREN, WIRE, NVIDIA’s Instant Neural Graphics Primitives (I-NGP) και NeuRBF.

Οι δοκιμές διεξήχθησαν σε einen NVIDIA GEFORCE RTX 4070 laptop και σε einen NVIDIA RTX 2080.

Το MiraGe προσφέρει τα καλύτερα αποτελέσματα ενάντια στα επιλεγμένα προηγούμενα πλαίσια, σύμφωνα με τα αποτελέσματα που παρουσιάζονται στο νέο έγγραφο.

Το MiraGe προσφέρει τα καλύτερα αποτελέσματα ενάντια στα επιλεγμένα προηγούμενα πλαίσια, σύμφωνα με τα αποτελέσματα που παρουσιάζονται στο νέο έγγραφο.

Από αυτά τα αποτελέσματα, οι συγγραφείς αναφέρουν:

‘Βλέπουμε ότι η πρότασή μας υπερέχει των προηγούμενων λύσεων και στα δύο σύνολα δεδομένων. Η ποιότητα που μετράται από cả τους δείκτες δείχνει σημαντική βελτίωση σε σχέση με όλες τις προηγούμενες προσεγγίσεις.’

Συμπέρασμα

Η προσαρμογή του MiraGe της 2D Gaussian Splatting είναι σαφώς μια νέα και προσωρινή εισαγωγή σε αυτό που μπορεί να αποδειχθεί μια πολύ ενδιαφέρουσα εναλλακτική λύση στις αβεβαιότητες και τις τυχαιότητες της χρήσης διαχυτικών μοντέλων για την επεξεργασία εικόνων (π.χ. μέσω Firefly και άλλων API-διαχυτικών μεθόδων και ανοιχτών αρχιτεκτονικών όπως Stable Diffusion και Flux).

Αν και υπάρχουν πολλά διαχυτικά μοντέλα που μπορούν να επηρεάσουν μικρές αλλαγές σε εικόνες, τα LDMs περιορίζονται από την σεμαντική και συχνά ‘υπερφανταστική’ προσέγγισή τους σε μια κειμενο-βασισμένη αίτηση του χρήστη για μια αλλαγή.

Επομένως, η ικανότητα να τραβήξει προσωρινά ένα μέρος μιας εικόνας σε 3D χώρο, να το χειριστεί και να το αντικαταστήσει πίσω στην εικόνα, χρησιμοποιώντας μόνο την αρχική εικόνα ως αναφορά, φαίνεται να είναι μια εργασία που το Gaussian Splatting μπορεί να είναι καλά προσαρμοσμένο για το μέλλον.

 

* Υπάρχει κάποια σύγχυση στο έγγραφο, στο οποίο αναφέρεται το ‘Amorphous-Mirage’ ως την πιο αποτελεσματική και ικανή μέθοδο, παρά την τάση του να παράγει ανεπιθύμητους Gaussians (αρτεφάκτα), ενώ υποστηρίζει ότι το ‘Graphite-Mirage’ είναι πιο ευέλικτο. Φαίνεται ότι το Amorphous-Mirage αποκτά την καλύτερη λεπτομέρεια, και το Graphite-Mirage την καλύτερη ευελιξία.既然 και οι δύο μέθοδοι παρουσιάζονται στο έγγραφο, με τις διαφορετικές τους ιδίες και αδυναμίες, η προτίμηση των συγγραφέων, αν υπάρχει, δεν φαίνεται να είναι σαφής αυτή τη στιγμή.

 

Πρώτη δημοσίευση Πέμπτη, 3 Οκτωβρίου 2024

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]