Τεχνητή νοημοσύνη

Η Disney Research Προσφέρει Βελτιωμένη Compression Εικόνας με βάση το AI – Nhưng Μπορεί να Hallucinate Λεπτομέρειες

Published October 30, 2024

Updated April 27, 2026

Martin Anderson

Detail for the supplementary Disney paper – source: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf

Το ερευνητικό τμήμα της Disney προσφέρει μια νέα μέθοδο συμπίεσης εικόνων, αξιοποιώντας το ανοιχτό μοντέλο Stable Diffusion V1.2 για την παραγωγή πιο ρεαλιστικών εικόνων σε χαμηλότερες ταχύτητες bit από τις ανταγωνιστικές μεθόδους.

Η μέθοδος συμπίεσης της Disney σε σύγκριση με προηγούμενες προσεγγίσεις. Οι συγγραφείς ισχυρίζονται ότι η μέθοδος έχει βελτιωμένη ανάκτηση λεπτομερειών, ενώ προσφέρει ένα μοντέλο που δεν απαιτεί εκατοντάδες χιλιάδες δολάρια εκπαίδευσης και λειτουργεί γρηγορότερα από την最近 αντίστοιχη ανταγωνιστική μέθοδο. Πηγή: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf

Η νέα προσέγγιση (ορισμένη ως ‘codec’ παρά την αυξημένη复잡ότητα σε σύγκριση με παραδοσιακά codecs όπως το JPEG και AV1) μπορεί να λειτουργήσει πάνω από οποιοδήποτε Latent Diffusion Model (LDM). Σε ποσοτικές δοκιμές, υπερέχει των προηγούμενων μεθόδων σε όρους ακρίβειας και λεπτομερειών, και απαιτεί σημαντικά λιγότερη εκπαίδευση και κόστος υπολογισμού.

Το κλειδί της νέας εργασίας είναι ότι ο quantization error (ένας κεντρικός процесс σε όλες τις μεθόδους συμπίεσης εικόνας) είναι παρόμοιος με θόρυβο (ένας κεντρικός процесс σε μοντέλα διασποράς).

Ως εκ τούτου, μια ‘παραδοσιακά’ quantized εικόνα μπορεί να αντιμετωπιστεί ως μια θορυβώδης εκδοχή της αρχικής εικόνας, και να χρησιμοποιηθεί στη διαδικασία αποθορύβωσης ενός LDM αντί του τυχαίου θορύβου, για να ανακατασκευάσει την εικόνα σε μια στόχο ταχύτητα bit.

Πρόσθετες συγκρίσεις της νέας μεθόδου της Disney (υπογραμμισμένες με πράσινο), σε αντίθεση με ανταγωνιστικές προσεγγίσεις.

Οι συγγραφείς ισχυρίζονται:

‘[Εμείς] ορίσαμε την αφαίρεση του quantization error ως μια διαδικασία αποθορύβωσης, χρησιμοποιώντας διασπορά για την ανάκτηση των χαμένων πληροφοριών στην μεταδιδομένη εικόνα. Η μέθοδος μας επιτρέπει να εκτελέσουμε λιγότερο από το 10% της πλήρους διαδικασίας διασποράς και δεν απαιτεί καμία αρχιτεκτονική αλλαγή στο μοντέλο διασποράς, επιτρέποντας τη χρήση των θεμελιωδών μοντέλων ως ισχυρό προηγούμενο χωρίς επιπλέον εκπαίδευση του πλαισίου.

‘Η προτεινόμενη μας μέθοδος υπερέχει των προηγούμενων μεθόδων σε ποσοτικές μετρήσεις ρεαλισμού, και επιβεβαιώνουμε ότι οι ανακατασκευές μας προτιμώνται ποιοτικά από τους τελικούς χρήστες, ακόμη και όταν άλλες μέθοδοι χρησιμοποιούν διπλάσιο bitrate.’

Ωστόσο, όπως και σε άλλες εργασίες που επιδιώκουν να εκμεταλλευτούν τις ικανότητες συμπίεσης των μοντέλων διασποράς, η έξοδος μπορεί να hallucinate λεπτομέρειες. Σε αντίθεση, μεθόδους απώλειας όπως το JPEG θα παράγουν σαφώς παραμορφωμένες ή υπερ-λειαντικές περιοχές λεπτομερειών, οι οποίες μπορούν να αναγνωριστούν ως περιορισμοί συμπίεσης από τον καθημερινό χρήστη.

Αντίθετα, ο codec της Disney μπορεί να αλλάξει λεπτομέρειες από το контέκστ που δεν ήταν παρόν στην πηγή εικόνας, λόγω της χονδρής φύσης του Variational Autoencoder (VAE) που χρησιμοποιείται σε τυπικά μοντέλα εκπαιδευμένα σε δεδομένα υψηλής κλίμακας.

‘Παρόμοια με άλλες γενετικές προσεγγίσεις, η μέθοδος μας μπορεί να απορρίψει ορισμένα χαρακτηριστικά εικόνας ενώ συνθέτει παρόμοιες πληροφορίες στην πλευρά του λήπτη. Σε συγκεκριμένες περιπτώσεις, ωστόσο, αυτό μπορεί να οδηγήσει σε ανακριβή ανακατασκευή, όπως η κάμψη ευθύγραμμων γραμμών ή η παραμόρφωση των ορίων μικρών αντικειμένων.

‘Αυτά είναι γνωστά προβλήματα του θεμελιώδους μοντέλου που χτίζουμε, τα οποία μπορούν να αποδοθούν στην tương đối χαμηλή διάσταση χαρακτηριστικών του VAE.’

Ενώ αυτό έχει ορισμένες επιπτώσεις για τις καλλιτεχνικές απεικονίσεις και την εικονογραφία των καθημερινών φωτογραφιών, μπορεί να έχει μια πιο κρίσιμη επίδραση σε περιπτώσεις όπου οι μικρές λεπτομέρειες αποτελούν απαραίτητες πληροφορίες, όπως αποδεικτικά στοιχεία για δικαστικές υποθέσεις, δεδομένα για αναγνώριση προσώπου, σκάνερ για Αναγνώριση Οπτικών Χαρακτήρων (OCR) και eine ποικιλία άλλων πιθανών χρήσεων, σε περίπτωση που μια τέτοια μέθοδος συμπίεσης γίνει δημοφιλής.

Σε αυτό το πρώιμο στάδιο της πρόοδου της συμπίεσης εικόνας με βάση το AI, όλα αυτά τα πιθανά σενάρια είναι μακράν στο μέλλον. Ωστόσο, η αποθήκευση εικόνας είναι μια υπερκλίμακα παγκόσμια πρόκληση, που αφορά ζητήματα γύρω από την αποθήκευση δεδομένων, τη ροή και την κατανάλωση ηλεκτρικής ενέργειας, εκτός από άλλα προβλήματα. Ως εκ τούτου, η συμπίεση με βάση το AI μπορεί να προσφέρει μια ελκυστική ανταλλαγή μεταξύ ακρίβειας και λογιστικής.

Η ιστορία δείχνει ότι οι καλύτεροι codecs δεν πάντα κερδίζουν την ευρύτερη βάση χρηστών, όταν ζητήματα όπως η άδεια και η κατοχή της αγοράς από ιδιόκτητα формά είναι παράγοντες στην υιοθέτηση.

Η Disney έχει πειραματιστεί με τη μηχανική μάθηση ως μέθοδο συμπίεσης για πολύ καιρό. Το 2020, ένας από τους ερευνητές της νέας εργασίας ήταν εμπλεγμένος σε ένα έργο VAE για τη βελτίωση της συμπίεσης βίντεο.

Η νέα εργασία της Disney ενημερώθηκε στις αρχές Οκτωβρίου. Σήμερα η εταιρεία κυκλοφόρησε ένα συνοδευτικό βίντεο στο YouTube. Το έργο ονομάζεται Συμπίεση Εικόνας με Απώλεια με Θεμελιώδη Μοντέλα Διασποράς, και προέρχεται από τέσσερις ερευνητές στο ETH Zürich (συνδεδεμένοι με τα έργα AI της Disney) και την ερευνητική ομάδα της Disney. Οι ερευνητές προσφέρουν επίσης ένα συμπληρωματικό έγγραφο.

Μέθοδος

Η νέα μέθοδος χρησιμοποιεί ένα VAE για να κωδικοποιήσει μια εικόνα σε μια συμπιεσμένη λατινική αναπαράσταση. Σε αυτό το στάδιο, η είσοδος εικόνας αποτελείται από παραγόμενα χαρακτηριστικά – χαμηλού επιπέδου διανυσματικές αναπαραστάσεις. Η λατινική εμβέδωση κωδικοποιείται πίσω σε einen bitstream, και πάλι σε χώρο pixel.

Αυτή η κωδικοποιημένη εικόνα χρησιμοποιείται ως προτυπό για τον θόρυβο που συνήθως σπέρνει μια διασπορά εικόνας, με έναν μεταβλητό αριθμό βημάτων αποθορύβωσης (όπου υπάρχει συχνά μια ανταλλαγή μεταξύ αυξημένων βημάτων αποθορύβωσης και μεγαλύτερης ακρίβειας, έναντι χαμηλότερης υστέρησης και υψηλότερης απόδοσης).

Σχήμα για τη νέα μέθοδο συμπίεσης της Disney.

Και οι παράμετροι κωδικοποίησης και ο συνολικός αριθμός βημάτων αποθορύβωσης μπορούν να ελεγχθούν στο νέο σύστημα, μέσω της εκπαίδευσης ενός νευρωνικού δικτύου που προβλέπει τις σχετικές μεταβλητές που σχετίζονται με αυτές τις πτυχές της κωδικοποίησης. Αυτή η διαδικασία ονομάζεται adaptive quantization, και το σύστημα της Disney χρησιμοποιεί το Entroformer framework ως το μοντέλο εντροπίας που ενεργοποιεί τη διαδικασία.

Οι συγγραφείς δηλώνουν:

‘Εννοιολογικά, η μέθοδος μας μαθαίνει να απορρίπτει πληροφορίες (μέσω της μετατροπής κωδικοποίησης) που μπορούν να συνθετούνται κατά τη διάρκεια της διαδικασίας διασποράς. Επειδή οι σφάλματα που εισάγονται κατά τη διάρκεια της κωδικοποίησης είναι παρόμοια με την προσθήκη [θορύβου] και τα μοντέλα διασποράς είναι λειτουργικά μοντέλα αποθορύβωσης, μπορούν να χρησιμοποιηθούν για την αφαίρεση του θορύβου κωδικοποίησης που εισάγεται κατά τη διάρκεια της κωδικοποίησης.’

Το Stable Diffusion V2.1 είναι το μοντέλο διασποράς για το σύστημα, επιλεγμένο επειδή όλος ο κώδικας και τα βάρη είναι δημόσια διαθέσιμα. Ωστόσο, οι συγγραφείς τονίζουν ότι το σχήμα τους είναι εφαρμόσιμο σε ένα ευρύτερο αριθμό μοντέλων.

Κεντρικό για την οικονομία της διαδικασίας είναι η προσέγγιση του βήματος, η οποία αξιολογεί τον ιδανικό αριθμό βημάτων αποθορύβωσης – μια ισορροπία μεταξύ απόδοσης και επιδόσεων.

Προσέγγιση του βήματος, με τον ιδανικό αριθμό βημάτων αποθορύβωσης που υποδεικνύεται με κόκκινο περίγραμμα. Παρακαλούμε αναφερθείτε στο αρχείο PDF για ακριβή ανάλυση.

Το ποσό του θορύβου στη λατινική εμβέδωση πρέπει να ληφθεί υπόψη κατά τη διάρκεια της πρόβλεψης για τον καλύτερο αριθμό βημάτων αποθορύβωσης.

Δεδομένα και Δοκιμές

Το μοντέλο εκπαιδεύτηκε στο Vimeo-90k dataset. Οι εικόνες τυχαία αποκοπήθηκαν σε 256x256px για κάθε epoch (δηλαδή, κάθε ολοκληρωμένη κατάπωση του βελτιωμένου dataset από την αρχιτεκτονική εκπαίδευσης του μοντέλου).

Το μοντέλο βελτιώθηκε για 300,000 βήματα σε μια ταχύτητα εκμάθησης 1e-4. Αυτό είναι το πιο κοινό μεταξύ των έργων υπολογιστικής όρασης, και επίσης η χαμηλότερη και πιο λεπτομερής γενικά πρακτική τιμή, ως μια συμβιβαστική λύση μεταξύ ευρείας γενίκευσης των εννοιών και χαρακτηριστικών του dataset, και μιας ικανότητας για την αναπαραγωγή λεπτών λεπτομερειών.

Οι συγγραφείς σχολιάζουν ορισμένα από τα λογιστικά ζητήματα για ένα οικονομικό αλλά αποτελεσματικό σύστημα*:

‘Κατά τη διάρκεια της εκπαίδευσης, είναι απαγορευτικά δαπανηρό να αναστρέψουμε τη γραμμική σχέση μέσω πολλαπλών διαδικασιών του μοντέλου διασποράς όπως εκτελείται κατά τη DDIM δειγματοληψία. Ως εκ τούτου, εκτελούμε μόνο μια διαδικασία δειγματοληψίας DDIM και χρησιμοποιούμε απευθείας [αυτό] ως πλήρως αποθορυβωμένα [δεδομένα].’

Τα datasets που χρησιμοποιήθηκαν για τη δοκιμή του συστήματος ήταν Kodak; CLIC2022; και COCO 30k. Το dataset επεξετάθη σύμφωνα με τη μεθοδολογία που περιγράφεται στην εργασία του Google το 2023 Συμπίεση Εικόνας με Πολλαπλά Πραγματικά με einen Συνδεδεμένο Γεννήτορα.

Οι μετρήσεις που χρησιμοποιήθηκαν ήταν Peak Signal-to-Noise Ratio (PSNR); Μαθημένες Μετρήσεις Ομοιότητας (LPIPS); Διασποράς Δείκτης Ομοιότητας (MS-SSIM); και Απόσταση Inception Fréchet (FID).

Οι ανταγωνιστικές προηγούμενες μεθόδους που δοκιμάστηκαν χωρίστηκαν μεταξύ παλαιότερων συστημάτων που χρησιμοποιούσαν Γενετικά Ανταγωνιστικά Δίκτυα (GANs), και πιο πρόσφατων προσεγγίσεων που βασίζονται σε μοντέλα διασποράς. Τα συστήματα GAN που δοκιμάστηκαν ήταν Υψηλής Ποιότητας Γενετική Συμπίεση Εικόνας (HiFiC); και ILLM (το οποίο προσφέρει ορισμένες βελτιώσεις στο HiFiC).

Τα συστήματα που βασίζονται σε διασπορά были Συμπίεση Εικόνας με Απώλεια με Μοντέλα Διασποράς (CDC) και Υψηλής Ποιότητας Συμπίεση Εικόνας με Μοντέλα Score-με βάση (HFD).

Ποσοτικές αποτελέσματα έναντι προηγούμενων μεθόδων σε διάφορα datasets.

Για τα ποσοτικά αποτελέσματα (οπτικά παραπάνω), οι ερευνητές δηλώνουν:

‘Η μέθοδος μας θέτει einen νέο state-of-the-art στην πραγματικότητα των ανακατασκευασμένων εικόνων, υπερέχοντας όλες τις βάσεις σε καμπύλες FID-bitrate. Σε ορισμένες μετρήσεις παραμόρφωσης (συγκεκριμένα, LPIPS και MS-SSIM), υπερέχουμε όλων των codec που βασίζονται σε διασπορά, ενώ παραμένουμε ανταγωνιστικοί με τα υψηλότερα γενετικά codec.

‘Ως αναμενόμενο, η μέθοδος μας και άλλες γενετικές μεθόδους υποφέρουν όταν μετράται σε PSNR, καθώς ευνοούμε ποιοτικά ευχάριστες ανακατασκευές αντί για ακριβή αναπαραγωγή λεπτομερειών.’

Για τη μελέτη του χρήστη, χρησιμοποιήθηκε μια μέθοδος δύο εναλλακτικών για την επιβίβαση (2AFC) σε ένα τουρνουά, όπου οι προτιμώμενες εικόνες θα συνέχιζαν σε μεταγενέστερα γύρους. Η μελέτη χρησιμοποιούσε το Elo σύστημα αξιολόγησης που αναπτύχθηκε αρχικά για τουρνουά σκακιού.

Ως εκ τούτου, οι συμμετέχοντες θα έβλεπαν και θα επέλεγαν την καλύτερη από δύο παρουσιαζόμενες εικόνες 512x512px σε διάφορες γενετικές μεθόδους. Μια πρόσθετη πειραματική διαδικασία πραγματοποιήθηκε, στην οποία όλες οι συγκρίσεις εικόνων από τον ίδιο χρήστη αξιολογήθηκαν μέσω μιας Μοντε Κάρλο προσομοίωσης σε 10,0000 επαναλήψεις, με την παρουσίαση του μεσοσταθμού στην παρουσίαση αποτελεσμάτων.

Εκτιμώμενα Elo αξιολογήσεις για τη μελέτη του χρήστη, με Elo τουρνουά για κάθε σύγκριση (αριστερά) και επίσης για κάθε συμμετέχοντα, με υψηλότερες τιμές καλύτερες.

Εδώ οι συγγραφείς σχολιάζουν:

‘Όπως φαίνεται στις Elo αξιολογήσεις, η μέθοδος μας υπερέχει σημαντικά όλων των άλλων, ακόμη και σε σύγκριση με το CDC, το οποίο χρησιμοποιεί κατά μέσο όρο διπλάσιο bitrate της μεθόδου μας. Αυτό παραμένει αληθές ανεξάρτητα από την Elo τουρνουά στρατηγική που χρησιμοποιείται.’

Στην αρχική εργασία, καθώς και στο συμπληρωματικό PDF, οι συγγραφείς παρέχουν περαιτέρω οπτικές συγκρίσεις, μια από τις οποίες εμφανίζεται νωρίτερα σε αυτό το άρθρο. Ωστόσο, λόγω της λεπτομέρειας της διαφοράς μεταξύ των δειγμάτων, αναφερόμαστε τον αναγνώστη στο αρχείο PDF, ώστε αυτά τα αποτελέσματα να μπορούν να κριθούν δίκαια.

Η εργασία ολοκληρώνεται σημειώνοντας ότι η προτεινόμενη μέθοδος λειτουργεί δύο φορές γρηγορότερα από το ανταγωνιστικό CDC (3.49 vs 6.87 δευτερόλεπτα, αντίστοιχα). Επίσης, παρατηρεί ότι το ILLM μπορεί να επεξεργαστεί μια εικόνα μέσα σε 0,27 δευτερόλεπτα, αλλά ότι αυτό το σύστημα απαιτεί βαρύτητα εκπαίδευση.

Συμπέρασμα

Οι ερευνητές του ETH/Disney είναι σαφείς, στο τέλος της εργασίας, σχετικά με τη δυνατότητα του συστήματος να γεννήσει ψευδείς λεπτομέρειες. Ωστόσο, κανένα από τα δείγματα που παρουσιάζονται στην εργασία δεν επικεντρώνεται σε αυτό το ζήτημα.

Σε όλες τις περιπτώσεις, αυτό το πρόβλημα δεν είναι περιορισμένο στην νέα μέθοδο της Disney, αλλά είναι μια αναπόφευκτη παρενέργεια της χρήσης μοντέλων διασποράς – μιας εφευρετικής και ερμηνευτικής αρχιτεκτονικής – για τη συμπίεση εικόνας.

Ενδιαφέρον είναι ότι, μόνο πέντε ημέρες πριν, δύο άλλοι ερευνητές από το ETH Zurich παρήγαγαν μια εργασία με τίτλο Συμπίεση Εικόνας με Απώλεια με Μοντέλα Διασποράς, η οποία εξετάζει τη δυνατότητα ενός ‘ιδεαλού επιπέδου hallucination’ σε συστήματα συμπίεσης εικόνας με βάση το AI.

Οι συγγραφείς εκεί κάνουν μια περίπτωση για την επιθυμητότητα των hallucinations όπου το domaine είναι γενικό (και, επιχειρηματολογούν, ‘αβλαβές’) enough:

‘Για texture-όμοια περιεχόμενο, όπως γρασίδι, σπίλες και τοίχοι από πέτρα, η γεννήτρια pixel που αντιστοιχούν σε ένα δεδομένο texture είναι πιο σημαντική από την αναπαραγωγή ακριβών τιμών pixel; η γεννήτρια οποιουδήποτε δείγματος από την κατανομή ενός texture είναι γενικά αρκετή.’

Ως εκ τούτου, αυτή η δεύτερη εργασία κάνει μια περίπτωση για τη συμπίεση να είναι βέλτιστα ‘δημιουργική’ και αντιπροσωπευτική, 而 όχι να αναπαράγει όσο το δυνατόν ακριβέστερα τα βασικά χαρακτηριστικά και lineaments της αρχικής μη συμπιεσμένης εικόνας.

Ένα ερώτημα είναι τι θα σκέφτονταν η φωτογραφική και δημιουργική κοινότητα για αυτή τη σχετικά ριζική αναδιατύπωση της ‘συμπίεσης’.

*Η μετατροπή των εσωτερικών αναφορών των συγγραφέων σε υπερσύνδεσμους.

Πρώτη δημοσίευση την Τετάρτη, 30 Οκτωβρίου 2024

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]