Η γωνία του Anderson

Εισαγωγή των AI-Γεννημένων Εικόνων στο Φως με HDR

mm
AI-generated image (GPT-2): 'A mother and daughter take a selfie in a bedroom, with an empty dark closet in one version and a brightly revealed, surprised furry creature inside it in the other.'

Οι εικόνες και τα βίντεο AI μπορεί να είναι εντυπωσιακά, αλλά δεν είναι στο επίπεδο των επαγγελματιών – ένα ζήτημα που μια νέα έρευνα προσπαθεί να αντιμετωπίσει.

 

Στην επαγγελματική κοινότητα ήχου και εικόνας, μια από τις πιο συχνές αντιρρήσεις για την επέλαση της τεχνητής νοημοσύνης είναι η έλλειψη επαγγελματικών προτύπων αναπαραγωγής εικόνας και βίντεο. Δεν είναι το λιγότερο από αυτά η ικανότητα να εργαστεί με εικόνες και βίντεο υψηλής δυναμικής εύρους (HDR).

Οι εικόνες HDR είναι το σύγχρονο αντίστοιχο μιας φωτογραφικής πρακτικής του 19ου/20ου αιώνα που ονομάζεται βραχeting, όπου η ίδια εικόνα λαμβάνεται πολλές φορές με αυξανόμενη ποσότητα φωτός που επιτρέπεται να φτάσει στο φιλμ:

Πάνω, μια σύντομη βραχETING ακολουθία. Σε εσοχή κάτω, η υψηλή δυναμική εύρος που μπορεί να εξαχθεί από αυτές τις φωτογραφίες σε μια seule εικόνα. Πηγή – Alex Wise Photography - https://www.alexwisephotography.net/blog/2013/01/12/automatic-exposure-bracketing-aeb-explained/

Πάνω, μια σύντομη βραχETING ακολουθία. Σε εσοχή κάτω, η υψηλή δυναμική εύρος που μπορεί να εξαχθεί από αυτές τις φωτογραφίες σε μια seule εικόνα. Πηγή

Στην παραδοσιακή φωτογραφία, αυτό οδήγησε σε πολλές εικόνες που θα μπορούσαν, με κάποια εμπειρία και προσπάθεια, να συνθέτουν μια seule εικόνα που θα ωφελούνταν από όλα τα διαφορετικά επίπεδα λεπτομέρειας που ήταν διαθέσιμα σε όλη την εύρος των εκθέσεων. Αλλά δεν ήταν ένα εύκολο ή琐λο πρόceso.

Αυτές τις μέρες, μια ‘αυτόματη βραχETING ακολουθία’ μπορεί να παράγει πολλές εικόνες ή να συνδυαστεί σε μια seule εικόνα HDR – αποτελεσματικά, πολλές εκθέσεις σε μια εικόνα, η οποία μπορεί να επεξεργαστεί από εφαρμογές επεξεργασίας εικόνας που υποστηρίζουν HDR, όπως το Photoshop, και να επιτρέψει στον φωτογράφο να ορχηστρώσει σε μια seule, ιδανική εικόνα εξόδου.

Εάν αναρωτιέστε γιατί πρέπει να ενδιαφερθείτε, ή πώς αυτό το είδος πραγμάτων επηρεάζει τη δική σας φωτογραφία, η εικονογράφηση για αυτό το άρθρο προορίζεται να δείξει αυτό με έναν οικείο τρόπο:

Πάνω, αριστερά βλέπουμε ένα τυπικό παράδειγμα μιας sRGB (δηλαδή, μη-HDR) εικόνας. Απλώς φωτίζοντας (δείχνεται δεξιά) δεν δείχνει το τέρας στο ντουλάπι, γιατί αυτή η λεπτομέρεια απορρίφθηκε όταν ο φωτογράφος και οι αυτοματοποιημένες διαδικασίες της κάμερας αποφάσισαν τι να προτεραιοποιήσουν στην εικόνα:

Κάτω, υπάρχει μια ένδειξη (αριστερά) για το πόσο ‘ξεθωριασμένο’ θα πρέπει να είναι το προσκήνιο κατά τη διάρκεια της έκθεσης για να καταγράψει το τέρας στο ντουλάπι σε μια μη-HDR εικόνα, και (δεξιά) πώς το τέρας βυθίζεται στο σκότος όταν η έκθεση γίνεται κατάλληλη για το καλά φωτισμένο προσκήνιο:

Κάτω, βλέπουμε το είδος λεπτομέρειας που μπορεί να ‘σώσει’ από μια εικόνα HDR ή ακολουθία εικόνων. Σε αυτή την περίπτωση, το τέρας ‘κρυβόταν’ στα πολύ χαμηλότερα οπτικά μητρώα της ακολουθίας HDR, σε ένα επίπεδο όπου το υπόλοιπο περιεχόμενο θα ήταν ‘μπλεγμένο’ σε近-λευκό (πάνω, αριστερά). Βάσει της προδιαγραφής ότι ένα ευρύ φάσμα επιπέδων φωτεινότητας θα εκφραστεί, επιλεκτικά, στην ίδια εικόνα, αυτά τα ασύμβατα στοιχεία μπορούν να συνθέτουν σε μια seule, ορθολογική εικόνα:

Μια μη-HDR εικόνα ονομάζεται εικόνα αναφοράς στην οθόνη, και μια εικόνα HDR υψηλής γαμμας ονομάζεται εικόνα αναφοράς στην σκηνή.

Το βίντεο HDR είναι ένα πράγμα, και αυτό το είδος τονικής ευελιξίας και δυσκολίας δίνει στους κινηματογραφιστές κάποια ελευθερία να σώσουν, να βαθμονομήσουν και να ερμηνεύσουν τα кадρά τους με πολλούς δημιουργικούς και συνεπούς τρόπους. Δεν είναι आश्चηρό, λοιπόν, ότι οι δημιουργικοί άνθρωποι είναι διστακτικοί να εργαστούν με την ‘iαττμένη’ sRGB έξοδο που είναι τυπική για τα περισσότερα γεννητικά πλαίσια AI.

HDR στο AI

Φυσικά, η ερευνητική σκηνή ενδιαφέρεται για την εισαγωγή των γεννητικών πλαισίων AI στην εποχή HDR. Ωστόσο, δεν είναι ένα εύκολο έργο, τόσο λόγω της θεμελιώδους αρχιτεκτονικής των διαχυτικών γεννητικών συστημάτων, όσο και λόγω του ότι τα καλά δεδομένα HDR καταλαμβάνουν πολύ δισκόχωρο, καθιστώντας τα σύνολα δεδομένων ακατάλληλα για αυτό το σκοπό.

Παρά τούτο, μια συνεργασία μεταξύ eines πανεπιστημίου στη Σιγκαπούρη και της Adobe Research προσφέρει μια μέθοδο για την παραγωγή ακολουθιών εικόνων HDR, σε μια μεθοδολογία που μπορεί θεωρητικά να εφαρμοστεί σε βίντεο καθώς και σε στατικές εικόνες:

Από την ιστοσελίδα του έργου για το νέο έργο, παραδείγματα 'βραχETING' εξόδου κειμένου-εικόνας. Πηγή -  https://github.com/ykdai/LinearGen

Από την ιστοσελίδα του έργου για το νέο έργο, παραδείγματα ‘βραχETING’ εξόδου κειμένου-εικόνας. Πηγή

Το νέο σύστημα γεννά πολλές συγχρονισμένες εκδόσεις της ίδιας εικόνας σε διαφορετικά επίπεδα φωτεινότητας και μαθαίνει πόσο φωτεινό ήταν πραγματικά το σκηνικό, και στη συνέχεια συνδυάζει αυτές τις εκδόσεις σε ένα seul αποτέλεσμα που διατηρεί λεπτομέρειες και στις σκιές και στις υψηλές περιοχές, επιτρέποντας μεταγενέστερες επεξεργασίες της έκθεσης ή του χρώματος να συμπεριφέρονται περισσότερο σαν điều chỉnh σε μια πραγματική κάμερα, 而 όχι σαν εύθραυστες ρυθμίσεις σε μια πλήρως επεξεργασμένη εικόνα.

Το σύστημα αξιοποιεί μια ποικιλία διαφορετικών μοντέλων για αυτή την εργασία, συμπεριλαμβανομένων παραλλαγών του Qwen και Flux:

Παραδείγματα από το νέο έγγραφο, δείχνοντας πώς το σύστημα μπορεί να γεννήσει πολλές εκδόσεις έκθεσης της ίδιας σκηνής ενώ διατηρεί την υποκείμενη δομή σταθερή. Ξεκινώντας από ένα απλό χάρτη ακμής, το μοντέλο παράγει συνεπείς εικόνες σε πολύ σκούρες έως πολύ φωτεινές ρυθμίσεις, είτε η πρόταση περιγράφει σεληνιακό φως, ηλιακό φως, δύση ή ακόμη και ένα μικρό αντικείμενο όπως ένα μπαλόνι, με το θέμα και τη σύνθεση να παραμένουν σταθερά ενώ μόνο η φωτεινότητα αλλάζει. Η μέθοδος μπορεί να μεταβάλλει τη φωτεινότητα με έναν ελεγχόμενο, κάμερα-όμορφο τρόπο, 而 όχι να παραμερίζει ή να εφευρίσκει νέο περιεχόμενο καθώς η έκθεση μεταβάλλεται.

Παραδείγματα από το νέο έγγραφο, δείχνοντας πώς το σύστημα μπορεί να γεννήσει πολλές εκδόσεις έκθεσης της ίδιας σκηνής ενώ διατηρεί την υποκείμενη δομή σταθερή. Ξεκινώντας από ένα απλό χάρτη ακμής, το μοντέλο παράγει συνεπείς εικόνες σε πολύ σκούρες έως πολύ φωτεινές ρυθμίσεις, είτε η πρόταση περιγράφει σεληνιακό φως, ηλιακό φως, δύση ή ακόμη και ένα μικρό αντικείμενο όπως ένα μπαλόνι, με το θέμα και τη σύνθεση να παραμένουν σταθερά ενώ μόνο η φωτεινότητα αλλάζει. Η μέθοδος μπορεί να μεταβάλλει τη φωτεινότητα με έναν ελεγχόμενο, κάμερα-όμορφο τρόπο, 而 όχι να παραμερίζει ή να εφευρίσκει νέο περιεχόμενο καθώς η έκθεση μεταβάλλεται.  Πηγή

Οι συγγραφείς δηλώνουν:

‘Η γεννήτρια γραμμικών εικόνων είναι μια πρόκληση, καθώς τα προ-εκπαιδευμένα VAEs στα μοντέλα διάχυσης latents δυσκολεύονται να διατηρήσουν ταυτόχρονα τα ακραία υψηλά και σκιές λόγω του υψηλότερου δυναμικού εύρους και του μεγαλύτερου βάθους bit.

‘Για αυτό, αντιπροσωπεύουμε μια γραμμική εικόνα ως μια ακολουθία βραχETING, κάθε μια από τις οποίες καταγράφει ένα συγκεκριμένο τμήμα του δυναμικού εύρους, και προτείνουμε μια DiT-βασισμένη αρχιτεκτονική ροής-συνδυασμού για τη γεννήτρια έκθεσης κειμένου-εικόνας.

‘Επιπλέον, αποδεικνύουμε εφαρμογές κατάντη, συμπεριλαμβανομένης της επεξεργασίας εικόνας κειμένου-εικόνας και της γεννήτριας δομής-εικόνας μέσω ControlNet.’

Το νέο έργο ονομάζεται Γεννήτρια Γραμμικών Εικόνων με τη Συνθέτηση ΒραχETING, και προέρχεται από τέσσερις συγγραφείς από το S-Lab στο Nanyang Technological University, το Adobe NextCam και την Adobe Research. Εκτός από την προαναφερθείσα ιστοσελίδα του έργου και το βίντεο στο YouTube που συνοδεύει την κυκλοφορία, υπάρχει επίσης ένα (για τώρα άδειο) GitHub repo, και η υπόσχεση για την κυκλοφορία ενός συνόλου δεδομένων.

Αν και οι συγγραφείς παρέχουν πολλά παραδείγματα εξόδου από το σύστημα στην ιστοσελίδα του έργου, οι αναγνώστες θα χρειαστούν μια οθόνη HDR για να διακρίνουν πραγματικά τις ιδιότητες του εξόδου HDR που παρουσιάζονται. Παρόλα αυτά, βρείτε την επισκόπηση των ερευνητών στο YouTube ενσωματωμένη στο τέλος του άρθρου – αλλά να είστε ενήμεροι ότι οι διαφορές μεταξύ των παραδειγμάτων που παρουσιάζονται μπορεί να μην είναι σαφείς σε μια μη-HDR οθόνη.

Μέθοδος και Δεδομένα

Οι συγγραφείς τονίζουν το βαθμό στον οποίο η συλλογή δεδομένων είναι μια πρόκληση σε αυτή την περίπτωση:

‘Η απόκτηση ενός μεγάλου αριθμού γραμμικών εικόνων είναι εξαιρετικά δύσκολη στην πράξη. Επιπλέον, τα περισσότερα δημόσια σύνολα δεδομένων HDR είναι είτε πανοραμικά (και επομένως εστιάζουν σχεδόν αποκλειστικά σε περιεχόμενο σκηνής μεγάλης κλίμακας) είτε δεν παρέχουν πραγματικές γραμμικές εικόνες, καθιστώντας τα ακατάλληλα για τους σκοπούς μας.

‘Επομένως, χρησιμοποιούμε κυρίως σύνολα δεδομένων RAW εικόνων ως βάση για την εκπαίδευση.’

Οι ερευνητές έκαναν δημιουργική χρήση των λίγων επιλογών που είχαν, αξιοποιώντας το RAISE dataset ως πραγματικά δεδομένα εκπαίδευσης, και το MIT-Adobe FiveK dataset ως δεδομένα αξιολόγησης*.

Για να δημιουργήσουν χρήσιμα δεδομένα εκπαίδευσης HDR, οι ερευνητές έτρεξαν τα αρχεία κάμερας RAW через μια τυποποιημένη διαδικασία για να αφαιρέσουν τις ιδιομορφίες της κάμερας, μετατρέποντας τις εικόνες σε μια συνεπή, γραμμική μορφή αναφοράς στην σκηνή:

Το σύστημα αρχίζει από θόρυβο που αντιπροσωπεύει τέσσερις εκθέσεις του ίδιου σκηνικού, μαζί με μια πρόταση κειμένου και einen token φωτεινότητας, και τις επεξεργάζεται μέσω στοιβάζοντων μπλοκ μετασχηματισμού που διατηρούν τις διαφορετικές εκθέσεις συγχρονισμένες, ενώ προσαρμόζουν για φωτεινότητα. Στη συνέχεια, προβλέπουν τόσο το σύνολο των εικόνων έκθεσης, όσο και μια γενική κλίμακα φωτεινότητας, και στη συνέχεια αποκωδικοποιούν και συνδυάζουν αυτές σε μια seule εικόνα αναφοράς στην σκηνή, διατηρώντας λεπτομέρειες και στις σκιές και στις υψηλές περιοχές.

Σχήμα για την εργογραφία των συγγραφέων: το σύστημα αρχίζει από θόρυβο που αντιπροσωπεύει τέσσερις εκθέσεις του ίδιου σκηνικού, μαζί με μια πρόταση κειμένου και einen token φωτεινότητας. Αυτό επεξεργάζεται μέσω στοιβάζοντων μπλοκ μετασχηματισμού που διατηρούν τις διαφορετικές εκθέσεις συγχρονισμένες, ενώ προσαρμόζουν για φωτεινότητα. Το σύστημα προβλέπει τόσο το σύνολο των εικόνων έκθεσης, όσο και μια γενική κλίμακα φωτεινότητας, και στη συνέχεια αποκωδικοποιούν και συνδυάζουν αυτές σε μια seule εικόνα αναφοράς στην σκηνή, διατηρώντας λεπτομέρειες και στις σκιές και στις υψηλές περιοχές.

Αυτό περιελάμβανε την ανακατασκευή πλήρους RGB από δεδομένα αισθητήρα, την εφαρμογή διόρθωσης χρώματος, την κανονικοποίηση του λευκού ισορροπίας, και μια σύντομη μετακίνηση σε einen περцепτούαλ χώρο χρώματος για θόρυβο πριν επιστρέψει σε einen καθαρό γραμμικό σήμα. Το πραγματικό φως στη σκηνή ανακτήθηκε χρησιμοποιώντας τις ρυθμίσεις έκθεσης της κάμερας, ώστε κάθε pixel να αντανακλά την πραγματική φωτεινότητα 而 όχι μια εκδοχή που είναι έτοιμη για οθόνη.

Επειδή τέτοιες τιμές μπορούν να ποικίλουν ευρέως, τα δεδομένα στηρίχθηκαν στη συνέχεια με την κλίμακα κάθε εικόνας με βάση την δική της κατανομή φωτεινότητας, χρησιμοποιώντας στατιστικά μεσαίας και υψηλής περιοχής για να αποφευχθούν τόσο οι ξεθωριασμένες εικόνες όσο και τα blown highlights, και τελικά να ληφθεί μια κανονικοποιημένη γραμμική εικόνα που διατηρούσε την αληθινή εύρος του φωτός στη σκηνή, ενώ παρέμεινε σταθερή enough για την εκπαίδευση.

Ετικέτες κειμένου για τις εικόνες δημιουργήθηκαν με το Qwen2.5-VL 7B μοντέλο, με προτάσεις που κατασκευάστηκαν για να ταιριάζουν με τα χαρακτηριστικά του μοντέλου Flux που θα χρησιμοποιηθεί κατά την время της γεννήτριας.

Κάθε εικόνα χωρίστηκε σε ‘φετίχες’ έκθεσης και πέρασε από einen κοινό VAE encoder, μετατρέποντας όλες τις εκθέσεις σε einen κοινό χώρο latents που σχεδιάστηκε για να καταγράψει το πλήρες εύρος φωτεινότητας. Τα latents στη συνέχεια βελτιώθηκαν από θόρυβο, και αποκωδικοποιήθηκαν πίσω σε εικόνες, επιτρέποντας συνεπή ανακατασκευή σε σκούρες και φωτεινές περιοχές, χωρίς να τις συρρικνώσει σε eine seule, ‘iαττμένη’ έκθεση.

LoRA finetuning χρησιμοποιήθηκε για να προσαρμόσει το προ-εκπαιδευμένο Flux backbone σε δεδομένα εικόνων γραμμικών με ελάχιστα επιπλέον παραμέτρους, βοηθώντας το μοντέλο Single-Diffusion Transformers (single-DiT) να παραμείνει σταθερό, ακόμη και καθώς η φωτεινότητα ποικίλλει σε όλες τις εκθέσεις.

Επιπλέον, εισαχθηκε η 3D Rotary Positional Embedding (3D-R[o]PE) για να κωδικοποιήσει τόσο τη χωρική θέση όσο και την ταυτότητα έκθεσης, ώστε το μοντέλο να μπορεί να διακρίνει σε ποια έκθεση ανήκει κάθε token, ενώ διατηρεί τη χωρική συνεπή.

Μια επισκόπηση του συνόλου δεδομένων που χρησιμοποιήθηκε στη μελέτη, δείχνοντας πώς οι εικόνες κατανέμονται σε τύπους περιεχομένου και εσωτερικούς και εξωτερικούς χώρους, μαζί με την κατανομή των τιμών φωτεινότητας στα επεξεργασμένα δεδομένα. Τα ιστογράμματα σχεδιάζουν τη φωτεινότητα και την κλίμακα ακτινοβολίας σε λογαριθμικό χώρο, δείχνοντας πώς ευρέως μπορεί να ποικίλλει η πραγματική φωτεινότητα, με υψηλότερες τιμές ακτινοβολίας να αντιστοιχούν σε φυσικά φωτεινότερους χώρους και να υπογραμμίζουν την ισχυρή δυναμική εύρος που το μοντέλο έχει εκπαιδευτεί να χειριστεί.

Μια επισκόπηση του συνόλου δεδομένων που χρησιμοποιήθηκε στη μελέτη, δείχνοντας πώς οι εικόνες κατανέμονται σε τύπους περιεχομένου και εσωτερικούς και εξωτερικούς χώρους, μαζί με την κατανομή των τιμών φωτεινότητας στα επεξεργασμένα δεδομένα. Τα ιστογράμματα σχεδιάζουν τη φωτεινότητα και την κλίμακα ακτινοβολίας σε λογαριθμικό χώρο, δείχνοντας πώς ευρέως μπορεί να ποικίλλει η πραγματική φωτεινότητα, με υψηλότερες τιμές ακτινοβολίας να αντιστοιχούν σε φυσικά φωτεινότερους χώρους και να υπογραμμίζουν την ισχυρή δυναμική εύρος που το μοντέλο έχει εκπαιδευτεί να χειριστεί.

3D-RoPE χώρισε πού ένα χαρακτηριστικό ήταν και ‘ποια έκθεση προέρχεται’ σε ξεχωριστά σήματα, ώστε η φωτεινότητα να μπορεί να ρυθμιστεί ανεξάρτητα, χωρίς να διαταράσσει τη χωρική λεπτομέρεια.

Δοκιμές

Οι ερευνητές χρησιμοποίησαν Flux-dev ως το γεννητικό πλαίσιο, με την εκπαίδευση να λαμβάνει χώρα σε τέσσερις NVIDIA A100 GPUs, κάθε μια με 80GB VRAM. Το μέγεθος batch ορίστηκε στο 4 (ανά GPU), σε 10.000 επαναλήψεις.

LoRA fine-tuning χρησιμοποιήθηκε με einen rank 64. Ο AdamW βελτιωτής χρησιμοποιήθηκε με einen ρυθμό μάθησης 2×102 (για το μέρος της έκθεσης).

Οι συγγραφείς σημειώνουν ότι ενώ υπάρχουν δύο προηγούμενες εργασίες που είναι παρόμοιες σε εύρος, καμία από αυτές δεν ήταν ένας σαφής υποψήφιος για μια φάση δοκιμών. Η έξοδος του Max Planck το 2022 GlowGAN είναι περιορισμένη στην παραγωγή συγκεκριμένων κατηγοριών εικόνων, ενώ η Bracket Diffusion (ξανά, με ηγεσία του Max Planck Institute) μπορεί να παράγει μόνο μια εικόνα HDR σε 256x256px, και χρειάζεται beberapa λεπτά για να το κάνει.

Από το αρχικό έγγραφο GlowGAN, τυπικές εικόνες χαμηλής δυναμικής εύρους (LDR) χάνουν λεπτομέρειες σε σκιές και υψηλές περιοχές, ενώ το μοντέλο μαθαίνει να παράγει εικόνες υψηλής δυναμικής εύρους (HDR) που διατηρούν λεπτομέρειες σε όλα τα επίπεδα φωτεινότητας και επιτρέπουν την ανάκτηση κορεσμένων περιοχών μέσω αντίστροφης χρωματικής χαρτογράφησης. Πηγή - https://arxiv.org/pdf/2211.12352

Από το αρχικό έγγραφο GlowGAN, τυπικές εικόνες χαμηλής δυναμικής εύρους (LDR) χάνουν λεπτομέρειες σε σκιές και υψηλές περιοχές, ενώ το μοντέλο μαθαίνει να παράγει εικόνες υψηλής δυναμικής εύρους (HDR) που διατηρούν λεπτομέρειες σε όλα τα επίπεδα φωτεινότητας και επιτρέπουν την ανάκτηση κορεσμένων περιοχών μέσω αντίστροφης χρωματικής χαρτογράφησης. Πηγή

Επομένως, στην απουσία άμεσων βάσεων για τη γεννήτρια γραμμικών εικόνων, οι συγγραφείς σύγκριναν τη μέθοδο τους με προσαρμοσμένες εκδόσεις ισχυρών υφιστάμενων μοντέλων, 而 όχι με ειδικά κατασκευασμένα εναλλακτικά.

Μια σειρά πειραμάτων (‘T2I Fine-Tuning’) fine-tuned το μοντέλο διάχυσης κειμένου-εικόνας Flux χρησιμοποιώντας LoRA, εκπαιδεύοντάς το να γεννήσει γραμμικές εικόνες απευθείας, και αξιολογώντας πώς ένα state-of-the-art T2I μοντέλο προσαρμόζεται σε αυτό το domaine.

Μια δεύτερη σύγκριση (‘T2V fine-tuning’) χρησιμοποίησε το μοντέλο κειμένου-βίντεο Wan 2.1, του οποίου το VAE συμπιέζει πολλά кадράκια σε eine κοινή latents. Σε αυτή τη ρύθμιση, τέσσερις εκθέσεις βραχETING κωδικοποιήθηκαν σε eine seule latents αναπαράσταση, και στη συνέχεια αποκωδικοποιήθηκαν πίσω, δοκιμάζοντας εάν μια διαδικασία βίντεο-στυλ θα μπορούσε να μοντελοποιήσει την έκθεση.

Η τρίτη σειρά πειραμάτων (‘T2I Model Inflation’) σύγκρινε με CameraCtrl και Generative Photography, τα οποία και τα δύο επεκτείνουν τα μοντέλα διάχυσης εικόνας μέσω χρονικών μονάδων, για να παράγουν multi-πλαίσιο εξόδου. Αυτά επίσης fine-tuned στο ίδιο δεδομένα, για μια συνεπή σύγκριση.

Μετρικές που χρησιμοποιήθηκαν ήταν Fréchet Inception Distance (FID); Αισθητική Βαθμολογία (AS); Εκτίμητης Ποιότητας Εικόνας Φυσικότητας (NIQUE); CLIP Sim βαθμολογία; και Ομοιότητα Φωτεινότητας (LS):

Μια σύγκριση της μεθόδου των συγγραφέων με πολλά προσαρμοσμένα baselines για τη γεννήτρια γραμμικών, scene-referred εικόνων. Μοντέλα κειμένου-εικόνας (Flux) και κειμένου-βίντεο (Wan 2.1) fine-tune με LoRA για να δοκιμάσουν πώς καλά τα υπάρχοντα γεννητικά συστήματα χειρίζονται αυτή τη ρύθμιση, ενώ CameraCtrl και Generative Photography επεκτείνουν τα μοντέλα διάχυσης με χρονικές μονάδες. Κάποια σκορ είναι λείπουν, γιατί κάποια μοντέλα δεν μπορούν να παράγουν συνεπείς εκθέσεις βραχETING, οι οποίες απαιτούνται για την ανάκτηση του πλήρους δυναμικού εύρους. Σε όλα τα μετρικά που αναφέρθηκαν, η νέα μέθοδος επιτυγχάνει τα ισχυρότερα συνολικά αποτελέσματα, ιδιαίτερα σε μετρικά που συνδέονται με την ποιότητα εικόνας και την ακριβή ανακατασκευή φωτεινότητας.

Μια σύγκριση της μεθόδου των συγγραφέων με πολλά προσαρμοσμένα baselines για τη γεννήτρια γραμμικών, scene-referred εικόνων. Μοντέλα κειμένου-εικόνας (Flux) και κειμένου-βίντεο (Wan 2.1) fine-tune με LoRA για να δοκιμάσουν πώς καλά τα υπάρχοντα γεννητικά συστήματα χειρίζονται αυτή τη ρύθμιση, ενώ CameraCtrl και Generative Photography επεκτείνουν τα μοντέλα διάχυσης με χρονικές μονάδες. Κάποια σκορ είναι λείπουν, γιατί κάποια μοντέλα δεν μπορούν να παράγουν συνεπείς εκθέσεις βραχETING, οι οποίες απαιτούνται για την ανάκτηση του πλήρους δυναμικού εύρους. Σε όλα τα μετρικά που αναφέρθηκαν, η νέα μέθοδος επιτυγχάνει τα ισχυρότερα συνολικά αποτελέσματα, ιδιαίτερα σε μετρικά που συνδέονται με την ποιότητα εικόνας και την ακριβή ανακατασκευή φωτεινότητας.

Σχετικά με αυτά τα αποτελέσματα, οι συγγραφείς δηλώνουν:

‘Λόγω της ευρείας κατανομής γραμμικών εικόνων, η άμεση fine-tuning του T2I Model σε γραμμικά δεδομένα κάνει δύσκολο να ισορροπήσει τις λεπτομέρειες σκιών και υψηλών περιοχών. Τα T2I Model Inflation μεθόδους πάσχουν από περιορισμένο δυναμικό εύρος και σημαντική υποβάθμιση ποιότητας εικόνας ακόμη και μετά τη fine-tuning.

‘Για την T2V Fine-tuning, η Wan 2.1’s 4× χρονική υποδειγματοποίηση ενσωματώνει τις 4 εκθέσεις βραχETING σε eine seule latents αναπαράσταση, προκαλώντας μια σοβαρή ανταπόκριση που δεν μπορεί να επιλυθεί μόνο μέσω fine-tuning.’

‘Με την άμεση μοντελοποίηση scene-referred ιδιοτήτων χρησιμοποιώντας εκθέσεις βραχETING, η μέθοδος μας επιτυγχάνει υψηλότερη ποιότητα εικόνας και δυναμικό εύρος σε όλα τα baselines.’

Μια σύγκριση με LoRA-προσαρμοσμένο Flux και Wan 2.1, δείχνοντας πώς κάθε μέθοδος χειρίζεται αλλαγές έκθεσης σε ίδια σκηνικά. Οι ανταγωνιστικές προσεγγίσεις τείνουν να χάνουν λεπτομέρειες σε πολύ σκούρες ή πολύ φωτεινές περιοχές, ενώ η προτεινόμενη μέθοδος διατηρεί συνεπή δομή και ανακτά χρήσιμες λεπτομέρειες σε όλο το εύρος εκθέσεων.

Μια σύγκριση με LoRA-προσαρμοσμένο Flux και Wan 2.1, δείχνοντας πώς κάθε μέθοδος χειρίζεται αλλαγές έκθεσης σε ίδια σκηνικά. Οι ανταγωνιστικές προσεγγίσεις τείνουν να χάνουν λεπτομέρειες σε πολύ σκούρες ή πολύ φωτεινές περιοχές, ενώ η προτεινόμενη μέθοδος διατηρεί συνεπή δομή και ανακτά χρήσιμες λεπτομέρειες σε όλο το εύρος εκθέσεων. Παρακαλούμε, ανατρέξτε στην ιστοσελίδα του έργου και την ενότητα συμπληρωματικών υλικών του εγγράφου για καλύτερα παραδείγματα αποτελεσμάτων.

Παρακαλούμε, ανατρέξτε στην ενότητα συμπληρωματικών υλικών του εγγράφου για περαιτέρω δοκιμές.

Συμπέρασμα

Για τους επαγγελματίες των μέσων ενημέρωσης, όπως αυτούς που εργάζονται στην παραγωγή ταινιών και τηλεόρασης, η ίδια έξοδος που έχει συλλάβει τη φαντασία (και, όλο και περισσότερο, τη δυσαρέσκεια) του κόσμου, τους έχει αφήσει αδιάφορους,既然 όλα σχεδόν τα πipelines τους εξαρτώνται σε κάποιο βαθμό από HDR λήψεις.

Επομένως, αυτό είναι ένα своєчасτο έργο, που αντιπροσωπεύει μια δυνατότητα που θα ήταν ευχάριστο να γίνει μια προαιρετική πρότυπο σε όλα τα νέα πλαίσια – αν και είναι βέβαιο ότι θα διπλασιάσει τουλάχιστον τους χρόνους απόδοσης. Φυσικά, επίσης, η καθυστέρηση θα πρέπει να αντιμετωπιστεί σοβαρά εάν το περιεχόμενο HDR AI δεν πρέπει να καταταχθεί στην κατηγορία ‘στο post’ 而 όχι στην κατηγορία ‘στην κάμερα’. https://www.youtube.com/watch?v=VNEu86Otzjc * Συνήθως θα δείχνουμε παραδείγματα, αλλά既然 ο αναγνώστης μπορεί να μην έχει μια οθόνη HDR, παραλείπουμε αυτά σε αυτή την περίπτωση. Δημοσιεύθηκε για πρώτη φορά την Κυριακή, 26 Απριλίου 2026

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]