Η γωνία του Anderson

Εφαρμογή Ματ팅 Εικόνας με Κατανόηση Σκηνής

mm

Στην έξτρα ντοκιμαντέρ που συνοδεύει την κυκλοφορία του DVD του Alien3 (1992), ο θρυλικός ειδικός οπτικών εφέ Richard Edlund θυμάται με φρίκη το «σούμο» της εξαγωγής ματ με φωτοχημικά μέσα που κυριάρχησε στα οπτικά εφέ μεταξύ των τέλους της δεκαετίας του 1930 και των τέλους της δεκαετίας του 1980. Ο Edlund περιέγραψε τη διαδικασία ως «σούμο», σε σύγκριση με τις ψηφιακές τεχνικές μπλε/πράσινου οθόνης που ανέλαβαν τον έλεγχο στις αρχές της δεκαετίας του 1990 (και έχει επιστρέψει στο μετέπειτα χρόνο σε αυτή τη μεταφορά).

Η εξαγωγή ενός στοιχείου πρώτου πλάνου (όπως ένα άτομο ή ένα μοντέλο διαστημικού οχήματος) από ένα φόντο, ώστε η εικόνα να μπορεί να συνδυαστεί με ένα φόντο, αρχικά επιτεύχθηκε με τη λήψη του στοιχείου πρώτου πλάνου μπροστά σε einen ομοιόμορφο μπλε ή πράσινο φόντο.

Λαμβανόμενα photochemical εξαγωγή διαδικασίες για ένα VFX σκηνοθέτη από ILM για 'Return of the Jedi' (1983). Source: https://www.youtube.com/watch?v=qwMLOjqPmbQ

Λαμβανόμενα photochemical εξαγωγή διαδικασίες για ένα VFX σκηνοθέτη από ILM για ‘Return of the Jedi’ (1983). Source: https://www.youtube.com/watch?v=qwMLOjqPmbQ

Στο αποτέλεσμα, ο φόντος χρώμα θα απομονωθεί χημικά και θα χρησιμοποιηθεί ως πρότυπο για την επανεκτύπωση του στοιχείου πρώτου πλάνου (ή ατόμου) σε einen optical printer ως «πλωτό» αντικείμενο σε einen διαφανή φιλμ κελί.

Η διαδικασία ήταν γνωστή ως χρωματική υπέρθεση (CSO) – αν και αυτός ο όρος θα γίνει τελικά πιο συνδεδεμένος με τις χονδρές ‘Χρωματική κλειδί’ βίντεο εφέ σε χαμηλότερου προϋπολογισμού τηλεοπτική έξοδο της δεκαετίας του 1970 και 1980, τα οποία επιτεύχθηκαν με αναλογικά και όχι χημικά ή ψηφιακά μέσα.

Μια επίδειξη Χρωματικής Υπέρθεσης το 1970 για το βρετανικό παιδικό πρόγραμμα 'Blue Peter'. Source: https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx

Μια επίδειξη Χρωματικής Υπέρθεσης το 1970 για το βρετανικό παιδικό πρόγραμμα ‘Blue Peter’. Source: https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx

Σε κάθε περίπτωση, είτε για κινηματογραφικές είτε για βίντεο εικόνες, στη συνέχεια η εξαγώμενη εικόνα θα μπορούσε να εισαχθεί σε οποιαδήποτε άλλη εικόνα.

Αν και η δαπανηρή και ιδιόκτητη ατμός νατρίου της Disney (η οποία βασίζεται στο κλειδί του κίτρινου, ειδικά, και χρησιμοποιήθηκε επίσης για την ταινία τρόμου του Alfred Hitchcock το 1963 The Birds) έδωσε καλύτερη οριζόντια και πιο καθαρές μάσκες, η φωτοχημική εξαγωγή παρέμεινε μια επίπονη και αξιόπιστη διαδικασία.

Η ιδιόκτητη διαδικασία ατμού νατρίου της Disney απαιτούσε φόντο κοντά στο κίτρινο άκρο του φάσματος. Εδώ, η Angela Lansbury κρέμεται σε σύρματα κατά τη διάρκεια της παραγωγής μιας σκηνής VFX για 'Bedknobs and Broomsticks' (1971). Source

Η ιδιόκτητη διαδικασία ατμού νατρίου της Disney απαιτούσε φόντο κοντά στο κίτρινο άκρο του φάσματος. Εδώ, η Angela Lansbury κρέμεται σε σύρματα κατά τη διάρκεια της παραγωγής μιας σκηνής VFX για ‘Bedknobs and Broomsticks’ (1971). Source

Πέρα από την Ψηφιακή Ματ

Στις αρχές της δεκαετίας του 1990, η ψηφιακή επανάσταση κατέβασε τα χημικά, αλλά όχι την ανάγκη για πράσινες οθόνες. Ήταν τώρα δυνατό να αφαιρεθεί το πράσινο (ή οποιοδήποτε άλλο χρώμα) φόντο απλώς αναζητώντας pixels εντός ενός εύρους ανεκτής απόκλισης από το χρώμα, σε λογισμικό επεξεργασίας pixel όπως το Photoshop, και μια νέα γενιά βίντεο-σύνθεσης που θα μπορούσε αυτόματα να αφαιρέσει τα χρωματικά φόντα. Σχεδόν από τη μια μέρα στην άλλη, εξήντα χρόνια της βιομηχανίας οπτικών εκτυπώσεων καταργήθηκαν.

Οι τελευταίες δέκα χρόνια της έρευνας υπολογιστικής όρασης με επιτάχυνση GPU οδηγούν την εξαγωγή μάσκας σε μια τρίτη εποχή, καθήκον των ερευνητών με την ανάπτυξη συστημάτων που μπορούν να εξάγουν υψηλής ποιότητας μάσκες χωρίς την ανάγκη για πράσινες οθόνες. Στο Arxiv μόνο, οι εργασίες που σχετίζονται με καινοτομίες στη μηχανική μάθηση-εξαγωγή πρώτου πλάνου είναι μια εβδομαδιαία λειτουργία.

Βάζοντας μας στη Σκηνή

Αυτή η πυκνότητα ακαδημαϊκών και βιομηχανικών ενδιαφερόντων για την εξαγωγή AI έχει ήδη επηρεάσει τον καταναλωτικό χώρο: χονδρές αλλά λειτουργικές εφαρμογές είναι οικείες σε όλους μας με τη μορφή Zoom και Skype φίλτρων που μπορούν να αντικαταστήσουν τα φόντα των σαλονιών μας με τροπικά νησιά, κ.λπ., σε βίντεο-κλήσεις.

Ωστόσο, οι καλύτερες μάσκες vẫn απαιτούν μια πράσινη οθόνη, όπως Zoom σημείωσε την περασμένη Τετάρτη.

Αριστερά, ένας άνθρωπος μπροστά σε μια πράσινη οθόνη, με καλά εξαγώμενη τρίχα μέσω της λειτουργίας Virtual Background του Zoom. Δεξιά, μια γυναίκα μπροστά σε μια κανονική οικιακή σκηνή, με τρίχα εξαγώμενη αλγοριθμικά, λιγότερο ακριβώς, και με υψηλότερες απαιτήσεις υπολογιστικών πόρων. Source: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

Αριστερά, ένας άνθρωπος μπροστά σε μια πράσινη οθόνη, με καλά εξαγώμενη τρίχα μέσω της λειτουργίας Virtual Background του Zoom. Δεξιά, μια γυναίκα μπροστά σε μια κανονική οικιακή σκηνή, με τρίχα εξαγώμενη αλγοριθμικά, λιγότερο ακριβώς, και με υψηλότερες απαιτήσεις υπολογιστικών πόρων. Source: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

Η Ανάγκη να το Κόψουμε

Βελτιώσεις στην ποιότητα, την ελαφρότητα και την οικονομία πόρων για συστήματα εξαγωγής μάσκας «στον άγριο» (δηλαδή, απομόνωση ατόμων χωρίς την ανάγκη για πράσινες οθόνες) είναι σχετικές με πολλά περισσότερα τομείς και αναζητήσεις από το βίντεο-συνεδρίαση φίλτρων.

Για την ανάπτυξη συνόλων δεδομένων, η βελτιωμένη αναγνώριση προσώπου, κεφαλής και σώματος προσφέρει τη δυνατότητα να διασφαλιστεί ότι εξωτερικά στοιχεία φόντου δεν θα ενταχθούν σε μοντέλα μηχανικής όρασης για ανθρώπινους υποκειμένους. Η πιο ακριβής απομόνωση θα βελτιώσει σημαντικά τις τεχνικές σεμαντικής διαίρεσης που σχεδιάζονται για να διακρίνουν και να ενσωματώνουν τομείς (δηλαδή ‘γάτα’, ‘άτομο’, ‘σκάφος’), και θα βελτιώσει τα συστήματα VAE και μετασχηματιστή που βασίζονται σε συνθετική εικόνα, όπως το νέο DALL-E 2 της OpenAI. Καλύτερες αλγόριθμοι εξαγωγής θα μειώσουν την ανάγκη για ακριβή χειροκίνητη rotoscoping σε ακριβές VFX pipelines.

Σκηνή-Ευαίσθητη AI Ματ

Μια σημαντική έρευνα για την αυτόματη ματ με AI έχει επικεντρωθεί στην αναγνώριση ορίων και αξιολόγηση ομαδοποίησης pixel εντός μιας εικόνας ή βίντεο πλάνου. Ωστόσο, νέα έρευνα από την Κίνα προσφέρει μια διαδικασία εξαγωγής που βελτιώνει την περιγραφή και την ποιότητα μάσκας με την αξιοποίηση κείμενων περιγραφών μιας σκηνής (μια πολυτροπική προσέγγιση που έχει κερδίσει έδαφος στον τομέα της έρευνας υπολογιστικής όρασης τα τελευταία 3-4 χρόνια), ισχυριζόμενη ότι έχει βελτιώσει τις προηγούμενες μεθόδους με πολλούς τρόπους.

Ένα παράδειγμα SPG-IM εξαγωγής (τελευταία εικόνα, κάτω δεξιά), σε σύγκριση με προηγούμενες μεθόδους. Source: https://arxiv.org/pdf/2204.09276.pdf

Ένα παράδειγμα SPG-IM εξαγωγής (τελευταία εικόνα, κάτω δεξιά), σε σύγκριση με προηγούμενες μεθόδους. Source: https://arxiv.org/pdf/2204.09276.pdf

Η πρόκληση που θέτει η έρευνα για την εξαγωγή μάσκας είναι να παράγει ροές εργασίας που απαιτούν ελάχιστη χειροκίνητη σήμανση και ανθρώπινη παρέμβαση – ιδανικά, καμία. Εκτός από τις οικονομικές επιπτώσεις, οι ερευνητές της νέας εργασίας παρατηρούν ότι οι σήμανσεις και οι χειροκίνητες τομείς που αναλαμβάνονται από crowdworkers σε διάφορες κουλτούρες μπορούν να οδηγήσουν σε εικόνες που σημαδεύονται ή ακόμη και τομείς με διαφορετικούς τρόπους, οδηγώντας σε ασυνεπείς και μη ικανοποιητικές αλγόριθμους.

Ευφυείς Αυτοματοποιημένες Μάσκες

Το SPG-IM προσφέρει επίσης ένα Δίκτυο Βελτίωσης Αφινικής Μετασχηματίσεων (AFT) που μπορεί να επεξεργαστεί τοπικά λεπτομέρειες και τοπικό контέκστ χωριστά, διευκολύνοντας «ευφυείς μάσκες».

Η εργασία αναφέρει:

‘Πιστεύουμε ότι οι οπτικές αναπαραστάσεις από την οπτική-κειμενική εργασία, π.χ. κεϊμενική περιγραφή εικόνας, εστιάζουν σε πιο σεμαντικά ολοκληρωμένα σήματα μεταξύ α) αντικειμένου σε αντικείμενο και β) αντικειμένου στο περιβάλλον για να παράγουν περιγραφές που μπορούν να καλύψουν τόσο τις γлобικές πληροφορίες όσο και τις τοπικές λεπτομέρειες. Επιπλέον, σε σύγκριση με την ακριβή pixel σήμανση της ματ εικόνας, οι κειμενικές ετικέτες μπορούν να συλλεχθούν με πολύ χαμηλό κόστος.’

Η εργασία συνεχίζει:

‘Μπορεί να παρατηρηθεί明显 ότι η μέθοδός μας διατηρεί λεπτές λεπτομέρειες (π.χ. σημεία τριχών, διαφανείς υφές και σύνορα) χωρίς την καθοδήγηση του trimap. Επιπλέον, σε σύγκριση με άλλες ανταγωνιστικές μεθόδους trimap-ελεύθερες, η SPG-IM μας μπορεί να διατηρήσει καλύτερη ολοκληρωμένη σεμαντική πληρότητα.’

 

Πρώτη δημοσίευση 24ης Απριλίου 2022.

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]