Connect with us

Συνεχής Επεξεργασία Βίντεο με Εισαγωγή Κειμένου με Οδηγία

Τεχνητή νοημοσύνη

Συνεχής Επεξεργασία Βίντεο με Εισαγωγή Κειμένου με Οδηγία

mm

Ενώ η επαγγελματική κοινότητα των οπτικών εφέ είναι ενθουσιασμένη – και περιστασιακά feels немного απειλούμενη – από τις νέες καινοτομίες στην εικόνα και τη σύνθεση βίντεο, η έλλειψη χρονικής συνέχειας στα περισσότερα προγράμματα επεξεργασίας βίντεο με βάση το AI οδηγεί πολλές από αυτές τις προσπάθειες στην “ψυχεδελική” σφαίρα, με λαμπερά και ταχύτατα μεταβαλλόμενα υφάσματα και δομές, ασυνέχεια εφέ και το είδος της груβής τεχνολογικής χειραγώγησης που θυμίζει την φωτοχημική εποχή των οπτικών εφέ.

Εάν θέλετε να αλλάξετε κάτι πολύ συγκεκριμένο σε ένα βίντεο που δεν εμπίπτει στη σφαίρα των deepfakes (δηλ. επιβάλλοντας μια νέα ταυτότητα σε υπάρχοντα βίντεο ενός ατόμου), οι περισσότερες από τις τρέχουσες λύσεις λειτουργούν υπό πολύ σοβαρά περιορισμοί, όσον αφορά την ακρίβεια που απαιτείται για παραγωγή ποιοτικών οπτικών εφέ.

Μια εξαίρεση είναι η συνεχής εργασία μιας χαλαρής ένωσης ακαδημαϊκών από το Ινστιτούτο Επιστημών Weizmann. Το 2021, τρεις από τους ερευνητές του, σε συνεργασία με την Adobe, ανακοίνωσαν μια νέα μέθοδο για την αποσύνθεση βίντεο και την επιβολή μιας συνεχούς εσωτερικής χαρτογράφησης – ένα στρωματωμένο νευρωνικό άτλας – σε一个 composited εξοδος, πλήρης με αλφα κανάλια και χρονικά συνεκτικά αποτελέσματα.

Από το έγγραφο του 2021: μια εκτίμηση της ολοκλήρωσης της διαδρομής του δρόμου στο αρχικό κλιπ είναι επεξεργασμένο μέσω ενός νευρωνικού δικτύου με τρόπο που παραδοσιακά θα απαιτούσε εκτεταμένη rotoscoping και match-moving.既然 τα φόντα και τα προσκήνια στοιχεία χειρίζονται από διαφορετικά δίκτυα, οι μάσκες είναι πραγματικά 'αυτόματες'. Πηγή: https://layered-neural-atlases.github.io/

Από το έγγραφο του 2021: μια εκτίμηση της ολοκλήρωσης της διαδρομής του δρόμου στο αρχικό κλιπ είναι επεξεργασμένο μέσω ενός νευρωνικού δικτύου με τρόπο που παραδοσιακά θα απαιτούσε εκτεταμένη rotoscoping και match-moving.既然 τα φόντα και τα προσκήνια στοιχεία χειρίζονται από διαφορετικά δίκτυα, οι μάσκες είναι πραγματικά ‘αυτόματες’. Πηγή: https://layered-neural-atlases.github.io/

хотя thuộc vào τη σφαίρα που καλύπτεται από οπτική ροή στις διαδικασίες VFX, ο στρωματωμένος άτλας δεν έχει άμεσο αντίστοιχο στις παραδοσιακές διαδικασίες CGI,既然 αποτελεί ένα ‘χρονικό χάρτη υφής’ που μπορεί να παραχθεί και να επεξεργαστεί μέσω παραδοσιακών μεθόδων λογισμικού. Στη δεύτερη εικόνα στην εικονογράφηση παραπάνω, το φόντο της επιφάνειας του δρόμου αντιπροσωπεύεται (εικονικά) σε όλη τη διάρκεια του βίντεο. Η αλλαγή αυτής της βασικής εικόνας (τρίτη εικόνα από αριστερά στην εικονογράφηση παραπάνω) παράγει μια συνεχής αλλαγή στο φόντο.

Οι εικόνες του ‘ανοικτού’ атλά στο πάνω μέρος αντιπροσωπεύουν μόνο μεμονωμένα ερμηνευμένα кадράκια. Συνεχείς αλλαγές σε οποιοδήποτε στόχο βίντεο καρέ χαρτογραφούνται πίσω στο αρχικό καρέ, διατηρώντας οποιαδήποτε απαραίτητη σκέψη και άλλα απαραίτητα εφέ σκηνής, όπως σκιές ή ανακλάσεις.

Η βασική αρχιτεκτονική χρησιμοποιεί ένα Multilayer Perceptron (MLP) για να αντιπροσωπεύσει τους ανοικτούς атλάς, αλφα κανάλια και χαρτογραφήσεις, όλα τα οποία είναι βελτιστοποιημένα σε συναρμόζοντα, και εντελώς σε ένα 2D χώρο, αποφεύγοντας NeRF-στύλ προηγούμενες γνώσεις 3D γεωμετρικών σημείων, χαρτών βάθους και παρόμοιων CGI-στύλ εντυπώσεων.

Ο αναφορά атλάς των μεμονωμένων αντικειμένων μπορεί επίσης να αλλάξει με συνέπεια:

Συνεχής αλλαγή σε ένα κινούμενο αντικείμενο υπό το πλαίσιο του 2021. Πηγή: https://www.youtube.com/watch?v=aQhakPFC4oQ

Συνεχής αλλαγή σε ένα κινούμενο αντικείμενο υπό το πλαίσιο του 2021. Πηγή: https://www.youtube.com/watch?v=aQhakPFC4oQ

Ουσιαστικά το σύστημα του 2021 συνδυάζει γεωμετρική ευθυγράμμιση, match-moving, χαρτογραφία, re-texturizing και rotoscoping σε μια διακριτή νευρωνική διαδικασία.

Text2Live

Οι τρεις αρχικοί ερευνητές του εγγράφου του 2021, μαζί με την NVIDIA research, είναι μεταξύ των συντελεστών μιας νέας καινοτομίας στη τεχνική που συνδυάζει τη δύναμη των στρωματωμένων атλάς με τον τύπο της text-guided CLIP τεχνολογίας που έχει επιστρέψει στην προεξοχή αυτή την εβδομάδα με την κυκλοφορία της OpenAI DALL-E 2 πλαίσιο.

Η νέα αρχιτεκτονική, με τίτλο Text2Live, επιτρέπει στον τελικό χρήστη να δημιουργήσει τοπικές επεξεργασίες σε πραγματικό περιεχόμενο βίντεο με βάση κείμενο προτροπές:

Δύο παραδείγματα επεξεργασίας προσκήνιου. Για καλύτερη ανάλυση και ορισμό, δείτε τα αρχικά βίντεο στο https://text2live.github.io/sm/pages/video_results_atlases.html

Δύο παραδείγματα επεξεργασίας προσκήνιου. Για καλύτερη ανάλυση και ορισμό, δείτε τα αρχικά βίντεο στο https://text2live.github.io/sm/pages/video_results_atlases.html

Το Text2Live προσφέρει σεμαντική και υψηλά τοπική επεξεργασία χωρίς τη χρήση ενός προ-εκπαιδευμένου γεννήτορα, χρησιμοποιώντας μια εσωτερική βάση δεδομένων που είναι συγκεκριμένη για το βίντεο κλιπ που επηρεάζεται.

Μετασχηματισμοί φόντου και προσκήνιου (αντικειμένου) υπό το Text2Live. Πηγή: https://text2live.github.io/sm/pages/video_results_atlases.html

Μετασχηματισμοί φόντου και προσκήνιου (αντικειμένου) υπό το Text2Live. Πηγή: https://text2live.github.io/sm/pages/video_results_atlases.html

Η τεχνική δεν απαιτεί μάσκες που παρέχονται από τον χρήστη, όπως μια τυπική διαδικασία rotoscoping ή green-screen, αλλά αντίθετα εκτιμά χαρτογραφήσεις σχετικότητας μέσω μιας τεχνικής bootstrapping που βασίζεται σε έρευνα του 2021 από το Τμήμα Επιστήμης Υπολογιστών του Πανεπιστημίου Τελ Αβίβ και την Facebook AI Research (FAIR).

Χάρτες που παράγονται μέσω ενός μοντέλου προσοχής γενικής χρήσης με βάση μετασχηματιστές.

Χάρτες που παράγονται μέσω ενός μοντέλου προσοχής γενικής χρήσης με βάση μετασχηματιστές.

Το νέο έγγραφο έχει τίτλο Text2LIVE: Text-Driven Layered Image and Video Editing. Η αρχική ομάδα του 2021 ενώνεται με τον Omer Bar-Tal του Ινστιτούτου Weizmann και τον Yoni Kasten της NVIDIA Research.

Αρχιτεκτονική

Το Text2Live αποτελείται από einen γεννήτορα που έχει εκπαιδευτεί σε μια seule είσοδο εικόνας και στόχο κείμενο προτροπές. Ένα μοντέλο CLIP προ-εκπαιδευμένο σε 400 εκατομμύρια ζευγάρια κειμένου/εικόνας παρέχει σχετικό οπτικό υλικό από το οποίο οι προτροπές του χρήστη μπορούν να ερμηνευτούν.

Ο γεννήτορας δέχεται μια είσοδο εικόνας (κadro) και εξοδεύει ένα στόχο RGBA στρώμα που περιέχει χρωματική και διαφανή πληροφορία. Αυτό το στρώμα συνθέτει στη αρχική λήψη με πρόσθετες επεξεργασίες.

Το αλφα κανάλι στο γεννημένο RGBA στρώμα παρέχει μια εσωτερική συνθέτηση λειτουργία χωρίς ανάγκη για παραδοσιακές διαδικασίες που涉ρούν λογισμικό pixel-βάσεων όπως το After Effects.

Το αλφα κανάλι στο γεννημένο RGBA στρώμα παρέχει μια εσωτερική συνθέτηση λειτουργία χωρίς ανάγκη για παραδοσιακές διαδικασίες που涉ρούν λογισμικό pixel-βάσεων όπως το After Effects.

Με την εκπαίδευση σε εσωτερικές εικόνες που σχετίζονται με το στόχο βίντεο ή εικόνας, το Text2Live αποφεύγει την απαίτηση είτε να αντιστρέψει την είσοδο εικόνας στο.latent χώρο ενός Generative Adversarial Network (GAN), μια πρακτική που είναι τώρα μακράν ακριβής για απαιτήσεις επεξεργασίας βίντεο παραγωγής, ή να χρησιμοποιήσει ένα Diffusion μοντέλο που είναι πιο ακριβές και ρυθμιζόμενο, αλλά δεν μπορεί να διατηρήσει πιστότητα στο στόχο βίντεο.

Ποικίλοι μετασχηματισμοί προτροπών από το Text2Live.

Ποικίλοι μετασχηματισμοί προτροπών από το Text2Live.

Προηγούμενες προσεγγίσεις έχουν χρησιμοποιήσει μεθόδους προώθησης ή οπτική ροή-βάσεων προσεγγίσεις.既然 αυτές οι τεχνικές είναι σε κάποιο βαθμό καδρο-βάσεων, καμία από αυτές δεν είναι ικανή να δημιουργήσει μια συνεχής χρονική εμφάνιση αλλαγών στην έξοδο βίντεο. Ένας νευρωνικός στρωματωμένος άτλας, αντίθετα, παρέχει ένα ενιαίο χώρο για να απευθυνθεί στις αλλαγές, οι οποίες μπορούν να παραμείνουν πιστές στην αλλαγή που έχει δεσμευτεί καθώς το βίντεο προχωρά.

Χωρίς 'σίζλινγκ' ή τυχαίες αλλοιώσεις: Το Text2Live λαμβάνει μια ερμηνεία της προτροπής κειμένου 'rusty jeep' και την εφαρμόζει μια φορά στον νευρωνικό στρωματωμένο άτλα του αυτοκινήτου στο βίντεο, αντί να επανεκκινεί τη μετασχηματισμό για κάθε ερμηνευμένο καρέ.

Χωρίς ‘σίζλινγκ’ ή τυχαίες αλλοιώσεις: Το Text2Live λαμβάνει μια ερμηνεία της προτροπής κειμένου ‘rusty jeep’ και την εφαρμόζει μια φορά στον νευρωνικό στρωματωμένο άτλα του αυτοκινήτου στο βίντεο, αντί να επανεκκινεί τη μετασχηματισμό για κάθε ερμηνευμένο καρέ.

Διαδικασία του Text2Live για τη συνεχή μετασχηματισμό ενός Jeep σε μια σκουριασμένη λειψή.

Διαδικασία του Text2Live για τη συνεχή μετασχηματισμό ενός Jeep σε μια σκουριασμένη λειψή.

Το Text2Live είναι πιο κοντά σε μια đột phá στην AI-βάσει συνθέσεων, αντί στη γονιμότητα του κειμένου-εικόνας που έχει προσελκύσει τόσο μεγάλη προσοχή αυτή την εβδομάδα με την κυκλοφορία της δεύτερης γενιάς του πλαισίου DALL-E της OpenAI (το οποίο μπορεί να ενσωματώσει στόχο εικόνες ως μέρος της μετασχηματιστικής διαδικασίας, αλλά παραμένει περιορισμένο στην ικανότητά του να παρέμβει απευθείας σε μια φωτογραφία, εκτός από το φιλτράρισμα των δεδομένων εκπαίδευσης και την επιβολή φίλτρων, σχεδιασμένων για να αποτρέψουν την κακοποίηση του χρήστη).

Αντίθετα, το Text2Live επιτρέπει στον τελικό χρήστη να εξαγάγει einen άτλα και να τον επεξεργαστεί σε μια seule διαδικασία σε περιβάλλοντα υψηλής ελέγχου pixel-βάσεων όπως το Photoshop (και επιχειρηματικά ακόμη πιο αφηρημένα πλαίσια σύνθεσης εικόνας όπως NeRF), πριν να τον επαναφέρετε σε ένα σωστά προσανατολισμένο περιβάλλον που ωστόσο δεν βασίζεται σε 3D εκτίμηση ή CGI-βάσεων προσεγγίσεων.

Επιπλέον, το Text2Live, οι συγγραφείς ισχυρίζονται, είναι το πρώτο συγκρίσιμο πλαίσιο που επιτυγχάνει μάσκες και συνθέσεις σε μια εντελώς αυτόματη τρόπο.

 

Πρώτη δημοσίευση 7ης Απριλίου 2022.

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]