Τεχνητή νοημοσύνη
Το μοντέλο eDiffi Diffusion της NVIDIA επιτρέπει τη «ζωγραφική με λέξεις» και πολλά άλλα
Προσπάθεια δημιουργίας ακριβών συνθέσεων με μοντέλα εικόνων που δημιουργούν λανθάνουσα διάχυση όπως π.χ Σταθερή Διάχυση μπορεί να είναι σαν βοσκή γάτες? οι ίδιες ευφάνταστες και ερμηνευτικές δυνάμεις που επιτρέπουν στο σύστημα να δημιουργεί εξαιρετικές λεπτομέρειες και να συγκεντρώνει εξαιρετικές εικόνες από σχετικά απλά μηνύματα κειμένου είναι επίσης δύσκολο να απενεργοποιηθεί όταν αναζητάτε έλεγχο σε επίπεδο Photoshop για μια γενιά εικόνων.
Τώρα, μια νέα προσέγγιση από την έρευνα της NVIDIA, με τίτλο διάχυση συνόλου για εικόνες (eDiffi), χρησιμοποιεί ένα μείγμα πολλαπλών μεθόδων ενσωμάτωσης και ερμηνείας (αντί της ίδιας μεθόδου σε όλη τη διαδρομή) για να επιτρέψει ένα πολύ μεγαλύτερο επίπεδο ελέγχου του παραγόμενου περιεχομένου. Στο παρακάτω παράδειγμα, βλέπουμε έναν χρήστη να ζωγραφίζει στοιχεία όπου κάθε χρώμα αντιπροσωπεύει μια λέξη από μια προτροπή κειμένου:
Ουσιαστικά αυτό είναι «ζωγραφική με μάσκες» και αντιστρέφει το iτο παράδειγμα της ζωγραφικής στο Stable Diffusion, το οποίο βασίζεται στην επιδιόρθωση σπασμένων ή μη ικανοποιητικών εικόνων ή στην επέκταση εικόνων που θα μπορούσαν εξαρχής να έχουν το επιθυμητό μέγεθος.
Εδώ, αντ' αυτού, τα περιθώρια του ζωγραφισμένου ντοσιέ αντιπροσωπεύουν τα επιτρεπόμενα κατά προσέγγιση όρια ενός μόνο μοναδικού στοιχείου από μια μεμονωμένη ιδέα, επιτρέποντας στον χρήστη να ορίσει το τελικό μέγεθος καμβά από την αρχή και στη συνέχεια να προσθέσει διακριτικά στοιχεία.
Οι ποικίλες μέθοδοι που χρησιμοποιούνται στο eDiffi σημαίνουν επίσης ότι το σύστημα κάνει πολύ καλύτερη δουλειά στο να συμπεριλαμβάνει κάθε στοιχείο σε μεγάλες και λεπτομερείς προτροπές, ενώ το Stable Diffusion και το DALL-E 2 του OpenAI τείνουν να δίνουν προτεραιότητα σε ορισμένα μέρη της προτροπής, ανάλογα με το πόσο νωρίς Οι λέξεις-στόχοι εμφανίζονται στο μήνυμα προτροπής ή σε άλλους παράγοντες, όπως η πιθανή δυσκολία στην αποσύνδεση των διαφόρων στοιχείων που είναι απαραίτητα για μια πλήρη αλλά ολοκληρωμένη (σε σχέση με την προτροπή κειμένου) σύνθεση:
Επιπλέον, η χρήση ενός αποκλειστικού T5 ο κωδικοποιητής κειμένου σε κείμενο σημαίνει ότι το eDiffi είναι ικανό να αποδίδει κατανοητό αγγλικό κείμενο, είτε ζητηθεί αφηρημένα από μια προτροπή (π.χ. Η εικόνα περιέχει κάποιο κείμενο των [x]) ή ζητήθηκε ρητά (δηλ το μπλουζάκι γράφει "Nvidia Rocks"):
Μια περαιτέρω συμπλήρωση στο νέο πλαίσιο είναι ότι είναι επίσης δυνατό να παρέχετε μια μεμονωμένη εικόνα ως προτροπή στυλ, αντί να χρειάζεται να εκπαιδεύσετε ένα μοντέλο DreamBooth ή μια ενσωμάτωση κειμένου σε πολλά παραδείγματα ενός είδους ή στυλ.
Η νέο χαρτί είναι ο τίτλος eDiffi: Μοντέλα διάχυσης κειμένου σε εικόνα με ένα σύνολο ειδικών αποθηκοποιητών, να
Ο κωδικοποιητής κειμένου T5
Η χρήση του T της GoogleΜετασχηματιστής μεταφοράς ext-to-Text Το (T5) είναι το βασικό στοιχείο στα βελτιωμένα αποτελέσματα που παρουσιάζονται στο eDiffi. Ο μέσος αγωγός λανθάνουσας διάχυσης επικεντρώνεται στη συσχέτιση μεταξύ εκπαιδευμένων εικόνων και λεζάντες που τις συνόδευαν όταν αφαιρέθηκαν από το Διαδίκτυο (ή αλλιώς ρυθμίστηκαν χειροκίνητα αργότερα, αν και αυτή είναι μια δαπανηρή και επομένως σπάνια παρέμβαση).
Με την αναδιατύπωση του κειμένου πηγής και την εκτέλεση της ενότητας T5, μπορούν να ληφθούν πιο ακριβείς συσχετίσεις και αναπαραστάσεις από ό,τι είχαν εκπαιδευτεί αρχικά στο μοντέλο, σχεδόν παρόμοια με μετά το γεγονός χειροκίνητη επισήμανση, με μεγαλύτερη εξειδίκευση και δυνατότητα εφαρμογής στις προδιαγραφές της ζητούμενης προτροπής κειμένου.
Οι συγγραφείς εξηγούν:
«Στις περισσότερες υπάρχουσες εργασίες σε μοντέλα διάχυσης, το μοντέλο αποθορυβοποίησης μοιράζεται σε όλα τα επίπεδα θορύβου και η χρονική δυναμική αναπαρίσταται χρησιμοποιώντας μια απλή χρονική ενσωμάτωση που τροφοδοτείται στο μοντέλο αποθορυβοποίησης μέσω ενός δικτύου MLP. Υποστηρίζουμε ότι η πολύπλοκη χρονική δυναμική της διάχυσης αποθορβοποίησης μπορεί να μην μαθευτεί από δεδομένα αποτελεσματικά χρησιμοποιώντας ένα κοινό μοντέλο με περιορισμένη χωρητικότητα.
«Αντίθετα, προτείνουμε να κλιμακωθεί η ικανότητα του μοντέλου απενεργοποίησης θορύβου εισάγοντας ένα σύνολο ειδικών εκτοξευτών. κάθε έμπειρος αποθορυβοποιητής είναι ένα μοντέλο απενεργοποίησης θορύβου εξειδικευμένο για ένα συγκεκριμένο εύρος [επιπέδων] θορύβου. Με αυτόν τον τρόπο, μπορούμε να αυξήσουμε τη χωρητικότητα του μοντέλου χωρίς να επιβραδύνουμε τη δειγματοληψία, καθώς η υπολογιστική πολυπλοκότητα της αξιολόγησης [του επεξεργασμένου στοιχείου] σε κάθε επίπεδο θορύβου παραμένει η ίδια».
Τα υπαρχοντα CLIP Οι μονάδες κωδικοποίησης που περιλαμβάνονται στο DALL-E 2 και το Stable Diffusion μπορούν επίσης να βρουν εναλλακτικές ερμηνείες εικόνας για κείμενο που σχετίζεται με την εισαγωγή του χρήστη. Ωστόσο, έχουν εκπαιδευτεί σε παρόμοιες πληροφορίες με το αρχικό μοντέλο και δεν χρησιμοποιούνται ως ξεχωριστό ερμηνευτικό επίπεδο με τον τρόπο που είναι το T5 στο eDiffi.
Οι συγγραφείς δηλώνουν ότι το eDiffi είναι η πρώτη φορά που τόσο ένας κωδικοποιητής T5 όσο και ένας κωδικοποιητής CLIP έχουν ενσωματωθεί σε έναν ενιαίο αγωγό:
Καθώς αυτοί οι δύο κωδικοποιητές εκπαιδεύονται με διαφορετικούς στόχους, οι ενσωματώσεις τους ευνοούν το σχηματισμό διαφορετικών εικόνων με το ίδιο κείμενο εισαγωγής. Ενώ οι ενσωματώσεις κειμένου CLIP βοηθούν στον προσδιορισμό της συνολικής εμφάνισης των εικόνων που δημιουργούνται, οι έξοδοι τείνουν να χάνουν τις λεπτομερείς λεπτομέρειες στο κείμενο.
Αντίθετα, οι εικόνες που δημιουργούνται μόνο με ενσωματώσεις κειμένου T5 αντικατοπτρίζουν καλύτερα τα μεμονωμένα αντικείμενα που περιγράφονται στο κείμενο, αλλά η συνολική τους εμφάνιση είναι λιγότερο ακριβής. Η από κοινού χρήση τους παράγει τα καλύτερα αποτελέσματα δημιουργίας εικόνας στο μοντέλο μας.'
Διακοπή και αύξηση της διαδικασίας διάχυσης
Η εφημερίδα σημειώνει ότι ένα τυπικό μοντέλο λανθάνουσας διάχυσης θα ξεκινήσει το ταξίδι από τον καθαρό θόρυβο σε μια εικόνα βασιζόμενος αποκλειστικά στο κείμενο στα πρώτα στάδια της γενιάς.
Όταν ο θόρυβος καταλήγει σε κάποιο είδος πρόχειρης διάταξης που αντιπροσωπεύει την περιγραφή στη γραμμή εντολών κειμένου, η καθοδηγούμενη από το κείμενο πτυχή της διαδικασίας ουσιαστικά μειώνεται και η υπόλοιπη διαδικασία μετατοπίζεται προς την αύξηση των οπτικών χαρακτηριστικών.
Αυτό σημαίνει ότι οποιοδήποτε στοιχείο δεν επιλύθηκε στο αρχικό στάδιο της ερμηνείας του θορύβου καθοδηγούμενη από κείμενο είναι δύσκολο να εισαχθεί στην εικόνα αργότερα, επειδή οι δύο διαδικασίες (κείμενο σε διάταξη και διάταξη σε εικόνα) έχουν σχετικά μικρή επικάλυψη. , και η βασική διάταξη είναι αρκετά μπλεγμένη από τη στιγμή που φτάνει στη διαδικασία αύξησης της εικόνας.
Επαγγελματικές δυνατότητες
Τα παραδείγματα στη σελίδα του έργου και στο βίντεο του YouTube επικεντρώνονται στη δημιουργία χαριτωμένων εικόνων με meme-tastic φιλική προς τις δημόσιες σχέσεις. Ως συνήθως, η έρευνα της NVIDIA υποβαθμίζει τις δυνατότητες της τελευταίας της καινοτομίας να βελτιώσει τις φωτορεαλιστικές ροές εργασίας ή τις ροές εργασίας VFX, καθώς και τις δυνατότητές της για βελτίωση των deepfake εικόνων και βίντεο.
Στα παραδείγματα, ένας αρχάριος ή ένας ερασιτέχνης χρήστης γράφει πρόχειρα περιγράμματα τοποθέτησης για το συγκεκριμένο στοιχείο, ενώ σε μια πιο συστηματική ροή εργασίας VFX, θα μπορούσε να είναι δυνατή η χρήση του eDiffi για την ερμηνεία πολλαπλών καρέ ενός στοιχείου βίντεο χρησιμοποιώντας κείμενο σε εικόνα, όπου τα περιγράμματα είναι πολύ ακριβή και βασίζονται, για παράδειγμα, σε σχήματα όπου το φόντο έχει διαγραφεί μέσω πράσινης οθόνης ή αλγοριθμικών μεθόδων.
Χρησιμοποιώντας ένα εκπαιδευμένο ονειροπόλος χαρακτήρα και μια διοχέτευση εικόνας-προς-εικόνα με το eDiffi, είναι δυνητικά δυνατό να αρχίσετε να καταστρέφετε έναν από τους κάθε μοντέλο λανθάνουσας διάχυσης: χρονική σταθερότητα. Σε μια τέτοια περίπτωση, τόσο τα περιθώρια της επιβαλλόμενης εικόνας όσο και το περιεχόμενο της εικόνας θα «προκαθορίζονται» στον καμβά του χρήστη, με χρονική συνέχεια του αποδιδόμενου περιεχομένου (δηλαδή μετατροπή ενός πραγματικού ασκούμενου Tai Chi σε ρομπότ ) παρέχεται με τη χρήση ενός κλειδωμένου μοντέλου DreamBooth το οποίο έχει «απομνημονεύσει» τα δεδομένα προπόνησής του – κακό για ερμηνευτικότητα, εξαιρετικό για αναπαραγωγιμότητα, πιστότητα και συνέχεια.
Μέθοδος, Δεδομένα και Δοκιμές
Το έγγραφο αναφέρει ότι το μοντέλο eDiffi εκπαιδεύτηκε σε «μια συλλογή από δημόσια και ιδιόκτητα σύνολα δεδομένων», φιλτραρισμένα σε μεγάλο βαθμό από ένα προεκπαιδευμένο μοντέλο CLIP, προκειμένου να αφαιρεθούν εικόνες που ενδέχεται να μειώσουν τη γενική αισθητική βαθμολογία του αποτελέσματος. Το τελικό φιλτραρισμένο σύνολο εικόνων περιλαμβάνει «περίπου ένα δισεκατομμύριο» ζεύγη κειμένου-εικόνας. Το μέγεθος των εκπαιδευμένων εικόνων περιγράφεται ως με «η συντομότερη πλευρά μεγαλύτερη από 64 εικονοστοιχεία».
Ένας αριθμός μοντέλων εκπαιδεύτηκε για τη διαδικασία, με εκπαιδευμένα τόσο τα βασικά μοντέλα όσο και τα μοντέλα υπερ-ανάλυσης AdamW βελτιστοποιητής με ρυθμό εκμάθησης 0.0001, με μείωση βάρους 0.01 και σε τρομερό μέγεθος παρτίδας 2048.
Το βασικό μοντέλο εκπαιδεύτηκε σε 256 GPU NVIDIA A100 και τα δύο μοντέλα σούπερ ανάλυσης σε 128 NVIDIA A100 GPU για κάθε μοντέλο.
Το σύστημα βασίστηκε στο δικό της NVIDIA Imaginaire Βιβλιοθήκη PyTorch. ΚΑΡΥΔΑ και Visual Genome σύνολα δεδομένων χρησιμοποιήθηκαν για αξιολόγηση, αν και δεν συμπεριλήφθηκαν στα τελικά μοντέλα, με MS-COCO η συγκεκριμένη παραλλαγή που χρησιμοποιείται για τη δοκιμή. Αντίπαλα συστήματα δοκιμάστηκαν ΓΛΙΣΤΡΩ, Make-A-Scene, DALL-E2, Σταθερή Διάχυσηκαι τα δύο συστήματα σύνθεσης εικόνας της Google, Εικόνα και Μέρη.
Σύμφωνα με παρόμοια πριν δουλειά, μηδενικής βολής FID-30K χρησιμοποιήθηκε ως μέτρηση αξιολόγησης. Σύμφωνα με το FID-30K, 30,000 λεζάντες εξάγονται τυχαία από το σύνολο επικύρωσης COCO (δηλαδή όχι οι εικόνες ή το κείμενο που χρησιμοποιήθηκαν στην εκπαίδευση), οι οποίες στη συνέχεια χρησιμοποιήθηκαν ως μηνύματα κειμένου για τη σύνθεση εικόνων.
Η απόσταση έναρξης Frechet (ΜΟΥΡΕΛΛΟ) στη συνέχεια υπολογίστηκε μεταξύ των παραγόμενων και εικόνων αληθείας εδάφους, επιπλέον της καταγραφής της βαθμολογίας CLIP για τις παραγόμενες εικόνες.
Στα αποτελέσματα, το eDiffi μπόρεσε να λάβει τη χαμηλότερη (καλύτερη) βαθμολογία στο FID μηδενικής βολής ακόμη και σε συστήματα με πολύ μεγαλύτερο αριθμό παραμέτρων, όπως οι 20 δισεκατομμύρια παράμετροι του Parti, σε σύγκριση με τα 9.1 δισεκατομμύρια παραμέτρους στο υψηλότερο προδιαγεγραμμένο μοντέλο eDiffi εκπαιδευμένο για τις δοκιμές.
Συμπέρασμα
Το eDiffi της NVIDIA αντιπροσωπεύει μια ευπρόσδεκτη εναλλακτική λύση για την απλή προσθήκη ολοένα και μεγαλύτερων ποσοτήτων δεδομένων και πολυπλοκότητας σε υπάρχοντα συστήματα, αντί να χρησιμοποιεί μια πιο έξυπνη και πολυεπίπεδη προσέγγιση σε μερικά από τα πιο ακανθώδη εμπόδια που σχετίζονται με την εμπλοκή και τη μη επεξεργασιμότητα σε συστήματα παραγωγής εικόνας με λανθάνουσα διάχυση.
Υπάρχει ήδη συζήτηση στα subreddits Stable Diffusion και Discords είτε για την άμεση ενσωμάτωση οποιουδήποτε κώδικα που μπορεί να είναι διαθέσιμος για το eDiffi είτε για την αναδιάταξη των αρχών πίσω από αυτό σε ξεχωριστή υλοποίηση. Ο νέος αγωγός, ωστόσο, είναι τόσο ριζικά διαφορετικός, που θα αποτελούσε έναν ολόκληρο αριθμό αλλαγών έκδοσης για το SD, εξαλείφοντας κάποια προς τα πίσω συμβατότητα, παρόλο που προσφέρει τη δυνατότητα πολύ βελτιωμένων επιπέδων ελέγχου των τελικών συνθετικών εικόνων, χωρίς να θυσιάζεται η μαγευτική φανταστικές δυνάμεις λανθάνουσας διάχυσης.
Πρώτη δημοσίευση 3 Νοεμβρίου 2022.