Τεχνητή νοημοσύνη

Το μοντέλο eDiffi Diffusion της NVIDIA επιτρέπει τη «ζωγραφική με λέξεις» και πολλά άλλα

Ενημερώθηκε on Δεκέμβριος 9, 2022

Προσπάθεια δημιουργίας ακριβών συνθέσεων με μοντέλα εικόνων που δημιουργούν λανθάνουσα διάχυση όπως π.χ Σταθερή Διάχυση μπορεί να είναι σαν βοσκή γάτες? οι ίδιες ευφάνταστες και ερμηνευτικές δυνάμεις που επιτρέπουν στο σύστημα να δημιουργεί εξαιρετικές λεπτομέρειες και να συγκεντρώνει εξαιρετικές εικόνες από σχετικά απλά μηνύματα κειμένου είναι επίσης δύσκολο να απενεργοποιηθεί όταν αναζητάτε έλεγχο σε επίπεδο Photoshop για μια γενιά εικόνων.

Τώρα, μια νέα προσέγγιση από την έρευνα της NVIDIA, με τίτλο διάχυση συνόλου για εικόνες (eDiffi), χρησιμοποιεί ένα μείγμα πολλαπλών μεθόδων ενσωμάτωσης και ερμηνείας (αντί της ίδιας μεθόδου σε όλη τη διαδρομή) για να επιτρέψει ένα πολύ μεγαλύτερο επίπεδο ελέγχου του παραγόμενου περιεχομένου. Στο παρακάτω παράδειγμα, βλέπουμε έναν χρήστη να ζωγραφίζει στοιχεία όπου κάθε χρώμα αντιπροσωπεύει μια λέξη από μια προτροπή κειμένου:

Η «Ζωγραφική με λέξεις» είναι μία από τις δύο νέες δυνατότητες του μοντέλου eDiffi diffusion της NVIDIA. Κάθε χρωματισμένο χρώμα αντιπροσωπεύει μια λέξη από την προτροπή (δείτε τα να εμφανίζονται στα αριστερά κατά τη δημιουργία) και το χρώμα της περιοχής που εφαρμόζεται θα αποτελείται μόνο από αυτό το στοιχείο. Δείτε την πηγή (επίσημο) βίντεο για περισσότερα παραδείγματα και καλύτερη ανάλυση στο https://www.youtube.com/watch?v=k6cOx9YjHJc

Ουσιαστικά αυτό είναι «ζωγραφική με μάσκες» και αντιστρέφει το iτο παράδειγμα της ζωγραφικής στο Stable Diffusion, το οποίο βασίζεται στην επιδιόρθωση σπασμένων ή μη ικανοποιητικών εικόνων ή στην επέκταση εικόνων που θα μπορούσαν εξαρχής να έχουν το επιθυμητό μέγεθος.

Εδώ, αντ' αυτού, τα περιθώρια του ζωγραφισμένου ντοσιέ αντιπροσωπεύουν τα επιτρεπόμενα κατά προσέγγιση όρια ενός μόνο μοναδικού στοιχείου από μια μεμονωμένη ιδέα, επιτρέποντας στον χρήστη να ορίσει το τελικό μέγεθος καμβά από την αρχή και στη συνέχεια να προσθέσει διακριτικά στοιχεία.

Παραδείγματα από το νέο έντυπο. Πηγή: https://arxiv.org/pdf/2211.01324.pdf

Οι ποικίλες μέθοδοι που χρησιμοποιούνται στο eDiffi σημαίνουν επίσης ότι το σύστημα κάνει πολύ καλύτερη δουλειά στο να συμπεριλαμβάνει κάθε στοιχείο σε μεγάλες και λεπτομερείς προτροπές, ενώ το Stable Diffusion και το DALL-E 2 του OpenAI τείνουν να δίνουν προτεραιότητα σε ορισμένα μέρη της προτροπής, ανάλογα με το πόσο νωρίς Οι λέξεις-στόχοι εμφανίζονται στο μήνυμα προτροπής ή σε άλλους παράγοντες, όπως η πιθανή δυσκολία στην αποσύνδεση των διαφόρων στοιχείων που είναι απαραίτητα για μια πλήρη αλλά ολοκληρωμένη (σε σχέση με την προτροπή κειμένου) σύνθεση:

Από το χαρτί: Το eDiffi έχει τη δυνατότητα να επαναλαμβάνεται πιο διεξοδικά μέσω της προτροπής μέχρι να αποδοθεί ο μέγιστος δυνατός αριθμός στοιχείων. Αν και τα βελτιωμένα αποτελέσματα για το eDiffi (στην πιο δεξιά στήλη) είναι επιλεγμένα, το ίδιο ισχύει και για τις εικόνες σύγκρισης από το Stable Diffusion και το DALL-E 2.

Επιπλέον, η χρήση ενός αποκλειστικού T5 ο κωδικοποιητής κειμένου σε κείμενο σημαίνει ότι το eDiffi είναι ικανό να αποδίδει κατανοητό αγγλικό κείμενο, είτε ζητηθεί αφηρημένα από μια προτροπή (π.χ. Η εικόνα περιέχει κάποιο κείμενο των [x]) ή ζητήθηκε ρητά (δηλ το μπλουζάκι γράφει "Nvidia Rocks"):

Η αφιερωμένη επεξεργασία κειμένου σε κείμενο στο eDiffi σημαίνει ότι το κείμενο μπορεί να αποδοθεί αυτολεξεί σε εικόνες, αντί να εκτελείται μόνο μέσω ενός ερμηνευτικού στρώματος κειμένου σε εικόνα παρά να παραμορφώνει την έξοδο.

Μια περαιτέρω συμπλήρωση στο νέο πλαίσιο είναι ότι είναι επίσης δυνατό να παρέχετε μια μεμονωμένη εικόνα ως προτροπή στυλ, αντί να χρειάζεται να εκπαιδεύσετε ένα μοντέλο DreamBooth ή μια ενσωμάτωση κειμένου σε πολλά παραδείγματα ενός είδους ή στυλ.

Η μεταφορά στυλ μπορεί να εφαρμοστεί από μια εικόνα αναφοράς σε μια προτροπή κειμένου σε εικόνα ή ακόμα και μια προτροπή εικόνας σε εικόνα.

Η νέο χαρτί είναι ο τίτλος eDiffi: Μοντέλα διάχυσης κειμένου σε εικόνα με ένα σύνολο ειδικών αποθηκοποιητών, να

Ο κωδικοποιητής κειμένου T5

Η χρήση του T της GoogleΜετασχηματιστής μεταφοράς ext-to-Text Το (T5) είναι το βασικό στοιχείο στα βελτιωμένα αποτελέσματα που παρουσιάζονται στο eDiffi. Ο μέσος αγωγός λανθάνουσας διάχυσης επικεντρώνεται στη συσχέτιση μεταξύ εκπαιδευμένων εικόνων και λεζάντες που τις συνόδευαν όταν αφαιρέθηκαν από το Διαδίκτυο (ή αλλιώς ρυθμίστηκαν χειροκίνητα αργότερα, αν και αυτή είναι μια δαπανηρή και επομένως σπάνια παρέμβαση).

Από το έγγραφο του Ιουλίου 2020 για το T5 – μετασχηματισμοί που βασίζονται σε κείμενο, οι οποίοι μπορούν να βοηθήσουν στη ροή εργασιών δημιουργίας εικόνας στο eDiffi (και, ενδεχομένως, σε άλλα μοντέλα λανθάνουσας διάχυσης). Πηγή: https://arxiv.org/pdf/1910.10683.pdf

Με την αναδιατύπωση του κειμένου πηγής και την εκτέλεση της ενότητας T5, μπορούν να ληφθούν πιο ακριβείς συσχετίσεις και αναπαραστάσεις από ό,τι είχαν εκπαιδευτεί αρχικά στο μοντέλο, σχεδόν παρόμοια με μετά το γεγονός χειροκίνητη επισήμανση, με μεγαλύτερη εξειδίκευση και δυνατότητα εφαρμογής στις προδιαγραφές της ζητούμενης προτροπής κειμένου.

Οι συγγραφείς εξηγούν:

«Στις περισσότερες υπάρχουσες εργασίες σε μοντέλα διάχυσης, το μοντέλο αποθορυβοποίησης μοιράζεται σε όλα τα επίπεδα θορύβου και η χρονική δυναμική αναπαρίσταται χρησιμοποιώντας μια απλή χρονική ενσωμάτωση που τροφοδοτείται στο μοντέλο αποθορυβοποίησης μέσω ενός δικτύου MLP. Υποστηρίζουμε ότι η πολύπλοκη χρονική δυναμική της διάχυσης αποθορβοποίησης μπορεί να μην μαθευτεί από δεδομένα αποτελεσματικά χρησιμοποιώντας ένα κοινό μοντέλο με περιορισμένη χωρητικότητα.

«Αντίθετα, προτείνουμε να κλιμακωθεί η ικανότητα του μοντέλου απενεργοποίησης θορύβου εισάγοντας ένα σύνολο ειδικών εκτοξευτών. κάθε έμπειρος αποθορυβοποιητής είναι ένα μοντέλο απενεργοποίησης θορύβου εξειδικευμένο για ένα συγκεκριμένο εύρος [επιπέδων] θορύβου. Με αυτόν τον τρόπο, μπορούμε να αυξήσουμε τη χωρητικότητα του μοντέλου χωρίς να επιβραδύνουμε τη δειγματοληψία, καθώς η υπολογιστική πολυπλοκότητα της αξιολόγησης [του επεξεργασμένου στοιχείου] σε κάθε επίπεδο θορύβου παραμένει η ίδια».

Εννοιολογική ροή εργασίας για το eDiffi.

Τα υπαρχοντα CLIP Οι μονάδες κωδικοποίησης που περιλαμβάνονται στο DALL-E 2 και το Stable Diffusion μπορούν επίσης να βρουν εναλλακτικές ερμηνείες εικόνας για κείμενο που σχετίζεται με την εισαγωγή του χρήστη. Ωστόσο, έχουν εκπαιδευτεί σε παρόμοιες πληροφορίες με το αρχικό μοντέλο και δεν χρησιμοποιούνται ως ξεχωριστό ερμηνευτικό επίπεδο με τον τρόπο που είναι το T5 στο eDiffi.

Οι συγγραφείς δηλώνουν ότι το eDiffi είναι η πρώτη φορά που τόσο ένας κωδικοποιητής T5 όσο και ένας κωδικοποιητής CLIP έχουν ενσωματωθεί σε έναν ενιαίο αγωγό:

Καθώς αυτοί οι δύο κωδικοποιητές εκπαιδεύονται με διαφορετικούς στόχους, οι ενσωματώσεις τους ευνοούν το σχηματισμό διαφορετικών εικόνων με το ίδιο κείμενο εισαγωγής. Ενώ οι ενσωματώσεις κειμένου CLIP βοηθούν στον προσδιορισμό της συνολικής εμφάνισης των εικόνων που δημιουργούνται, οι έξοδοι τείνουν να χάνουν τις λεπτομερείς λεπτομέρειες στο κείμενο.

Αντίθετα, οι εικόνες που δημιουργούνται μόνο με ενσωματώσεις κειμένου T5 αντικατοπτρίζουν καλύτερα τα μεμονωμένα αντικείμενα που περιγράφονται στο κείμενο, αλλά η συνολική τους εμφάνιση είναι λιγότερο ακριβής. Η από κοινού χρήση τους παράγει τα καλύτερα αποτελέσματα δημιουργίας εικόνας στο μοντέλο μας.'

Διακοπή και αύξηση της διαδικασίας διάχυσης

Η εφημερίδα σημειώνει ότι ένα τυπικό μοντέλο λανθάνουσας διάχυσης θα ξεκινήσει το ταξίδι από τον καθαρό θόρυβο σε μια εικόνα βασιζόμενος αποκλειστικά στο κείμενο στα πρώτα στάδια της γενιάς.

Όταν ο θόρυβος καταλήγει σε κάποιο είδος πρόχειρης διάταξης που αντιπροσωπεύει την περιγραφή στη γραμμή εντολών κειμένου, η καθοδηγούμενη από το κείμενο πτυχή της διαδικασίας ουσιαστικά μειώνεται και η υπόλοιπη διαδικασία μετατοπίζεται προς την αύξηση των οπτικών χαρακτηριστικών.

Αυτό σημαίνει ότι οποιοδήποτε στοιχείο δεν επιλύθηκε στο αρχικό στάδιο της ερμηνείας του θορύβου καθοδηγούμενη από κείμενο είναι δύσκολο να εισαχθεί στην εικόνα αργότερα, επειδή οι δύο διαδικασίες (κείμενο σε διάταξη και διάταξη σε εικόνα) έχουν σχετικά μικρή επικάλυψη. , και η βασική διάταξη είναι αρκετά μπλεγμένη από τη στιγμή που φτάνει στη διαδικασία αύξησης της εικόνας.

Από το χαρτί: οι χάρτες προσοχής διαφόρων τμημάτων του αγωγού καθώς ωριμάζει η διαδικασία θορύβου>εικόνας. Μπορούμε να δούμε την έντονη πτώση στην επιρροή CLIP της εικόνας στην κάτω σειρά, ενώ το T5 συνεχίζει να επηρεάζει την εικόνα πολύ περισσότερο στη διαδικασία απόδοσης.

Επαγγελματικές δυνατότητες

Τα παραδείγματα στη σελίδα του έργου και στο βίντεο του YouTube επικεντρώνονται στη δημιουργία χαριτωμένων εικόνων με meme-tastic φιλική προς τις δημόσιες σχέσεις. Ως συνήθως, η έρευνα της NVIDIA υποβαθμίζει τις δυνατότητες της τελευταίας της καινοτομίας να βελτιώσει τις φωτορεαλιστικές ροές εργασίας ή τις ροές εργασίας VFX, καθώς και τις δυνατότητές της για βελτίωση των deepfake εικόνων και βίντεο.

Στα παραδείγματα, ένας αρχάριος ή ένας ερασιτέχνης χρήστης γράφει πρόχειρα περιγράμματα τοποθέτησης για το συγκεκριμένο στοιχείο, ενώ σε μια πιο συστηματική ροή εργασίας VFX, θα μπορούσε να είναι δυνατή η χρήση του eDiffi για την ερμηνεία πολλαπλών καρέ ενός στοιχείου βίντεο χρησιμοποιώντας κείμενο σε εικόνα, όπου τα περιγράμματα είναι πολύ ακριβή και βασίζονται, για παράδειγμα, σε σχήματα όπου το φόντο έχει διαγραφεί μέσω πράσινης οθόνης ή αλγοριθμικών μεθόδων.

Το Runway ML παρέχει ήδη rotoscoping βασισμένο σε AI. Σε αυτό το παράδειγμα, η «πράσινη οθόνη» γύρω από το θέμα αντιπροσωπεύει το επίπεδο άλφα, ενώ η εξαγωγή έχει επιτευχθεί μέσω μηχανικής εκμάθησης και όχι με αλγοριθμική αφαίρεση ενός φόντου πράσινης οθόνης του πραγματικού κόσμου. Πηγή: https://twitter.com/runwayml/status/1330978385028374529

Χρησιμοποιώντας ένα εκπαιδευμένο ονειροπόλος χαρακτήρα και μια διοχέτευση εικόνας-προς-εικόνα με το eDiffi, είναι δυνητικά δυνατό να αρχίσετε να καταστρέφετε έναν από τους κάθε μοντέλο λανθάνουσας διάχυσης: χρονική σταθερότητα. Σε μια τέτοια περίπτωση, τόσο τα περιθώρια της επιβαλλόμενης εικόνας όσο και το περιεχόμενο της εικόνας θα «προκαθορίζονται» στον καμβά του χρήστη, με χρονική συνέχεια του αποδιδόμενου περιεχομένου (δηλαδή μετατροπή ενός πραγματικού ασκούμενου Tai Chi σε ρομπότ ) παρέχεται με τη χρήση ενός κλειδωμένου μοντέλου DreamBooth το οποίο έχει «απομνημονεύσει» τα δεδομένα προπόνησής του – κακό για ερμηνευτικότητα, εξαιρετικό για αναπαραγωγιμότητα, πιστότητα και συνέχεια.

Μέθοδος, Δεδομένα και Δοκιμές

Το έγγραφο αναφέρει ότι το μοντέλο eDiffi εκπαιδεύτηκε σε «μια συλλογή από δημόσια και ιδιόκτητα σύνολα δεδομένων», φιλτραρισμένα σε μεγάλο βαθμό από ένα προεκπαιδευμένο μοντέλο CLIP, προκειμένου να αφαιρεθούν εικόνες που ενδέχεται να μειώσουν τη γενική αισθητική βαθμολογία του αποτελέσματος. Το τελικό φιλτραρισμένο σύνολο εικόνων περιλαμβάνει «περίπου ένα δισεκατομμύριο» ζεύγη κειμένου-εικόνας. Το μέγεθος των εκπαιδευμένων εικόνων περιγράφεται ως με «η συντομότερη πλευρά μεγαλύτερη από 64 εικονοστοιχεία».

Ένας αριθμός μοντέλων εκπαιδεύτηκε για τη διαδικασία, με εκπαιδευμένα τόσο τα βασικά μοντέλα όσο και τα μοντέλα υπερ-ανάλυσης AdamW βελτιστοποιητής με ρυθμό εκμάθησης 0.0001, με μείωση βάρους 0.01 και σε τρομερό μέγεθος παρτίδας 2048.

Το βασικό μοντέλο εκπαιδεύτηκε σε 256 GPU NVIDIA A100 και τα δύο μοντέλα σούπερ ανάλυσης σε 128 NVIDIA A100 GPU για κάθε μοντέλο.

Το σύστημα βασίστηκε στο δικό της NVIDIA Imaginaire Βιβλιοθήκη PyTorch. ΚΑΡΥΔΑ και Visual Genome σύνολα δεδομένων χρησιμοποιήθηκαν για αξιολόγηση, αν και δεν συμπεριλήφθηκαν στα τελικά μοντέλα, με MS-COCO η συγκεκριμένη παραλλαγή που χρησιμοποιείται για τη δοκιμή. Αντίπαλα συστήματα δοκιμάστηκαν ΓΛΙΣΤΡΩ, Make-A-Scene, DALL-E2, Σταθερή Διάχυσηκαι τα δύο συστήματα σύνθεσης εικόνας της Google, Εικόνα και Μέρη.

Σύμφωνα με παρόμοια πριν δουλειά, μηδενικής βολής FID-30K χρησιμοποιήθηκε ως μέτρηση αξιολόγησης. Σύμφωνα με το FID-30K, 30,000 λεζάντες εξάγονται τυχαία από το σύνολο επικύρωσης COCO (δηλαδή όχι οι εικόνες ή το κείμενο που χρησιμοποιήθηκαν στην εκπαίδευση), οι οποίες στη συνέχεια χρησιμοποιήθηκαν ως μηνύματα κειμένου για τη σύνθεση εικόνων.

Η απόσταση έναρξης Frechet (ΜΟΥΡΕΛΛΟ) στη συνέχεια υπολογίστηκε μεταξύ των παραγόμενων και εικόνων αληθείας εδάφους, επιπλέον της καταγραφής της βαθμολογίας CLIP για τις παραγόμενες εικόνες.

Αποτελέσματα από τις δοκιμές FID μηδενικής λήψης έναντι των τρεχουσών προσεγγίσεων τελευταίας τεχνολογίας στο σύνολο δεδομένων επικύρωσης COCO 2014, με χαμηλότερα αποτελέσματα καλύτερα.

Στα αποτελέσματα, το eDiffi μπόρεσε να λάβει τη χαμηλότερη (καλύτερη) βαθμολογία στο FID μηδενικής βολής ακόμη και σε συστήματα με πολύ μεγαλύτερο αριθμό παραμέτρων, όπως οι 20 δισεκατομμύρια παράμετροι του Parti, σε σύγκριση με τα 9.1 δισεκατομμύρια παραμέτρους στο υψηλότερο προδιαγεγραμμένο μοντέλο eDiffi εκπαιδευμένο για τις δοκιμές.

Συμπέρασμα

Το eDiffi της NVIDIA αντιπροσωπεύει μια ευπρόσδεκτη εναλλακτική λύση για την απλή προσθήκη ολοένα και μεγαλύτερων ποσοτήτων δεδομένων και πολυπλοκότητας σε υπάρχοντα συστήματα, αντί να χρησιμοποιεί μια πιο έξυπνη και πολυεπίπεδη προσέγγιση σε μερικά από τα πιο ακανθώδη εμπόδια που σχετίζονται με την εμπλοκή και τη μη επεξεργασιμότητα σε συστήματα παραγωγής εικόνας με λανθάνουσα διάχυση.

Υπάρχει ήδη συζήτηση στα subreddits Stable Diffusion και Discords είτε για την άμεση ενσωμάτωση οποιουδήποτε κώδικα που μπορεί να είναι διαθέσιμος για το eDiffi είτε για την αναδιάταξη των αρχών πίσω από αυτό σε ξεχωριστή υλοποίηση. Ο νέος αγωγός, ωστόσο, είναι τόσο ριζικά διαφορετικός, που θα αποτελούσε έναν ολόκληρο αριθμό αλλαγών έκδοσης για το SD, εξαλείφοντας κάποια προς τα πίσω συμβατότητα, παρόλο που προσφέρει τη δυνατότητα πολύ βελτιωμένων επιπέδων ελέγχου των τελικών συνθετικών εικόνων, χωρίς να θυσιάζεται η μαγευτική φανταστικές δυνάμεις λανθάνουσας διάχυσης.

Πρώτη δημοσίευση 3 Νοεμβρίου 2022.

Επόμενο

Ποια είναι η καλύτερη γλώσσα για τη μηχανική μάθηση; (Μάιος 2024)

Μην χάσετε

Η Synthesis AI κυκλοφορεί νέα προϊόντα για ανθρωποκεντρικά μοντέλα όρασης υπολογιστών

Μάρτιν Άντερσον

Συγγραφέας για τη μηχανική μάθηση, την τεχνητή νοημοσύνη και τα μεγάλα δεδομένα.
Προσωπικός ιστότοπος: martinanderson.ai
Επαφή: [προστασία μέσω email]
Twitter: @manders_ai

Unite.AI

Το μοντέλο eDiffi Diffusion της NVIDIA επιτρέπει τη «ζωγραφική με λέξεις» και πολλά άλλα

Τεχνητή νοημοσύνη