Τεχνητή νοημοσύνη
EasyPhoto: Ο Προσωπικός σας Γεννήτωρ Φωτογραφιών AI

Stable Diffusion Web User Interface, ή SD-WebUI, είναι ένα綜合 проект για τα μοντέλα Stable Diffusion που χρησιμοποιούν τη βιβλιοθήκη Gradio για να παρέχουν μια διεπαφή περιήγησης. Σήμερα, θα μιλήσουμε για το EasyPhoto, ένα καινοτόμο plugin WebUI που επιτρέπει στους τελικούς χρήστες να δημιουργούν πορτρέτα AI και εικόνες. Το plugin WebUI EasyPhoto δημιουργεί πορτρέτα AI χρησιμοποιώντας διάφορες προτυποποιήσεις, υποστηρίζοντας διαφορετικές στυλ φωτογραφιών και πολλαπλές τροποποιήσεις. Επιπλέον, για να ενισχύσει τις ικανότητες του EasyPhoto, οι χρήστες μπορούν να δημιουργούν εικόνες χρησιμοποιώντας το μοντέλο SDXL για πιο ικανοποιητικά, ακριβή και ποικίλα αποτελέσματα. Ας ξεκινήσουμε.
Εισαγωγή στο EasyPhoto και Stable Diffusion
Το πλαίσιο Stable Diffusion είναι ένα δημοφιλές και ισχυρό πλαίσιο γεννήτωρα διάχυσης που χρησιμοποιείται από τους développers για να δημιουργούν πραγματικές εικόνες με βάση τις περιγραφές κειμένου εισόδου. Díky στις ικανότητές του, το πλαίσιο Stable Diffusion διαθέτει ένα ευρύ φάσμα εφαρμογών, συμπεριλαμβανομένων της εξόρυξης εικόνων, της επεξεργασίας εικόνων και της μετάφρασης εικόνας-σε-εικόνα. Η διεπαφή χρήστη Web Stable Diffusion, ή SD-WebUI, ξεχωρίζει ως μια από τις πιο δημοφιλείς και γνωστές εφαρμογές αυτού του πλαισίου. Διαθέτει μια διεπαφή περιήγησης που βασίζεται στη βιβλιοθήκη Gradio, παρέχοντας μια διαδραστική και φιλική προς τον χρήστη διεπαφή για τα μοντέλα Stable Diffusion. Για να ενισχύσει τον έλεγχο και την ευχρηστία στη δημιουργία εικόνων, η SD-WebUI ενσωματώνει πολλές εφαρμογές Stable Diffusion.
Λόγω της ευκολίας που προσφέρει το πλαίσιο SD-WebUI, οι développeurs του πλαισίου EasyPhoto αποφάσισαν να το δημιουργήσουν ως plugin web αντί για μια πλήρη εφαρμογή. Σε αντίθεση με τις υπάρχουσες μεθόδους που συχνά υποφέρουν από απώλεια ταυτότητας ή εισαγωγή μη ρεαλιστικών χαρακτηριστικών στις εικόνες, το πλαίσιο EasyPhoto αξιοποιεί τις ικανότητες εικόνας-σε-εικόνα των μοντέλων Stable Diffusion για να παράγει ακριβείς και ρεαλιστικές εικόνες. Οι χρήστες μπορούν εύκολα να εγκαταστήσουν το πλαίσιο EasyPhoto ως επέκταση μέσα στη WebUI, ενισχύοντας την ευχρηστία και την προσβασιμότητα σε ένα ευρύτερο φάσμα χρηστών. Το πλαίσιο EasyPhoto επιτρέπει στους χρήστες να δημιουργούν πορτρέτα AI που οδηγούνται από την ταυτότητα, υψηλής ποιότητας και ρεαλιστικά που μοιάζουν στενά με την ταυτότητα εισόδου.
Πρώτα, το πλαίσιο EasyPhoto ζητά από τους χρήστες να δημιουργήσουν τον ψηφιακό δίδυμο τους μεταφορτώνοντας μερικές εικόνες για να εκπαιδεύσουν ένα μοντέλο LoRA ή Low-Rank Adaptation online. Το πλαίσιο LoRA εκπαιδεύει γρήγορα τα μοντέλα διάχυσης χρησιμοποιώντας την τεχνολογία προσαρμογής χαμηλού βαθμού. Αυτή η διαδικασία επιτρέπει στο βασικό μοντέλο να κατανοήσει τις πληροφορίες ταυτότητας των συγκεκριμένων χρηστών. Τα εκπαιδευμένα μοντέλα συγχωνεύονται και ενσωματώνονται στο βασικό μοντέλο Stable Diffusion για παρέμβαση. Επιπλέον, κατά τη διάρκεια της διαδικασίας παρέμβασης, το μοντέλο χρησιμοποιεί τα σταθερά μοντέλα διάχυσης σε μια προσπάθεια να ξαναζωγραφίσει τις περιοχές του προσώπου στο πρότυπο παρέμβασης, και η ομοιότητα μεταξύ των εικόνων εισόδου και εξόδου επαληθεύεται χρησιμοποιώντας διάφορες μονάδες ControlNet.
Το πλαίσιο EasyPhoto επίσης αναπτύσσει μια διπλή διαδικασία διάχυσης για να αντιμετωπίσει πιθανά προβλήματα όπως τα οριακά артеφάκτα και η απώλεια ταυτότητας, εξασφαλίζοντας ότι οι εικόνες που παράγονται ελαχιστοποιούν τις οπτικές ασυνέπειες ενώ διατηρούν την ταυτότητα του χρήστη. Επιπλέον, η διαδικασία παρέμβασης στο πλαίσιο EasyPhoto δεν είναι περιορισμένη μόνο στη δημιουργία πορτρέτων, αλλά μπορεί επίσης να χρησιμοποιηθεί για τη δημιουργία οτιδήποτε σχετίζεται με την ταυτότητα του χρήστη. Αυτό σημαίνει ότι μια φορά που εκπαιδεύσετε το μοντέλο LoRA για μια συγκεκριμένη ταυτότητα, μπορείτε να δημιουργήσετε ένα ευρύ φάσμα εικόνων AI, και έτσι μπορεί να έχει ευρείες εφαρμογές, συμπεριλαμβανομένων των εικονικών δοκιμών.
Για να συνοψίσουμε, το πλαίσιο EasyPhoto
- Προτείνει μια νέα προσέγγιση για την εκπαίδευση του μοντέλου LoRA ενσωματώνοντας πολλά μοντέλα LoRA για να διατηρήσει την πιστότητα του προσώπου στις εικόνες που παράγονται.
- Χρησιμοποιεί διάφορες μεθόδους ενίσχυσης για να βελτιώσει τα μοντέλα LoRA για ανταμοιβές ταυτότητας που βοηθούν στην ενίσχυση της ομοιότητας των ταυτοτήτων μεταξύ των εικόνων εκπαίδευσης και των αποτελεσμάτων που παράγονται.
- Προτείνει μια διπλή διαδικασία διάχυσης που στοχεύει στην δημιουργία εικόνων AI με υψηλή αισθητική και ομοιότητα.
EasyPhoto : Αρχιτεκτονική & Εκπαίδευση
Η ακόλουθη εικόνα δείχνει τη διαδικασία εκπαίδευσης του πλαισίου EasyPhoto AI.

Όπως μπορείτε να δείτε, το πλαίσιο ζητά πρώτα από τους χρήστες να εισαγάγουν τις εικόνες εκπαίδευσης, και στη συνέχεια thựcεί ανίχνευση προσώπου για να ανιχνεύσει τις θέσεις του προσώπου. Μόλις το πλαίσιο ανιχνεύσει το πρόσωπο, το κόβει την εικόνα εισόδου χρησιμοποιώντας einen προκαθορισμένο συγκεκριμένο λόγο που επικεντρώνεται αποκλειστικά στην περιοχή του προσώπου. Το πλαίσιο στη συνέχεια αναπτύσσει ένα μοντέλο ομορφιάς δέρματος και ένα μοντέλο ανίχνευσης σαλημιάς για να λάβει μια καθαρή και σαφή εικόνα εκπαίδευσης προσώπου. Αυτά τα δύο μοντέλα παίζουν einen κρίσιμο ρόλο στην ενίσχυση της οπτικής ποιότητας του προσώπου και επίσης εξασφαλίζουν ότι η πληροφορία του φόντου έχει αφαιρεθεί και η εικόνα εκπαίδευσης περιέχει κυρίως το πρόσωπο. Τέλος, το πλαίσιο χρησιμοποιεί αυτές τις επεξεργασμένες εικόνες και τις εισαγωγές για να εκπαιδεύσει το μοντέλο LoRA, και έτσι εξοπλίζει με την ικανότητα να κατανοήσει τις χαρακτηριστικές ιδιότητες του χρήστη πιο αποτελεσματικά και ακριβώς.
Επιπλέον, κατά τη διάρκεια της φάσης εκπαίδευσης, το πλαίσιο περιλαμβάνει einen κρίσιμο βήμα επαλήθευσης, στο οποίο το πλαίσιο υπολογίζει το χάσμα ταυτότητας προσώπου μεταξύ της εικόνας εισόδου του χρήστη και της εικόνας επαλήθευσης που παράγεται από το εκπαιδευμένο μοντέλο LoRA. Το βήμα επαλήθευσης είναι μια θεμελιώδης διαδικασία που παίζει einen κρίσιμο ρόλο στην επίτευξη της συγχώνευσης των μοντέλων LoRA, εξασφαλίζοντας ότι το εκπαιδευμένο μοντέλο LoRA μετατρέπεται σε einen ψηφιακό δίδυμο, ή μια ακριβή ψηφιακή αναπαράσταση του χρήστη. Επιπλέον, η εικόνα επαλήθευσης που έχει το βέλτιστο σκορ ταυτότητας προσώπου θα επιλεγεί ως η εικόνα ταυτότητας προσώπου, και αυτή η εικόνα ταυτότητας προσώπου θα χρησιμοποιηθεί για να ενισχύσει την ομοιότητα ταυτότητας της διαδικασίας παρέμβασης.
Συνεχίζοντας, με βάση τη διαδικασία συγχώνευσης, το πλαίσιο εκπαιδεύει τα μοντέλα LoRA με την εκτίμηση πιθανοτήτων ως τον πρωταρχικό στόχο, ενώ η διατήρηση της ομοιότητας ταυτότητας είναι ο στόχος ροής. Για να αντιμετωπίσουμε αυτό το πρόβλημα, το πλαίσιο EasyPhoto χρησιμοποιεί τεχνικές ενίσχυσης για να βελτιώσει τον στόχο ροής απευθείας. Ως αποτέλεσμα, τα χαρακτηριστικά προσώπου που τα μοντέλα LoRA μαθαίνουν δείχνουν βελτίωση που οδηγεί σε μια ενισχυμένη ομοιότητα μεταξύ των αποτελεσμάτων που παράγονται από το πρότυπο, και επίσης δείχνει την γενίκευση μεταξύ προτύπων.
Διαδικασία Παρέμβασης
Η ακόλουθη εικόνα δείχνει τη διαδικασία παρέμβασης για einen χρήστη ID στο πλαίσιο EasyPhoto, και χωρίζεται σε τρία μέρη
- Προεπεξεργασία Προσώπου για την απόκτηση της αναφοράς ControlNet και της προεπεξεργασμένης εικόνας εισόδου.
- Πρώτη Διάχυση που βοηθά στην δημιουργία αποτελεσμάτων που μοιάζουν με την είσοδο του χρήστη.
- Δεύτερη Διάχυση που διορθώνει τα αρτεφάκτα ορίων, καθιστώντας τις εικόνες πιο ακριβείς και ρεαλιστικές.

Για την είσοδο, το πλαίσιο λαμβάνει μια εικόνα ταυτότητας προσώπου (παράγεται κατά τη διάρκεια της επαλήθευσης εκπαίδευσης χρησιμοποιώντας το βέλτιστο σκορ ταυτότητας) και einen πρότυπο παρέμβασης. Η έξοδος είναι eine υψηλής ποιότητας, ακριβής και ρεαλιστική πορτρέτο του χρήστη, και μοιάζει στενά με την ταυτότητα και την μοναδική εμφάνιση του χρήστη με βάση το πρότυπο παρέμβασης. Ας δούμε πιο λεπτομερώς αυτές τις διαδικασίες.
Προεπεξεργασία Προσώπου
Ένας τρόπος για να δημιουργηθεί ένα πορτρέτο AI με βάση einen πρότυπο παρέμβασης χωρίς συνειδητή σκέψη είναι να χρησιμοποιηθεί το μοντέλο SD για να ζωγραφίσει την περιοχή του προσώπου στο πρότυπο παρέμβασης. Επιπλέον, η προσθήκη του πλαισίου ControlNet στη διαδικασία δεν μόνο ενισχύει την διατήρηση της ταυτότητας του χρήστη, αλλά cũng την ομοιότητα μεταξύ των εικόνων που παράγονται. Ωστόσο, η χρήση του πλαισίου ControlNet απευθείας για την τοπική ζωγράφηση μπορεί να εισαγάγει πιθανά προβλήματα που μπορεί να περιλαμβάνουν
- Ασυνέπεια μεταξύ της Εισόδου και της Γεννηθείσας Εικόνας : Είναι φανερό ότι τα κρίσιμα σημεία στην εικόνα πρότυπου δεν είναι συμβατά με τα κρίσιμα σημεία στην εικόνα ταυτότητας προσώπου, που είναι γιατί η χρήση του πλαισίου ControlNet με την εικόνα ταυτότητας προσώπου ως αναφορά μπορεί να οδηγήσει σε κάποιες ασυνέπειες στην έξοδο.
- Ελαττώματα στην Περιοχή Ζωγράφισης : Η μάσκα einer περιοχής και στη συνέχεια η ζωγράφισή της με ένα νέο πρόσωπο μπορεί να οδηγήσει σε εμφανή ελαττώματα, ιδιαίτερα κατά μήκος του ορίου ζωγράφισης, που δεν μόνο θα επηρεάσουν την αυθεντικότητα της εικόνας που παράγεται, αλλά θα επηρεάσουν επίσης την ρεαλιστικότητα της εικόνας.
- Απώλεια Ταυτότητας από το Control Net : Καθώς η διαδικασία εκπαίδευσης δεν χρησιμοποιεί το πλαίσιο ControlNet, η χρήση του κατά τη διάρκεια της φάσης παρέμβασης μπορεί να επηρεάσει την ικανότητα των εκπαιδευμένων μοντέλων LoRA να διατηρήσουν την ταυτότητα του χρήστη.
Για να αντιμετωπίσουμε τα προβλήματα που αναφέρθηκαν παραπάνω, το πλαίσιο EasyPhoto προτείνει τρεις διαδικασίες.
- Συνδυασμός και Επικόλληση : Χρησιμοποιώντας einen αλγόριθμο επικόλλησης προσώπου, το πλαίσιο EasyPhoto στοχεύει να αντιμετωπίσει το πρόβλημα της ανταπόκρισης μεταξύ των σημείων προσώπου μεταξύ της εικόνας ταυτότητας και του προτύπου. Πρώτα, το μοντέλο υπολογίζει τα σημεία προσώπου της εικόνας ταυτότητας και της εικόνας πρότυπου, και στη συνέχεια το μοντέλο καθορίζει την πίνακα μετασχηματισμού που θα χρησιμοποιηθεί για να συντονίσει τα σημεία προσώπου της εικόνας πρότυπου με την εικόνα ταυτότητας. Η αποτέλεσμα εικόνα διατηρεί τα ίδια σημεία προσώπου της εικόνας ταυτότητας και επίσης συντονίζεται με το πρότυπο.
- Σύζευξη Προσώπου : Η Σύζευξη Προσώπου είναι eine καινοτόμος προσέγγιση που χρησιμοποιείται για να διορθώσει τα αρτεφάκτα ορίων που είναι αποτέλεσμα της μάσκαρας ζωγράφισης, και περιλαμβάνει την διόρθωση των αρτεφάκτων χρησιμοποιώντας το πλαίσιο ControlNet. Η μέθοδος επιτρέπει στο πλαίσιο EasyPhoto να διατηρήσει την ομοιότητα των ορίων, και έτσι να οδηγήσει τη διαδικασία δημιουργίας εικόνας. Ο αλγόριθμος σύζευξης προσώπου συνδυάζει επίσης την εικόνα roop (πραγματικές εικόνες χρήστη) με το πρότυπο, που επιτρέπει στην αποτέλεσμα εικόνα να εμφανίζει καλύτερη σταθεροποίηση των ορίων, που στη συνέχεια οδηγεί σε μια βελτιωμένη έξοδο κατά τη διάρκεια του πρώτου σταδίου διάχυσης.
- Επιβεβαίωση με Οδηγία ControlNet : Καθώς τα μοντέλα LoRA δεν εκπαιδεύτηκαν χρησιμοποιώντας το πλαίσιο ControlNet, η χρήση του κατά τη διάρκεια της φάσης παρέμβασης μπορεί να επηρεάσει την ικανότητα των μοντέλων LoRA να διατηρήσουν την ταυτότητα. Για να ενισχύσει τις ικανότητες γενίκευσης του EasyPhoto, το πλαίσιο λαμβάνει υπόψη την επίδραση του πλαισίου ControlNet και ενσωματώνει μοντέλα LoRA από διαφορετικά στάδια.
Πρώτη Διάχυση
Το πρώτο στάδιο διάχυσης χρησιμοποιεί την εικόνα πρότυπου για να δημιουργήσει eine εικόνα με μια μοναδική ταυτότητα που μοιάζει με την ταυτότητα εισόδου του χρήστη. Η εικόνα εισόδου είναι eine σύζευξη της εικόνας χρήστη και της εικόνας πρότυπου, ενώ η μάσκα προσώπου είναι η μάσκα εισόδου. Για να αυξήσει τον έλεγχο της δημιουργίας εικόνας, το πλαίσιο EasyPhoto ενσωματώνει τρεις μονάδες ControlNet, όπου η πρώτη μονάδα ControlNet επικεντρώνεται στον έλεγχο των συνδεδεμένων εικόνων, η δεύτερη μονάδα ControlNet ελέγχει τα χρώματα των συνδεδεμένων εικόνων, και η τρίτη μονάδα ControlNet είναι η openpose (πραγματικού χρόνου έλεγχο στάσης ανθρώπινου σώματος) της αντικαταστάθηκε εικόνας που περιέχει όχι μόνο τη δομή προσώπου της εικόνας πρότυπου, αλλά και την ταυτότητα προσώπου του χρήστη.
Δεύτερη Διάχυση
Στο δεύτερο στάδιο διάχυσης, τα αρτεφάκτα κοντά στα όρια του προσώπου διορθώνονται και λεπτομερώς, μαζί με την παροχή στους χρήστες της ευελιξίας να μάσκαρουν eine συγκεκριμένη περιοχή στην εικόνα σε μια προσπάθεια να ενισχύσουν την αποτελεσματικότητα της δημιουργίας εντός αυτής της περιοχής. Σε αυτό το στάδιο, το πλαίσιο συνδυάζει την εικόνα εξόδου που λαμβάνεται από το πρώτο στάδιο διάχυσης με την εικόνα roop ή το αποτέλεσμα της εικόνας χρήστη, δημιουργώντας ainsi την εικόνα εισόδου για το δεύτερο στάδιο διάχυσης. Συνολικά, το δεύτερο στάδιο διάχυσης παίζει einen κρίσιμο ρόλο στην ενίσχυση της ποιότητας και των λεπτομερειών της εικόνας που παράγεται.
ΠολυπλURAL IDs
Eine από τις υψηλότερες στιγμές του EasyPhoto είναι η υποστήριξή του για τη δημιουργία πολλαπλών IDs χρήστη, και η ακόλουθη εικόνα δείχνει τη διαδικασία παρέμβασης για πολλαπλά IDs χρήστη στο πλαίσιο EasyPhoto.

Για να παρέχει υποστήριξη για τη δημιουργία πολλαπλών IDs χρήστη, το πλαίσιο EasyPhoto πρώτα thựcεί ανίχνευση προσώπου στην εικόνα πρότυπου παρέμβασης. Αυτές οι εικόνες πρότυπου χωρίζονται σε πολλαπλά μάσκες, όπου κάθε μάσκα περιέχει μόνο ένα πρόσωπο, και η υπόλοιπη εικόνα είναι μασκαρμένη σε λευκό, που έτσι χωρίζει τη δημιουργία πολλαπλών IDs χρήστη σε eine απλή εργασία δημιουργίας μεμονωμένων IDs χρήστη. Μόλις το πλαίσιο δημιουργήσει τις εικόνες ID χρήστη, αυτές οι εικόνες συνδυάζονται στην εικόνα πρότυπου παρέμβασης, που έτσι διευκολύνει eine αμαχητή ενσωμάτωση των εικόνων πρότυπου με τις δημιουργημένες εικόνες, που τελικά οδηγεί σε eine υψηλής ποιότητας εικόνα.
Πειράματα και Αποτελέσματα
Τώρα που έχουμε eine κατανόηση του πλαισίου EasyPhoto, είναι ώρα για μας να εξερευνήσουμε την απόδοση του πλαισίου EasyPhoto.

Η ανωτέρω εικόνα παράγεται από το plugin EasyPhoto, και χρησιμοποιεί ένα μοντέλο Style-based SD για τη δημιουργία εικόνας. Όπως μπορείτε να δείτε, οι εικόνες που παράγονται μοιάζουν ρεαλιστικές και είναι assez ακριβείς.

Η εικόνα που προστέθηκε παραπάνω παράγεται από το πλαίσιο EasyPhoto χρησιμοποιώντας ένα μοντέλο Comic Style-based SD. Όπως μπορείτε να δείτε, οι εικόνες κόμικ και οι ρεαλιστικές εικόνες μοιάζουν bastante ρεαλιστικές και μοιάζουν στενά με την εικόνα εισόδου με βάση τις προτροπές ή τις απαιτήσεις του χρήστη.
Η εικόνα που προστέθηκε παρακάτω έχει δημιουργηθεί από το πλαίσιο EasyPhoto χρησιμοποιώντας einen πρότυπο πολλαπλών προσώπων. Όπως μπορείτε να δείτε, οι εικόνες που παράγονται είναι σαφείς, ακριβείς και μοιάζουν με την αρχική εικόνα.

Με τη βοήθεια του EasyPhoto, οι χρήστες μπορούν τώρα να δημιουργήσουν eine ποικιλία πορτρέτων AI, ή να δημιουργήσουν πολλαπλά IDs χρήστη χρησιμοποιώντας διατηρημένα πρότυπα, ή να χρησιμοποιήσουν το μοντέλο SD για να δημιουργήσουν πρότυπα παρέμβασης. Οι εικόνες που προστέθηκαν παραπάνω δείχνουν την ικανότητα του πλαισίου EasyPhoto στην παραγωγή ποικίλων και υψηλής ποιότητας εικόνων AI.
Συμπέρασμα
Σε αυτό το άρθρο, έχουμε μιλήσει για το EasyPhoto, ένα καινοτόμο plugin WebUI που επιτρέπει στους τελικούς χρήστες να δημιουργούν πορτρέτα AI και εικόνες. Το plugin WebUI EasyPhoto δημιουργεί πορτρέτα AI χρησιμοποιώντας τυχαίες προτυποποιήσεις, και οι τρέχουσες επιπτώσεις του plugin WebUI EasyPhoto υποστηρίζουν διαφορετικά στυλ φωτογραφιών και πολλαπλές τροποποιήσεις. Επιπλέον, για να ενισχύσει τις ικανότητες του EasyPhoto, οι χρήστες έχουν την ευελιξία να δημιουργούν εικόνες χρησιμοποιώντας το μοντέλο SDXL για να δημιουργήσουν πιο ικανοποιητικές, ακριβείς και ποικίλες εικόνες. Το πλαίσιο EasyPhoto χρησιμοποιεί ένα σταθερό μοντέλο διάχυσης σε συνδυασμό με ένα προεκπαιδευμένο μοντέλο LoRA που παράγει υψηλής ποιότητας εικόνες εξόδου.












