Τεχνητή νοημοσύνη

Μοντέλα διάχυσης στο AI – Όλα όσα πρέπει να γνωρίζετε

Δημοσιευμένα

πριν 1 χρόνο

Μαρτίου 31, 2023

Ένα κολάζ ανθρώπινων προσώπων που δημιουργήθηκε με τη χρήση τεχνητής νοημοσύνης

Στο οικοσύστημα AI, τα μοντέλα διάχυσης καθορίζουν την κατεύθυνση και το ρυθμό της τεχνολογικής προόδου. φέρνουν επανάσταση στον τρόπο που προσεγγίζουμε τα περίπλοκα γενετική AI καθήκοντα. Αυτά τα μοντέλα βασίζονται στα μαθηματικά των αρχών του Gauss, της διακύμανσης, των διαφορικών εξισώσεων και των γενετικών ακολουθιών. (Θα εξηγήσουμε την τεχνική ορολογία παρακάτω)

Τα σύγχρονα προϊόντα και λύσεις με επίκεντρο την τεχνητή νοημοσύνη που αναπτύχθηκαν από τις Nvidia, Google, Adobe και OpenAI έχουν θέσει τα μοντέλα διάχυσης στο επίκεντρο του ενδιαφέροντος. DALL.E 2, Σταθερή Διάχυση, να Μεσοταξίδι είναι εξέχοντα παραδείγματα μοντέλων διάχυσης που κάνουν τον γύρο του Διαδικτύου πρόσφατα. Οι χρήστες παρέχουν ένα απλό μήνυμα κειμένου ως εισαγωγή και αυτά τα μοντέλα μπορούν να τα μετατρέψουν σε ρεαλιστικές εικόνες, όπως αυτή που φαίνεται παρακάτω.

Μια εικόνα που δημιουργήθηκε με το Midjourney v5 χρησιμοποιώντας την προτροπή εισόδου: ζωντανές παπαρούνες Καλιφόρνιας. Πηγή: Μεσοταξίδι

Ας εξερευνήσουμε τις θεμελιώδεις αρχές λειτουργίας των μοντέλων διάχυσης και πώς αλλάζουν τις κατευθύνσεις και τους κανόνες του κόσμου όπως τον βλέπουμε σήμερα.

Τι είναι τα μοντέλα διάχυσης;

Σύμφωνα με την ερευνητική δημοσίευση «Πιθανοτικά Μοντέλα Αποθορύφωσης Διάχυσης», τα μοντέλα διάχυσης ορίζονται ως:

«Ένα μοντέλο διάχυσης ή πιθανοτικό μοντέλο διάχυσης είναι μια παραμετροποιημένη αλυσίδα Markov που εκπαιδεύεται με χρήση μεταβλητών συμπερασμάτων για την παραγωγή δειγμάτων που ταιριάζουν με τα δεδομένα μετά από πεπερασμένο χρόνο».

Με απλά λόγια, τα μοντέλα διάχυσης μπορούν να δημιουργήσουν δεδομένα παρόμοια με αυτά στα οποία έχουν εκπαιδευτεί. Εάν το μοντέλο εκπαιδεύεται σε εικόνες γατών, μπορεί να δημιουργήσει παρόμοιες ρεαλιστικές εικόνες γατών.

Τώρα ας προσπαθήσουμε να αναλύσουμε τον τεχνικό ορισμό που αναφέρθηκε παραπάνω. Τα μοντέλα διάχυσης εμπνέονται από την αρχή λειτουργίας και τη μαθηματική βάση ενός πιθανοτικού μοντέλου που μπορεί να αναλύσει και να προβλέψει τη συμπεριφορά ενός συστήματος που ποικίλλει με το χρόνο, όπως η πρόβλεψη της απόδοσης του χρηματιστηρίου ή η εξάπλωση της πανδημίας.

Ο ορισμός δηλώνει ότι είναι παραμετροποιημένες αλυσίδες Markov που εκπαιδεύονται με μεταβλητά συμπεράσματα. Οι αλυσίδες Markov είναι μαθηματικά μοντέλα που ορίζουν ένα σύστημα που αλλάζει μεταξύ διαφορετικών καταστάσεων με την πάροδο του χρόνου. Η υπάρχουσα κατάσταση του συστήματος μπορεί να καθορίσει μόνο την πιθανότητα μετάβασης σε μια συγκεκριμένη κατάσταση. Με άλλα λόγια, η τρέχουσα κατάσταση ενός συστήματος περιέχει τις πιθανές καταστάσεις που μπορεί να ακολουθήσει ή να αποκτήσει ένα σύστημα σε οποιαδήποτε δεδομένη στιγμή.

Η εκπαίδευση του μοντέλου με χρήση μεταβλητών συμπερασμάτων περιλαμβάνει πολύπλοκους υπολογισμούς για κατανομές πιθανοτήτων. Στοχεύει να βρει τις ακριβείς παραμέτρους της αλυσίδας Markov που ταιριάζουν με τα παρατηρούμενα (γνωστά ή πραγματικά) δεδομένα μετά από συγκεκριμένο χρόνο. Αυτή η διαδικασία ελαχιστοποιεί την τιμή της συνάρτησης απώλειας του μοντέλου, η οποία είναι η διαφορά μεταξύ της προβλεπόμενης (άγνωστης) και της παρατηρούμενης (γνωστής) κατάστασης.

Μόλις εκπαιδευτεί, το μοντέλο μπορεί να δημιουργήσει δείγματα που ταιριάζουν με τα παρατηρούμενα δεδομένα. Αυτά τα δείγματα αντιπροσωπεύουν πιθανές τροχιές ή δηλώνουν ότι το σύστημα θα μπορούσε να ακολουθήσει ή να αποκτήσει με την πάροδο του χρόνου και κάθε τροχιά έχει διαφορετική πιθανότητα να συμβεί. Ως εκ τούτου, το μοντέλο μπορεί να προβλέψει τη μελλοντική συμπεριφορά του συστήματος δημιουργώντας μια σειρά δειγμάτων και βρίσκοντας τις αντίστοιχες πιθανότητες (πιθανότητα να συμβούν αυτά τα γεγονότα).

Πώς να ερμηνεύσετε τα μοντέλα διάχυσης στο AI;

Τα μοντέλα διάχυσης είναι μοντέλα βαθιάς παραγωγής που λειτουργούν προσθέτοντας θόρυβο (θόρυβος Gauss) στα διαθέσιμα δεδομένα εκπαίδευσης (γνωστά και ως διαδικασία διάχυσης προς τα εμπρός) και στη συνέχεια αντιστρέφοντας τη διαδικασία (γνωστή ως διαδικασία αποθορυβοποίησης ή αντίστροφης διάχυσης) για την ανάκτηση των δεδομένων. Το μοντέλο μαθαίνει σταδιακά να αφαιρεί τον θόρυβο. Αυτή η μαθημένη διαδικασία αποθορβοποίησης δημιουργεί νέες, υψηλής ποιότητας εικόνες από τυχαίους σπόρους (εικόνες με τυχαία θόρυβο), όπως φαίνεται στην παρακάτω εικόνα.

Διαδικασία αντίστροφης διάχυσης: Μια θορυβώδης εικόνα διαγράφεται για να ανακτηθεί η αρχική εικόνα (ή να δημιουργηθούν οι παραλλαγές της) μέσω ενός εκπαιδευμένου μοντέλου διάχυσης. Πηγή: Πιθανοτικά Μοντέλα Αποθορύφωσης Διάχυσης

3 Κατηγορίες μοντέλων διάχυσης

Υπάρχουν τρία θεμελιώδη μαθηματικά πλαίσια που στηρίζουν την επιστήμη πίσω από τα μοντέλα διάχυσης. Και τα τρία λειτουργούν με τις ίδιες αρχές της προσθήκης θορύβου και στη συνέχεια της αφαίρεσής του για τη δημιουργία νέων δειγμάτων. Ας τα συζητήσουμε παρακάτω.

Ένα μοντέλο διάχυσης προσθέτει και αφαιρεί θόρυβο από μια εικόνα. Πηγή: Models Diffusion in Vision: A Survey

1. Πιθανοτικά Μοντέλα Διάχυσης Αποθορύφωσης (DDPM)

Όπως εξηγήθηκε παραπάνω, τα DDPM είναι μοντέλα παραγωγής που χρησιμοποιούνται κυρίως για την αφαίρεση του θορύβου από οπτικά ή ακουστικά δεδομένα. Έχουν δείξει εντυπωσιακά αποτελέσματα σε διάφορες εργασίες εξουδετέρωσης θορύβου εικόνας και ήχου. Για παράδειγμα, η βιομηχανία παραγωγής ταινιών χρησιμοποιεί σύγχρονα εργαλεία επεξεργασίας εικόνας και βίντεο για τη βελτίωση της ποιότητας παραγωγής.

2. Παραγωγικά μοντέλα που βασίζονται σε βαθμολογία βάσει θορύβου (SGM)

Τα SGM μπορούν να δημιουργήσουν νέα δείγματα από μια δεδομένη διανομή. Λειτουργούν μαθαίνοντας μια συνάρτηση βαθμολογίας εκτίμησης που μπορεί να εκτιμήσει την πυκνότητα καταγραφής της κατανομής στόχου. Η εκτίμηση πυκνότητας καταγραφής κάνει υποθέσεις για διαθέσιμα σημεία δεδομένων ότι αποτελούν μέρος ενός άγνωστου συνόλου δεδομένων (σύνολο δοκιμής). Αυτή η συνάρτηση βαθμολογίας μπορεί στη συνέχεια να δημιουργήσει νέα σημεία δεδομένων από τη διανομή.

Για παράδειγμα, βαθιά παραπτώματα είναι διαβόητες για την παραγωγή ψεύτικων βίντεο και ηχογραφήσεων διάσημων προσωπικοτήτων. Αλλά κυρίως αποδίδονται σε Παραγωγικά Δίκτυα Παρακολούθησης (GAN). Ωστόσο, τα SGM έχουν παρουσίασαν παρόμοιες δυνατότητες – κατά καιρούς υπερτερούν – στη δημιουργία προσώπων διασημοτήτων υψηλής ποιότητας. Επίσης, τα SGM μπορούν να βοηθήσουν στην επέκταση των συνόλων δεδομένων υγειονομικής περίθαλψης, τα οποία δεν είναι άμεσα διαθέσιμα σε μεγάλες ποσότητες λόγω των αυστηρών κανονισμών και των βιομηχανικών προτύπων.

3. Στοχαστικές Διαφορικές Εξισώσεις (SDEs)

Τα SDE περιγράφουν αλλαγές σε τυχαίες διαδικασίες που αφορούν το χρόνο. Χρησιμοποιούνται ευρέως στη φυσική και στις χρηματοοικονομικές αγορές που περιλαμβάνουν τυχαίους παράγοντες που επηρεάζουν σημαντικά τα αποτελέσματα της αγοράς.

Για παράδειγμα, οι τιμές των εμπορευμάτων είναι εξαιρετικά δυναμικές και επηρεάζονται από μια σειρά τυχαίων παραγόντων. Οι SDE υπολογίζουν χρηματοοικονομικά παράγωγα όπως συμβόλαια μελλοντικής εκπλήρωσης (όπως συμβόλαια αργού πετρελαίου). Μπορούν να μοντελοποιήσουν τις διακυμάνσεις και να υπολογίσουν ευνοϊκές τιμές με ακρίβεια για να δώσουν μια αίσθηση ασφάλειας.

Σημαντικές εφαρμογές των μοντέλων διάχυσης στο AI

Ας δούμε μερικές ευρέως προσαρμοσμένες πρακτικές και χρήσεις μοντέλων διάχυσης στο AI.

Δημιουργία βίντεο υψηλής ποιότητας

Δημιουργία βίντεο υψηλής ποιότητας χρησιμοποιώντας βαθιά μάθηση είναι προκλητική καθώς απαιτεί υψηλή συνέχεια των καρέ βίντεο. Εδώ είναι χρήσιμα τα μοντέλα διάχυσης, καθώς μπορούν να δημιουργήσουν ένα υποσύνολο καρέ βίντεο για να συμπληρώσουν τα καρέ που λείπουν, με αποτέλεσμα βίντεο υψηλής ποιότητας και ομαλά χωρίς καθυστέρηση.

Οι ερευνητές έχουν αναπτύξει το Ευέλικτο μοντέλο διάχυσης και υπολειμματική διάχυση βίντεο τεχνικές για την εξυπηρέτηση αυτού του σκοπού. Αυτά τα μοντέλα μπορούν επίσης να παράγουν ρεαλιστικά βίντεο προσθέτοντας απρόσκοπτα καρέ που δημιουργούνται από AI μεταξύ των πραγματικών καρέ.

Αυτά τα μοντέλα μπορούν απλώς να επεκτείνουν το FPS (καρέ ανά δευτερόλεπτο) ενός βίντεο χαμηλού FPS προσθέτοντας εικονικά καρέ αφού μάθουν τα μοτίβα από τα διαθέσιμα καρέ. Χωρίς σχεδόν καμία απώλεια καρέ, αυτά τα πλαίσια μπορούν περαιτέρω να βοηθήσουν τα μοντέλα που βασίζονται σε βαθιά μάθηση να δημιουργήσουν βίντεο βασισμένα σε τεχνητή νοημοσύνη από την αρχή που μοιάζουν με φυσικές λήψεις από ρυθμίσεις κάμερας υψηλής τεχνολογίας.

Ένα ευρύ φάσμα αξιόλογων Γεννήτριες βίντεο AI είναι διαθέσιμο το 2023 για να κάνει την παραγωγή και την επεξεργασία περιεχομένου βίντεο γρήγορη και απλή.

Δημιουργία κειμένου σε εικόνα

Τα μοντέλα κειμένου σε εικόνα χρησιμοποιούν προτροπές εισόδου για τη δημιουργία εικόνων υψηλής ποιότητας. Για παράδειγμα, δίνοντας είσοδο "κόκκινο μήλο σε ένα πιάτο" και παραγωγή μιας φωτορεαλιστικής εικόνας ενός μήλου σε ένα πιάτο. Μεικτή διάχυση και unCLIP είναι δύο εξέχοντα παραδείγματα τέτοιων μοντέλων που μπορούν να δημιουργήσουν εξαιρετικά συναφείς και ακριβείς εικόνες με βάση τα στοιχεία του χρήστη.

Έτσι, GLIDE από το OpenAI είναι μια άλλη ευρέως γνωστή λύση που κυκλοφόρησε το 2021 και παράγει φωτορεαλιστικές εικόνες χρησιμοποιώντας την είσοδο του χρήστη. Αργότερα, η OpenAI κυκλοφόρησε το DALL.E-2, το πιο προηγμένο μοντέλο δημιουργίας εικόνων μέχρι σήμερα.

Ομοίως, η Google έχει επίσης αναπτύξει ένα μοντέλο δημιουργίας εικόνας γνωστό ως Εικόνα, το οποίο χρησιμοποιεί ένα μεγάλο μοντέλο γλώσσας για να αναπτύξει μια βαθιά κειμενική κατανόηση του εισαγόμενου κειμένου και στη συνέχεια δημιουργεί φωτορεαλιστικές εικόνες.

Έχουμε αναφέρει άλλα δημοφιλή εργαλεία δημιουργίας εικόνων όπως το Midjourney και το Stable Diffusion (στούντιο ονείρων) παραπάνω. Ρίξτε μια ματιά σε μια εικόνα που δημιουργήθηκε χρησιμοποιώντας τη Σταθερή Διάχυση παρακάτω.

Ένα κολάζ ανθρώπινων προσώπων που δημιουργήθηκε με το Stable Diffusion 1.5

Μια εικόνα που δημιουργήθηκε με το Stable Diffusion 1.5 χρησιμοποιώντας την ακόλουθη προτροπή: «κολάζ, υπερρεαλιστικό, πολλές παραλλαγές πορτρέτο του πολύ παλιού thom yorke, παραλλαγές προσώπου, τραγουδιστής-τραγουδοποιός, προφίλ ( πλάι ), διάφορες ηλικίες, φακός μακροεντολής, οριακός χώρος, από lee bermejo, alphonse mucha και Greg rutkowski, γκρίζο, απαλό πρόσωπο, ζυγωματικά»

Μοντέλα διάχυσης στην τεχνητή νοημοσύνη – Τι να περιμένουμε στο μέλλον;

Τα μοντέλα διάχυσης έχουν αποκαλύψει πολλά υποσχόμενες δυνατότητες ως μια ισχυρή προσέγγιση για τη δημιουργία δειγμάτων υψηλής ποιότητας από σύνθετα σύνολα δεδομένων εικόνας και βίντεο. Βελτιώνοντας την ανθρώπινη ικανότητα να χρησιμοποιεί και να χειρίζεται δεδομένα, τα μοντέλα διάχυσης μπορούν ενδεχομένως να φέρουν επανάσταση στον κόσμο όπως τον βλέπουμε σήμερα. Μπορούμε να περιμένουμε να δούμε ακόμη περισσότερες εφαρμογές μοντέλων διάχυσης να γίνονται αναπόσπαστο μέρος της καθημερινότητάς μας.

Τούτου λεχθέντος, τα μοντέλα διάχυσης δεν είναι η μόνη γενετική τεχνική AI. Οι ερευνητές χρησιμοποιούν επίσης Generative Adversarial Networks (GANs), Variational Αυτόματο κωδικοποιητές, και βασισμένα σε ροή, βαθιά παραγωγικά μοντέλα για τη δημιουργία περιεχομένου AI. Η κατανόηση των θεμελιωδών χαρακτηριστικών που διαφοροποιούν τα μοντέλα διάχυσης από άλλα μοντέλα παραγωγής μπορεί να βοηθήσει στην παραγωγή πιο αποτελεσματικών λύσεων τις επόμενες ημέρες.

Για να μάθετε περισσότερα σχετικά με τις τεχνολογίες που βασίζονται σε AI, επισκεφθείτε Unite.ai. Δείτε παρακάτω τους επιμελημένους πόρους μας για τα εργαλεία παραγωγής τεχνητής νοημοσύνης.