Άμεση Μηχανική

Μια πιο προσεκτική ματιά στο DALL-E 3 του OpenAI

Δημοσιευμένα

6 μήνες πριν

Οκτώβριος 31, 2023

Στο Παραγωγική τεχνητή νοημοσύνη κόσμο, συμβαδίζοντας με τα τελευταία είναι το όνομα του παιχνιδιού. Και όταν πρόκειται για τη δημιουργία εικόνων, το Stable Diffusion και Μεσοταξίδι ήταν η πλατφόρμα για την οποία μιλούσαν όλοι – μέχρι τώρα.

Παρουσιάστηκε το OpenAI, που υποστηρίζεται από τον τεχνολογικό γίγαντα Microsoft DALL E 3 στις 20 Σεπτεμβρίου 2023.

Το DALL-E 3 δεν έχει να κάνει μόνο με τη δημιουργία εικόνων. έχει να κάνει με το να ζωντανεύεις τις ιδέες σου, όπως ακριβώς τις φανταζόσουν. Και το καλύτερο μέρος; Είναι γρήγορο, όπως, πολύ γρήγορο. Έχετε μια ιδέα, την τροφοδοτείτε στο DALL-E 3, και μπουμ, η εικόνα σας είναι έτοιμη.

Έτσι, σε αυτό το άρθρο, θα βουτήξουμε βαθιά στο τι είναι το DALL-E 3. Θα μιλήσουμε για το πώς λειτουργεί, τι το ξεχωρίζει από τα υπόλοιπα και γιατί μπορεί απλώς να είναι το εργαλείο που δεν ξέρατε ότι χρειάζεστε. Είτε είστε σχεδιαστής, καλλιτέχνης ή απλά κάποιος με πολλές καλές ιδέες, θα θελήσετε να επιμείνετε σε αυτό. Ας αρχίσουμε.

Το νέο με το DALL·E 3 είναι ότι γίνεται πολύ καλύτερο από το DALL·E 2. Οι προηγούμενες εκδόσεις μπορεί να είχαν χάσει ορισμένες λεπτομέρειες ή να αγνοούσαν μερικές λεπτομέρειες εδώ και εκεί, αλλά το DALL·E 3 είναι στο σημείο. Εντοπίζει τις ακριβείς λεπτομέρειες αυτού που ζητάτε, δίνοντάς σας μια εικόνα που είναι πιο κοντά σε αυτό που είχατε φανταστεί.

Το δροσερό μέρος; DALL·E 3 και ChatGPT είναι πλέον ενσωματωμένα μαζί. Συνεργάζονται για να σας βοηθήσουν να βελτιώσετε τις ιδέες σας. Τραβάτε μια ιδέα, το ChatGPT βοηθά στη ρύθμιση της προτροπής και το DALL·E 3 το ζωντανεύει. Εάν δεν είστε λάτρης της εικόνας, μπορείτε να ζητήσετε από το ChatGPT να τροποποιήσει το μήνυμα και να ζητήσει από το DALL·E 3 να δοκιμάσει ξανά. Με μηνιαία χρέωση 20$, έχετε πρόσβαση στο GPT-4, στο DALL·E 3 και σε πολλές άλλες εντυπωσιακές λειτουργίες.

Η Microsoft bingchat πήρε στα χέρια του το DALL·E 3 ακόμη και πριν το ChatGPT του OpenAI, και τώρα δεν είναι μόνο οι μεγάλες επιχειρήσεις, αλλά όλοι μπορούν να παίξουν μαζί του δωρεάν. Η ενσωμάτωση στο Bing Chat και στο Bing Image Creator καθιστά πολύ πιο εύκολη τη χρήση του για οποιονδήποτε.

The Rise of Diffusion Models

Τα τελευταία 3 χρόνια, η τεχνητή νοημοσύνη vision γνώρισε την άνοδο των μοντέλων διάχυσης, κάνοντας ένα σημαντικό άλμα προς τα εμπρός, ειδικά στη δημιουργία εικόνων. Πριν από τα μοντέλα διάχυσης, Παραγωγικά Δίκτυα Παρακολούθησης (GAN) ήταν η βασική τεχνολογία για τη δημιουργία ρεαλιστικών εικόνων.

GAN

Ωστόσο, είχαν το μερίδιό τους στις προκλήσεις, συμπεριλαμβανομένης της ανάγκης για τεράστιες ποσότητες δεδομένων και υπολογιστική ισχύ, κάτι που συχνά τους έκανε δύσκολο να χειριστούν.

εισάγετε διάχυση μοντέλα. Εμφανίστηκαν ως μια πιο σταθερή και αποτελεσματική εναλλακτική λύση στα GAN. Σε αντίθεση με τα GAN, τα μοντέλα διάχυσης λειτουργούν προσθέτοντας θόρυβο στα δεδομένα, αποκρύπτοντάς τα μέχρι να παραμείνει μόνο η τυχαιότητα. Στη συνέχεια εργάζονται προς τα πίσω για να αντιστρέψουν αυτή τη διαδικασία, αναδημιουργώντας σημαντικά δεδομένα από τον θόρυβο. Αυτή η διαδικασία έχει αποδειχθεί αποτελεσματική και λιγότερο εντατική σε πόρους, καθιστώντας τα μοντέλα διάχυσης ένα καυτό θέμα στην κοινότητα της τεχνητής νοημοσύνης.

Το πραγματικό σημείο καμπής ήρθε γύρω στο 2020, με μια σειρά από καινοτόμες εργασίες και την εισαγωγή του Το CLIP του OpenAI τεχνολογία, η οποία προώθησε σημαντικά τις δυνατότητες των μοντέλων διάχυσης. Αυτό έκανε τα μοντέλα διάχυσης εξαιρετικά καλά στη σύνθεση κειμένου σε εικόνα, επιτρέποντάς τους να δημιουργούν ρεαλιστικές εικόνες από περιγραφές κειμένου. Αυτή η σημαντική ανακάλυψη δεν ήταν μόνο στη δημιουργία εικόνων, αλλά και σε τομείς όπως μουσική σύνθεση και βιοϊατρική έρευνα.

Σήμερα, τα μοντέλα διάχυσης δεν είναι απλώς ένα θέμα ακαδημαϊκού ενδιαφέροντος, αλλά χρησιμοποιούνται σε πρακτικά σενάρια πραγματικού κόσμου.

Generative Modeling and Self-Attention Layers: DALL-E 3

Πηγή

Μία από τις κρίσιμες εξελίξεις σε αυτόν τον τομέα ήταν η εξέλιξη της γενετικής μοντελοποίησης, με προσεγγίσεις που βασίζονται σε δειγματοληψία, όπως η αυτοπαλινδρομική παραγωγική μοντελοποίηση και οι διαδικασίες διάχυσης να πρωτοστατούν. Έχουν μεταμορφώσει τα μοντέλα κειμένου σε εικόνα, οδηγώντας σε δραστικές βελτιώσεις στην απόδοση. Αναλύοντας τη δημιουργία εικόνων σε διακριτά βήματα, αυτά τα μοντέλα έχουν γίνει πιο εύχρηστα και ευκολότερα στην εκμάθηση των νευρωνικών δικτύων.

Παράλληλα, η χρήση στρωμάτων αυτοπροσοχής έπαιξε καθοριστικό ρόλο. Αυτά τα επίπεδα, στοιβαγμένα μεταξύ τους, βοήθησαν στη δημιουργία εικόνων χωρίς την ανάγκη έμμεσων χωρικών προκαταλήψεων, ένα κοινό πρόβλημα με τις συνελίξεις. Αυτή η μετατόπιση επέτρεψε στα μοντέλα κειμένου σε εικόνα να κλιμακωθούν και να βελτιωθούν αξιόπιστα, λόγω των καλά κατανοητών ιδιοτήτων κλιμάκωσης των μετασχηματιστών.

Προκλήσεις και λύσεις στη δημιουργία εικόνων

Παρά αυτές τις εξελίξεις, η δυνατότητα ελέγχου στη δημιουργία εικόνων παραμένει μια πρόκληση. Ζητήματα όπως η άμεση παρακολούθηση, όπου το μοντέλο ενδέχεται να μην τηρεί στενά το κείμενο εισαγωγής, έχουν επικρατήσει. Για να αντιμετωπιστεί αυτό, έχουν προταθεί νέες προσεγγίσεις, όπως η βελτίωση υποτίτλων, με στόχο τη βελτίωση της ποιότητας των ζευγών κειμένου και εικόνων στα σύνολα δεδομένων εκπαίδευσης.

Caption Improvement: A Novel Approach

Η βελτίωση των υποτίτλων περιλαμβάνει τη δημιουργία λεζάντες καλύτερης ποιότητας για τις εικόνες, οι οποίες με τη σειρά τους βοηθούν στην εκπαίδευση πιο ακριβών μοντέλων κειμένου σε εικόνα. Αυτό επιτυγχάνεται μέσω ενός ισχυρού υπότιτλου εικόνων που παράγει λεπτομερείς και ακριβείς περιγραφές εικόνων. Με την εκπαίδευση σε αυτές τις βελτιωμένες λεζάντες, το DALL-E 3 κατάφερε να επιτύχει αξιοσημείωτα αποτελέσματα, που μοιάζουν πολύ με φωτογραφίες και έργα τέχνης που παράγονται από ανθρώπους.

Εκπαίδευση σε συνθετικά δεδομένα

Η έννοια της εκπαίδευσης σε συνθετικά δεδομένα δεν είναι νέα. Ωστόσο, η μοναδική συμβολή εδώ είναι η δημιουργία ενός νέου, περιγραφικού συστήματος λεζάντας εικόνων. Ο αντίκτυπος της χρήσης συνθετικών λεζάντων για την εκπαίδευση μοντέλων δημιουργίας ήταν σημαντικός, οδηγώντας σε βελτιώσεις στην ικανότητα του μοντέλου να ακολουθεί με ακρίβεια τις προτροπές.

Αξιολόγηση του DALL-E 3

Μέσω πολλαπλών αξιολογήσεων και συγκρίσεων με προηγούμενα μοντέλα όπως το DALL-E 2 και το Stable Diffusion XL, το DALL-E 3 έχει επιδείξει ανώτερη απόδοση, ειδικά σε εργασίες που σχετίζονται με άμεση παρακολούθηση.

Σύγκριση μοντέλων κειμένου σε εικόνα σε διάφορες αξιολογήσεις

Η χρήση αυτοματοποιημένων αξιολογήσεων και σημείων αναφοράς έχει παράσχει σαφείς αποδείξεις για τις δυνατότητές της, ενισχύοντας τη θέση της ως προηγμένης τεχνολογίας δημιουργίας κειμένου σε εικόνα.

DALL-E 3 Προτροπές και ικανότητες

Το DALL-E 3 προσφέρει μια πιο λογική και εκλεπτυσμένη προσέγγιση στη δημιουργία γραφικών. Καθώς μετακινείστε, θα παρατηρήσετε πώς το DALL-E δημιουργεί κάθε εικόνα, με ένα μείγμα ακρίβειας και φαντασίας που αντηχεί με τη δεδομένη προτροπή.

Σε αντίθεση με τον προκάτοχό της, αυτή η αναβαθμισμένη έκδοση υπερέχει στη φυσική διάταξη των αντικειμένων μέσα σε μια σκηνή και στην απεικόνιση των ανθρώπινων χαρακτηριστικών με ακρίβεια, μέχρι τον σωστό αριθμό δακτύλων στο χέρι. Οι βελτιώσεις επεκτείνονται σε πιο λεπτές λεπτομέρειες και είναι πλέον διαθέσιμες σε υψηλότερη ανάλυση, εξασφαλίζοντας μια πιο ρεαλιστική και επαγγελματική απόδοση.

Οι δυνατότητες απόδοσης κειμένου έχουν επίσης βελτιωθεί σημαντικά. Όπου οι προηγούμενες εκδόσεις του DALL-E παρήγαγαν ασυνήθιστο κείμενο, το DALL-E 3 μπορεί τώρα να δημιουργήσει ευανάγνωστα και επαγγελματικά σχεδιασμένα γράμματα (μερικές φορές) και ακόμη και καθαρά λογότυπα περιστασιακά.

Η κατανόηση των πολύπλοκων και διαφοροποιημένων αιτημάτων εικόνας από το μοντέλο έχει βελτιωθεί σημαντικά. Το DALL-E 3 μπορεί τώρα να ακολουθεί με ακρίβεια λεπτομερείς περιγραφές, ακόμη και σε σενάρια με πολλαπλά στοιχεία και συγκεκριμένες οδηγίες, αποδεικνύοντας την ικανότητά του να παράγει συνεκτικές και καλά συνθετικές εικόνες. Ας εξερευνήσουμε ορισμένες προτροπές και την αντίστοιχη έξοδο που έχουμε:

Design the packaging for a line of organic teas. Include space for the product name and description.

Εικόνες DALL-E 3 βασισμένες σε προτροπές κειμένου (Σημειώστε ότι η αριστερή αφίσα έχει λανθασμένη ορθογραφία)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

Εικόνες DALL-E 3 βασισμένες σε προτροπές κειμένου

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

Εικόνες DALL-E 3 βασισμένες σε προτροπές κειμένου (Λάβετε υπόψη ότι και οι δύο αφίσες έχουν λανθασμένη ορθογραφία)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.

Εικόνες DALL-E 3 βασισμένες σε προτροπές κειμένου

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.

Εικόνες DALL-E 3 βασισμένες σε προτροπές κειμένου

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.

Εικόνες DALL-E 3 βασισμένες σε προτροπές κειμένου

Περιορισμοί και κίνδυνος DALL-E 3

Το OpenAI έχει λάβει σημαντικά βήματα για να φιλτράρει ρητό περιεχόμενο από τα δεδομένα εκπαίδευσης του DALL-E 3, με στόχο να μειώσει τις προκαταλήψεις και να βελτιώσει την απόδοση του μοντέλου. Αυτό περιλαμβάνει την εφαρμογή συγκεκριμένων φίλτρων για ευαίσθητες κατηγορίες περιεχομένου και την αναθεώρηση των ορίων για ευρύτερα φίλτρα. Η στοίβα μετριασμού περιλαμβάνει επίσης πολλά επίπεδα διασφαλίσεων, όπως μηχανισμούς άρνησης στο ChatGPT για ευαίσθητα θέματα, ταξινομητές εισόδου προτροπής για την αποτροπή παραβιάσεων πολιτικής, λίστες αποκλεισμού για συγκεκριμένες κατηγορίες περιεχομένου και μετατροπές για να διασφαλιστεί ότι τα μηνύματα ευθυγραμμίζονται με τις οδηγίες.

Παρά τις προόδους του, το DALL-E 3 έχει περιορισμούς στην κατανόηση των χωρικών σχέσεων, στην απόδοση μεγάλου κειμένου με ακρίβεια και στη δημιουργία συγκεκριμένων εικόνων. Το OpenAI αναγνωρίζει αυτές τις προκλήσεις και εργάζεται για βελτιώσεις για μελλοντικές εκδόσεις.

Η εταιρεία εργάζεται επίσης σε τρόπους για να διαφοροποιήσει τις εικόνες που δημιουργούνται από την τεχνητή νοημοσύνη από αυτές που δημιουργούνται από ανθρώπους, αντανακλώντας τη δέσμευσή τους για διαφάνεια και υπεύθυνη χρήση τεχνητής νοημοσύνης.

DALL E 3

Το DALL-E 3, η πιο πρόσφατη έκδοση, θα είναι διαθέσιμο σε φάσεις ξεκινώντας με συγκεκριμένες ομάδες πελατών και αργότερα επεκτείνοντας σε ερευνητικά εργαστήρια και υπηρεσίες API. Ωστόσο, η ημερομηνία δωρεάν δημόσιας κυκλοφορίας δεν έχει επιβεβαιωθεί ακόμη.

Το OpenAI θέτει πραγματικά ένα νέο πρότυπο στον τομέα της τεχνητής νοημοσύνης με το DALL-E 3, γεφυρώνοντας απρόσκοπτα πολύπλοκες τεχνικές δυνατότητες και φιλικές προς το χρήστη διεπαφές. Η ενσωμάτωση του DALL-E 3 σε ευρέως χρησιμοποιούμενες πλατφόρμες όπως το Bing αντανακλά μια στροφή από εξειδικευμένες εφαρμογές σε ευρύτερες, πιο προσιτές μορφές ψυχαγωγίας και χρησιμότητας.

Η πραγματική αλλαγή του παιχνιδιού τα επόμενα χρόνια πιθανότατα θα είναι η ισορροπία μεταξύ της καινοτομίας και της ενδυνάμωσης των χρηστών. Οι εταιρείες που ευδοκιμούν θα είναι αυτές που όχι μόνο θα υπερβούν τα όρια του τι μπορεί να επιτύχει η τεχνητή νοημοσύνη, αλλά θα παρέχουν επίσης στους χρήστες την αυτονομία και τον έλεγχο που επιθυμούν. Το OpenAI, με τη δέσμευσή του για ηθική τεχνητή νοημοσύνη, πλοηγείται προσεκτικά σε αυτό το μονοπάτι. Ο στόχος είναι σαφής: να δημιουργηθούν εργαλεία τεχνητής νοημοσύνης που δεν είναι απλώς ισχυρά, αλλά και αξιόπιστα και περιεκτικά, διασφαλίζοντας ότι τα οφέλη της τεχνητής νοημοσύνης είναι προσβάσιμα σε όλους.

Επόμενο

Αναλογική προτροπή και βήμα προς τα πίσω: Μια κατάδυση στις πρόσφατες εξελίξεις από το Google DeepMind

Μην χάσετε

Άμεση παραβίαση και κακή χρήση των LLM

Aayush Mittal

Έχω περάσει τα τελευταία πέντε χρόνια βυθίζοντας τον εαυτό μου στον συναρπαστικό κόσμο της Μηχανικής Μάθησης και της Βαθιάς Μάθησης. Το πάθος και η εξειδίκευσή μου με οδήγησαν να συνεισφέρω σε περισσότερα από 50 διαφορετικά έργα μηχανικής λογισμικού, με ιδιαίτερη έμφαση στην AI/ML. Η συνεχής περιέργειά μου με έχει τραβήξει επίσης προς την Επεξεργασία Φυσικής Γλώσσας, έναν τομέα που ανυπομονώ να εξερευνήσω περαιτέρω.

Unite.AI

Μια πιο προσεκτική ματιά στο DALL-E 3 του OpenAI

Άμεση Μηχανική

Μια πιο προσεκτική ματιά στο DALL-E 3 του OpenAI

Πίνακας περιεχομένων

The Rise of Diffusion Models

Generative Modeling and Self-Attention Layers: DALL-E 3

Προκλήσεις και λύσεις στη δημιουργία εικόνων

Caption Improvement: A Novel Approach

Εκπαίδευση σε συνθετικά δεδομένα

Αξιολόγηση του DALL-E 3

DALL-E 3 Προτροπές και ικανότητες

Περιορισμοί και κίνδυνος DALL-E 3

Unite.AI

Μια πιο προσεκτική ματιά στο DALL-E 3 του OpenAI

Πίνακας περιεχομένων

The Rise of Diffusion Models

Generative Modeling and Self-Attention Layers: DALL-E 3

Προκλήσεις και λύσεις στη δημιουργία εικόνων

Caption Improvement: A Novel Approach

Εκπαίδευση σε συνθετικά δεδομένα

Αξιολόγηση του DALL-E 3

DALL-E 3 Προτροπές και ικανότητες

Περιορισμοί και κίνδυνος DALL-E 3

Μπορεί να σου αρέσει