στέλεχος Το πολυτροπικό AI εξελίσσεται καθώς το ChatGPT αποκτά όραση με το GPT-4V(ision) - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

Το πολυτροπικό AI εξελίσσεται καθώς το ChatGPT αποκτά όραση με το GPT-4V (ision)

mm
Ενημερώθηκε on
chatgpt όραμα

Στη συνεχιζόμενη προσπάθεια να γίνει η τεχνητή νοημοσύνη περισσότερο σαν τον άνθρωπο, τα μοντέλα GPT του OpenAI ξεπερνούν συνεχώς τα όρια. Το GPT-4 είναι πλέον σε θέση να δέχεται προτροπές τόσο για κείμενο όσο και για εικόνες.

Η πολυτροπικότητα στη γενετική τεχνητή νοημοσύνη υποδηλώνει την ικανότητα ενός μοντέλου να παράγει ποικίλες εξόδους όπως κείμενο, εικόνες ή ήχο με βάση την είσοδο. Αυτά τα μοντέλα, εκπαιδευμένα σε συγκεκριμένα δεδομένα, μαθαίνουν τα υποκείμενα μοτίβα για τη δημιουργία παρόμοιων νέων δεδομένων, εμπλουτίζοντας τις εφαρμογές τεχνητής νοημοσύνης.

Πρόσφατα βήματα στην πολυτροπική τεχνητή νοημοσύνη

Ένα πρόσφατο αξιοσημείωτο άλμα σε αυτόν τον τομέα παρατηρείται με την ενσωμάτωση του DALL-E 3 στο ChatGPT, μια σημαντική αναβάθμιση στην τεχνολογία κειμένου σε εικόνα του OpenAI. Αυτός ο συνδυασμός επιτρέπει μια πιο ομαλή αλληλεπίδραση όπου το ChatGPT βοηθά στη δημιουργία ακριβών προτροπών για το DALL-E 3, μετατρέποντας τις ιδέες των χρηστών σε ζωντανή τέχνη που δημιουργείται από AI. Έτσι, ενώ οι χρήστες μπορούν να αλληλεπιδράσουν άμεσα με το DALL-E 3, το ChatGPT στο μείγμα καθιστά τη διαδικασία δημιουργίας τέχνης AI πολύ πιο φιλική προς το χρήστη.

Δείτε περισσότερα για το DALL-E 3 και την ενσωμάτωσή του με το ChatGPT εδώ. Αυτή η συνεργασία όχι μόνο επιδεικνύει την πρόοδο στην πολυτροπική τεχνητή νοημοσύνη, αλλά κάνει επίσης τη δημιουργία τέχνης τεχνητής νοημοσύνης ένα αεράκι για τους χρήστες.

Η υγεία της Google από την άλλη εισήχθη Med-PaLM M τον Ιούνιο του τρέχοντος έτους. Είναι ένα πολυτροπικό παραγωγικό μοντέλο ικανό να κωδικοποιεί και να ερμηνεύει ποικίλα βιοϊατρικά δεδομένα. Αυτό επιτεύχθηκε με τη βελτίωση του PaLM-E, ενός γλωσσικού μοντέλου, για την κάλυψη ιατρικών τομέων χρησιμοποιώντας ένα σημείο αναφοράς ανοιχτού κώδικα, το MultiMedBench. Αυτό το σημείο αναφοράς αποτελείται από πάνω από 1 εκατομμύριο δείγματα σε 7 τύπους βιοϊατρικών δεδομένων και 14 εργασίες, όπως η απάντηση σε ιατρικές ερωτήσεις και η δημιουργία αναφορών ακτινολογίας.

Διάφορες βιομηχανίες υιοθετούν καινοτόμα πολυτροπικά εργαλεία τεχνητής νοημοσύνης για να τροφοδοτήσουν την επέκταση των επιχειρήσεων, να εξορθολογίσουν τις λειτουργίες και να αυξήσουν τη δέσμευση των πελατών. Η πρόοδος στις δυνατότητες τεχνητής νοημοσύνης φωνής, βίντεο και κειμένου ωθεί την ανάπτυξη της πολυτροπικής τεχνητής νοημοσύνης.

Οι επιχειρήσεις αναζητούν πολυτροπικές εφαρμογές τεχνητής νοημοσύνης ικανές να αναθεωρήσουν επιχειρηματικά μοντέλα και διαδικασίες, ανοίγοντας δρόμους ανάπτυξης σε όλο το οικοσύστημα παραγωγής τεχνητής νοημοσύνης, από εργαλεία δεδομένων έως αναδυόμενες εφαρμογές τεχνητής νοημοσύνης.

Μετά την κυκλοφορία του GPT-4 τον Μάρτιο, ορισμένοι χρήστες παρατήρησαν πτώση στην ποιότητα απόκρισής του με την πάροδο του χρόνου, μια ανησυχία που επαναλαμβάνεται από αξιόλογους προγραμματιστές και στα φόρουμ του OpenAI. Αρχικά απορρίφθηκε από ένα OpenAI, αργότερα μελέτη επιβεβαίωσε το ζήτημα. Αποκάλυψε πτώση στην ακρίβεια του GPT-4 από 97.6% σε 2.4% μεταξύ Μαρτίου και Ιουνίου, υποδηλώνοντας πτώση στην ποιότητα των απαντήσεων με τις επόμενες ενημερώσεις του μοντέλου.

chatgpt-ai

ChatGPT (Μπλε) & Τεχνητή νοημοσύνη (Κόκκινο) Τάση Αναζήτησης Google

Η διαφημιστική εκστρατεία γύρω Ανοίξτε το AI Το ChatGPT επιστρέφει τώρα. Έρχεται τώρα με μια δυνατότητα όρασης GPT-4V, επιτρέποντας στους χρήστες να αναλύουν το GPT-4 τις εικόνες που δίνουν. Αυτή είναι η πιο πρόσφατη λειτουργία που έχει ανοίξει στους χρήστες.

Η προσθήκη ανάλυσης εικόνας σε μεγάλα γλωσσικά μοντέλα (LLM) όπως το GPT-4 θεωρείται από ορισμένους ως ένα μεγάλο βήμα προς τα εμπρός στην έρευνα και ανάπτυξη της τεχνητής νοημοσύνης. Αυτό το είδος πολυτροπικού LLM ανοίγει νέες δυνατότητες, λαμβάνοντας γλωσσικά μοντέλα πέρα ​​από κείμενο για να προσφέρει νέες διεπαφές και να επιλύει νέα είδη εργασιών, δημιουργώντας νέες εμπειρίες για τους χρήστες.

Η εκπαίδευση του GPT-4V ολοκληρώθηκε το 2022, με την πρώιμη πρόσβαση να κυκλοφόρησε τον Μάρτιο του 2023. Η οπτική δυνατότητα στο GPT-4V τροφοδοτείται από την τεχνολογία GPT-4. Η προπονητική διαδικασία παρέμεινε η ίδια. Αρχικά, το μοντέλο εκπαιδεύτηκε να προβλέπει την επόμενη λέξη σε ένα κείμενο χρησιμοποιώντας ένα τεράστιο σύνολο δεδομένων τόσο κειμένου όσο και εικόνων από διάφορες πηγές, συμπεριλαμβανομένου του Διαδικτύου.

Αργότερα, βελτιώθηκε με περισσότερα δεδομένα, χρησιμοποιώντας μια μέθοδο που ονομάζεται ενισχυτική μάθηση από την ανθρώπινη ανάδραση (RLHF), για τη δημιουργία αποτελεσμάτων που προτιμούσαν οι άνθρωποι.

GPT-4 Vision Mechanics

Οι αξιοσημείωτες δυνατότητες γλώσσας όρασης του GPT-4, αν και εντυπωσιακές, έχουν υποκείμενες μεθόδους που παραμένουν στην επιφάνεια.

Για τη διερεύνηση αυτής της υπόθεσης, ένα νέο μοντέλο όρασης-γλώσσας, miniGPT-4 εισήχθη, χρησιμοποιώντας ένα προηγμένο LLM που ονομάζεται Vicuna. Αυτό το μοντέλο χρησιμοποιεί έναν κωδικοποιητή όρασης με προεκπαιδευμένα στοιχεία για οπτική αντίληψη, ευθυγραμμίζοντας τα κωδικοποιημένα οπτικά χαρακτηριστικά με το μοντέλο της γλώσσας Vicuna μέσω ενός ενιαίου επιπέδου προβολής. Η αρχιτεκτονική του MiniGPT-4 είναι απλή αλλά αποτελεσματική, με έμφαση στην ευθυγράμμιση οπτικών και γλωσσικών χαρακτηριστικών για τη βελτίωση των δυνατοτήτων οπτικής συνομιλίας.

miniGPT-4

Η αρχιτεκτονική του MiniGPT-4 περιλαμβάνει έναν κωδικοποιητή όρασης με προεκπαιδευμένα ViT και Q-Former, ένα ενιαίο επίπεδο γραμμικής προβολής και ένα προηγμένο μοντέλο μεγάλης γλώσσας Vicuna.

Η τάση των αυτοπαλινδρομικών γλωσσικών μοντέλων σε εργασίες γλώσσας όρασης έχει επίσης αυξηθεί, αξιοποιώντας τη διατροπική μεταφορά για την ανταλλαγή γνώσεων μεταξύ γλωσσικών και πολυτροπικών τομέων.

Το MiniGPT-4 γεφυρώνει τον οπτικό και τον γλωσσικό τομέα ευθυγραμμίζοντας οπτικές πληροφορίες από έναν προεκπαιδευμένο κωδικοποιητή όρασης με ένα προηγμένο LLM. Το μοντέλο χρησιμοποιεί το Vicuna ως αποκωδικοποιητή γλώσσας και ακολουθεί μια προσέγγιση εκπαίδευσης δύο σταδίων. Αρχικά, εκπαιδεύεται σε ένα μεγάλο σύνολο δεδομένων ζευγών εικόνας-κειμένου για να κατανοήσει τις γνώσεις όρασης-γλώσσας, ακολουθούμενο από τελειοποίηση σε ένα μικρότερο, υψηλής ποιότητας σύνολο δεδομένων για τη βελτίωση της αξιοπιστίας και της χρηστικότητας της παραγωγής.

Για να βελτιώσουν τη φυσικότητα και τη χρηστικότητα της παραγόμενης γλώσσας στο MiniGPT-4, οι ερευνητές ανέπτυξαν μια διαδικασία ευθυγράμμισης δύο σταδίων, αντιμετωπίζοντας την έλλειψη επαρκών συνόλων δεδομένων ευθυγράμμισης όρασης-γλώσσας. Επιμελήθηκαν ένα εξειδικευμένο σύνολο δεδομένων για αυτόν τον σκοπό.

Αρχικά, το μοντέλο παρήγαγε λεπτομερείς περιγραφές των εικόνων εισόδου, βελτιώνοντας τη λεπτομέρεια χρησιμοποιώντας μια προτροπή συνομιλίας ευθυγραμμισμένη με τη μορφή του μοντέλου γλώσσας Vicuna. Αυτό το στάδιο στόχευε στη δημιουργία πιο ολοκληρωμένων περιγραφών εικόνων.

Ερώτηση αρχικής περιγραφής εικόνας:

###Ο άνθρωπος: Περιγράψτε αυτή την εικόνα λεπτομερώς. Δώστε όσο το δυνατόν περισσότερες λεπτομέρειες. Πες όλα όσα βλέπεις. ###Βοηθός:

Για τη μετεπεξεργασία δεδομένων, τυχόν ασυνέπειες ή σφάλματα στις περιγραφές που δημιουργήθηκαν διορθώθηκαν χρησιμοποιώντας το ChatGPT, ακολουθούμενο από μη αυτόματη επαλήθευση για τη διασφάλιση υψηλής ποιότητας.

Προτροπή λεπτομέρειας δεύτερου σταδίου:

###Ο άνθρωπος: ###Βοηθός:

Αυτή η εξερεύνηση ανοίγει ένα παράθυρο στην κατανόηση της μηχανικής της πολυτροπικής γενετικής τεχνητής νοημοσύνης όπως το GPT-4, ρίχνοντας φως στον τρόπο με τον οποίο οι τρόποι όρασης και γλώσσας μπορούν να ενσωματωθούν αποτελεσματικά για να δημιουργήσουν συνεκτικά και πλούσια σε συμφραζόμενα αποτελέσματα.

Εξερευνώντας το GPT-4 Vision

Προσδιορισμός προέλευσης εικόνας με το ChatGPT

Το GPT-4 Vision ενισχύει την ικανότητα του ChatGPT να αναλύει εικόνες και να εντοπίζει με ακρίβεια τη γεωγραφική τους προέλευση. Αυτή η δυνατότητα μετατρέπει τις αλληλεπιδράσεις των χρηστών από απλώς κείμενο σε συνδυασμό κειμένου και γραφικών, καθιστώντας ένα εύχρηστο εργαλείο για όσους ενδιαφέρονται για διαφορετικά μέρη μέσω δεδομένων εικόνας.

Chatgpt-vision-GPT-4

Ζητώντας από το ChatGPT πού τραβήχτηκε μια εικόνα ορόσημο

Σύνθετες μαθηματικές έννοιες

Το GPT-4 Vision διαπρέπει στην εμβάθυνση σε πολύπλοκες μαθηματικές ιδέες αναλύοντας γραφικές ή χειρόγραφες εκφράσεις. Αυτή η δυνατότητα λειτουργεί ως χρήσιμο εργαλείο για άτομα που επιθυμούν να λύσουν περίπλοκα μαθηματικά προβλήματα, χαρακτηρίζοντας το GPT-4 Vision ένα αξιοσημείωτο βοήθημα στους εκπαιδευτικούς και ακαδημαϊκούς τομείς.

Chatgpt-vision-GPT-4

Ζητείται από το ChatGPT να κατανοήσει μια περίπλοκη μαθηματική έννοια

Μετατροπή χειρόγραφης εισαγωγής σε κωδικούς LaTeX

Μία από τις αξιοσημείωτες ικανότητες του GPT-4V είναι η ικανότητά του να μεταφράζει χειρόγραφες εισόδους σε κώδικες LaTeX. Αυτή η δυνατότητα είναι ένα όφελος για ερευνητές, ακαδημαϊκούς και φοιτητές που συχνά χρειάζεται να μετατρέψουν χειρόγραφες μαθηματικές εκφράσεις ή άλλες τεχνικές πληροφορίες σε ψηφιακή μορφή. Ο μετασχηματισμός από χειρόγραφο σε LaTeX διευρύνει τον ορίζοντα της ψηφιοποίησης εγγράφων και απλοποιεί την τεχνική διαδικασία γραφής.

Η ικανότητα του GPT-4V να μετατρέπει χειρόγραφη είσοδο σε κωδικούς LaTeX

Η ικανότητα του GPT-4V να μετατρέπει χειρόγραφη είσοδο σε κωδικούς LaTeX

Εξαγωγή λεπτομερειών πίνακα

Το GPT-4V επιδεικνύει την ικανότητα εξαγωγής λεπτομερειών από πίνακες και την αντιμετώπιση σχετικών ερωτημάτων, ένα ζωτικό πλεονέκτημα στην ανάλυση δεδομένων. Οι χρήστες μπορούν να χρησιμοποιήσουν το GPT-4V για να περιηγηθούν σε πίνακες, να συλλέξουν βασικές πληροφορίες και να επιλύσουν ερωτήσεις που βασίζονται σε δεδομένα, καθιστώντας το ένα ισχυρό εργαλείο για αναλυτές δεδομένων και άλλους επαγγελματίες.

Το GPT-4V αποκρυπτογραφεί τις λεπτομέρειες του πίνακα και απαντά σε σχετικά ερωτήματα

Το GPT-4V αποκρυπτογραφεί τις λεπτομέρειες του πίνακα και απαντά σε σχετικά ερωτήματα

Κατανοώντας την οπτική κατάδειξη

Η μοναδική ικανότητα του GPT-4V να κατανοεί την οπτική κατάδειξη προσθέτει μια νέα διάσταση στην αλληλεπίδραση των χρηστών. Κατανοώντας οπτικές ενδείξεις, το GPT-4V μπορεί να απαντήσει σε ερωτήματα με μεγαλύτερη κατανόηση των συμφραζομένων.

GPT-4V-επιδεικνύει-η-μοναδική-ικανότητα-κατανόησης-οπτικής-σημείωσης

Το GPT-4V επιδεικνύει τη διακριτή ικανότητα κατανόησης της οπτικής κατάδειξης

Δημιουργία απλών ιστοσελίδων μακέτας χρησιμοποιώντας ένα σχέδιο

Με κίνητρο αυτό τιτίβισμα, προσπάθησα να δημιουργήσω μια μακέτα για τον ιστότοπο unite.ai.

Αν και το αποτέλεσμα δεν ταίριαζε αρκετά με το αρχικό μου όραμα, ιδού το αποτέλεσμα που πέτυχα.

Έξοδος HTML Frontend που βασίζεται στο ChatGPT Vision

Έξοδος HTML Frontend που βασίζεται στο ChatGPT Vision

Περιορισμοί και ελαττώματα του GPT-4V (ision)

Για την ανάλυση του GPT-4V, η ομάδα Open AI πραγματοποίησε ποιοτικές και ποσοτικές αξιολογήσεις. Οι ποιοτικές περιελάμβαναν εσωτερικές δοκιμές και εξωτερικές αναθεωρήσεις εμπειρογνωμόνων, ενώ οι ποσοτικές μέτρησαν τις αρνήσεις μοντέλων και την ακρίβεια σε διάφορα σενάρια όπως ο εντοπισμός επιβλαβούς περιεχομένου, η δημογραφική αναγνώριση, οι ανησυχίες για το απόρρητο, η γεωγραφική τοποθεσία, η ασφάλεια στον κυβερνοχώρο και τα πολυτροπικά jailbreaks.

Ωστόσο, το μοντέλο δεν είναι τέλειο.

Η χαρτί επισημαίνει τους περιορισμούς του GPT-4V, όπως λανθασμένα συμπεράσματα και λείπει κείμενο ή χαρακτήρες στις εικόνες. Μπορεί να έχει παραισθήσεις ή να επινοεί γεγονότα. Ιδιαίτερα, δεν είναι κατάλληλο για τον εντοπισμό επικίνδυνων ουσιών σε εικόνες, συχνά λανθασμένη ταυτοποίησή τους.

Στην ιατρική απεικόνιση, το GPT-4V μπορεί να παρέχει ασυνεπείς απαντήσεις και δεν έχει επίγνωση των τυπικών πρακτικών, οδηγώντας σε πιθανές εσφαλμένες διαγνώσεις.

Αναξιόπιστη απόδοση για ιατρικούς σκοπούς.

Αναξιόπιστη απόδοση για ιατρικούς σκοπούς (Πηγή)

Επίσης, αποτυγχάνει να κατανοήσει τις αποχρώσεις ορισμένων συμβόλων μίσους και μπορεί να δημιουργήσει ακατάλληλο περιεχόμενο με βάση τις οπτικές εισροές. Το OpenAI συμβουλεύει να μην χρησιμοποιείτε το GPT-4V για κρίσιμες ερμηνείες, ειδικά σε ιατρικά ή ευαίσθητα πλαίσια.

Ολοκληρώνοντας

Δημιουργήθηκε χρησιμοποιώντας το Fast Stable Diffusion XL

Δημιουργήθηκε χρησιμοποιώντας το Fast Stable Diffusion XL https://huggingface.co/spaces/google/sdxl

Η άφιξη του GPT-4 Vision (GPT-4V) φέρνει μαζί ένα σωρό δυνατές δυνατότητες και νέα εμπόδια για να πηδήξετε. Πριν από την κυκλοφορία του, έχει καταβληθεί μεγάλη προσπάθεια για να διασφαλιστεί ότι οι κίνδυνοι, ειδικά όταν πρόκειται για φωτογραφίες ανθρώπων, εξετάζονται καλά και μειώνονται. Είναι εντυπωσιακό να βλέπεις πώς το GPT-4V έχει ενισχυθεί, δείχνοντας πολλές υποσχέσεις σε δύσκολους τομείς όπως η ιατρική και η επιστήμη.

Τώρα, υπάρχουν μερικά μεγάλα ερωτήματα στο τραπέζι. Για παράδειγμα, θα πρέπει αυτά τα μοντέλα να μπορούν να αναγνωρίσουν διάσημους ανθρώπους από φωτογραφίες; Πρέπει να μαντέψουν το φύλο, τη φυλή ή τα συναισθήματα ενός ατόμου από μια φωτογραφία; Και, θα πρέπει να υπάρχουν ειδικές τροποποιήσεις για να βοηθήσουν τα άτομα με προβλήματα όρασης; Αυτές οι ερωτήσεις ανοίγουν πολλά σκουλήκια σχετικά με το απόρρητο, τη δικαιοσύνη και τον τρόπο με τον οποίο η τεχνητή νοημοσύνη πρέπει να ταιριάζει στη ζωή μας, κάτι στο οποίο όλοι πρέπει να έχουν λόγο.

Έχω περάσει τα τελευταία πέντε χρόνια βυθίζοντας τον εαυτό μου στον συναρπαστικό κόσμο της Μηχανικής Μάθησης και της Βαθιάς Μάθησης. Το πάθος και η εξειδίκευσή μου με οδήγησαν να συνεισφέρω σε περισσότερα από 50 διαφορετικά έργα μηχανικής λογισμικού, με ιδιαίτερη έμφαση στην AI/ML. Η συνεχής περιέργειά μου με έχει τραβήξει επίσης προς την Επεξεργασία Φυσικής Γλώσσας, έναν τομέα που ανυπομονώ να εξερευνήσω περαιτέρω.