στέλεχος Καθοδήγηση επεξεργασίας εικόνας βάσει οδηγιών μέσω πολυτροπικών μοντέλων μεγάλων γλωσσών - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

Καθοδήγηση επεξεργασίας εικόνας βάσει οδηγιών μέσω πολυτροπικών μοντέλων μεγάλων γλωσσών

mm

Δημοσιευμένα

 on

ΚΑΘΟΔΗΓΗΣΗ ΕΠΕΞΕΡΓΑΣΙΑΣ ΕΙΚΟΝΑΣ ΒΑΣΕΙ ΟΔΗΓΙΩΝ ΜΕΣΩ ΠΟΛΥΤΡΟΠΩΝ ΜΕΓΑΛΩΝ ΓΛΩΣΣΙΚΩΝ ΜΟΝΤΕΛΩΝ

Τα εργαλεία οπτικού σχεδιασμού και τα μοντέλα γλώσσας όρασης έχουν εκτεταμένες εφαρμογές στη βιομηχανία πολυμέσων. Παρά τις σημαντικές προόδους τα τελευταία χρόνια, η πλήρης κατανόηση αυτών των εργαλείων εξακολουθεί να είναι απαραίτητη για τη λειτουργία τους. Για να βελτιώσει την προσβασιμότητα και τον έλεγχο, η βιομηχανία πολυμέσων υιοθετεί ολοένα και περισσότερο τεχνικές επεξεργασίας εικόνας καθοδηγούμενες από κείμενο ή βασισμένες σε οδηγίες. Αυτές οι τεχνικές χρησιμοποιούν εντολές φυσικής γλώσσας αντί για παραδοσιακές τοπικές μάσκες ή περίπλοκες περιγραφές, επιτρέποντας πιο ευέλικτο και ελεγχόμενο χειρισμό εικόνας. Ωστόσο, οι μέθοδοι που βασίζονται σε εντολές παρέχουν συχνά σύντομες οδηγίες που μπορεί να είναι δύσκολο για τα υπάρχοντα μοντέλα να συλλάβουν και να εκτελέσουν πλήρως. Επιπλέον, τα μοντέλα διάχυσης, γνωστά για την ικανότητά τους να δημιουργούν ρεαλιστικές εικόνες, έχουν μεγάλη ζήτηση στον τομέα επεξεργασίας εικόνων.

Εξάλλου, Πολυτροπικά μοντέλα μεγάλων γλωσσών (MLLM) έχουν επιδείξει εντυπωσιακή απόδοση σε εργασίες που περιλαμβάνουν παραγωγή απόκρισης με οπτική επίγνωση και διατροπική κατανόηση. Το MLLM Guided Image Editing (MGIE) είναι μια μελέτη εμπνευσμένη από MLLM που αξιολογεί τις δυνατότητές τους και αναλύει τον τρόπο με τον οποίο υποστηρίζουν την επεξεργασία μέσω κειμένου ή καθοδηγούμενων οδηγιών. Αυτή η προσέγγιση περιλαμβάνει την εκμάθηση της παροχής σαφούς καθοδήγησης και την εξαγωγή εκφραστικών οδηγιών. Το μοντέλο επεξεργασίας MGIE κατανοεί οπτικές πληροφορίες και εκτελεί επεξεργασίες μέσω εκπαίδευσης από άκρο σε άκρο. Σε αυτό το άρθρο, θα εμβαθύνουμε στο MGIE, αξιολογώντας τον αντίκτυπό του στην παγκόσμια βελτιστοποίηση εικόνας, τις τροποποιήσεις τύπου Photoshop και την τοπική επεξεργασία. Θα συζητήσουμε επίσης τη σημασία του MGIE σε εργασίες επεξεργασίας εικόνας που βασίζονται σε οδηγίες που βασίζονται σε εκφραστικές οδηγίες. Ας ξεκινήσουμε την εξερεύνηση μας.

MLLM Guided Image Editing ή MGIE: An Introduction

Τα πολυτροπικά μοντέλα μεγάλων γλωσσών και τα μοντέλα διάχυσης είναι δύο από τα πιο ευρέως χρησιμοποιούμενα πλαίσια AI και ML επί του παρόντος λόγω των αξιοσημείωτων δυνατοτήτων παραγωγής τους. Από τη μία πλευρά, έχετε μοντέλα διάχυσης, περισσότερο γνωστά για την παραγωγή εξαιρετικά ρεαλιστικών και οπτικά ελκυστικών εικόνων, ενώ από την άλλη, έχετε Μοντέλα Πολυτροπικών Μεγάλων Γλωσσών, γνωστά για την εξαιρετική τους ικανότητα στη δημιουργία μεγάλης ποικιλίας περιεχομένου, όπως κείμενο, γλώσσα, ομιλία και εικόνες/βίντεο. 

Τα μοντέλα διάχυσης ανταλλάσσουν τους λανθάνοντες διατροπικούς χάρτες για να πραγματοποιήσουν οπτικό χειρισμό που αντικατοπτρίζει την αλλαγή της λεζάντας στόχου εισόδου και μπορούν επίσης να χρησιμοποιήσουν μια καθοδηγούμενη μάσκα για να επεξεργαστούν μια συγκεκριμένη περιοχή της εικόνας. Αλλά ο κύριος λόγος για τον οποίο τα μοντέλα Diffusion χρησιμοποιούνται ευρέως για εφαρμογές πολυμέσων είναι επειδή αντί να βασίζονται σε περίπλοκες περιγραφές ή τοπικές μάσκες, τα μοντέλα Diffusion χρησιμοποιούν προσεγγίσεις επεξεργασίας βασισμένες σε οδηγίες που επιτρέπουν στους χρήστες να εκφράσουν τον τρόπο επεξεργασίας της εικόνας απευθείας χρησιμοποιώντας οδηγίες κειμένου ή εντολές . Συνεχίζοντας, τα μεγάλα γλωσσικά μοντέλα δεν χρειάζονται εισαγωγή, καθώς έχουν επιδείξει σημαντικές προόδους σε μια σειρά διαφορετικών γλωσσικών εργασιών, συμπεριλαμβανομένης της σύνοψης κειμένων, της αυτόματης μετάφρασης, της δημιουργίας κειμένου και της απάντησης στις ερωτήσεις. Οι LLM συνήθως εκπαιδεύονται σε έναν μεγάλο και ποικίλο όγκο δεδομένων εκπαίδευσης που τους εξοπλίζει με οπτική δημιουργικότητα και γνώση, επιτρέποντάς τους να εκτελούν επίσης πολλές εργασίες γλώσσας όρασης. Με βάση τα μοντέλα LLM, MLLM ή Πολυτροπικά μοντέλα μεγάλων γλωσσών μπορούν να χρησιμοποιηθούν εικόνες ως φυσικές εισροές και να παρέχουν κατάλληλες οπτικά συνειδητοποιημένες απαντήσεις. 

Τούτου λεχθέντος, παρόλο που τα μοντέλα διάχυσης και τα πλαίσια MLLM χρησιμοποιούνται ευρέως για εργασίες επεξεργασίας εικόνας, υπάρχουν ορισμένα ζητήματα καθοδήγησης με οδηγίες που βασίζονται σε κείμενο που εμποδίζουν τη συνολική απόδοση, με αποτέλεσμα την ανάπτυξη του MGIE ή του MLLM Guided Image Editing, ενός AI-powered πλαίσιο που αποτελείται από ένα μοντέλο διάχυσης και ένα μοντέλο MLLM όπως φαίνεται στην παρακάτω εικόνα. 

Μέσα στην αρχιτεκτονική MGIE, το μοντέλο διάχυσης εκπαιδεύεται από άκρο σε άκρο για να εκτελεί επεξεργασία εικόνας με λανθάνουσα φαντασία του επιδιωκόμενου στόχου, ενώ το πλαίσιο MLLM μαθαίνει να προβλέπει ακριβείς εκφραστικές οδηγίες. Μαζί, το μοντέλο διάχυσης και το πλαίσιο MLLM εκμεταλλεύονται την εγγενή οπτική παραγωγή που του επιτρέπει να αντιμετωπίζει διφορούμενες ανθρώπινες εντολές με αποτέλεσμα τη ρεαλιστική επεξεργασία των εικόνων, όπως φαίνεται στην παρακάτω εικόνα. 

Το πλαίσιο MGIE αντλεί μεγάλη έμπνευση από δύο υπάρχουσες προσεγγίσεις: Επεξεργασία εικόνας βάσει οδηγιών και Vision Large Language Models

Η επεξεργασία εικόνας που βασίζεται σε οδηγίες μπορεί να βελτιώσει σημαντικά την προσβασιμότητα και τον έλεγχο της οπτικής χειραγώγησης με την τήρηση των ανθρώπινων εντολών. Υπάρχουν δύο κύρια πλαίσια που χρησιμοποιούνται για την επεξεργασία εικόνας με βάση οδηγίες: τα πλαίσια GAN και τα μοντέλα διάχυσης. GAN ή Generative Adversarial Networks έχουν τη δυνατότητα να αλλάζουν εικόνες αλλά είτε περιορίζονται σε συγκεκριμένους τομείς είτε παράγουν μη ρεαλιστικά αποτελέσματα. Από την άλλη πλευρά, τα μοντέλα διάχυσης με εκπαίδευση μεγάλης κλίμακας μπορούν να ελέγχουν τους διατροπικούς χάρτες προσοχής για παγκόσμιους χάρτες για την επίτευξη επεξεργασίας και μετασχηματισμού εικόνας. Η επεξεργασία που βασίζεται σε οδηγίες λειτουργεί λαμβάνοντας ευθείες εντολές ως είσοδο, συχνά δεν περιορίζεται σε τοπικές μάσκες και περίπλοκες περιγραφές. Ωστόσο, υπάρχει πιθανότητα οι παρεχόμενες οδηγίες να είναι είτε διφορούμενες είτε όχι αρκετά ακριβείς ώστε να ακολουθούν τις οδηγίες για εργασίες επεξεργασίας. 

Τα Vision Large Language Models είναι γνωστά για τις ικανότητές τους δημιουργίας και γενίκευσης κειμένου σε διάφορες εργασίες, και συχνά έχουν μια ισχυρή κατανόηση κειμένου και μπορούν περαιτέρω να παράγουν εκτελέσιμα προγράμματα ή ψευδοκώδικα. Αυτή η ικανότητα μοντέλων μεγάλων γλωσσών επιτρέπει στα MLLM να αντιλαμβάνονται εικόνες και να παρέχουν επαρκείς απαντήσεις χρησιμοποιώντας οπτική στοίχιση χαρακτηριστικών με συντονισμό εντολών, με τα πρόσφατα μοντέλα να υιοθετούν MLLM για τη δημιουργία εικόνων που σχετίζονται με τη συνομιλία ή το κείμενο εισόδου. Ωστόσο, αυτό που διαχωρίζει το MGIE από το MLLM ή το VLLM είναι το γεγονός ότι ενώ το τελευταίο μπορεί να παράγει εικόνες διαφορετικές από τις εισόδους από την αρχή, το MGIE αξιοποιεί τις ικανότητες των MLLM για να βελτιώσει τις δυνατότητες επεξεργασίας εικόνας με παράγωγες οδηγίες. 

MGIE: Αρχιτεκτονική και Μεθοδολογία

Παραδοσιακά, μεγάλα γλωσσικά μοντέλα έχουν χρησιμοποιηθεί για γενετικές εργασίες επεξεργασίας φυσικής γλώσσας. Αλλά από τότε που τα MLLM έγιναν mainstream, τα LLM είχαν την ικανότητα να παρέχουν εύλογες αποκρίσεις αντιλαμβανόμενη την είσοδο εικόνων. Συμβατικά, ένα Πολυτροπικό Μεγάλο Γλωσσικό Μοντέλο προετοιμάζεται από ένα προεκπαιδευμένο LLM και περιέχει έναν οπτικό κωδικοποιητή και έναν προσαρμογέα για την εξαγωγή των οπτικών χαρακτηριστικών και την προβολή των οπτικών χαρακτηριστικών στη γλωσσική τροπικότητα αντίστοιχα. Λόγω αυτού, το πλαίσιο MLLM είναι ικανό να αντιλαμβάνεται οπτικές εισόδους, αν και η έξοδος εξακολουθεί να περιορίζεται σε κείμενο. 

Το προτεινόμενο πλαίσιο MGIE στοχεύει να επιλύσει αυτό το ζήτημα και να διευκολύνει ένα MLLM να επεξεργαστεί μια εικόνα εισόδου σε μια εικόνα εξόδου με βάση τη δεδομένη κειμενική οδηγία. Για να επιτευχθεί αυτό, το πλαίσιο MGIE φιλοξενεί ένα MLLM και εκπαιδεύει στην εξαγωγή συνοπτικών και σαφών εκφραστικών οδηγιών κειμένου. Επιπλέον, το πλαίσιο MGIE προσθέτει ειδικά διακριτικά εικόνας στην αρχιτεκτονική του για να γεφυρώσει το χάσμα μεταξύ της όρασης και της γλωσσικής τροπικότητας και υιοθετεί την κεφαλή επεξεργασίας για τον μετασχηματισμό των τροπολογιών. Αυτές οι μέθοδοι χρησιμεύουν ως η λανθάνουσα οπτική φαντασία από το Πολυτροπικό Μοντέλο Μεγάλης Γλώσσας και καθοδηγούν το μοντέλο διάχυσης για την επίτευξη των εργασιών επεξεργασίας. Το πλαίσιο MGIE είναι τότε ικανό να εκτελεί εργασίες οπτικής αντίληψης για λογική επεξεργασία εικόνας. 

Συνοπτική Εκφραστική Οδηγία

Παραδοσιακά, τα πολυτροπικά μοντέλα μεγάλων γλωσσών μπορούν να προσφέρουν απαντήσεις σχετικές με την οπτική με τη διατροπική τους αντίληψη λόγω του συντονισμού των εντολών και της ευθυγράμμισης των χαρακτηριστικών. Για την επεξεργασία εικόνων, το πλαίσιο MGIE χρησιμοποιεί μια προτροπή κειμένου ως κύρια γλώσσα εισόδου με την εικόνα και εξάγει μια λεπτομερή εξήγηση για την εντολή επεξεργασίας. Ωστόσο, αυτές οι επεξηγήσεις μπορεί συχνά να είναι πολύ μακροσκελείς ή να περιλαμβάνουν επαναλαμβανόμενες περιγραφές που καταλήγουν σε παρερμηνευμένες προθέσεις, αναγκάζοντας το MGIE να εφαρμόσει έναν εκ των προτέρων εκπαιδευμένο συνοψιστή για να αποκτήσει συνοπτικές αφηγήσεις, επιτρέποντας στο MLLM να παράγει συνοπτικά αποτελέσματα. Το πλαίσιο αντιμετωπίζει τη συνοπτική αλλά σαφή καθοδήγηση ως εκφραστική οδηγία και εφαρμόζει την απώλεια διασταυρούμενης εντροπίας για την εκπαίδευση του πολυτροπικού μεγάλου γλωσσικού μοντέλου χρησιμοποιώντας επιβολή δασκάλου.

Η χρήση μιας εκφραστικής εντολής παρέχει μια πιο συγκεκριμένη ιδέα σε σύγκριση με την οδηγία κειμένου, καθώς γεφυρώνει το χάσμα για λογική επεξεργασία εικόνας, ενισχύοντας περαιτέρω την αποτελεσματικότητα του πλαισίου. Επιπλέον, το πλαίσιο MGIE κατά την περίοδο συμπερασμάτων αντλεί συνοπτικές εκφραστικές οδηγίες αντί να παράγει μακροσκελείς αφηγήσεις και να βασίζεται σε εξωτερική περίληψη. Λόγω αυτού, το πλαίσιο MGIE είναι σε θέση να συλλάβει την οπτική φαντασία των προθέσεων επεξεργασίας, αλλά εξακολουθεί να περιορίζεται στη γλωσσική μορφή. Για να ξεπεραστεί αυτό το εμπόδιο, το μοντέλο MGIE προσαρτά έναν ορισμένο αριθμό οπτικών διακριτικών μετά την εκφραστική οδηγία με εκπαιδεύσιμες ενσωματώσεις λέξεων που επιτρέπουν στο MLLM να τα δημιουργήσει χρησιμοποιώντας την κεφαλή LM ή Language Model. 

Επεξεργασία εικόνας με λανθάνουσα φαντασία

Στο επόμενο βήμα, το πλαίσιο MGIE υιοθετεί την κεφαλή επεξεργασίας για να μετατρέψει την οδηγία εικόνας σε πραγματική οπτική καθοδήγηση. Η κεφαλή επεξεργασίας είναι ένα μοντέλο ακολουθίας σε ακολουθία που βοηθά στη χαρτογράφηση των διαδοχικών οπτικών σημείων από το MLLM στο νόημα λανθάνον σημασιολογικά ως οδηγός επεξεργασίας του. Για να είμαστε πιο συγκεκριμένοι, ο μετασχηματισμός πάνω από τις ενσωματώσεις λέξεων μπορεί να ερμηνευθεί ως γενική αναπαράσταση στην οπτική τροπικότητα και χρησιμοποιεί ένα στοιχείο οπτικής φαντασίας με επίγνωση της παρουσίας για τις προθέσεις επεξεργασίας. Επιπλέον, για να καθοδηγήσει την επεξεργασία εικόνας με οπτική φαντασία, το πλαίσιο MGIE ενσωματώνει ένα μοντέλο λανθάνουσας διάχυσης στην αρχιτεκτονική του που περιλαμβάνει έναν μεταβλητό αυτόματο κωδικοποιητή και αντιμετωπίζει τη διάχυση αποθορυβοποίησης στον λανθάνοντα χώρο. Ο πρωταρχικός στόχος του μοντέλου λανθάνουσας διάχυσης είναι να δημιουργήσει τον λανθάνοντα στόχο από τη διατήρηση της λανθάνουσας εισόδου και να ακολουθήσει τις οδηγίες επεξεργασίας. Η διαδικασία διάχυσης προσθέτει θόρυβο στον λανθάνοντα στόχο σε τακτά χρονικά διαστήματα και το επίπεδο θορύβου αυξάνεται με κάθε χρονικό βήμα. 

Εκμάθηση του MGIE

Το παρακάτω σχήμα συνοψίζει τον αλγόριθμο της διαδικασίας μάθησης του προτεινόμενου πλαισίου MGIE. 

Όπως μπορεί να παρατηρηθεί, το MLLM μαθαίνει να αντλεί συνοπτικές εκφραστικές οδηγίες χρησιμοποιώντας την απώλεια εντολής. Χρησιμοποιώντας τη λανθάνουσα φαντασία από τις οδηγίες εισαγωγής εικόνας, το πλαίσιο μετασχηματίζει τη λειτουργία της κεφαλής επεξεργασίας και καθοδηγεί το μοντέλο λανθάνουσας διάχυσης για να συνθέσει την εικόνα που προκύπτει και εφαρμόζει την απώλεια επεξεργασίας για εκπαίδευση διάχυσης. Τέλος, το πλαίσιο παγώνει την πλειονότητα των βαρών με αποτέλεσμα την αποτελεσματική ως προς τις παραμέτρους προπόνηση από άκρο σε άκρο. 

MGIE: Αποτελέσματα και Αξιολόγηση

Το πλαίσιο MGIE χρησιμοποιεί το σύνολο δεδομένων IPr2Pr ως κύρια δεδομένα προεκπαίδευσης και περιέχει πάνω από 1 εκατομμύριο δεδομένα φιλτραρισμένα με CLIP με οδηγίες που εξάγονται από το μοντέλο GPT-3 και ένα μοντέλο Prompt-to-Prompt για τη σύνθεση των εικόνων. Επιπλέον, το πλαίσιο MGIE αντιμετωπίζει το πλαίσιο InsPix2Pix που βασίζεται στον κωδικοποιητή κειμένου CLIP με ένα μοντέλο διάχυσης ως βάση του για εργασίες επεξεργασίας εικόνας που βασίζονται σε οδηγίες. Επιπλέον, το μοντέλο MGIE λαμβάνει επίσης υπόψη ένα μοντέλο επεξεργασίας εικόνας καθοδηγούμενο από LLM που υιοθετήθηκε για εκφραστικές οδηγίες από εισόδους μόνο εντολών, αλλά χωρίς οπτική αντίληψη. 

Ποσοτική ανάλυση

Το παρακάτω σχήμα συνοψίζει τα αποτελέσματα επεξεργασίας σε μια ρύθμιση μηδενικής λήψης με τα μοντέλα να εκπαιδεύονται μόνο στο σύνολο δεδομένων IPr2Pr. Για δεδομένα GIER και EVR που περιλαμβάνουν τροποποιήσεις τύπου Photoshop, οι εκφραστικές οδηγίες μπορούν να αποκαλύψουν συγκεκριμένους στόχους αντί για διφορούμενες εντολές που επιτρέπουν στα αποτελέσματα της επεξεργασίας να μοιάζουν καλύτερα με τις προθέσεις επεξεργασίας. 

Αν και τόσο το LGIE όσο και το MGIE εκπαιδεύονται στα ίδια δεδομένα με το μοντέλο InsPix2Pix, μπορούν να προσφέρουν λεπτομερείς επεξηγήσεις μέσω της εκμάθησης με το μεγάλο γλωσσικό μοντέλο, αλλά και πάλι το LGIE περιορίζεται σε έναν μόνο τρόπο. Επιπλέον, το πλαίσιο MGIE μπορεί να προσφέρει σημαντική ώθηση στην απόδοση καθώς έχει πρόσβαση σε εικόνες και μπορεί να χρησιμοποιήσει αυτές τις εικόνες για να αντλήσει σαφείς οδηγίες. 

Για να αξιολογήσουν την απόδοση σε εργασίες επεξεργασίας εικόνας που βασίζονται σε οδηγίες για συγκεκριμένους σκοπούς, οι προγραμματιστές προσαρμόζουν με ακρίβεια πολλά μοντέλα σε κάθε σύνολο δεδομένων, όπως συνοψίζονται στον παρακάτω πίνακα. 

Όπως μπορεί να παρατηρηθεί, μετά την προσαρμογή των εργασιών επεξεργασίας τύπου Photoshop για EVR και GIER, τα μοντέλα επιδεικνύουν ώθηση στην απόδοση. Ωστόσο, αξίζει να σημειωθεί ότι καθώς η λεπτομέρεια καθιστά τις εκφραστικές οδηγίες πιο συγκεκριμένες για τον τομέα, το πλαίσιο MGIE μαρτυρά μια τεράστια ώθηση στην απόδοση, καθώς μαθαίνει επίσης καθοδήγηση σχετικά με τον τομέα, επιτρέποντας στο μοντέλο διάχυσης να επιδεικνύει συγκεκριμένες επεξεργασμένες σκηνές από το τελειοποιημένο μοντέλο μεγάλης γλώσσας που ωφελεί τόσο την τοπική τροποποίηση όσο και την τοπική βελτιστοποίηση. Επιπλέον, δεδομένου ότι η καθοδήγηση με οπτική επίγνωση είναι περισσότερο ευθυγραμμισμένη με τους επιδιωκόμενους στόχους επεξεργασίας, το πλαίσιο MGIE παρέχει ανώτερα αποτελέσματα με συνέπεια σε σύγκριση με το LGIE. 

Το παρακάτω σχήμα δείχνει τη βαθμολογία CLIP-S στις εικόνες εισόδου ή του στόχου αληθείας και τις εκφραστικές οδηγίες. Μια υψηλότερη βαθμολογία CLIP υποδηλώνει τη συνάφεια των οδηγιών με την πηγή επεξεργασίας και, όπως μπορεί να παρατηρηθεί, το MGIE έχει υψηλότερη βαθμολογία CLIP σε σύγκριση με το μοντέλο LGIE τόσο στις εικόνες εισόδου όσο και στις εικόνες εξόδου. 

Ποιοτικά Αποτελέσματα

Η παρακάτω εικόνα συνοψίζει τέλεια την ποιοτική ανάλυση του πλαισίου MGIE. 

Όπως γνωρίζουμε, το πλαίσιο LGIE περιορίζεται σε έναν μόνο τρόπο, λόγω του οποίου έχει μια ενιαία γνώση βασισμένη στη γλώσσα και είναι επιρρεπής στην εξαγωγή λανθασμένων ή άσχετων εξηγήσεων για την επεξεργασία της εικόνας. Ωστόσο, το πλαίσιο MGIE είναι πολυτροπικό και με πρόσβαση σε εικόνες, ολοκληρώνει τις εργασίες επεξεργασίας και παρέχει σαφή οπτική φαντασία που ευθυγραμμίζεται πολύ καλά με τον στόχο. 

Τελικές Σκέψεις

Σε αυτό το άρθρο, μιλήσαμε για το MGIE ή το MLLM Guided Image Editing, μια μελέτη εμπνευσμένη από το MLLM που στοχεύει να αξιολογήσει τα πολυτροπικά μοντέλα μεγάλων γλωσσών και να αναλύσει τον τρόπο με τον οποίο διευκολύνουν την επεξεργασία χρησιμοποιώντας κείμενο ή καθοδηγούμενες οδηγίες ενώ μαθαίνουμε πώς να παρέχουμε ρητή καθοδήγηση αντλώντας εκφραστικές οδηγίες ΤΑΥΤΟΧΡΟΝΑ. Το μοντέλο επεξεργασίας MGIE συλλαμβάνει τις οπτικές πληροφορίες και εκτελεί επεξεργασία ή χειρισμό χρησιμοποιώντας εκπαίδευση από άκρο σε άκρο. Αντί για διφορούμενη και σύντομη καθοδήγηση, το πλαίσιο MGIE παράγει σαφείς οδηγίες οπτικής επίγνωσης που οδηγούν σε λογική επεξεργασία εικόνας. 

«Μηχανικός στο επάγγελμα, συγγραφέας από καρδιάς». Ο Kunal είναι ένας τεχνικός συγγραφέας με βαθιά αγάπη και κατανόηση της τεχνητής νοημοσύνης και της ML, αφοσιωμένος στην απλοποίηση σύνθετων εννοιών σε αυτούς τους τομείς μέσω της συναρπαστικής και ενημερωτικής τεκμηρίωσής του.