Τεχνητή νοημοσύνη
Mini-Gemini: Εξόρυξη του Δυναμικού των Πολυ-Μορφικών Μοντέλων Όρασης Γλώσσας
Οι προόδους στα μεγάλα μοντέλα γλώσσας έχουν επιταχύνει σημαντικά την ανάπτυξη της επεξεργασίας φυσικής γλώσσας, ή NLP. Η εισαγωγή του πλαισίου μετασχηματιστή αποδείχθηκε ότι ήταν ένα ορόσημο, διευκολύνοντας την ανάπτυξη μιας νέας σειράς μοντέλων γλώσσας, συμπεριλαμβανομένων των OPT και BERT, τα οποία παρουσιάζουν βαθιά γλωσσική κατανόηση. Επιπλέον, η δημιουργία του GPT, ή των Μοντέλων Γενικής Προ-Εκπαίδευσης Μετασχηματιστή, εισήγαγε einen νέο парадίγμα με αυτο-αναγωγική μοντελοποίηση και καθιέρωσε μια σταθερή μέθοδο για προβλέψη και γεννήτρια γλώσσας. Η έλευση μοντέλων γλώσσας όπως το GPT-4, το ChatGPT, το Mixtral, το LLaMA και άλλα έχει επιταχύνει περαιτέρω την εξέλιξη, με κάθε μοντέλο να παρουσιάζει βελτιωμένη απόδοση σε εργασίες που涉ňují σύνθετη επεξεργασία γλώσσας. Μεταξύ των υφιστάμενων μεθόδων, η σintonización των οδηγιών έχει αναδυθεί ως μια κλειδί τεχνική για την εξευγενισμένη απόδοση των προ-εκπαιδευμένων μεγάλων μοντέλων γλώσσας, και η ενσωμάτωση αυτών των μοντέλων με συγκεκριμένα εργαλεία για οπτικές εργασίες έχει υπογραμμίσει την προσαρμοστικότητά τους και έχει ανοίξει πόρτες για μελλοντικές εφαρμογές. Αυτές τις εφαρμογές εκτείνονται πέρα από την παραδοσιακή επεξεργασία κειμένου των LLMs για να συμπεριλάβουν πολυ-μορφικές αλληλεπιδράσεις.
Περαιτέρω, η σύγκλιση της φυσικής γλώσσας και των μοντέλων οπτικής ανίχνευσης έχει δώσει ζωή στα VLMs, ή τα Μοντέλα Όρασης Γλώσσας, τα οποία συνδυάζουν γλωσσικά και οπτικά μοντέλα για να επιτύχουν δια-μορφική κατανόηση και ικανότητες συλλογισμού. Η ενσωμάτωση και η έλευση οπτικών και γλωσσικών μοντέλων έχουν παίξει einen κρίσιμο ρόλο στην προώθηση εργασιών που απαιτούν και γλωσσική επεξεργασία και οπτική κατανόηση. Η έλευση επαναστατικών μοντέλων όπως το CLIP έχει περαιτέρω γεφυρώσει το χάσμα μεταξύ οπτικών εργασιών και μοντέλων γλώσσας, αποδεικνύοντας την εφικτότητα και την πρακτικότητα των δια-μορφικών εφαρμογών. Πιο πρόσφατα πλαισια όπως το LLaMA και το BLIP χρησιμοποιούν προσαρμοσμένα δεδομένα οδηγιών για να αναπτύξουν αποτελεσματικές στρατηγικές που αποδεικνύουν τις δυνατές ικανότητες του μοντέλου. Επιπλέον, η συνδυασμός μεγάλων μοντέλων γλώσσας με εικόνες εξόδου είναι ο στόχος πρόσφατων πολυ-μορφικών ερευνών, με πρόσφατες μεθόδους που μπορούν να παρακάμψουν την άμεση γεννήτρια χρησιμοποιώντας την προσέγγιση ανάκτησης εικόνων για να παράγουν εικόνες εξόδου και εναλλασσόμενα κείμενα.

Με αυτά τα δεδομένα, και παρά την ταχεία πρόοδο στα μοντέλα όρασης γλώσσας που διευκολύνουν την βασική συλλογιστική και οπτική διάλογο, vẫn υπάρχει ένα σημαντικό χάσμα απόδοσης μεταξύ προηγμένων μοντέλων όπως το GPT-4 και μοντέλων όρασης γλώσσας. Το Mini-Gemini είναι μια προσπάθεια να στενεύσει το χάσμα που υπάρχει μεταξύ μοντέλων όρασης γλώσσας και πιο προηγμένων μοντέλων εξορύσσοντας το δυναμικό των VLMs για καλύτερη απόδοση από τρεις πλευρές: VLM-οδηγούμενη γεννήτρια, υψηλής ποιότητας δεδομένα και υψηλής ανάλυσης οπτικά σύμβολα. Για να βελτιώσει τα οπτικά σύμβολα, το πλαισιο Mini-Gemini προτείνει να χρησιμοποιήσει einen επιπλέον οπτικό κωδικοποιητή για υψηλής ανάλυσης βελτίωση χωρίς αύξηση του αριθμού των οπτικών συμβόλων. Το πλαισιο Mini-Gemini κατασκευάζει επίσης einen υψηλής ποιότητας συνόλου δεδομένων σε μια προσπάθεια να προωθήσει την ακριβή κατανόηση των εικόνων και τη γεννήτρια συλλογισμού. Συνολικά, το πλαισιο Mini-Gemini προσπαθεί να εξορύξει το δυναμικό των μοντέλων όρασης γλώσσας και στοχεύει να ενδυναμώσει τα υφιστάμενα πλαισια με ικανότητες οπτικής συλλογισμού, κατανόησης και γεννήτριας ταυτόχρονα. Αυτό το άρθρο στοχεύει να καλύψει το πλαισιο Mini-Gemini σε βάθος, και εξετάζουμε το μηχανισμό, τη μεθοδολογία, την αρχιτεκτονική του πλαισίου μαζί με την σύγκρισή του με τα πλαισια της κατάστασης του έργου. Έτσι, ας ξεκινήσουμε.
Mini-Gemini: Επιταχύνοντας τα Πολυ-Μορφικά VLMs
Κατά τη διάρκεια των ετών, τα μεγάλα μοντέλα γλώσσας έχουν εξελιχθεί, και τώρα διαθέτουν αξιοσημείωτες πολυ-μορφικές ικανότητες, και γίνονται ένα απαραίτητο μέρος των τρεχόντων μοντέλων όρασης γλώσσας. Ωστόσο, υπάρχει ένα χάσμα μεταξύ της πολυ-μορφικής απόδοσης των μεγάλων μοντέλων γλώσσας και των μοντέλων όρασης γλώσσας με πρόσφατες έρευνες που αναζητούν τρόπους να συνδυάσουν την όραση με μεγάλα μοντέλα γλώσσας χρησιμοποιώντας εικόνες και βίντεο. Για τις οπτικές εργασίες, η ανάλυση της εικόνας είναι ένα κρίσιμο στοιχείο για να περιγράψει το περιβάλλον με ελάχιστες οπτικές ψευδαισθήσεις. Για να γεφυρώσει το χάσμα, οι ερευνητές αναπτύσσουν μοντέλα για να βελτιώσουν την οπτική κατανόηση στα τρέχοντα μοντέλα όρασης γλώσσας, και δύο από τις πιο κοινές προσεγγίσεις είναι: η αύξηση της ανάλυσης, και η αύξηση του αριθμού των οπτικών συμβόλων. Αν και η αύξηση του αριθμού των οπτικών συμβόλων με υψηλής ανάλυσης εικόνες βελτιώνει την οπτική κατανόηση, η βελτίωση συχνά συνοδεύεται με αυξημένες απαιτήσεις υπολογισμού και σχετιζόμενα έξοδα, ιδιαίτερα όταν επεξεργάζονται πολλές εικόνες. Επιπλέον, οι ικανότητες των υφιστάμενων μοντέλων, η ποιότητα των υφιστάμενων δεδομένων, και η εφαρμοσιμότητα παραμένει ανεπαρκής για einen επιταχυνόμενο процесс ανάπτυξης, αφήνοντας τους ερευνητές με την ερώτηση, “πως να επιταχύνουμε την ανάπτυξη των μοντέλων όρασης γλώσσας με αποδεκτά έξοδα”;
Το πλαισιο Mini-Gemini είναι μια προσπάθεια να απαντήσει στην ερώτηση, καθώς προσπαθεί να εξορύξει το δυναμικό των μοντέλων όρασης γλώσσας από τρεις πλευρές: VLM-οδηγούμενη γεννήτρια ή επεκταμένες εφαρμογές, υψηλής ποιότητας δεδομένα, και υψηλής ανάλυσης οπτικά σύμβολα. Πρώτα, το πλαισιο Mini-Gemini εφαρμόζει μια αρχιτεκτονική ConvNet για να παράγει υψηλής ανάλυσης υποψήφιους αποτελεσματικά, βελτιώνοντας τα οπτικά λεπτομέρειες ενώ διατηρεί τον αριθμό των οπτικών συμβόλων για το μεγάλο μοντέλο γλώσσας. Το πλαισιο Mini-Gemini συνδυάζει δημόσια διαθέσιμα υψηλής ποιότητας συνόλου δεδομένων σε μια προσπάθεια να βελτιώσει την ποιότητα των δεδομένων, και ενσωματώνει αυτές τις βελτιώσεις με τα πλαισια της κατάστασης του έργου και τα μεγάλα μοντέλα γλώσσας με μια προσπάθεια να βελτιώσει την απόδοση των VLMs, και να βελτιώσει την εμπειρία του χρήστη. Η πολυ-μορφική στρατηγική που εφαρμόζεται από το πλαισιο Mini-Gemini ermögνίζει να εξορύξει τις κρυφές ικανότητες των μοντέλων όρασης γλώσσας, και επιτύχει σημαντικές προόδους με φανερές περιορισμένες πόρους.

Γενικά, το πλαισιο Mini-Gemini απλώνει einen any to any парадίγμα, καθώς είναι ικανό να χειρίζεται και κείμενο και εικόνες ως εισαγωγή και έξοδο. Συγκεκριμένα, το πλαισιο Mini-Gemini εισάγει einen αποτελεσματικό pipeline για την βελτίωση των οπτικών συμβόλων για τις εικόνες εισαγωγής, και διαθέτει einen διπλό-κωδικοποιητή σύστημα που αποτελείται από δύο κωδικοποιητές: ο πρώτος κωδικοποιητής είναι για υψηλής ανάλυσης εικόνες, ενώ ο δεύτερος κωδικοποιητής είναι για χαμηλής ποιότητας οπτική ενσωμάτωση. Κατά τη διάρκεια της εύρεσης, οι κωδικοποιητές λειτουργούν σε einen μηχανισμό προσοχής, όπου ο κωδικοποιητής χαμηλής ανάλυσης παράγει οπτικές ερωτήσεις, ενώ ο κωδικοποιητής υψηλής ανάλυσης παρέχει κλειδιά και τιμές για αναφορά. Για να αυξήσει την ποιότητα των δεδομένων, το πλαισιο Mini-Gemini συλλέγει και παράγει περισσότερα δεδομένα με βάση δημόσιους πόρους, συμπεριλαμβανομένων των οδηγιών, των δεδομένων συναρμολόγησης, και των υψηλής ανάλυσης απαντήσεων, με την αύξηση του αριθμού και της ποιότητας που βελτιώνει την συνολική απόδοση και τις ικανότητες του μοντέλου. Επιπλέον, το πλαισιο Mini-Gemini υποστηρίζει ταυτόχρονη γεννήτρια κειμένου και εικόνας ως αποτέλεσμα της ενσωμάτωσης του μοντέλου όρασης γλώσσας με προηγμένα γεννήτρια μοντέλα.
Mini-Gemini : Μεθοδολογία και Αρχιτεκτονική
Στην καρδιά του, το πλαισιο Mini-Gemini είναι концепτουαλικά απλό, και αποτελείται από τρεις συνιστώσες.
- Το πλαισιο Mini-Gemini χρησιμοποιεί διπλούς οπτικούς κωδικοποιητές για να παρέχει χαμηλής ανάλυσης οπτικές ενσωματώσεις και υψηλής ανάλυσης υποψήφιους.
- Το πλαισιο Mini-Gemini προτείνει να εφαρμόσει την εξόρυξη πληροφοριών σε επίπεδο patch για να διεξάγει εξόρυξη σε επίπεδο patch μεταξύ των χαμηλής ανάλυσης οπτικών ερωτήσεων και των υψηλής ανάλυσης περιοχών.
- Το πλαισιο Mini-Gemini χρησιμοποιεί ένα μεγάλο μοντέλο γλώσσας για να συνδυάσει κείμενο με εικόνες για cả γεννήτρια και κατανόηση ταυτόχρονα.
Διπλοί Οπτικοί Κωδικοποιητές
Το πλαισιο Mini-Gemini μπορεί να επεξεργαστεί και κείμενο και εικόνες εισαγωγής, με την επιλογή να τις χειρίζεται είτε ξεχωριστά είτε σε συνδυασμό. Όπως φαίνεται στην ακόλουθη εικόνα, το πλαισιο Mini-Gemini αρχίζει τη διαδικασία εφαρμόζοντας την διγραμμική интерπόλαση για να παράγει μια χαμηλής ανάλυσης εικόνα από την αντίστοιχη υψηλής ανάλυσης εικόνα.

Το πλαισιο Mini-Gemini επεξεργάζεται αυτές τις εικόνες και τις κωδικοποιεί σε μια πολλαπλή οπτική ενσωμάτωση σε δύο παράλληλες ροές εικόνας. Περισσότερο συγκεκριμένα, το πλαισιο Mini-Gemini διατηρεί την παραδοσιακή διαδικασία για τις ροές χαμηλής ανάλυσης και εφαρμόζει einen CLIP-προεκπαιδευμένο Οπτικό Μετασχηματιστή για να κωδικοποιήσει τις οπτικές ενσωματώσεις, διευκολύνοντας το μοντέλο να διατηρήσει τη μακρά-εμβέλεια σχέση μεταξύ οπτικών patch για τις επόμενες αλληλεπιδράσεις στα μεγάλα μοντέλα γλώσσας. Για τις ροές υψηλής ανάλυσης, το πλαισιο Mini-Gemini采用 einen CNN-ή Convolutional Neural Networks-βασισμένο κωδικοποιητή για προσαρμοστική και αποτελεσματική υψηλής ανάλυσης επεξεργασία εικόνας.
Εξόρυξη Πληροφοριών σε Επίπεδο Patch
Με τους διπλούς οπτικούς κωδικοποιητές που παράγουν τις ενσωματώσεις χαμηλής ανάλυσης και τα χαρακτηριστικά υψηλής ανάλυσης, το πλαισιο Mini-Gemini προτείνει να εφαρμόσει την εξόρυξη πληροφοριών σε επίπεδο patch για να επεκτείνει το δυναμικό των μοντέλων όρασης γλώσσας με βελτιωμένα οπτικά σύμβολα. Για να διατηρήσει τον αριθμό των οπτικών συμβόλων για αποτελεσματικότητα στα μεγάλα μοντέλα γλώσσας, το πλαισιο Mini-Gemini λαμβάνει τις ενσωματώσεις χαμηλής ανάλυσης ως ερωτήσεις, και στοχεύει να ανακτήσει σχετικές οπτικές ενδείξεις από τα υποψήφια υψηλής ανάλυσης, με το πλαισιο να λαμβάνει το χάρτη χαρακτηριστικών υψηλής ανάλυσης ως κλειδί και τιμές.

Όπως φαίνεται στην παραπάνω εικόνα, η формуλή ενσωματώνει τη διαδικασία της βελτίωσης και της σύνθεσης των οπτικών ενδείξεων, η οποία οδηγεί στη γεννήτρια προηγμένων οπτικών συμβόλων για την επόμενη επεξεργασία του μεγάλου μοντέλου γλώσσας. Η διαδικασία εξασφαλίζει ότι το πλαισιο Mini-Gemini είναι ικανό να περιορίσει την εξόρυξη για κάθε ερώτηση στην αντίστοιχη υπο-περιοχή του χάρτη χαρακτηριστικών υψηλής ανάλυσης με τον πιθανο-παραμετρικό υπολογισμό, οδηγώντας σε βελτιωμένη αποτελεσματικότητα. Λόγω αυτού του σχεδιασμού, το πλαισιο Mini-Gemini είναι ικανό να εξορύξει τις λεπτομέρειες των χαρακτηριστικών υψηλής ανάλυσης χωρίς αύξηση του αριθμού των οπτικών συμβόλων, και διατηρεί einen ισορροπία μεταξύ υπολογιστικής ευκολίας και πλούτου λεπτομερειών.
Γεννήτρια Κειμένου και Εικόνας
Το πλαισιο Mini-Gemini συνδυάζει τα οπτικά σύμβολα και τα σύμβολα κειμένου εισαγωγής ως εισαγωγή στα μεγάλα μοντέλα γλώσσας για αυτο-αναγωγική γεννήτρια. Αντιθέτως με τα παραδοσιακά μοντέλα όρασης γλώσσας, το πλαισιο Mini-Gemini υποστηρίζει κείμενο-μόνο καθώς και κείμενο-εικόνα γεννήτρια ως εισαγωγή και έξοδο, δηλαδή any to any εύρεση, και είναι το αποτέλεσμα αυτής της εξαιρετικής οπτικής-κειμένου κατανόησης και συλλογισμού ικανότητας, το πλαισιο Mini-Gemini είναι ικανό να παράγει υψηλής ποιότητας εικόνες. Αντιθέτως με πρόσφατες εργασίες που εστιάζουν στο χάσμα τομέα μεταξύ των ενσωματώσεων κειμένου των μοντέλων γεννήτριας και των μεγάλων μοντέλων γλώσσας, το πλαισιο Mini-Gemini προσπαθεί να βελτιώσει το χάσμα στο τομέα των γλωσσικών οδηγιών μεταφράζοντας τις οδηγίες του χρήστη σε υψηλής ποιότητας οδηγίες που παράγουν контекст-σχετικές εικόνες στα μοντέλα διάχυσης. Επιπλέον, για μια καλύτερη κατανόηση της οδηγίας-συντονισμού, και της δια-μορφικής ευθυγράμμισης, το πλαισιο Mini-Gemini συλλέγει δείγματα από δημόσια διαθέσιμα υψηλής ποιότητας συνόλου δεδομένων, και χρησιμοποιεί το πλαισιο GPT-4 turbo για να κατασκευάσει einen 13K οδηγία-ακολουθώντας συνόλου δεδομένων για να υποστηρίξει την γεννήτρια εικόνας.

Mini-Gemini : Πειράματα και Αποτελέσματα
Για να αξιολογήσει την απόδοσή του, το πλαισιο Mini-Gemini υλοποιείται με το προ-εκπαιδευμένο πλαισιο ConvNext-L για τον κωδικοποιητή υψηλής ανάλυσης, και με einen CLIP-προεκπαιδευμένο Οπτικό Μετασχηματιστή για τον κωδικοποιητή χαμηλής ανάλυσης. Για να εξασφαλίσει την αποτελεσματικότητα της εκπαίδευσης, το πλαισιο Mini-Gemini διατηρεί τους δύο οπτικούς κωδικοποιητές σταθερούς, και βελτιώνει τους προβολείς της εξόρυξης πληροφοριών σε όλα τα στάδια, και βελτιώνει το μεγάλο μοντέλο γλώσσας κατά τη διάρκεια του σταδίου της οδηγίας-συντονισμού.

Η ακόλουθη πίνακας συγκρίνει την απόδοση του πλαισίου Mini-Gemini με τα πλαισια της κατάστασης του έργου σε διάφορες ρυθμίσεις, και επίσης λαμβάνει υπόψη τα ιδιωτικά μοντέλα. Όπως μπορεί να παρατηρηθεί, το πλαισιο Mini-Gemini υπερέχει των υφιστάμενων πλαισίων σε ένα ευρύ φάσμα των LLMs σταθερά σε κανονική ανάλυση, και αποδεικνύει υπεροχή απόδοση όταν ρυθμίζεται με το Gemma-2B στην κατηγορία των αποτελεσματικών μοντέλων. Επιπλέον, όταν μεγαλύτερα μεγάλα μοντέλα γλώσσας χρησιμοποιούνται, η κλιμακωσιμότητα του πλαισίου Mini-Gemini είναι εμφανής.

Για να αξιολογήσει την απόδοσή του σε υψηλής ανάλυσης και επεκταμένα οπτικά σύμβολα, τα πειράματα πραγματοποιούνται με ένα μέγεθος εισαγωγής 672 για τον κωδικοποιητή χαμηλής ανάλυσης, και 1536 για τον κωδικοποιητή υψηλής ανάλυσης. Όπως αναφέρθηκε νωρίτερα, ο κύριος σκοπός του κωδικοποιητή υψηλής ανάλυσης είναι να προσφέρει υψηλής ανάλυσης υποψήφια πληροφορίες. Όπως μπορεί να παρατηρηθεί, το πλαισιο Mini-Gemini παρέχει υπεροχή απόδοση όταν συγκρίνεται με τα πλαισια της κατάστασης του έργου.

Επιπλέον, για να αξιολογήσει την οπτική κατανόηση του πλαισίου Mini-Gemini σε πραγματικές ρυθμίσεις, οι développers εφαρμόζουν το μοντέλο σε eine ποικιλία από εργασίες συλλογισμού και κατανόησης όπως φαίνεται στην ακόλουθη εικόνα. Όπως μπορεί να παρατηρηθεί, το πλαισιο Mini-Gemini είναι ικανό να λύσει eine ευρεία σειρά από σύνθετες εργασίες χάρη στην εφαρμογή της εξόρυξης πληροφοριών σε επίπεδο patch, και υψηλής ποιότητας δεδομένων. Αλλά τι είναι πιο εντυπωσιακό είναι το γεγονός ότι το πλαισιο Mini-Gemini αποδεικνύει eine στενή προσθήκη σε λεπτομέρειες που εκτείνεται πέρα από την απλή αναγνώριση ικανότητας, και περιγράφει περίπλοκες λεπτομέρειες με λεπτομέρεια.


Η ακόλουθη εικόνα παρέχει eine ολοκληρωμένη αξιολόγηση των γεννητικών ικανότητων του πλαισίου Mini-Gemini.

Όταν συγκρίνεται με πρόσφατα μοντέλα όπως το ChatIllusion και το AnyGPT, το πλαισιο Mini-Gemini αποδεικνύει ισχυρότερη δια-μορφική κατανόηση ικανότητας, επιτρέποντας του να παράγει κείμενο-σε-εικόνα λεζάντες που ευθυγραμμίζονται με τις οδηγίες εισαγωγής καλύτερα, και οδηγεί σε εικόνα-σε-κείμενο απαντήσεις με ισχυρότερη концептуαλική ομοιότητα. Τι είναι πιο εντυπωσιακό είναι το γεγονός ότι το πλαισιο Mini-Gemini αποδεικνύει αξιοσημείωτη ικανότητα στη γεννήτρια υψηλής ποιότητας περιεχομένου χρησιμοποιώντας πολυ-μορφικές ανθρώπινες οδηγίες μόνο με κείμενο εκπαίδευσης δεδομένων, eine ικανότητα που εικονογραφεί την Mini-Gemini’s ρομποτική σημασιολογική ερμηνεία και οπτική-κειμένου ευθυγράμμισης ικανότητες.

Τελικές Σκέψεις
Σε αυτό το άρθρο μιλήσαμε για το Mini-Gemini, einen δυνατό και ρομποτικό πλαισιο για τα πολυ-μορφικά μοντέλα όρασης γλώσσας. Ο κύριος σκοπός του πλαισίου Mini-Gemini είναι να εξορύξει το δυναμικό των μοντέλων όρασης γλώσσας χρησιμοποιώντας υψηλής ποιότητας δεδομένα, στρατηγική σχεδίαση του πλαισίου, και eine επεκταμένη λειτουργική εμβέλεια. Το Mini-Gemini είναι eine προσπάθεια να στενεύσει το χάσμα που υπάρχει μεταξύ των μοντέλων όρασης γλώσσας και πιο προηγμένων μοντέλων εξορύσσοντας το δυναμικό των VLMs για καλύτερη απόδοση από τρεις πλευρές: VLM-οδηγούμενη γεννήτρια, υψηλής ποιότητας δεδομένα, και υψηλής ανάλυσης οπτικά σύμβολα. Για να βελτιώσει τα οπτικά σύμβολα, το πλαισιο Mini-Gemini προτείνει να χρησιμοποιήσει einen επιπλέον οπτικό κωδικοποιητή για υψηλής ανάλυσης βελτίωση χωρίς αύξηση του αριθμού των οπτικών συμβόλων. Το πλαισιο Mini-Gemini κατασκευάζει επίσης einen υψηλής ποιότητας συνόλου δεδομένων σε μια προσπάθεια να προωθήσει την ακριβή κατανόηση των εικόνων και τη γεννήτρια συλλογισμού. Συνολικά, το πλαισιο Mini-Gemini προσπαθεί να εξορύξει το δυναμικό των μοντέλων όρασης γλώσσας, και στοχεύει να ενδυναμώσει τα υφιστάμενα πλαισια με ικανότητες οπτικής συλλογισμού, κατανόησης και γεννήτριας ταυτόχρονα.












