Τεχνητή νοημοσύνη
Οπτική Διδασκαλία για Κατανόηση σε Επίπεδο Pixel με Osprey

Με την πρόσφατη βελτίωση των μεθόδων διδασκαλίας οπτικών οδηγιών, τα Πολυτροπικά Μεγάλης Κλίμακας Γλωσσικά Μοντέλα (MLLMs) έχουν αποδείξει εξαιρετικές γενικής χρήσης ικανότητες οράσεως-γλώσσας. Αυτές οι ικανότητες τα καθιστούν βασικά δομικά στοιχεία για σύγχρονους γενικής χρήσης οπτικούς βοηθούς. Τα πρόσφατα μοντέλα, συμπεριλαμβανομένων των MiniGPT-4, LLaVA, InstructBLIP και άλλων, παρουσιάζουν εντυπωσιακές οπτικές ικανότητες συλλογισμού και ακολουθίας οδηγιών.尽管 większość από αυτά βασίζεται σε ζευγάρια εικόνας-κειμένου για οπτική-γλωσσική ευθυγράμμιση σε επίπεδο εικόνας, εκτελούν καλά σε αυτόν τον τομέα. Ωστόσο, η εξάρτησή τους από box-επίπεδο και image-επίπεδο κατανόηση είναι ο κύριος λόγος για τον οποίο τα MLLMs δεν μπορούν να αναπαράγουν την απόδοσή τους σε εργασίες ευθυγράμμισης οπτικής-γλώσσας σε επίπεδο pixel. Επιπλέον, η περιορισμένη διαθεσιμότητα δεδομένων οδηγιών με μάσκα για εκπαίδευση δημιουργεί προκλήσεις στην περαιτέρω βελτίωση των MLLMs.
Ο Osprey είναι μια μέθοδος εκπαίδευσης οδηγιών με μάσκα-κειμένου με κύριο στόχο την επέκταση των MLLMs. Ενσωματώνει λεπτομερείς περιοχές με μάσκα στις οδηγίες γλώσσας για να επιτύχει κατανόηση οράσεως-γλώσσας σε επίπεδο pixel. Για να το επιτύχει αυτό, το πλαίσιο Osprey δημιουργεί ένα σύνολο δεδομένων με πάνω από 700 χιλιάδες δείγματα. Εντάσσει την αναπαράσταση pixel σε Μεγάλες Γλωσσικές Μοντέλα (LLMs) για να σχεδιάσει ένα μοντέλο οράσεως-γλώσσας. Χαρακτηριστικά, το πλαίσιο Osprey υιοθετεί ένα μοντέλο CLIP με βάση συνελικτική νευρωνική για τον οπτικό κωδικοποιητή και ενσωματώνει einen mask-aware οπτικό εξαγωγέα στη δομή του. Αυτό επιτρέπει την ακριβή εξαγωγή οπτικών χαρακτηριστικών μάσκας από υψηλής ανάλυσης εισαγωγές.
Σε αυτό το άρθρο, θα συζητήσουμε το πλαίσιο Osprey και θα εμβαθύνουμε sâu hơn στη δομή του. Θα εξερευνήσουμε επίσης το σύνολο δεδομένων με πάνω από 700 χιλιάδες δείγματα και θα συγκρίνουμε την απόδοσή του σε διάφορες εργασίες κατανόησης περιοχής. Έτσι, ας ξεκινήσουμε.
Osprey: Κατανόηση Pixel με Οπτική Διδασκαλία
Τα Πολυτροπικά Μεγάλης Κλίμακας Γλωσσικά Μοντέλα όπως τα MiniGPT-4, Otter, Qwen-LV, InstructBLIP και άλλα είναι οι πρωτοπόροι στην ανάπτυξη γενικής χρήσης οπτικών βοηθών και είναι γνωστά για τις εξαιρετικές πολυτροπικές και γεννητικές ικανότητες οράσεως. Ωστόσο, τα Πολυτροπικά Μεγάλης Κλίμακας Γλωσσικά Μοντέλα αντιμετωπίζουν μια σημαντική πρόκληση, поскольку παρέχουν μη ικανοποιητικά αποτελέσματα σε λεπτομερείς εργασίες κατανόησης εικόνας όπως η λεζάντα, η ταξινόμηση περιοχής και ο συλλογισμός. Ένας σημαντικός λόγος για την υποπαράδοση στην κατανόηση εικόνας σε λεπτομερές επίπεδο είναι η έλλειψη ευθυγράμμισης σε επίπεδο περιοχής. Τα πρόσφατα MLLMs όπως το GPT4RoI, Shikra και άλλα στοχεύουν να ενεργοποιήσουν την κατανόηση σε επίπεδο περιοχής στα μοντέλα οράσεως-γλώσσας επεξεργαζόμενων περιοχών που ορίζονται από bounding box και χρησιμοποιώντας οπτικές οδηγίες με χωρικές λειτουργίες σε επίπεδο αντικειμένου.












