Connect with us

Ένα Στυλ των Ετών ’70 για την Εξοικονόμηση Ενέργειας σε Μονиторिंγκ με Τεχνητή Νοημοσύνη

Η γωνία του Anderson

Ένα Στυλ των Ετών ’70 για την Εξοικονόμηση Ενέργειας σε Μονиторिंγκ με Τεχνητή Νοημοσύνη

mm
Excerpts from a video simulating a grayscale video stream activated by object detection – source: https://videos.pexels.com/video-files/36553218/15498630_2560_1440_25fps.mp4

Νέα έρευνα δείχνει ότι το μεγαλύτερο μέρος της τεχνητής νοημοσύνης βίντεο δεν χρειάζεται χρώμα καθόλου, ενεργοποιώντας το μόνο σε κρίσιμες στιγμές και μειώνοντας τη χρήση δεδομένων πάνω από 90% με μικρή απώλεια ακρίβειας.

 

Οι απομακρυσμένες κάμερες ροής και άλλα ακατέργαστα, μπαταρίας-κίνητα βίντεο συσκευές απαιτούν στενά-βελτιστοποιημένα μονитор링 ρυθμίσεις,既然 μπορεί να βασίζονται σε ασταθές πηγές ενέργειας – όπως η ηλιακή – ή να απαιτούν περιοδική επαναφόρτιση, ή άλλες μορφές ανθρώπινης παρέμβασης, σε καταστάσεις όπου, ιδανικά, δεν θα πρέπει να χρειάζεται να είναι παρόντες.

Σε συνδυασμό με αυτή τη γραμμή έρευνας, το ενδιαφέρον για κάμερες-εξοπλισμένα wearables έχει αυξηθεί (αν και τέτοιες συσκευές ήταν ήδη στενά περιορισμένες από τους περιορισμούς ενέργειας και υπολογισμού), επειδή η τεχνητή νοημοσύνη σε ακμή τώρα υποσχέται να τις κάνει σημαντικά πιο χρήσιμες.

Πέρα από αυτές τις σκέψεις, η μακροπρόθεσμη προώθηση για μείωση του κόστους της τεχνητής νοημοσύνης και του мониторίνγκ (ειδικά σε περιπτώσεις όπου τέτοιες οικονομίες δεν χρειάζεται να μεταφερθούν στον πελάτη) δημιουργούν ένα πειστικό επιχείρημα για καινοτομία στις προσεγγίσεις εξοικονόμησης ενέργειας για ‘ακμή’ χρήσεις.

Ηχορύπανση

Στο πεδίο της ροής βίντεο-αίσθησης, οι συσκευές мониторίνγκ ακμής με ελαττωματική ενέργεια πρέπει να χρησιμοποιούν την ελάχιστη δυνατή ενέργεια, ενώ να δαπανούν αρκετή ενέργεια για να παρακολουθούν ‘ενδιαφέρουσες’ εκδηλώσεις – στην οποία περίπτωση, θα αξίζει να δαπανηθούν περισσότερες πόρους.

Εфективικά, αυτό είναι μια παρόμοια περίπτωση με τα φωτιστικά κίνησης, τα οποία παρέχουν φωτισμό μόνο όταν οι αισθητήρες χαμηλής κατανάλωσης ενέργειας καθορίζουν ότι υπάρχει κάποιος εκεί για να το εκτιμήσει.

Από τη στιγμή που η ηχο-παρακολούθηση και η συμπίεση είναι αξιοσημείωτα λιγότερο ενεργοβόρες από το βίντεο, διάφορες προσεγγίσεις τα τελευταία χρόνια έχουν προσπαθήσει να χρησιμοποιήσουν ήχους-κίνησης για να ‘ενεργοποιήσουν’ την προσοχή σε περιορισμένες συστήματα; πλαισια όπως Ακρόαση για να δείτε και Εγω-παρότρυνση:

Στο σύστημα Εγω-παρότρυνσης, η ηχο-κίνησης ενεργοποιεί την επιλογή της εικόνας από τις αλληλεπιδράσεις χεριού-αντικειμένου, μειώνοντας τις περιττές καρέ και διατηρώντας την επιτελεστική απόδοση της επεισοδιακής μνήμης σε συστήματα έξυπνων γυαλιών με περιορισμένες πόρους.

Στο σύστημα Εγω-παρότρυνσης, η ηχο-κίνησης ενεργοποιεί την επιλογή της εικόνας από τις αλληλεπιδράσεις χεριού-αντικειμένου, μειώνοντας τις περιττές καρέ και διατηρώντας την επιτελεστική απόδοση της επεισοδιακής μνήμης σε συστήματα έξυπνων γυαλιών με περιορισμένες πόρους. Πηγή

Είναι σαφές ότι ο ήχος δεν είναι το ιδανικό μέσο για να αναζητήσετε οπτικά γεγονότα,既然 πολλά από αυτά τα γεγονότα μπορεί να μην έχουν ηχητική ενόχληση ή μπορεί να συμβούν εκτός εύρους των ακουστικών μικροφων.

Λίγο Ύπνος

Τι θα μπορούσε να είναι καλύτερο, μια νέα έρευνα προτείνει, είναι μια ροή βίντεο που μπορεί να συνεργαστεί με την τεχνητή νοημοσύνη για να αυξήσει τις πόρους μόλις συμβεί ένα περιστατικό που παρακολουθείται. Η προσομοίωση παρακάτω* δίνει μια γενική ιδέα της концепції – η χαμηλής ανάλυσης παρακολούθηση διατηρείται στο ελάχιστο επίπεδο σήματος που απαιτείται για ανίχνευση αντικειμένων πλαισίων να λειτουργήσουν, και να πει στην систему να αυξήσει την ανάλυση λόγω της ενεργοποίησης ενός γεγονότος:

Μια προσομοίωση της επιθυμητής συμπεριφοράς – ότι η ροή και η ανάλυση λειτουργούν στο χαμηλότερο επίπεδο κατανάλωσης πόρων από προεπιλογή; αρκετό για να ενεργοποιήσει υψηλότερη κατανάλωση πόρων όταν ‘ενδιαφέρουσες’ ή αναζητούμενες εκδηλώσεις ανιχνεύονται στη σκαλιώδη ροή. Το μαύρο-άσπρο στυλ επιτήρησης μπορεί να είναι κάπως ‘παλιό’, αλλά θα μπορούσε να είναι ένα σημάδι των πραγμάτων που έρχονται. Αυτό το βίντεο δημιουργήθηκε από τον συγγραφέα αποκλειστικά για εικονογραφική χρήση σε σχέση με τις βασικές ιδέες της νέας έρευνας. Πηγή

Η νέα έρευνα, μια ακαδημαϊκή συνεργασία μεταξύ διάφορων ιδρυμάτων του Ηνωμένου Βασιλείου και της Huawei, προτείνει ένα σχήμα εκπαίδευσης-ελεύθερου, τεχνητής-νοημοσύνης-βοηθούμενου, σκαλιώδους-πάντα, χρώματος-κατά-απαίτηση για την παρακολούθηση ακμής – σχεδιασμένο να λειτουργεί σε χαμηλή κατανάλωση token όταν δεν συμβαίνουν ‘κρίσιμα’ γεγονότα, και να αυξήσει την κατανάλωση μόνο για τη διάρκεια του γεγονότος.

Στις επιδόσεις βίντεο-κατανόησης, το νέο σύστημα, που ονομάζεται Χρωματική-Ενεργοποίηση, ήταν σε θέση να επιτύχει το 91,6% της απόδοσης πλήρους-χρώματος με τη χρήση μόνο του 8,1% των καρέ RGB σε αυτά τα πρότυπα:

Όταν το μοντέλο βλέπει μόνο σκαλιώδη βίντεο, συγχέει κρίσιμες λεπτομέρειες και δίνει λάθος απαντήσεις; αλλά η ενεργοποίηση του χρώματος στις σωστές στιγμές αποσαφηνίζει την εικόνα και διορθώνει λάθη που προκαλούνται από εργασίες που εξαρτώνται από το χρώμα.

Όταν το μοντέλο βλέπει μόνο σκαλιώδη βίντεο, συγχέει κρίσιμες λεπτομέρειες και δίνει λάθος απαντήσεις; αλλά η ενεργοποίηση του χρώματος στις σωστές στιγμές αποσαφηνίζει την εικόνα και διορθώνει λάθη που προκαλούνται από εργασίες που εξαρτώνται από το χρώμα. Πηγή

Η νέα έρευνα έχει τον τίτλο Χρώμα Όταν Μετράει: Σκαλιώδης-οδηγούμενη ऑनलाइन ενεργοποίηση για πάντα-ενεργό ροή βίντεο-αίσθησης, και προέρχεται από οκτώ ερευνητές σε διάφορα ιδρύματα του Ηνωμένου Βασιλείου, του Πανεπιστημίου του Λονδίνου, του Πανεπιστημίου του Ντάραμ, του Ιμπεριαλικού Κολεγίου του Λονδίνου και του Huawei Noah’s Ark Lab. Η έρευνα έχει επίσης μια συνοδευτική σελίδα έργου.

Μέθοδος

Για να διατηρήσει την χρονική δομή στο νέο σύστημα, η Χρωματική-Ενεργοποίηση διατηρεί σταθερή χαμηλής-ζώνης σκαλιώδη επιτήρηση.  Μια αιτιακή ऑनलाइन ενεργοποίηση αναλύει ένα παράθυρο ολίσθησης (δηλαδή, μια ευέλικτη plus-minus εύρος καρέ γύρω από μια συγκεκριμένη στιγμή, όπως η ανίχνευση ενός γεγονότος-ενεργοποίησης) της χαμηλής-ανάλυσης ροής:

Η συνεχής υψηλής-ανάλυσης RGB καρέ αποστραγγίζει γρήγορα την ενέργεια, οπότε η ηχογράφηση σταματάει νωρίς και κρίσιμες στιγμές μπορεί να χαθούν. Αντίθετα, η Χρωματική-Ενεργοποίηση διατηρεί μια χαμηλής-ενέργειας σκαλιώδη ροή που λειτουργεί πάντα, και ενεργοποιεί μόνο την κάμερα RGB σε επιλεγμένες στιγμές – επεκτείνοντας τον χρόνο ηχογράφησης, ενώ vẫn καταγράφει τις οπτικές λεπτομέρειες που απαιτούνται για να απαντήσουν σε μεταγενέστερες ερωτήσεις.

Η συνεχής υψηλής-ανάλυσης RGB καρέ αποστραγγίζει γρήγορα την ενέργεια, οπότε η ηχογράφηση σταματάει νωρίς και κρίσιμες στιγμές μπορεί να χαθούν. Αντίθετα, η Χρωματική-Ενεργοποίηση διατηρεί μια χαμηλής-ενέργειας σκαλιώδη ροή που λειτουργεί πάντα, και ενεργοποιεί μόνο την κάμερα RGB σε επιλεγμένες στιγμές – επεκτείνοντας τον χρόνο ηχογράφησης, ενώ vẫn καταγράφει τις οπτικές λεπτομέρειες που απαιτούνται για να απαντήσουν σε μεταγενέστερες ερωτήσεις.  Πηγή

Ενώ το σύστημα είναι σε ‘παθητική’ λειτουργία (δηλαδή, δεν έχει αναγνωρίσει ακόμη ένα γεγονός-ενεργοποίησης), ο δυναμικός διακομιστής token κατανέμει περιορισμένη ικανότητα σε một ασύμμετρο αποκωδικοποιητή, πάντα αναζητώντας περιττότητα, και για γεγονότα που υποδεικνύουν καινοτομία, στην οποία περίπτωση η ροή token επαναπροσδιορίζει την ικανότητα πάνω από την συμπίεση:

Σχήμα για την Χρωματική-Ενεργοποίηση. Το σύστημα παρακολουθεί μια ανάλυση-παράθυρο-ολίσθησης πρόσφατων καρέ για να ανιχνεύσει περιττότητα και αλλαγή, ενεργοποιώντας υψηλής-ανάλυσης RGB καρέ μόνο όταν χρειάζεται, υπό einen πίστωση-βασισμένο προϋπολογισμό. Ο δυναμικός διακομιστής token κατανέμει λιγότερους token σε σκαλιώδεις εισόδους και περισσότερους σε επιλεγμένα RGB καρέ, διατηρώντας την χρονική τάξη για μεταγενέστερη Πολυ-Μοντέλο-Μεγάλης-Γλώσσας-Μοντέλου (MLLM) επεξεργασία.

Σχήμα για την Χρωματική-Ενεργοποίηση. Το σύστημα παρακολουθεί μια ανάλυση-παράθυρο-ολίσθησης πρόσφατων καρέ για να ανιχνεύσει περιττότητα και αλλαγή, ενεργοποιώντας υψηλής-ανάλυσης RGB καρέ μόνο όταν χρειάζεται, υπό einen πίστωση-βασισμένο προϋπολογισμό. Ο δυναμικός διακομιστής token κατανέμει λιγότερους token σε σκαλιώδεις εισόδους και περισσότερους σε επιλεγμένα RGB καρέ, διατηρώντας την χρονική τάξη για μεταγενέστερη Πολυ-Μοντέλο-Μεγάλης-Γλώσσας-Μοντέλου (MLLM) επεξεργασία.

Σε καρέ-προς-καρέ βάση, το σύστημα πρέπει να αποφασίσει εάν η τρέχουσα στιγμή περιέχει νέα πληροφορία που αξίζει τον κόστος της καταγραφής του χρώματος. Η σύντομη πρόσφατη ιστορία των σκαλιωδών καρέ στο παράθυρο ολίσθησης επιτρέπει στην Χρωματική-Ενεργοποίηση να συγκρίνει το τρέχον καρέ με το αμέσως προηγούμενο. Κάθε καρέ μετατρέπεται σε μια συμπαγή παράσταση-χαρακτηριστικών, και αυτά τα χαρακτηριστικά συγκρίνονται μεταξύ τους για να μετρηθεί πόσο схожά ή διαφορετικά είναι τα καρέ τους.

Αυτή η διαδικασία σύγκρισης οργανώνεται σε μια δομή που συνοψίζει πόσο κάθε καρέ перекrýει με τα άλλα, αποτελεσματικά καταγράφοντας εάν η σκηνή επαναλαμβάνεται ή αλλάζει. Ένα ελαφρύ βήμα βελτιστοποίησης αναθέτει ένα σκορ-σημασίας σε κάθε καρέ στο παράθυρο, ευνοώντας την καινοτομία.

Ισορροπία Χρώματος

Για να αποτρέψει την υπερβολική χρήση του χρώματος, ένα απλό ‘πίστωσης-συστήματος’ περιορίζει πόσο συχνά μπορεί να ενεργοποιηθεί το χρώμα με την πάροδο του χρόνου. Οι πιστώσεις συσσωρεύονται σταδιακά, και δαπανώνται όταν το χρώμα ζητείται, εξασφαλίζοντας ότι οι βουρές δραστηριότητας επιτρέπονται, αλλά η συνολική χρήση παραμένει ελεγχόμενη. Ένα καρέ ‘αναβαθμίζεται’ σε χρώμα μόνο εάν είναι και πληροφοριακό, και εάν υπάρχουν αρκετές πιστώσεις διαθέσιμες.

Ο Δυναμικός Διακομιστής Token ελέγχει πόσο λεπτομέρεια λαμβάνει κάθε καρέ, αντί να επεξεργάζεται κάθε καρέ σε πλήρη ποιότητα. Όταν δεν ανιχνεύεται τίποτα σημαντικό, το σκαλιώδες καρέ διατηρείται χαμηλής-ανάλυσης και μετατρέπεται σε một μικρό, συμπιεσμένο σύνολο token. Όταν ανιχνεύεται μια σημαντική στιγμή, το σύστημα μεταβαίνει σε χρώμα και επεξεργάζεται το καρέ σε υψηλότερη ανάλυση, προσφέροντας μια πλουσιότερη και πιο λεπτομερή αναπαράσταση.

Και τα δύο είδη καρέ περνούν από το ίδιο μοντέλο, αλλά τα σκαλιώδη καρέ αντιμετωπίζονται με ένα ελαφρύτερο τρόπο, ενώ τα επιλεγμένα χρωματικά καρέ λαμβάνουν περισσότερη προσοχή. Τα αποτελέσματα συνδυάζονται στη αρχική τους σειρά και στέλνονται στο μοντέλο ως μια συνεχής ροή.

Επειδή τα περισσότερα καρέ παραμένουν ελαφριά και μόνο quelques από αυτά αναβαθμίζονται, το σύστημα αποθηκεύει μια μεγάλη ποσότητα υπολογισμού ενώ vẫn καταγράφει τις κρίσιμες λεπτομέρειες όταν έχουν σημασία:

Από την έρευνα, ένα άλλο παράδειγμα όπου το σύστημα απαιτεί να αυξήσει προσωρινά τις πόρους για να διακρίνει ένα χρώμα.

Από την έρευνα, ένα άλλο παράδειγμα όπου το σύστημα απαιτεί να αυξήσει προσωρινά τις πόρους για να διακρίνει ένα χρώμα.

Δεδομένα και Τεστ

Για να δοκιμάσει το σύστημα, οι ερευνητές αξιολόγησαν ενάντια στο StreamingBench και OVO-Bench βίντεο-προτύπων, αποφεύγοντας την επεξεργασία μελλοντικών περιεχομένου (που είναι ένας πιθανός κίνδυνος σε offline τεστ).

Το παγωμένο Πολυ-Μοντέλο-Μεγάλης-Γλώσσας-Μοντέλου (MLLM) που χρησιμοποιήθηκε ήταν InternVL3.5-8B-Instruct, με την αιτιακή ενεργοποίηση που υλοποιήθηκε μέσω CLIP ViT-B/16.

Η σκαλιώδης ροή περιοριζόταν στο κανάλι φωτεινότητας στο CIELAB χώρο χρώματος, σύμφωνα με προηγούμενη εργασία, με τα σκαλιώδη καρέ να αναδιαμορφώνονται σε 224x224px πριν από παράθυρο-διαίρεσης (η διαίρεση μιας εικόνας σε μικρά, σταθερά-μέγεθος μπλοκ, ώστε κάθε μπλοκ να μπορεί να επεξεργαστεί ως一个 ξεχωριστό μονάδα από το μοντέλο).

Τα RGB καρέ, αντίθετα, απολάμβαναν υψηλότερη bitrate, και επεξεργάζονταν σε 448x448px, παράγοντας 256 token, σε αντίθεση με τα 64 token που παράγονταν για τα σκαλιώδη καρέ.

Κοινά εργαλεία βελτιστοποίησης χρησιμοποιήθηκαν για να ληφθούν οι αποφάσεις του συστήματος: CVXPY (μια βιβλιοθήκη Python για τη ρύθμιση προβλημάτων βελτιστοποίησης), και OSQP Solver (ένας ταχύς αλγόριθμος που υπολογίζει πότε να ενεργοποιήσει το χρώμα).

Το βίντεο επεξεργαζόταν σε 1fps, με ένα όριο 128 καρέ ανά κλιπ, για να διατηρήσει την επεξεργασία χαμηλή.

Ιδιωτικά συστήματα που δοκιμάστηκαν ήταν Gemini 1.5 Pro; GPT-4o; και Claude 3.5 Sonnet. Ανοιχτά συστήματα βίντεο-MLLM που δοκιμάστηκαν ήταν LLaVA-OneVision-7B; Video-LLaMA2-7B; και Qwen2.5-VL-7B.

Συστήματα ροής MLLM που δοκιμάστηκαν ήταν Flash-VStream-7B; VideoLLM-online-8B; Dispider-7B; και TimeChat-Online-7B.

InternVL-3.5-8B  και Qwen3-VL-8B δοκιμάστηκαν σε διάφορες ρυθμίσεις, λεπτομερώς στην πρώτη πίνακα αποτελεσμάτων παρακάτω, σχετικά με το StreamingBench:

Επιδόσεις στο StreamingBench για εργασίες κατανόησης βίντεο σε πραγματικό χρόνο, συγκρίνοντας ιδιωτικά, ανοιχτά και συστήματα ροής MLLM υπό διαφορετικά χρωματικά προϋπολογισμό. RGB (%) υποδηλώνει το ποσοστό των καρέ που διατηρούνται σε χρώμα μετά την ενεργοποίηση, όπου 100 δηλώνει πλήρες χρώμα και 0 δηλώνει σκαλιώδες-μόνο είσοδο. Η Χρωματική-Ενεργοποίηση αξιολογείται σε δύο λειτουργικά σημεία, διατηρώντας 8,1% και 34,3% χρωματικά καρέ, και επιτυγχάνει βελτιωμένη συνολική ακρίβεια над το σκαλιώδες InternVL-3.5-8B πρότυπο ενώ μειώνει σημαντικά τη χρήση χρώματος σε σχέση με τη ρύθμιση πλήρους χρώματος.

Επιδόσεις στο StreamingBench για εργασίες κατανόησης βίντεο σε πραγματικό χρόνο, συγκρίνοντας ιδιωτικά, ανοιχτά και συστήματα ροής MLLM υπό διαφορετικά χρωματικά προϋπολογισμό. RGB (%) υποδηλώνει το ποσοστό των καρέ που διατηρούνται σε χρώμα μετά την ενεργοποίηση, όπου 100 δηλώνει πλήρες χρώμα και 0 δηλώνει σκαλιώδες-μόνο είσοδο. Η Χρωματική-Ενεργοποίηση αξιολογείται σε δύο λειτουργικά σημεία, διατηρώντας 8,1% και 34,3% χρωματικά καρέ, και επιτυγχάνει βελτιωμένη συνολική ακρίβεια над το σκαλιώδες InternVL-3.5-8B πρότυπο ενώ μειώνει σημαντικά τη χρήση χρώματος σε σχέση με τη ρύθμιση πλήρους χρώματος.

Εδώ οι συγγραφείς σχολιάζουν:

‘Η Χρωματική-Ενεργοποίηση επιτυγχάνει ανταγωνιστικές επιδόσεις στη εργασία κατανόησης οπτικής σε πραγματικό χρόνο του StreamingBench.

‘Το μοντέλο μας με 34,3% RGB καρέ σκοράρει 75,24, υπερβαίνοντας πρόσφατα online μοντέλα Dispider-7B και κοντά στο TimeChat-Online-7B, ενώ είναι συγκρίσιμο με ιδιωτικά μοντέλα όπως το Gemini 1.5 Pro (75.69) και υπερβαίνει το GPT-4o (73.28) και το Claude 3.5 Sonnet (72.44).’

Το InternVL-3.5-8B σκοράρει 77.20 χρησιμοποιώντας πλήρες χρώμα, ενώ η Χρωματική-Ενεργοποίηση φτάνει στο 75.24 χρησιμοποιώντας 65.7% λιγότερα RGB καρέ – και ακόμη και με μόνο 8.1% χρωματικά καρέ, σκοράρει 70.72, υπερβαίνοντας το σκαλιώδες πρότυπο 62.08 κατά 8.64%, και παραμένει ανταγωνιστική με άλλα μοντέλα ροής.

Επόμενο, το OVO-Bench δοκιμάστηκε:

Επιδόσεις στο OVO-Bench σε τρεις κατηγορίες: Κατανόηση οπτικής σε πραγματικό χρόνο, ανίχνευση προς τα πίσω και ανταπόκριση προς τα εμπρός, συγκρίνοντας ιδιωτικά, ανοιχτά και συστήματα ροής MLLM υπό διαφορετικά χρωματικά προϋπολογισμό. RGB (%) υποδηλώνει το ποσοστό των καρέ που διατηρούνται σε χρώμα μετά την ενεργοποίηση, όπου 100 δηλώνει πλήρες χρώμα και 0 δηλώνει σκαλιώδες-μόνο είσοδο. Η Χρωματική-Ενεργοποίηση αξιολογείται σε δύο λειτουργικά σημεία, διατηρώντας 7,1% και 33,1% χρωματικά καρέ, και δείχνει βελτιωμένη συνολική ακρίβεια над το σκαλιώδες InternVL-3.5-8B πρότυπο ενώ μειώνει σημαντικά τη χρήση χρώματος σε σχέση με τη ρύθμιση πλήρους χρώματος.

Επιδόσεις στο OVO-Bench σε τρεις κατηγορίες: Κατανόηση οπτικής σε πραγματικό χρόνο, ανίχνευση προς τα πίσω και ανταπόκριση προς τα εμπρός, συγκρίνοντας ιδιωτικά, ανοιχτά και συστήματα ροής MLLM υπό διαφορετικά χρωματικά προϋπολογισμό. RGB (%) υποδηλώνει το ποσοστό των καρέ που διατηρούνται σε χρώμα μετά την ενεργοποίηση, όπου 100 δηλώνει πλήρες χρώμα και 0 δηλώνει σκαλιώδες-μόνο είσοδο. Η Χρωματική-Ενεργοποίηση αξιολογείται σε δύο λειτουργικά σημεία, διατηρώντας 7,1% και 33,1% χρωματικά καρέ, και δείχνει βελτιωμένη συνολική ακρίβεια над το σκαλιώδες InternVL-3.5-8B πρότυπο ενώ μειώνει σημαντικά τη χρήση χρώματος σε σχέση με τη ρύθμιση πλήρους χρώματος.

Από αυτά τα αποτελέσματα, οι συγγραφείς δηλώνουν:

‘Το μοντέλο μας με 33,1% RGB καρέ επιτυγχάνει ένα συνολικό σκορ 52,5, υπερβαίνοντας σχεδόν όλα τα υπάρχοντα ανοιχτά online MLLM. Σε σύγκριση με το βασικό μοντέλο InternVL-3.5-8B με πλήρες RGB είσοδο (57.7), η Χρωματική-Ενεργοποίηση σκοράρει 52,5 ενώ μειώνει τη χρήση καρέ RGB κατά 66.9%, αντιπροσωπεύοντας μόνο μια 5.2-σημειακή πτώση στην συνολική απόδοση.

‘Αυτή η μετριοπαθής υποβάθμιση συνοδεύεται από σημαντικές κέρδη σε αποδοτικότητα, αποδεικνύοντας την αποτελεσματικότητα της στρατηγικής μας για προσαρμοστική διαδρομή.’

Η κατανόηση οπτικής σε πραγματικό χρόνο έφτασε στο 65.2 – μια 11.4-σημειακή αύξηση над το σκαλιώδες-μόνο πρότυπο 53.8. Ακόμη και όταν περιορίζεται σε μόνο 7.1% RGB καρέ (μια 92.9% μείωση), η Χρωματική-Ενεργοποίηση διατήρησε ένα συνολικό σκορ 50.4, βελτιώνοντας το σκαλιώδες πρότυπο κατά 2.5 σημεία.

Τέλος, οι ερευνητές διεξήγαγαν ένα τεστ ενάντια σε μια εργασία βίντεο εκτός σύνδεσης (μια αναλυτική εργασία που δεν σχεδιάστηκε για να δοκιμάσει την καθυστέρηση ή άλλες ‘ζωντανές’ περιβαλλοντικές συνθήκες, χρησιμοποιώντας το Video-MME πρότυπο κατανόησης βίντεο μακράς διάρκειας:

Σύγκριση επιδόσεων των δοκιμασμένων συστημάτων στο Video-MME πρότυπο.

Σύγκριση επιδόσεων των δοκιμασμένων συστημάτων στο Video-MME πρότυπο.

Σε αυτό το τεστ, το μοντέλο επιτύχει ένα συνολικό σκορ 66.1, ενώ χρησιμοποιεί 37.6% RGB καρέ, υπερβαίνοντας το πλήρες-χρώμα InternVL-3.5-8B πρότυπο σκορ 65.6, παρά το ότι χρησιμοποιεί 62.4% λιγότερα χρωματικά καρέ.

Οι συγγραφείς σχολιάζουν:

‘Αυτό αποδεικνύει ότι ο μηχανισμός μας για προσαρμοστική ενεργοποίηση δεν μόνο μειώνει τον υπολογιστικό κόστος, αλλά μπορεί επίσης να βελτιώσει την απόδοση, εστιάζοντας την ικανότητα RGB σε σημαινόμενες κρίσιμες στιγμές.

‘Σημαντικά, η Χρωματική-Ενεργοποίηση υπερβαίνει όλα τα υπάρχοντα online MLLM, συμπεριλαμβανομένων TimeChat-Online-7B στο 62.4 και Dispider-7B στο 57.2, επιβεβαιώνοντας την αποτελεσματικότητα της συνδυασμένης σκαλιώδους контекστοποίησης με επιλεκτική απόκτηση RGB για κατανόηση βίντεο μακράς διάρκειας.’

Συμπέρασμα

Πάντα απολαμβάνω να βλέπω καινοτομίες αυτού του είδους, όχι μόνο επειδή η υψηλή και αυξανόμενη ανάγκη της τεχνητής νοημοσύνης για (ηλεκτρική) ενέργεια έχει παράγει δυσάρεστα заголовια για πολύ καιρό, και είναι καλό να δούμε έρευνα που least間접α address την πρόβλημα.

Είναι κυνικά συναρπαστικό να γνωρίζουμε ότι οι οικονομίες ενέργειας που επιτυγχάνονται σε τέτοιες προσπάθειες κίνησης από εμπορικές σκέψεις,既然 αυτές είναι λιγότερο πιθανό να επηρεαστούν από βραχυπρόθεσμες πολιτικές αποφάσεις από τις ευγενέστερες, αλλά πιο ευάλωτες ανησυχίες για την εξοικονόμηση ενέργειας και το παγκόσμιο θερμοκηπιακό. Ευτυχώς, το ίδιο αποτέλεσμα επιτυγχάνεται, για διαφορετικούς λόγους.

 

* Δημιουργήθηκε από εμένα, απλώς για να ενσωματώσει την ιδέα της έρευνας για τον αναγνώστη.

Πρώτη δημοσίευση Πέμπτη, 26 Μαρτίου 2026

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]