Η γωνία του Anderson

Η Πρόκληση της Υπότιτλων Βίντεο σε Περισσότερο από 1fps

Published March 19, 2025

Updated April 26, 2026

Martin Anderson

Trails in a basketball scene - source: https://www.youtube.com/watch?v=ORfjgE6n2Pc

Η ικανότητα των συστημάτων μηχανικής μάθησης να αναγνωρίζουν τα γεγονότα που συμβαίνουν μέσα σε ένα βίντεο είναι κρίσιμη για το μέλλον της AI-βασισμένης γεννήτριας βίντεο – όχι λιγότερο επειδή τα σύνολα δεδομένων βίντεο απαιτούν ακριβείς υπότιτλους για να παράγουν μοντέλα που συμμορφώνονται με αίτημα χρήστη και δεν υπερβολικά hallucinate.

Ένα παράδειγμα σχήματος υπότιτλων από το έργο VidReCap της Google. Source: https://sites.google.com/view/vidrecap

Η χειροκίνητη υπότιτλωση του μεγέθους των βίντεο που χρειάζονται για αποτελεσματικά σύνολα δεδομένων είναι μια αδιανόητη προοπτική. Αν και είναι δυνατό να εκπαιδεύσετε συστήματα AI για να auto-υπότιτλο βίντεο, πολλά ανθρώπινα παραδείγματα vẫn χρειάζονται ως ground truth, για ποικιλία και κάλυψη.

Περισσότερο σημαντικά, σχεδόν κάθε τρέχον μοντέλο βίντεο-υπότιτλων AI λειτουργεί σε 1fps, το οποίο δεν είναι αρκετά πυκνό για να διακρίνει τις παραλλαγές σε πολλές περιπτώσεις: απότομες μικρο-εξπρεσσιόν αλλαγές για συστήματα αναγνώρισης συναισθήματος, ταχεία γεγονότα σε υψηλής ταχύτητας αθλήματα όπως το μπάσκετ, βίαιες κινήσεις, ταχεία κοψίματα σε δραματικές ταινίες, όπου συστήματα όπως PySceneDetect μπορεί να αποτύχουν να τα αναγνωρίσουν (ή δεν χρησιμοποιούνται) και πολλές άλλες περιπτώσεις όπου το παράθυρο προσοχής σαφώς χρειάζεται να είναι πιο εντατικό.

Κάντε κλικ για αναπαραγωγή. Ταχεία αλλά ζωτικής σημασίας δράση σε αυτό που μπορεί να είναι ένα από τα πιο αργά αθλήματα στον κόσμο, καθώς ο Alex Higgins κερδίζει το παγκόσμιο πρωτάθλημα ενάντια στον Ray Reardon το 1982. Source: https://www.youtube.com/watch?v=_1PuqKno_Ok

Κινηθείτε Γρήγορα και Σπάστε τη Λογική

Αυτή η χαμηλή ταχύτητα είναι ο τυπικός προτυπικός για διάφορους λόγους. Για ένα, η υπότιτλωση βίντεο είναι μια πηγή-εντατική δραστηριότητα, είτε το σύστημα μελετάει ένα συνεχές πλαίσιο κάθε φορά, είτε χρησιμοποιεί διάφορες μεθόδους για να σεμαντικά συνάγει μια σειρά πλαισίων σε μια ερμηνεύσιμη ακολουθία υπότιτλων. Σε κάθε περίπτωση, το παράθυρο контекст είναι αναπόφευκτα περιορισμένο από τους περιορισμούς του υλικού.

Ένας άλλος λόγος για το ότι το 1fps είναι ο τρέχων προτυπικός είναι ότι τα βίντεο δεν είναι γενικά γεμάτα ταχεία γεγονότα, είναι επομένως περιττό να δώσετε 300 πλαισιά σε μια στατική πινγκ-πονγκ τραπέζι την ίδια προσοχή με το δευτερόλεπτο στο οποίο ένας πωλημένος μαύρος μπαλάς κερδίζει το πρωτάθλημα (βλέπε παραπάνω παράδειγμα).

Είναι δυνατό να χρησιμοποιηθούν ευρύτερα δευτερεύοντα ενδείξεις για να αναγνωρίσουν κρίσιμους моментούς σε ένα αθλητικό βίντεο, όπως η διαρκής αντίδραση του κοινού σε μια ταχεία σλαμ-ντάουνκ σε ένα παιχνίδι μπάσκετ. Ωστόσο, τέτοιες ενδείξεις μπορεί να συμβούν για άλλους λόγους (όπως απροσδόκητες τραυματισμοί παικτών) και δεν possono να βασιστεί.

Αυτό είναι σε πολλές ways ένα “προϋπολογιστικό” πρόβλημα, και σε άλλες ways ένα διαδικαστικό πρόβλημα. Τα πλαίσια μέχρι τώρα έχουν λειτουργήσει με βάση την αρχή ότι οι σπάνιες κλειδιά πλαισίων μπορούν να καταγράψουν αποτελεσματικά τις βασικές πληροφορίες, αλλά αυτό είναι πιο αποτελεσματικό για την καθιέρωση είδους και άλλων πτυχών του θέματος του βίντεο,既然 η απόδειξη, σε αυτή την περίπτωση, διαρκεί σε πολλά πλαισιά.

F-16

Μια νέα εργασία από την Κίνα προσφέρει μια λύση, με τη μορφή του πρώτου πολυμεσικού μεγάλου γλωσσικού μοντέλου (MLLM, ή απλά LLM) που μπορεί να αναλύσει βίντεο σε 16fps αντί του τυπικού 1fps, ενώ αποφεύγει τις основные παγίδες της αύξησης του ρυθμού ανάλυσης.

Σε δοκιμές, οι συγγραφείς ισχυρίζονται ότι το νέο σύστημα, με τίτλο F-16, υπερβαίνει τα ιδιωτικά μοντέλα της τελευταίας τεχνολογίας όπως GPT-4o και Google’s Gemini-1.5 pro. Αν και άλλα τρέχοντα μοντέλα ήταν σε θέση να ισοφαρίσουν ή να υπερβούν τα αποτελέσματα του F-16 σε δοκιμές, τα ανταγωνιστικά μοντέλα ήταν πολύ μεγαλύτερα και πιο δυσκίνητα.

Αν και το F-16 εκπαιδεύτηκε σε κάποιο σοβαρό υλικό (όπως θα εξετάσουμε σύντομα), η συλλογή δεδομένων είναι συνήθως πολύ λιγότερο απαιτητική από την εκπαίδευση. Επομένως, μπορούμε να ελπίσουμε ότι ο κώδικας (υποσχόμενος για μια κοντινή κυκλοφορία) θα είναι σε θέση να τρέξει σε μεσαίου ή υψηλού επιπέδου οικιακούς GPU.

Τι χρειάζεται για τη ζωτικότητα της σκηνής του χόμπι (και αυτό περιλαμβάνει τη专业 VFX σκηνή, την περισσότερη φορά) είναι ένα μοντέλο υπότιτλων βίντεο αυτού του είδους που μπορεί να λειτουργήσει, vielleicht quantized, σε καταναλωτικά συστήματα, ώστε η ολόκληρη γεννήτρια βίντεο σκηνή δεν μεταναστεύει σε API-βασισμένα εμπορικά συστήματα, ή να αναγκάσει τους καταναλωτές να συνδέσουν τοπικά πλαίσια με εμπορικές online GPU υπηρεσίες.

Πέρα από την Κλίμακα

Οι συγγραφείς παρατηρούν ότι αυτό το είδος προσεγγίσεως είναι μια πρακτική εναλλακτική λύση για την κλίμακα των συνόλων δεδομένων. Μπορείτε επίσης να συναγάγετε ότι αν θα ρίχνετε περισσότερα δεδομένα στο πρόβλημα, αυτό είναι ακόμη το είδος προσεγγίσεως που θα μπορούσε να είναι προτιμότερο, επειδή το νέο σύστημα διακρίνει τα γεγονότα με πιο λεπτομερή τρόπο.

Λέγουν:

‘Η χαμηλή ταχύτητα δειγμάτων μπορεί να οδηγήσει σε κρίσιμη απώλεια οπτικής πληροφορίας, ιδιαίτερα σε βίντεο με ταχεία αλλαγή σκηνών, περίπλοκες λεπτομέρειες ή ταχεία κίνηση. Επιπλέον, αν τα κλειδιά πλαισίων χάνονται, αλλά το μοντέλο έχει εκπαιδευτεί σε ετικέτες που βασίζονται σε πληροφορίες κλειδιών πλαισίων, μπορεί να δυσκολευτεί να συντονίσει τις προβλέψεις του με το αναμενόμενο περιεχόμενο, πιθανώς οδηγώντας σε hallucinations και επιδείνωση της απόδοσης…

‘… F-16 επιτυγχάνει SOTA απόδοση σε γενική ερωτήματα βίντεο μεταξύ μοντέλων του ίδιου μεγέθους και δείχνει μια σαφή優勢 σε υψηλή ταχύτητα βίντεο κατανόηση, υπερβαίνοντας εμπορικά μοντέλα όπως GPT-4o. Αυτό το έργο ανοίγει νέες διευθύνσεις για την προώθηση της υψηλής ταχύτητας βίντεο κατανόησης σε πολυμεσικά LLM ερευνητικά.

Η νέα εργασία έχει τίτλο Βελτίωση LLM Βίντεο Κατανόησης με 16 Πλαισιά ανά Δευτερόλεπτο, και προέρχεται από οκτώ συγγραφείς από το Tsinghua University και ByteDance.

Μέθοδος

Καθώς τα συνεχόμενα πλαισιά περιέχουν συχνά περιττές πληροφορίες, το F-16 εφαρμόζει einen υψηλής ταχύτητας aligner για να συμπιέσει και να κωδικοποιήσει κινήσεις-λεπτομέρειες ενώ διατηρεί τις οπτικές σημασιολογίες. Κάθε πλαισίο επεξεργάζεται πρώτα από einen προ-εκπαιδευμένο image encoder, εξάγοντας αναπαραστάσεις χαρακτηριστικών πριν να περάσει σε einen aligner βασισμένο σε Gaussian Error Linear Units (GELUs).

Η αρχιτεκτονική του F-16 επεξεργάζεται βίντεο σε 16 FPS, καταγράφοντας περισσότερα πλαισιά από τα παραδοσιακά χαμηλής ταχύτητας μοντέλα, και ο υψηλής ταχύτητας aligner διατηρεί τις οπτικές σημασιολογίες ενώ κωδικοποιεί αποτελεσματικά τις κινήσεις-δυναμικές χωρίς να προσθέτει επιπλέον οπτικά tokens. Source: https://arxiv.org/pdf/2503.13956

Για να χειριστεί την αύξηση του αριθμού πλαισίων αποτελεσματικά, το F-16 ομαδοποιεί τα πλαισιά σε μικρά παράθυρα επεξεργασίας, συγχωνεύοντας οπτικές χαρακτηριστικές χρησιμοποιώντας einen τρι-στρωματικό Multi-Layer Perceptron (MLP), βοηθώντας να διατηρήσει μόνο τις πιο σχετικές κινήσεις-λεπτομέρειες, και μειώνοντας την περιττή διπλοποίηση, ενώ διατηρεί την χρονική ροή των ενεργειών. Ένας χωρικός max-pooling στρώμα συμπιέζει περαιτέρω τον αριθμό των tokens, διατηρώντας τους υπολογιστικούς κόστους εντός ορίων.

Τα επεξεργασμένα βίντεο tokens τότε τροφοδοτούνται στο Qwen2-7B LLM, το οποίο παράγει κειμενικές απαντήσεις με βάση τις εξαγμένες οπτικές χαρακτηριστικές και μια δεδομένη προτροπή χρήστη.

Με την δομή της είσοδου βίντεο με αυτόν τον τρόπο, το F-16 ermöglicht, οι συγγραφείς ισχυρίζονται, πιο ακριβή αναγνώριση γεγονότων σε δυναμικές σκηνές, ενώ vẫn διατηρεί την αποτελεσματικότητα.

Η Σύντομη Έκδοση

Το F-16 επεκτείνει einen προ-εκπαιδευμένο image LLM, LLaVA-OneVision, για να επεξεργαστεί βίντεο μετατρέποντας την οπτική του είσοδο pipeline. Ενώ τα τυπικά image LLMs χειρίζονται απομονωμένα πλαισιά, ο υψηλής ταχύτητας aligner του F-16 μετατρέπει πολλά πλαισιά σε eine μορφή που το μοντέλο μπορεί να επεξεργαστεί πιο αποτελεσματικά, αποφεύγοντας να καταπνίξει το σύστημα με περιττές πληροφορίες ενώ διατηρεί τις κινήσεις-λεπτομέρειες που είναι απαραίτητες για ακριβή βίντεο κατανόηση.

Για να διασφαλιστεί η συμβατότητα με την εικόνα-βασισμένη του βάση, το F-16 επαναχρησιμοποιεί προ-εκπαιδευμένα παραμέτρους αναδιαμορφώνοντας τον aligner σε υπο-πίνακες. Αυτή η προσέγγιση ermöglicht στο F-16 να ενσωματώσει γνώσεις από μοντέλα μεμονωμένων πλαισίων ενώ προσαρμόζεται σε sequεntial βίντεο είσοδο.

Ο aligner πρώτα συμπιέζει τις ακολουθίες πλαισίων σε eine μορφή που είναι βελτιστοποιημένη για το LLM, διατηρώντας τις πιο ενημερωτικές χαρακτηριστικές ενώ απορρίπτει τις περιττές λεπτομέρειες. Η αρχιτεκτονική σχεδίαση ermöglicht στο σύστημα να επεξεργαστεί υψηλής ταχύτητας βίντεο ενώ διατηρεί τους υπολογιστικούς απαιτήσεις υπό έλεγχο, το οποίο οι συγγραφείς ισχυρίζονται ως απόδειξη ότι η κλίμακα δεν είναι ο μόνος (ή ο καλύτερος) τρόπος για την πρόωση της υπότιτλων βίντεο.

Αλλαγή του Ρυθμού

Καθώς η επεξεργασία βίντεο σε 16 FPS βελτιώνει την κατανόηση της κίνησης αλλά αυξάνει τους υπολογιστικούς κόστους, ιδιαίτερα κατά την συλλογή, το F-16 εισάγει eine μεταβλητή-ταχύτητα декωδικοποίησης μέθοδο, ermöglichtοντας του να điều chỉnh τον ρυθμό πλαισίων δυναμικά χωρίς να ξανα-εκπαιδεύσει.

Ο đơnός-πλαισίου και υψηλής ταχύτητας aligner διαθέσιμος στο F-16.

Αυτή η ευελιξία ermöglicht στο μοντέλο να λειτουργήσει αποτελεσματικά σε χαμηλότερους FPS όταν δεν απαιτείται υψηλή ακρίβεια, και μειώνει τους υπολογιστικούς κόστους.

Κατά τη διάρκεια της δοκιμής, όταν ένας χαμηλότερος ρυθμός πλαισίων επιλέγεται, το F-16 επαναχρησιμοποιεί προ-εκπαιδευμένα παραμέτρους του aligner επαναλαμβάνοντας τα πλαισιά για να ταιριάζει με τις αναμενόμενες διαστάσεις. Αυτό đảmوزει ότι το μοντέλο μπορεί ακόμη να επεξεργαστεί βίντεο αποτελεσματικά χωρίς να τροποποιήσει την αρχιτεκτονική του.

Αντιθέτως με την αφέλεια downsampling (δηλαδή, απλώς αφαιρώντας πλαισιά), η οποία κινδυνεύει να χάσει κρίσιμες κινήσεις-λεπτομέρειες, αυτή η μέθοδος διατηρεί τις αναγνωρισμένες κινήσεις-αναπαραστάσεις του aligner, διατηρώντας την ακρίβεια ακόμη και σε μειωμένους ρυθμούς πλαισίων.

Δεδομένα και Δοκιμές

Χτισμένο στο Qwen2-7B, το FP-16 επεκτείνει το LLaVA-OneVision χρησιμοποιώντας SigLIP ως image encoder. Με τα βίντεο πλαισιά δειγματαμένα σε 16 FPS, μέχρι 1,760 πλαισιά μπορούν να ληφθούν από κάθε βίντεο. Για μεγαλύτερα βίντεο κλιπ, τα πλαισιά δειγματαμένα ομοιόμορφα (δηλαδή, πιο σπάνια).

Για την εκπαίδευση, το F-16 χρησιμοποίησε τα ίδια γενικά σύνολα δεδομένων βίντεο όπως LLaVA-Video, συμπεριλαμβανομένων LLaVA-Video-178K, NExT-QA, ActivityNet-QA, και PerceptionTest.

Το F-16 ήταν επίσης fine-τροποποιημένο στο σύνολο δεδομένων αθλητικών υψηλής ταχύτητας FineGym, Diving48, και SoccerNet. Οι συγγραφείς επίσης συγκέντρωσαν μια συλλογή από 276 παιχνίδια NBA που παίχθηκαν μεταξύ 13 και 25 Νοεμβρίου 2024, εστιάζοντας στο αν η μπάλα κινήθηκε και οι ενέργειες των παικτών, και αν το μοντέλο μπορούσε να καθορίσει σωστά αν ένας σουτ ήταν επιτυχημένος, χρησιμοποιώντας το NSVA δοκιμαστικό σύνολο αξιολογημένο με F1 score.

Το μοντέλο αξιολογήθηκε χρησιμοποιώντας το NSVA test set, με την απόδοση να μετράται από F1 score.

Τα μοντέλα γυμναστικής και καταδύσεων αξιολογήθηκαν με βάση την ακρίβεια αναγνώρισης γεγονότων, ενώ τα μοντέλα ποδοσφαίρου και μπάσκετ ανίχνευσαν πάσες και αποτελέσματα σουτ.

Το μοντέλο εκπαιδεύτηκε για 1 epoch χρησιμοποιώντας 128 NVIDIA H100 GPUs (και σε ένα τυπικό 80GB της VRAM ανά GPU, αυτό συνεπαγόταν τη χρήση 10,24 terabytes της GPU μνήμης, ακόμη και με πρόσφατους προτύπους, αυτό είναι το υψηλότερο-προδιαγραφών GPU cluster που έχω προσωπικά συναντήσει στην παρακολούθηση της βιβλιογραφίας της υπολογιστικής όρασης). Ένας ρυθμός μάθησης 2×10⁻⁵ χρησιμοποιήθηκε κατά την εκπαίδευση.

Επιπλέον, ένα LoRA fine-τροποποιήθηκε στα αθλητικά δεδομένα χρησιμοποιώντας LoRA adapters με 64 GPUs για 5 epochs. Εδώ, μόνο το LLM εκπαιδεύτηκε, αφήνοντας τον image encoder παγωμένο.

Αντιπαλικά πλαίσια δοκιμάστηκαν στο αρχικό γύρο για ‘γενική κατανόηση βίντεο’ ήταν GPT-4o, Gemini-1.5-Pro, Qwen2-VL-7B, VideoLLaMA2-7B, VideoChat2-HD-7B, LLaVA-OV-7B, MiniCPM-V2.6-8B, LLaVA-Video-7B, και NVILA-7B.

Τα μοντέλα αξιολογήθηκαν στο Video-MME, VideoVista, TemporalBench, MotionBench, Next-QA, MLVU, και <a href="https://github.com/longvideobench/LongVideoBench"attachment_214091" align="alignnone" width="806"] Σύγκριση αποτελεσμάτων ερωτήσεων βίντεο μεταξύ μοντέλων, δείχνοντας τα όρια FPS και την απόδοση σε πολλαπλά benchmarks. Το F-16 επιτυγχάνει SOTA μεταξύ των 7B μοντέλων στο Video-MME, NQA, TPB, και MB, ισοδυναμώντας με εμπορικά μοντέλα όπως GPT-4o και Gemini-1.5-Pro. Σύγκριση αποτελεσμάτων ερωτήσεων βίντεο μεταξύ μοντέλων, δείχνοντας τα όρια FPS και την απόδοση σε πολλαπλά benchmarks. Το F-16 επιτυγχάνει SOTA μεταξύ των 7B μοντέλων στο Video-MME, NQA, TPB, και MB, ισοδυναμώντας με εμπορικά μοντέλα όπως GPT-4o και Gemini-1.5-Pro.[/caption]

Από αυτά τα αποτελέσματα, οι συγγραφείς δηλώνουν:

‘Στο Video-MME Short, Medium, και NeXT-QA datasets—κάθε ένα σχεδιασμένο για σύντομη κατανόηση βίντεο—το μοντέλο μας υπερβαίνει το προηγούμενο 7B SOTA μοντέλο κατά 3.2%, 1.0%, και 0.9% στην ακρίβεια, υπογραμμίζοντας την ισχυρή απόδοσή του σε σύντομα βίντεο.

‘Για benchmarks που αξιολογούν την κατανόηση μακρών βίντεο, όπως το Video-MME Long, LongVideoBench, και MLVU, η πρόκληση είναι μεγαλύτερη λόγω σπανιότερου δειγμάτωσης πλαισίων, προκαλώντας τα πλαισιά μέσα στο παράθυρο επεξεργασίας να εμφανίζουν σημαντικές παραλλαγές.

‘Αυτό αυξάνει τη δυσκολία για τον aligner να κωδικοποιήσει αποτελεσματικά τις χρονικές αλλαγές μέσα στην περιορισμένη αναπαράσταση token. Ως αποτέλεσμα, το F-16 βιώνει μια μικρή πτώση της απόδοσης σε σύγκριση με [LLaVA-Video-7B], το οποίο έχει εκπαιδευτεί στο ίδιο σύνολο δεδομένων βίντεο.’

Το F-16’s υψηλής ταχύτητας επεξεργασία, οι συγγραφείς συνεχίζουν, επίσης οδήγησε σε μια βελτίωση 13.5% στο TemporalBench και μια κέρδη 2.5% στο MotionBench, σε σύγκριση με τα υπάρχοντα 7B μοντέλα, και εκτέλεσε σε παρόμοιο επίπεδο με εμπορικά μοντέλα όπως GPT-4o και Gemini-1.5-Pro.

Υψηλής Ταχύτητας Αθλητικά Βίντεο Κατανόηση

Το F-16 δοκιμάστηκε στα FineGym, Diving48, SoccerNet, και NBA datasets για να αξιολογήσει την ικανότητά του να κατανοήσει υψηλής ταχύτητας αθλητικές ενέργειες.

Χρησιμοποιώντας τα 10,000 χειροκίνητα αναγνωρισμένα NBA κλιπ, η εκπαίδευση εστιάστηκε στην κίνηση της μπάλας και τις ενέργειες των παικτών, και αν το μοντέλο μπορούσε να καθορίσει σωστά αν ένας σουτ ήταν επιτυχημένος, χρησιμοποιώντας το NSVA δοκιμαστικό σύνολο αξιολογημένο με F1 score.

Αποτελέσματα υψηλής ταχύτητας αθλητικού βίντεο ανάλυσης. Το F-16 με τον υψηλής ταχύτητας aligner εκτέλεσε καλύτερα από τον χαμηλής ταχύτητας ομόλογό του σε όλες τις αθλητικές εργασίες. GPT-4o και Gemini-1.5-Pro αξιολογήθηκαν επίσης στο NBA και SoccerNet QA, όπου δεν απαιτούνταν γνώσεις εκπαίδευσης.

Στο FineGym, το οποίο μετρά την αναγνώριση γυμναστικής δράσης, το F-16 εκτέλεσε 13.8% καλύτερα από το προηγούμενο 7B SOTA μοντέλο, δείχνοντας βελτιωμένη λεπτομερή κατανόηση κίνησης.

Το Diving48 απαιτούσε την αναγνώριση σύνθετων κινήσεων ακολουθιών όπως η εκκίνηση, somersault, twist, και flight φάσεις, και το F-16 έδειξε υψηλότερη ακρίβεια στην αναγνώριση αυτών των μεταβάσεων.

Για το SoccerNet, το μοντέλο ανέλυσε 10-δευτερόλεπτα κλιπ, αναγνωρίζοντας πάσες μπάλας, και τα αποτελέσματα έδειξαν μια βελτίωση σε σχέση με τα υπάρχοντα 7B μοντέλα, υποδεικνύοντας ότι υψηλότερη FPS συνεισφέρει στην παρακολούθηση μικρών και ταχέων κινήσεων.

Στο NBA dataset, η ικανότητα του F-16 να καθορίσει τα αποτελέσματα σουτ προσελάβεσε την ακρίβεια μεγαλύτερων εμπορικών μοντέλων όπως GPT-4o και Gemini-1.5-Pro, υποδεικνύοντας περαιτέρω ότι υψηλότερη ταχύτητα πλαισίων βελτιώνει την ικανότητά του να επεξεργαστεί δυναμική κίνηση.

Μεταβλητή Ταχύτητα Πλαισίων

Το F-16 δοκιμάστηκε σε διαφορετικές ταχύτητες πλαισίων για να μετρήσει την προσαρμοστικότητά του. Αντί να ξανα-εκπαιδευτεί, χειρίστηκε χαμηλότερους FPS επαναλαμβάνοντας πλαισιά για να ταιριάζει με τη δομή εισόδου του aligner. Αυτή η προσέγγιση διατήρησε περισσότερη απόδοση από το απλό αφαιρέσιμο πλαισίων (το οποίο κινδύνευε να οδηγήσει σε απώλεια ακρίβειας).

Τα αποτελέσματα δείχνουν ότι ενώ η μείωση του FPS είχε κάποιο αντίκτυπο στην αναγνώριση κίνησης, το F-16 εξακολουθούσε να υπερβαίνει τα χαμηλής ταχύτητας μοντέλα και διατήρησε ισχυρά αποτελέσματα ακόμη και κάτω από 16 FPS.

Αριστερά, η κατανάλωση χρόνου των διαφορετικών F-16 modules κατά τη διάρκεια της συλλογής, μετρημένη σε 300 βίντεο από το Video-MME Long set σε διαφορετικές δοκιμαστικές FPS και μήκη ακολουθιών. Δεξιά, μια σύγκριση μεταξύ Video-MME απόδοσης για μοντέλα που εκπαιδεύτηκαν και δοκιμάστηκαν σε διαφορετικές FPS. Η στερεή γραμμή αντιπροσωπεύει μοντέλα που εκπαιδεύτηκαν και δοκιμάστηκαν στην ίδια FPS, ενώ η пункτιρική γραμμή δείχνει την απόδοση όταν ένα μοντέλο εκπαιδεύτηκε σε 16 FPS και δοκιμάστηκε σε χαμηλότερη ταχύτητα πλαισίων.

Η υψηλής ταχύτητας επεξεργασία του F-16 αυξάνει τις υπολογιστικές απαιτήσεις, αν και ο aligner του βοηθά να διαχειριστεί αυτές τις απαιτήσεις συμπιέζοντας τις περιττές οπτικές tokens.

Το μοντέλο απαιτεί περισσότερους FLOPs ανά βίντεο από τα χαμηλής ταχύτητας μοντέλα, αλλά επίσης επιτυγχάνει καλύτερη ακρίβεια ανά token, υποδεικνύοντας ότι οι στρατηγικές επιλογής πλαισίων και συμπίεσης token του βοήθησαν να αντισταθμίσουν την πρόσθετη υπολογιστική.

Συμπέρασμα

Είναι δύσκολο να υπερβολήσει είτε την σημασία είτε τις προκλήσεις αυτής της συγκεκριμένης έρευνας – ιδιαίτερα φέτος, το οποίο είναι πιθανό να είναι το έτος διάρρηξης για τη γεννήτρια βίντεο, ρίχνοντας τις ελλείψεις της κατεργασίας και της ποιότητας των υπότιτλων βίντεο σε έντονη αντίθεση.

Πρέπει επίσης να τονιστεί ότι οι προκλήσεις που εμπλέκονται στην απόκτηση ακριβών περιγραφών εσωτερικών λεπτομερειών βίντεο δεν possono να επιλυθούν αποκλειστικά ρίχνοντας VRAM, χρόνο ή χώρο δίσκου στο πρόβλημα. Ο τρόπος με τον οποίο τα γεγονότα απομονώνονται/εξάγονται από αλλιώς μακρές και βαρετές πορείες βίντεο (όπως με τα βίντεο γκολφ ή σνούκερ κλιπ, για παράδειγμα) θα ωφεληθεί από μια ανασκόπηση των σημασιολογικών προσεγγίσεων και των μηχανισμών που κυριαρχούν σήμερα στις SOTA λύσεις – επειδή κάποιες από αυτές τις περιορισμοί καθορίστηκαν σε πιο φτωχούς σε πόρους χρόνους.

(παρά την ταχύτητα των 16fps να φαίνεται πολύ χαμηλή για το 2025, είναι ενδιαφέρον να σημειωθεί ότι αυτή είναι επίσης η εγγενής ταχύτητα εκπαίδευσης των βίντεο κλιπ που χρησιμοποιούνται στο πολύ δημοφιλές Wan 2.1 γεννήτρια βίντεο, και η ταχύτητα με την οποία λειτουργεί με τις λιγότερες δυσκολίες. Ελπίζουμε ότι η ερευνητική σκηνή θα κρατήσει το μάτι της σε πιθανή ‘εντροπία προτύπων’ εδώ, đôiες φορές οι παλαιές περιορισμοί μπορεί να επιμείνουν σε μελλοντικά πρότυπα)

Πρώτη δημοσίευση την Τετάρτη, 19 Μαρτίου 2025

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]