Η γωνία του Anderson

Γιατί το AI Βίντεο Πηγαίνει Πίσω

mm
ChatGPT/Firefly image depicting a jet-skier impossibly leaving a wake in front of himself.

Εάν το 2022 ήταν το έτος που η γεννητική AI κατέκτησε την φαντασία του ευρύτερου κοινού, το 2025 είναι το έτος όπου η νέα γενιά γεννητικών πλαισίων βίντεο που προέρχονται από την Κίνα φαίνεται να κάνει το ίδιο.

Το Hunyuan Video της Tencent έχει κάνει μια μεγάλη επιρροή στην κοινότητα των χομπίστας AI με την ανοιχτή πηγή της πλήρους μοντέλου διάχυσης βίντεο που οι χρήστες μπορούν να προσαρμόσουν στις ανάγκες τους.

Κοντά στα πίσω της είναι το πιο πρόσφατο Wan 2.1 της Alibaba, ένα από τα πιο ισχυρά λύσεις FOSS εικόνας-βίντεο της περιόδου – τώρα υποστηρίζοντας προσαρμογή μέσω Wan LoRAs.

Εκτός από τη διαθεσιμότητα του πρόσφατου ανθρώπινου κεντρικού μοντέλου SkyReels, την ώρα της γραφής περιμένουμε την κυκλοφορία του ολοκληρωμένου VACE βίντεο δημιουργίας και επεξεργασίας ομαδίου της Alibaba:

Κάντε κλικ για αναπαραγωγή. Η αναμενόμενη κυκλοφορία του πολυλειτουργικού ομαδίου επεξεργασίας AI της Alibaba VACE έχει ενθουσιάσει την κοινότητα των χρηστών. Πηγή: https://ali-vilab.github.io/VACE-Page/

Εξαιρετική Επίδραση

Η έρευνα για τη γεννητική βίντεο AI είναι εξίσου εκρηκτική: είναι ακόμη η πρώτη helf του Μαρτίου και οι υποβολές της Τρίτης στο τμήμα Υπολογιστικής Όρασης του Arxiv (ένα κέντρο για τα γεννητικά μοντέλα AI) έφτασαν σχεδόν τις 350 συμμετοχές – ένας αριθμός που συνδέεται με το υψηλότερο σημείο της εποχής των συνεδρίων.

Τα δύο χρόνια από την εκτόξευση της Stable Diffusion το καλοκαίρι του 2022 (και την επακόλουθη ανάπτυξη του Dreambooth και LoRA μεθόδων προσαρμογής) χαρακτηρίστηκαν από την έλλειψη περαιτέρω σημαντικών εξελίξεων, μέχρι τις τελευταίες εβδομάδες, όπου νέες κυκλοφορίες και καινοτομίες προχώρησαν με τέτοιο ταχύ ρυθμό που είναι σχεδόν αδύνατο να ενημερωθούμε για όλα, ακόμη και να τα καλύψουμε όλα.

Τα μοντέλα διάχυσης βίντεο όπως το Hunyuan και το Wan 2.1 έχουν λύσει, επιτέλους, και μετά από χρόνια αποτυχημένων προσπαθειών από εκατοντάδες ερευνητικές πρωτοβουλίες, το πρόβλημα της χρονικής συνεχείας όπως σχετίζεται με τη γεννήθεια ανθρώπων και σε μεγάλο βαθμό επίσης με περιβάλλοντα και αντικείμενα.

Δεν υπάρχει αμφιβολία ότι τα στούντιο VFX εφαρμόζουν τώρα προσωπικό και πόρους για την προσαρμογή των νέων κινέζικων μοντέλων βίντεο για να λύσουν άμεσες προκλήσεις όπως η ανταλλαγή προσώπων, παρά την τρέχουσα έλλειψη ControlNet-τυπικών βοηθητικών μηχανισμών για αυτά τα συστήματα.

Πρέπει να είναι μια μεγάλη ανακούφιση ότι ένα τόσο σημαντικό εμπόδιο έχει πιθανώς ξεπεραστεί, αν και όχι από τους προβλεπόμενους δρόμους.

Από τα προβλήματα που παραμένουν, αυτό δεν είναι ασήμαντο:

Κάντε κλικ για αναπαραγωγή. Βασισμένο στο prompt ‘Μια μικρή πέτρα κυλά xuống một απότομο, βραχώδη λόφο, μετακινώντας έδαφος και μικρά πέτρες ‘, το Wan 2.1, το οποίο πέτυχε τους υψηλότερους βαθμούς στο νέο έγγραφο, κάνει ένα απλό λάθος. Πηγή: https://videophy2.github.io/

Αντιστρόφως

Όλα τα συστήματα κειμένου-βίντεο και εικόνας-βίντεο που είναι διαθέσιμα현재, συμπεριλαμβανομένων των εμπορικών κλειστών μοντέλων, έχουν την τάση να παράγουν σφάλματα φυσικής όπως αυτό που εμφανίζεται παραπάνω, όπου το βίντεο δείχνει μια πέτρα που κυλά αντιστρόφως, βασισμένο στο prompt ‘Μια μικρή πέτρα κυλά xuống ένα απότομο, βραχώδη λόφο, μετακινώντας έδαφος και μικρά πέτρες ‘.

Μια θεωρία για το γιατί συμβαίνει αυτό, πρόσφατα προ提θηκε σε μια ακαδημαϊκή συνεργασία μεταξύ της Alibaba και των ΗΑΕ, είναι ότι τα μοντέλα εκπαιδεύονται πάντα σε單ικές εικόνες, σε ένα βαθμό, ακόμη και όταν εκπαιδεύονται σε βίντεο (τα οποία γράφονται σε αλληλουχίες καρέ για σκοπούς εκπαίδευσης) και μπορεί να μην μάθουν πάντα τη σωστή χρονική σειρά των ‘πριν’ και ‘μετά’ εικόνων.

Ωστόσο, η πιο πιθανή λύση είναι ότι τα μοντέλα που αναφέρονται έχουν χρησιμοποιήσει βελτιώσεις δεδομένων που περιλαμβάνουν την έκθεση ενός αρχικού clip εκπαίδευσης στο μοντέλο και προς τα εμπρός και προς τα πίσω, αποτελεσματικά διπλασιάζοντας τα δεδομένα εκπαίδευσης.

Έχει γνωστοποιηθεί ότι αυτό δεν πρέπει να γίνει αυθαίρετα, επειδή κάποιες κινήσεις λειτουργούν ανάποδα, αλλά πολλές δεν κάνουν. Μια μελέτη του 2019 από το Πανεπιστήμιο του Μπρίστολ του Ηνωμένου Βασιλείου προσπάθησε να αναπτύξει μια μέθοδο που θα μπορούσε να διακρίνει ισοδύναμα, αμετάβλητα και αστραπιαία πηγαία βίντεο κλιπ που συνυπάρχουν σε ένα ενιαίο σύνολο δεδομένων (βλέπε εικόνα παρακάτω), με την έννοια ότι μη κατάλληλα κλιπ πηγαίου μπορεί να φιλτράρονται από τις βελτιώσεις δεδομένων.

Παραδείγματα τριών τύπων κίνησης, μόνο ένας από τους οποίους είναι ελεύθερα αναστρέψιμος διατηρώντας πιστό φυσικό δυναμικό. Πηγή: https://arxiv.org/abs/1909.09422

Παραδείγματα τριών τύπων κίνησης, μόνο ένας από τους οποίους είναι ελεύθερα αναστρέψιμος διατηρώντας πιστό φυσικό δυναμικό. Πηγή: https://arxiv.org/abs/1909.09422

Οι συγγραφείς του έργου τοποθετούν το πρόβλημα σαφώς:

‘Βρίσκουμε την πραγματικότητα των αναστραμμένων βίντεο να προδίδεται από αρτηρίες αναστροφής, πτυχές της σκηνής που δεν θα ήταν δυνατόν σε ένα φυσικό κόσμο. Κάποιες αρτηρίες είναι λεπτές, ενώ άλλες είναι εύκολες να εντοπιστούν, όπως μια αναστραμμένη δράση ‘ρίψης’ όπου το αντικείμενο που ρίχνεται αναρτάται αυθόρμητα από το δάπεδο.

‘Παρατηρούμε δύο τύπους αρτηριών αναστροφής, φυσικές, αυτές που εμφανίζουν παραβιάσεις των νόμων της φύσης, και απίθανες, αυτές που απεικονίζουν μια δυνατή αλλά απίθανη σκηνή. Αυτά δεν είναι αποκλειστικά, και πολλές αναστραμμένες δράσεις υποφέρουν και από τους δύο τύπους αρτηριών, όπως όταν ξεδιπλώνονται ένα κομμάτι χαρτί.

‘Παραδείγματα φυσικών αρτηριών περιλαμβάνουν: αντίστροφη βαρύτητα (π.χ. ‘ρίχνω κάτι’), αυθόρμητες προθέσεις σε αντικείμενα (π.χ. ‘περιστρέφω ένα στυλό’), και αμετάβλητες αλλαγές κατάστασης (π.χ. ‘καίω μια κερήθρα’). Ένα παράδειγμα μιας απίθανης αρτηρίας: παίρνω ένα πιάτο από το ντουλάπι, το στεγνώνω και το τοποθετώ στο ράφι στεγνώματος.

‘Είδος αυτής της επαναχρησιμοποίησης δεδομένων είναι πολύ συνηθισμένο κατά την εκπαίδευση, και μπορεί να είναι επωφελές – για παράδειγμα, για να βεβαιωθούμε ότι το μοντέλο δεν μαθαίνει μόνο μια άποψη μιας εικόνας ή αντικειμένου που μπορεί να γυρίσει ή να περιστραφεί χωρίς να χάσει την κεντρική του λογική και συνάφεια.

‘Αυτό λειτουργεί μόνο για αντικείμενα που είναι πραγματικά συμμετρικά, φυσικά: και η μάθηση φυσικής από ένα ‘αναστραμμένο’ βίντεο λειτουργεί μόνο αν η αναστραμμένη εκδοχή έχει τόσο νόημα όσο και η προώθηση.

Προσωρινές Αναστροφές

Δεν έχουμε κανένα στοιχείο ότι συστήματα όπως το Hunyuan Video και το Wan 2.1 επέτρεψαν αυθαίρετα ‘αναστραμμένα’ κλιπ να εκτεθούν στο μοντέλο κατά την εκπαίδευση (κανένας από τους ερευνητές δεν ήταν συγκεκριμένος σχετικά με τις βελτιώσεις δεδομένων).

Ωστόσο, η μόνη λογική εναλλακτική πιθανότητα, αντιμέτωπη με πολλές αναφορές (και την προσωπική μου πρακτική εμπειρία), θα φαινόταν να είναι ότι τα υπερκλίμακα σύνολα δεδομένων που τροφοδοτούν αυτά τα μοντέλα μπορεί να περιέχουν κλιπ που πραγματικά εμφανίζουν κινήσεις που συμβαίνουν ανάποδα.

Η πέτρα στο παραπάνω ενσωματωμένο βίντεο δημιουργήθηκε χρησιμοποιώντας το Wan 2.1 και εμφανίζεται σε μια νέα μελέτη που εξετάζει πώς καλά χειρίζονται τα μοντέλα διάχυσης βίντεο τη φυσική.

Σε δοκιμές για αυτό το έργο, το Wan 2.1 πέτυχε ένα σκορ μόνο 22% όσον αφορά την ικανότητά του να τηρεί συνεχώς τους φυσικούς νόμους.

Ωστόσο, αυτό είναι το καλύτερο σκορ οποιασδήποτε συστήματος που δοκιμάστηκε για το έργο, υποδεικνύοντας ότι μπορεί να έχουμε βρει το επόμενο εμπόδιο μας για τη βίντεο AI:

Σκορ που επιτεύχθηκαν από τα ηγετικά ανοιχτά και κλειστά μοντέλα, με την έξοδο των πλαισίων να αξιολογείται από ανθρώπινους ανανεωτές. Πηγή: https://arxiv.org/pdf/2503.06800

Σκορ που επιτεύχθηκαν από τα ηγετικά ανοιχτά και κλειστά μοντέλα, με την έξοδο των πλαισίων να αξιολογείται από ανθρώπινους ανανεωτές. Πηγή: https://arxiv.org/pdf/2503.06800

Οι συγγραφείς του νέου έργου έχουν αναπτύξει ένα σύστημα αξιολόγησης, τώρα στη δεύτερη ιteration, που ονομάζεται VideoPhy, με τον κώδικα διαθέσιμο στο GitHub.

Хотя ο σκοπός του έργου είναι πέρα από αυτό που μπορούμε να καλύψουμε εδώ, ας δούμε μια γενική ματιά στη μεθοδολογία του και την πιθανότητά του να καθορίσει einen μετρήσιμο που θα μπορούσε να οδηγήσει το δρόμο των μελλοντικών συνεδρίων εκπαίδευσης μακριά από αυτές τις περίεργες περιπτώσεις αναστροφής.

Η μελέτη, που διεξήχθη από έξι ερευνητές από το UCLA και την Google Research, ονομάζεται VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation. Ένα πολυσύχναστο συνοδευτικό τοποθεσία έργου είναι επίσης διαθέσιμο, μαζί με κώδικα και σύνολα δεδομένων στο GitHub, και ένα dataset viewer στο Hugging Face.

Κάντε κλικ για αναπαραγωγή. Εδώ, το φημισμένο OpenAI Sora μοντέλο δεν καταλαβαίνει τις αλληλεπιδράσεις μεταξύ κουπιά και ανακλάσεων και δεν είναι σε θέση να παρέχει μια λογική φυσική ροή για το άτομο στο σκάφος ή τον τρόπο που το σκάφος αλληλεπιδρά μαζί του.

Μέθοδος

Οι συγγραφείς περιγράφουν την τελευταία έκδοση του έργου τους, VideoPhy-2, ως ‘πρόκληση αξιολόγησης για πραγματικές δράσεις’. Η συλλογή περιλαμβάνει 197 δράσεις σε μια σειρά από διαφορετικές φυσικές δραστηριότητες όπως χούλα-χούπ, γυμναστική και τένις, καθώς και αλληλεπιδράσεις αντικειμένων, όπως πτύχωση ενός αντικειμένου μέχρι να σπάσει.

Ένα μεγάλο γλωσσικό μοντέλο (LLM) χρησιμοποιείται για τη δημιουργία 3840 prompts από αυτές τις δράσεις, και τα prompts χρησιμοποιούνται για τη σύνθεση βίντεο μέσω των διαφόρων πλαισίων που δοκιμάζονται.

Κατά τη διάρκεια της διαδικασίας, οι συγγραφείς έχουν αναπτύξει μια λίστα ‘υποψήφιων’ φυσικών κανόνων και νόμων που τα AI-γεννημένα βίντεο πρέπει να ικανοποιούν, χρησιμοποιώντας μοντέλα όρασης-γλώσσας για αξιολόγηση.

Οι συγγραφείς δηλώνουν:

‘Για παράδειγμα, σε ένα βίντεο ενός αθλητή που παίζει τένις, ένας φυσικός κανόνας θα ήταν ότι μια μπάλα τένις πρέπει να ακολουθήσει μια παραβολική τροχιά υπό τη βαρύτητα. Για gold-standard κρίσεις, ζητάμε από ανθρώπινους ανανεωτές να βαθμολογούν κάθε βίντεο με βάση την συνολική σεμαντική συμμόρφωση και φυσική συνείδηση, και να σημειώνουν τη συμμόρφωσή του με διάφορους φυσικούς κανόνες.’

Πάνω: Ένα prompt δημιουργείται από μια δράση χρησιμοποιώντας ένα LLM και χρησιμοποιείται για τη δημιουργία ενός βίντεο με ένα text-to-video γεννήτορα. Ένα μοντέλο όρασης-γλώσσας υποτιτλίζει το βίντεο, αναγνωρίζοντας πιθανές φυσικές κανόνες που ισχύουν. Κάτω: Ανθρώπινοι ανανεωτές αξιολογούν τη ρεαλιστικότητα του βίντεο, επιβεβαιώνουν παραβιάσεις κανόνων, προσθέτουν λείπους κανόνες και ελέγχουν αν το βίντεο αντιστοιχεί στο αρχικό prompt.

Πάνω: Ένα prompt δημιουργείται από μια δράση χρησιμοποιώντας ένα LLM και χρησιμοποιείται για τη δημιουργία ενός βίντεο με ένα text-to-video γεννήτορα. Ένα μοντέλο όρασης-γλώσσας υποτιτλίζει το βίντεο, αναγνωρίζοντας πιθανές φυσικές κανόνες που ισχύουν. Κάτω: Ανθρώπινοι ανανεωτές αξιολογούν τη ρεαλιστικότητα του βίντεο, επιβεβαιώνουν παραβιάσεις κανόνων, προσθέτουν λείπους κανόνες και ελέγχουν αν το βίντεο αντιστοιχεί στο αρχικό prompt.

Αρχικά, οι ερευνητές καλλιέργησαν ένα σύνολο δράσεων για να αξιολογήσουν τη φυσική συνείδηση στα AI-γεννημένα βίντεο. Ξεκίνησαν με πάνω από 600 δράσεις από τα Kinetics, UCF-101, και SSv2 σύνολα δεδομένων, εστιάζοντας σε δραστηριότητες που αφορούν αθλήματα, αλληλεπιδράσεις αντικειμένων και πραγματική φυσική.

Δύο ανεξάρτητες ομάδες STEM-εκπαιδευμένων φοιτητών-ανανεωτών (με ελάχιστη προπτυχιακή资格 που έχει αποκτηθεί) αναθεώρησαν και φίλτράραν τη λίστα, επιλέγοντας δράσεις που ελέγχουν αρχές όπως βαρύτητα, ορμή και ελαστικότητα, ενώ αφαιρούσαν χαμηλής κίνησης εργασίες όπως τυπωμένο, γλείφοντας μια γάτα, ή μασώντας.

Μετά από περαιτέρω βελτίωση με Gemini-2.0-Flash-Exp για να εξαφανίσουν διπλότυπα, το τελικό σύνολο δεδομένων περιελάμβανε 197 δράσεις, με 54 που αφορούν αλληλεπιδράσεις αντικειμένων και 143 που επικεντρώνονται σε φυσικές και αθλητικές δραστηριότητες:

Δείγματα από τις αποσταγμένες δράσεις.

Δείγματα από τις αποσταγμένες δράσεις.

Στο δεύτερο στάδιο, οι ερευνητές использовали Gemini-2.0-Flash-Exp για τη δημιουργία 20 prompts για κάθε δράση στο σύνολο δεδομένων, με αποτέλεσμα συνολικά 3.940 prompts. Η διαδικασία δημιουργίας επικεντρώθηκε σε ορατές φυσικές αλληλεπιδράσεις που θα μπορούσαν να αναπαρασταθούν σαφώς σε ένα γεννημένο βίντεο. Αυτό εξαιρούσε μη ορατά στοιχεία όπως συναισθήματα, αισθητηριακές λεπτομέρειες, και αφηρημένη γλώσσα, αλλά ενσωμάτωνε ποικίλους χαρακτήρες και αντικείμενα.

Για παράδειγμα, αντί για ένα απλό prompt όπως ‘Ένας τοξότης απελευθερώνει το βέλος’, το μοντέλο καθοδηγούσε να παράγει μια πιο λεπτομερή εκδοχή όπως Ένας τοξότης τραβά το τοξό назад σε πλήρη τάση, και στη συνέχεια απελευθερώνει το βέλος, το οποίο πετάει ευθύγραμμα και χτυπάει ένα βούλα σε ένα χαρτόνι στόχο.

Καθώς τα σύγχρονα μοντέλα βίντεο μπορούν να ερμηνεύσουν μεγαλύτερες περιγραφές, οι ερευνητές βελτίωσαν περαιτέρω τις λεζάντες χρησιμοποιώντας το Mistral-NeMo-12B-Instruct prompt upsampler, για να προσθέσουν οπτικές λεπτομέρειες χωρίς να αλλάξουν την αρχική σημασία.

Δείγματα prompts από το VideoPhy-2, κατηγοριοποιημένα από φυσικές δραστηριότητες ή αλληλεπιδράσεις αντικειμένων. Κάθε prompt είναι ζευγαρωμένο με την αντίστοιχη δράση και τον σχετικό φυσικό κανόνα που ελέγχει.

Δείγματα prompts από το VideoPhy-2, κατηγοριοποιημένα από φυσικές δραστηριότητες ή αλληλεπιδράσεις αντικειμένων. Κάθε prompt είναι ζευγαρωμένο με την αντίστοιχη δράση και τον σχετικό φυσικό κανόνα που ελέγχει.

Για το τρίτο στάδιο, οι φυσικοί κανόνες δεν προέρχονταν από κείμενο-prompts αλλά από γεννημένα βίντεο,既然 τα γεννητικά μοντέλα μπορούν να δυσκολευτούν να τηρήσουν προϋποθετημένα κείμενο-prompts.

Βίντεο δημιουργήθηκαν πρώτα χρησιμοποιώντας prompts από το VideoPhy-2, και στη συνέχεια ‘up-captioned’ με Gemini-2.0-Flash-Exp για να εξαγάγουν κλειδιά λεπτομέρειες. Το μοντέλο πρότεινε τρεις αναμενόμενους φυσικούς κανόνες ανά βίντεο, τους οποίους ανθρώπινοι ανανεωτές αναθεώρησαν και επέκτειναν αναγνωρίζοντας πρόσθετες πιθανές παραβιάσεις.

Παραδείγματα από τις upsampled λεζάντες.

Παραδείγματα από τις upsampled λεζάντες.

Επόμενο, για να αναγνωρίσουν τις πιο απαιτητικές δράσεις, οι ερευνητές γεννήθηκαν βίντεο χρησιμοποιώντας CogVideoX-5B με prompts από το σύνολο δεδομένων VideoPhy-2. Στη συνέχεια, επέλεξαν 60 δράσεις από τις 197 όπου το μοντέλο συνέχισε να αποτυγχάνει να ακολουθήσει τόσο τα prompts όσο και τη βασική φυσική συνείδηση.

Αυτές οι δράσεις αφορούσαν φυσικά πλούσιες αλληλεπιδράσεις όπως η μεταφορά ορμής σε ρίψη δίσκου, αλλαγές κατάστασης όπως η πτύχωση ενός αντικειμένου μέχρι να σπάσει, εργασίες ισορροπίας όπως το περπάτημα σε στενή γραμμή, και σύνθετες κινήσεις που περιελάμβαναν πίσω-πеред, πόλο-βάλαμο, και ρίψη πίτσας, μεταξύ άλλων. Συνολικά, 1.200 prompts επιλέχθηκαν για να αυξήσουν τη δυσκολία του υποσυνόλου.

Το αποτέλεσμα σύνολο δεδομένων αποτελούσε 3.940 λεζάντες – 5.72 φορές περισσότερο από την προηγούμενη έκδοση του VideoPhy. Η μέση μήκος των αρχικών λεζάντων είναι 16 tokens, ενώ οι upsampled λεζάντες φτάνουν τα 138 tokens – 1.88 φορές και 16.2 φορές μεγαλύτερο, αντίστοιχα.

Το σύνολο δεδομένων περιλαμβάνει επίσης 102.000 ανθρώπινες αναnotations που καλύπτουν σεμαντική συμμόρφωση, φυσική συνείδηση, και παραβιάσεις κανόνων σε πολλαπλά μοντέλα γεννήσεων βίντεο.

Αξιολόγηση

Οι ερευνητές ορίζουν σαφείς κριτήρια για την αξιολόγηση των βίντεο. Ο κύριος στόχος ήταν να αξιολογήσουν πόσο καλά κάθε βίντεο αντιστοιχούσε στο εισαγόμενο prompt και ακολουθούσε βασικούς φυσικούς κανόνες.

Αντί να βαθμολογούν απλά τα βίντεο με βάση την προτίμηση, χρησιμοποίησαν βαθμολογούμενη ανατροφοδότηση για να καταγράψουν συγκεκριμένες επιτυχίες και αποτυχίες. Ανθρώπινοι ανανεωτές βαθμολογούσαν τα βίντεο σε μια κλίμακα των πέντε βαθμών, επιτρέποντας πιο λεπτομερείς κρίσεις, ενώ η αξιολόγηση ελέγχει επίσης αν τα βίντεο ακολουθούν διάφορους φυσικούς κανόνες και νόμους.

Για ανθρώπινη αξιολόγηση, μια ομάδα 12 ανανεωτών επιλέχθηκε από δοκιμές στο Amazon Mechanical Turk (AMT), και παρείχαν βαθμολογίες μετά από λεπτομερείς απομακρυσμένες οδηγίες. Για δίκαιη αξιολόγηση, σεμαντική συμμόρφωση και φυσική συνείδηση αξιολογήθηκαν ξεχωριστά (στην αρχική μελέτη VideoPhy, αξιολογήθηκαν από κοινού).

Οι ανανεωτές πρώτα βαθμολογούσαν πόσο καλά τα βίντεο αντιστοιχούσαν στα εισαγόμενα prompts, και στη συνέχεια ξεχωριστά αξιολόγησαν τη φυσική πιθανοτητα, βαθμολογώντας παραβιάσεις κανόνων και τη γενική ρεαλιστικότητα σε μια κλίμακα των πέντε βαθμών. Chỉ τα αρχικά prompts παρουσιάστηκαν, για να διατηρηθεί μια δίκαιη σύγκριση μεταξύ των μοντέλων.

Η διεπαφή που παρουσιάστηκε στους ανανεωτές του AMT.

Η διεπαφή που παρουσιάστηκε στους ανανεωτές του AMT.

Хотя η ανθρώπινη κρίση παραμένει το χρυσό πρότυπο, είναι ακριβή και έρχεται με μια σειρά από περιορισμούς. Για αυτό, η αυτοματοποιημένη αξιολόγηση είναι απαραίτητη για ταχύτερες και πιο κλιμακωτές αξιολογήσεις μοντέλων.

Οι συγγραφείς του εγγράφου δοκιμάζουν διάφορα μοντέλα βίντεο-γλώσσας, συμπεριλαμβανομένων Gemini-2.0-Flash-Exp και VideoScore, στην ικανότητά τους να βαθμολογούν βίντεο για σεμαντική ακρίβεια και για ‘φυσική συνείδηση’.

Τα μοντέλα ξαναβαθμολογούν κάθε βίντεο σε μια κλίμακα των πέντε βαθμών, ενώ μια ξεχωριστή ταξινόμηση καθορίζει αν οι φυσικοί κανόνες ακολουθούνται, παραβιάζονται, ή είναι ασαφείς.

Πειράματα έδειξαν ότι τα υπάρχοντα μοντέλα βίντεο-γλώσσας δυσκολεύονται να ταιριάζουν με ανθρώπινες κρίσεις, κυρίως λόγω αδύναμης φυσικής λογικής και της πολυπλοκότητας των prompts. Για να βελτιώσουν την αυτοματοποιημένη αξιολόγηση, οι ερευνητές ανέπτυξαν VideoPhy-2-Autoeval, ένα 7B-παραμέτρων μοντέλο που σχεδιάστηκε για να παρέχει πιο ακριβείς προβλέψεις σε τρεις κατηγορίες: σεμαντική συμμόρφωση; φυσική συνείδηση; και συμμόρφωση κανόνων, που έχει ρυθμιστεί στο VideoCon-Physics μοντέλο χρησιμοποιώντας 50.000 ανθρώπινες αναnotations*.

Δεδομένα και Δοκιμές

Με αυτά τα εργαλεία στη θέση τους, οι συγγραφείς δοκιμάζουν eine σειρά από συστήματα γεννήσεων βίντεο, τόσο μέσω τοπικών εγκαταστάσεων όσο και, όπου χρειάζεται, μέσω εμπορικών API: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; και Luma Ray.

Τα μοντέλα προωθήθηκαν με upsampled λεζάντες όπου ήταν δυνατό, εκτός από το γεγονός ότι το Hunyuan Video και το VideoCrafter2 λειτουργούν υπό 77-token CLIP περιορισμούς, και δεν μπορούν να δεχθούν prompts πάνω από ένα bestimm μέγεθος.

Τα γεννημένα βίντεο διατηρήθηκαν κάτω από 6 δευτερόλεπτα,既然 η μικρότερη έξοδος είναι πιο εύκολη στην αξιολόγηση.

Τα δεδομένα οδήγησης προέρχονταν από το σύνολο δεδομένων VideoPhy-2, το οποίο χωρίστηκε σε ένα σύνολο αξιολόγησης και εκπαίδευσης. 590 βίντεο γεννήθηκαν ανά μοντέλο, εκτός από τα Sora και Ray2: λόγω του παράγοντα κόστους (ισοδύναμα χαμηλότερα νούμερα βίντεο γεννήθηκαν για αυτά).

(Παρακαλώ αναφερθείτε στο πηγή έγγραφο για περαιτέρω λεπτομέρειες αξιολόγησης, οι οποίες καταγράφονται εξαντλητικά εκεί)

Η αρχική αξιολόγηση ασχολήθηκε με φυσικές δραστηριότητες/αθλήματα (PA) και αλληλεπιδράσεις αντικειμένων (OI), και δοκιμάζουν τόσο το γενικό σύνολο δεδομένων όσο και το προαναφερθέν ‘δυσκολότερο’ υποσύνολο:

Αποτελέσματα από την αρχική γύρο.

Αποτελέσματα από την αρχική γύρο.

Εδώ οι συγγραφείς σχολιάζουν:

‘Ακόμη και το καλύτερο μοντέλο, Wan2.1-14B, επιτυγχάνει μόνο 32.6% και 21.9% στο πλήρες και στο ‘δυσκολότερο’ υποσύνολο του συνόλου δεδομένων μας, αντίστοιχα. Η σχετικά ισχυρή απόδοση του σε σύγκριση με άλλα μοντέλα μπορεί να αποδοθεί στη διαφοροποίηση των πολυμεσικών δεδομένων εκπαίδευσής του, μαζί με ισχυρή φιλτράρισή κίνησης που διατηρεί υψηλής ποιότητας βίντεο σε ένα ευρύ φάσμα δράσεων.

‘Επιπλέον, παρατηρούμε ότι κλειστά μοντέλα, όπως το Ray2, εκτελούνται χειρότερα από ανοιχτά μοντέλα όπως Wan2.1-14B και CogVideoX-5B. Αυτό υποδηλώνει ότι κλειστά μοντέλα δεν είναι απαραίτητα ανώτερα από ανοιχτά μοντέλα στην κατανόηση της φυσικής συνείδησης.

‘Παρατηρούμε επίσης ότι το Cosmos-Diffusion-7B επιτυγχάνει το δεύτερο καλύτερο σκορ στο ‘δυσκολότερο’ υποσύνολο, ακόμη και ξεπερνώντας το πολύ μεγαλύτερο μοντέλο HunyuanVideo-13B. Αυτό μπορεί να οφείλεται στην υψηλή αναπαράσταση ανθρώπινων δράσεων στα δεδομένα εκπαίδευσής του, μαζί με συνθετικά αποδομένα симуляσεις.’

Τα αποτελέσματα έδειξαν ότι τα μοντέλα βίντεο δυσκολεύονται περισσότερο με φυσικές δραστηριότητες όπως αθλήματα από ότι με απλές αλληλεπιδράσεις αντικειμένων. Αυτό υποδηλώνει ότι η βελτίωση των AI-γεννημένων βίντεο σε αυτήν την περιοχή θα απαιτήσει καλύτερα σύνολα δεδομένων – ιδιαίτερα υψηλής ποιότητας βίντεο από αθλήματα όπως τένις, δίσκος, μπέιζμπολ και κρίκετ.

Η μελέτη εξέτασε επίσης αν η φυσική πιθανοτητα ενός μοντέλου συσχετίζεται με άλλα μετρικά ποιότητας βίντεο, όπως αισθητική και ομαλή κίνηση. Τα ευρήματα αποκάλυψαν keine ισχυρή συσχετίση, που σημαίνει ότι ένα μοντέλο δεν μπορεί να βελτιώσει την απόδοσή του στο VideoPhy-2 απλά παράγοντας οπτικά ελκυστικά ή ομαλή κίνηση – χρειάζεται μια βαθύτερη κατανόηση της φυσικής συνείδησης.

Хотя το έγγραφο παρέχει πολλά ποιοτικά παραδείγματα, λίγα από τα στατικά παραδείγματα που παρέχονται στο PDF φαίνεται να σχετίζονται με τα εκτενή βίντεο παραδείγματα που οι συγγραφείς παρέχουν στην τοποθεσία του έργου. Για αυτό, θα εξετάσουμε μια μικρή επιλογή από τα στατικά παραδείγματα και στη συνέχεια κάποια από τα πραγματικά βίντεο του έργου.

Η πρώτη σειρά δείχνει βίντεο που γεννήθηκαν από το Wan2.1. (α) Στο Ray2, το jet-ski στα αριστερά καθυστερεί πριν κινηθεί προς τα πίσω. (β) Στο Hunyuan-13B, το σφυρί παραμορφώνεται στη μέση της κίνησης, και μια σπασμένη ξύλινη πλάκα εμφανίζεται απροσδόκητα. (γ) Στο Cosmos-7B, το δόρυ εκτινάσει άμμο πριν έρθει σε επαφή με το έδαφος.

Η πρώτη σειρά δείχνει βίντεο που γεννήθηκαν από το Wan2.1. (α) Στο Ray2, το jet-ski στα αριστερά καθυστερεί πριν κινηθεί προς τα πίσω. (β) Στο Hunyuan-13B, το σφυρί παραμορφώνεται στη μέση της κίνησης, και μια σπασμένη ξύλινη πλάκα εμφανίζεται απροσδόκητα. (γ) Στο Cosmos-7B, το δόρυ εκτινάσει άμμο πριν έρθει σε επαφή με το έδαφος.

Σχετικά με το παραπάνω ποιοτικό τεστ, οι συγγραφείς σχολιάζουν:

‘[Εμείς] παρατηρούμε παραβιάσεις της φυσικής συνείδησης, όπως jetskis που κινούνται ανormally σε ανάποδη κατεύθυνση και η παραμόρφωση ενός στερεού σφυριού, που αντιβαίνει τις αρχές της ελαστικότητας. Ωστόσο, ακόμη και το Wan2.1 πάσχει από την έλλειψη φυσικής συνείδησης, όπως φαίνεται στο [κλιπ που ενσωματώνεται στην αρχή του άρθρου].

‘Σε αυτή την περίπτωση, τονίζουμε ότι μια πέτρα αρχίζει να κυλά και να επιταχύνεται ανηφόρα, αντιβαίνοντας τον φυσικό νόμο της βαρύτητας.’

Παραδείγματα από την τοποθεσία του έργου:

Κάντε κλικ για αναπαραγωγή. Εδώ, η λεζάντα ήταν ‘Μια πρόσωπο στρέφει ενεργά μια βρεγμένη πετσέτα, νερό που ψεκάζει προς τα έξω σε μια ορατή καμπύλη’ – αλλά η πηγή του νερού είναι πολύ πιο σαν ένα νεροχύτη παρά μια πετσέτα.

Κάντε κλικ για αναπαραγωγή. Εδώ, η λεζάντα ήταν ‘Ένας χημικός ρίχνει một διαυγές υγρό από ένα βάζο σε ένα δοκιμαστικό σωλήνα, αποφεύγοντας σπίλες’, αλλά μπορούμε να δούμε ότι ο όγκος του νερού που προστίθεται στο βάζο δεν είναι συνεπής με τον όγκο που εξέρχεται από το δοχείο.

Όπως ανέφερα στην αρχή, ο όγκος του υλικού που συνδέεται με αυτό το έργο υπερβαίνει αυτό που μπορεί να καλυφθεί εδώ. Για αυτό, παρακαλώ αναφερθείτε στο πηγή έγγραφο, την τοποθεσία του έργου και τις σχετικές τοποθεσίες που αναφέρθηκαν νωρίτερα, για μια πραγματικά εξαντλητική περιγραφή των διαδικασιών των συγγραφέων και σημαντικά περισσότερα παραδείγματα δοκιμών και λεπτομέρειες διαδικασιών.

 

* Όσον αφορά την προέλευση των αναnotations, το έγγραφο αναφέρει μόνο ‘αποκτήθηκε για αυτές τις εργασίες’ – φαίνεται πολύ να έχει γεννηθεί από 12 εργάτες του AMT.

Πρώτη δημοσίευση Πέμπτη, 13 Μαρτίου 2025

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]