Τεχνητή νοημοσύνη
Μπορούν τα παγκόσμια μοντέλα AI να κατανοήσουν πραγματικά τους φυσικούς νόμους;

Η μεγάλη ελπίδα για τα μοντέλα τεχνητής νοημοσύνης σε γλώσσα όρασης είναι ότι μια μέρα θα καταστούν ικανά για μεγαλύτερη αυτονομία και ευελιξία, ενσωματώνοντας αρχές φυσικών νόμων με τον ίδιο τρόπο που αναπτύσσουμε μια έμφυτη κατανόηση αυτών των αρχών μέσω της πρώιμης εμπειρίας.
Για παράδειγμα, τα παιχνίδια με μπάλα των παιδιών τείνουν να αναπτύσσονται κατανόηση της κινητικής κίνησης, και της επίδρασης του βάρους και της υφής της επιφάνειας στην τροχιά. Ομοίως, οι αλληλεπιδράσεις με κοινά σενάρια όπως τα μπάνια, τα ποτά που έχουν χυθεί, ο ωκεανός, οι πισίνες και άλλα ποικίλα υγρά σώματα θα ενσταλάξουν μέσα μας μια ευέλικτη και κλιμακούμενη κατανόηση των τρόπων με τους οποίους το υγρό συμπεριφέρεται υπό τη βαρύτητα.
Ακόμη και τα αξιώματα των λιγότερο κοινών φαινομένων –όπως η καύση, οι εκρήξεις και η αρχιτεκτονική κατανομή βάρους υπό πίεση– απορροφώνται ασυνείδητα μέσω της έκθεσης σε τηλεοπτικά προγράμματα και ταινίες ή βίντεο μέσων κοινωνικής δικτύωσης.
Μέχρι να μελετήσουμε το αρχές Πίσω από αυτά τα συστήματα, σε ακαδημαϊκό επίπεδο, απλώς «αναπροσαρμόζουμε» τα διαισθητικά (αλλά μη ενημερωμένα) νοητικά μας μοντέλα γι' αυτά.
Masters of One
Αντιθέτως, επί του παρόντος, τα περισσότερα μοντέλα Τεχνητής Νοημοσύνης είναι πιο «εξειδικευμένα» και πολλά από αυτά είναι είτε σωστά συντονισμένο ή εκπαιδεύονται από την αρχή σε σύνολα δεδομένων εικόνων ή βίντεο που είναι αρκετά συγκεκριμένα για συγκεκριμένες περιπτώσεις χρήσης, αντί να έχουν σχεδιαστεί για να αναπτύξουν μια τέτοια γενική κατανόηση των ισχυόντων νόμων.
Άλλοι μπορούν να παρουσιάσουν το εμφάνιση κατανόησης των φυσικών νόμων· αλλά μπορεί στην πραγματικότητα να αναπαράγουν δείγματα από τα δεδομένα εκπαίδευσής τους, αντί να κατανοούν πραγματικά τα βασικά πεδίων όπως η φυσική κίνησης με τρόπο που να μπορεί να παράγει πραγματικά νέες (και επιστημονικά εύλογες) απεικονίσεις από τις υποδείξεις των χρηστών.
Σε αυτή την ευαίσθητη στιγμή στην παραγωγικοποίηση και εμπορευματοποίηση των γενετικών συστημάτων Τεχνητής Νοημοσύνης, εναπόκειται σε εμάς, και στον έλεγχο των επενδυτών, να διακρίνουμε το κατασκευασμένο μάρκετινγκ νέων μοντέλων Τεχνητής Νοημοσύνης από την πραγματικότητα των περιορισμών τους.
Ένα από τα Νοεμβρίου τα πιο ενδιαφέροντα χαρτιά, με επικεφαλής την Bytedance Research, αντιμετώπισε αυτό το ζήτημα, διερευνώντας το χάσμα μεταξύ των φαινομενικών και των πραγματικών δυνατοτήτων των «γενετικών» μοντέλων παραγωγής όπως το Sora.
Η εργασία κατέληξε στο συμπέρασμα ότι στην τρέχουσα κατάσταση της τέχνης, τα παραγόμενα αποτελέσματα από μοντέλα αυτού του τύπου είναι πιο πιθανό να παραδείγματα από τα δεδομένα της εκπαίδευσής τους από το να αποδεικνύεται στην πραγματικότητα πλήρης κατανόηση των υποκείμενων φυσικών περιορισμών που λειτουργούν στον πραγματικό κόσμο.
Η εφημερίδα αναφέρει*:
«[Αυτά] τα μοντέλα μπορούν εύκολα να προκατειληφθούν από «παραπλανητικά» παραδείγματα από το σετ εκπαίδευσης, οδηγώντας τα να γενικεύουν με τρόπο «βασισμένο σε περιπτώσεις» υπό ορισμένες συνθήκες. Αυτό το φαινόμενο επίσης παρατηρούμενη σε μεγάλα γλωσσικά μοντέλα, περιγράφει την τάση ενός μοντέλου να αναφέρεται σε παρόμοιες περιπτώσεις εκπαίδευσης κατά την επίλυση νέων εργασιών.
«Για παράδειγμα, σκεφτείτε ένα μοντέλο βίντεο που έχει εκπαιδευτεί με βάση τα δεδομένα μιας μπάλας υψηλής ταχύτητας που κινείται σε ομοιόμορφη γραμμική κίνηση. Εάν η αύξηση των δεδομένων πραγματοποιηθεί με οριζόντια αναστροφή των βίντεο, εισάγοντας έτσι κίνηση αντίστροφης κατεύθυνσης, το μοντέλο μπορεί να δημιουργήσει ένα σενάριο όπου μια μπάλα χαμηλής ταχύτητας αντιστρέφει την κατεύθυνση μετά τα αρχικά καρέ, παρόλο που αυτή η συμπεριφορά δεν είναι φυσικά σωστή.»
Θα ρίξουμε μια πιο προσεκτική ματιά στην εφημερίδα – με τίτλο Αξιολόγηση παγκόσμιων μοντέλων με το LLM για τη λήψη αποφάσεων – σύντομα. Αλλά πρώτα, ας δούμε το ιστορικό αυτών των φαινομενικών περιορισμών.
Μνήμη των παρελθόντων
Χωρίς γενίκευση, ένα εκπαιδευμένο μοντέλο τεχνητής νοημοσύνης είναι κάτι περισσότερο από ένα ακριβό υπολογιστικό φύλλο αναφορών σε ενότητες των δεδομένων εκπαίδευσης του: βρείτε τον κατάλληλο όρο αναζήτησης και μπορείτε να συγκεντρώσετε ένα παράδειγμα αυτών των δεδομένων.
Σε αυτό το σενάριο, το μοντέλο λειτουργεί ουσιαστικά ως «νευρωνική μηχανή αναζήτησης», καθώς δεν μπορεί να παράγει αφηρημένες ή «δημιουργικές» ερμηνείες του επιθυμητού αποτελέσματος, αλλά αντίθετα αναπαράγει κάποια μικρή παραλλαγή των δεδομένων που είδε κατά τη διάρκεια της εκπαιδευτικής διαδικασίας.
Αυτό είναι γνωστό ως απομνημόνευση – ένα αμφιλεγόμενο πρόβλημα που προκύπτει επειδή τα πραγματικά όλκιμα και ερμηνευτικά μοντέλα τεχνητής νοημοσύνης τείνουν να μην έχουν λεπτομέρεια, ενώ τα πραγματικά λεπτομερή μοντέλα τείνουν να μην έχουν πρωτοτυπία και ευελιξία.
Η δυνατότητα των μοντέλων που επηρεάζονται από την απομνημόνευση να αναπαράγουν δεδομένα εκπαίδευσης αποτελεί πιθανό νομικό εμπόδιο, σε περιπτώσεις όπου οι δημιουργοί του μοντέλου δεν είχαν ελεύθερα δικαιώματα χρήσης αυτών των δεδομένων και όπου τα οφέλη από αυτά τα δεδομένα μπορούν να αποδειχθούν μέσω ενός αυξανόμενου αριθμού... μεθόδους εξαγωγής.
Λόγω της απομνημόνευσης, τα ίχνη μη εξουσιοδοτημένων δεδομένων μπορούν επιμένουν, αλυσοδεμένοι, μέσω πολλαπλών συστημάτων εκπαίδευσης, σαν ένα ανεξίτηλο και ακούσιο υδατογράφημα – ακόμη και σε έργα όπου ο επαγγελματίας μηχανικής μάθησης έχει φροντίσει να διασφαλίσει τη χρήση «ασφαλών» δεδομένων.
Παγκόσμια μοντέλα
Ωστόσο, το κεντρικό ζήτημα χρήσης με την απομνημόνευση είναι ότι τείνει να μεταφέρει το ψευδαίσθηση ευφυΐας, ή προτείνουμε ότι το μοντέλο τεχνητής νοημοσύνης έχει γενικευμένους θεμελιώδεις νόμους ή τομείς, όπου στην πραγματικότητα είναι ο μεγάλος όγκος απομνημονευμένων δεδομένων που παρέχει αυτή την ψευδαίσθηση (δηλαδή, το μοντέλο έχει τόσα πολλά πιθανά παραδείγματα δεδομένων για να διαλέξει που είναι δύσκολο για έναν άνθρωπο για να πει αν επαναφέρει το μαθημένο περιεχόμενο ή αν έχει μια πραγματικά αφηρημένη κατανόηση των εννοιών που εμπλέκονται στη γενιά).
Αυτό το ζήτημα έχει συνέπειες για το αυξανόμενο ενδιαφέρον παγκόσμια μοντέλα – η προοπτική για εξαιρετικά διαφορετικά και δαπανηρά εκπαιδευμένα συστήματα τεχνητής νοημοσύνης που ενσωματώνουν πολλούς γνωστούς νόμους και είναι πλούσια εξερευνήσιμα.
Τα παγκόσμια μοντέλα παρουσιάζουν ιδιαίτερο ενδιαφέρον στον χώρο παραγωγής εικόνας και βίντεο. Το 2023 το RunwayML ξεκίνησε ένα ερευνητική πρωτοβουλία στην ανάπτυξη και τη σκοπιμότητα τέτοιων μοντέλων· DeepMind πρόσφατα μισθωτός ένας από τους δημιουργούς του αναγνωρισμένου βίντεο παραγωγής Sora για να δουλέψει πάνω σε ένα μοντέλο αυτού του είδους. και νεοφυείς επιχειρήσεις όπως ο Χίγκσφιλντ επενδύουν σημαντικά σε παγκόσμια μοντέλα σύνθεσης εικόνας και βίντεο.
Σκληροί συνδυασμοί
Μία από τις υποσχέσεις νέων εξελίξεων στα συστήματα τεχνητής νοημοσύνης με παραγωγή βίντεο είναι η προοπτική ότι μπορούν να μάθουν θεμελιώδεις φυσικούς νόμους, όπως η κίνηση, η ανθρώπινη κινηματική (όπως π.χ. χαρακτηριστικά βάδισης), δυναμική ρευστούκαι άλλα γνωστά φυσικά φαινόμενα που είναι, τουλάχιστον, οπτικά οικεία στον άνθρωπο.
Εάν η γενετική τεχνητή νοημοσύνη μπορούσε να επιτύχει αυτό το ορόσημο, θα μπορούσε να καταστεί ικανή να παράγει υπερρεαλιστικά οπτικά εφέ που απεικονίζουν εκρήξεις, πλημμύρες και εύλογα συμβάντα σύγκρουσης σε πολλούς τύπους αντικειμένων.
Εάν, από την άλλη πλευρά, το σύστημα AI έχει απλώς εκπαιδευτεί σε χιλιάδες (ή εκατοντάδες χιλιάδες) βίντεο που απεικονίζουν τέτοια γεγονότα, θα μπορούσε να είναι σε θέση να αναπαράγει τα δεδομένα εκπαίδευσης αρκετά πειστικά όταν εκπαιδεύτηκε σε παρόμοιο σημείο δεδομένων με το ερώτημα-στόχο του χρήστη; ακόμη αποτυγχάνουν εάν το ερώτημα συνδυάζει πάρα πολλές έννοιες που, σε έναν τέτοιο συνδυασμό, δεν αντιπροσωπεύονται καθόλου στα δεδομένα.
Επιπλέον, αυτοί οι περιορισμοί δεν θα ήταν αμέσως εμφανείς, έως ότου κάποιος ωθούσε το σύστημα με προκλητικούς συνδυασμούς αυτού του είδους.
Αυτό σημαίνει ότι ένα νέο γενετικό σύστημα μπορεί να είναι ικανό να δημιουργεί ιογενές περιεχόμενο βίντεο που, αν και εντυπωσιακό, μπορεί να δημιουργήσει μια ψευδή εντύπωση για τις δυνατότητες και το βάθος κατανόησης του συστήματος, επειδή η εργασία που αντιπροσωπεύει δεν αποτελεί πραγματική πρόκληση για το σύστημα.
Για παράδειγμα, ένα σχετικά κοινό και καλά διάχυτο γεγονός, όπως π.χ «Ένα κτίριο κατεδαφίζεται», μπορεί να υπάρχει σε πολλά βίντεο σε ένα σύνολο δεδομένων που χρησιμοποιείται για την εκπαίδευση ενός μοντέλου που υποτίθεται ότι έχει κάποια κατανόηση της φυσικής. Ως εκ τούτου, το μοντέλο θα μπορούσε πιθανώς να γενικεύσει αυτή την ιδέα καλά, και ακόμη και να παράγει πραγματικά νέα αποτελέσματα εντός των παραμέτρων που μαθαίνονται από άφθονα βίντεο.
Αυτή είναι μια σε διανομή για παράδειγμα, όπου το σύνολο δεδομένων περιέχει πολλά χρήσιμα παραδείγματα από τα οποία μπορεί να μάθει το σύστημα τεχνητής νοημοσύνης.
Ωστόσο, αν κάποιος επρόκειτο να ζητήσει ένα πιο παράξενο ή παράξενο παράδειγμα, όπως π.χ «Ο Πύργος του Άιφελ ανατινάζεται από εξωγήινους εισβολείς», το μοντέλο θα έπρεπε να συνδυάζει ποικίλους τομείς όπως «μεταλλουργικές ιδιότητες», «χαρακτηριστικά εκρήξεων», «βαρύτητα», «αντίσταση στον άνεμο» – και «εξωγήινο διαστημόπλοιο».
Αυτή είναι μια εκτός διανομής (OOD), το οποίο συνδυάζει τόσες πολλές μπερδεμένες έννοιες που το σύστημα πιθανότατα είτε δεν θα καταφέρει να δημιουργήσει ένα πειστικό παράδειγμα είτε θα χρησιμοποιήσει ως προεπιλογή το πλησιέστερο σημασιολογικό παράδειγμα στο οποίο εκπαιδεύτηκε – ακόμα κι αν αυτό το παράδειγμα δεν συμμορφώνεται με την προτροπή του χρήστη.
Με εξαίρεση το γεγονός ότι το σύνολο δεδομένων πηγής του μοντέλου περιείχε οπτικά εφέ βασισμένα σε CGI σε στυλ Χόλιγουντ που απεικόνιζαν το ίδιο ή παρόμοιο γεγονός, μια τέτοια απεικόνιση θα απαιτούσε οπωσδήποτε να επιτευχθεί μια καλά γενικευμένη και όλκιμη κατανόηση των φυσικών νόμων.
Φυσικοί περιορισμοί
Το νέο έγγραφο – μια συνεργασία μεταξύ της Bytedance, του Πανεπιστημίου Tsinghua και της Technion – προτείνει όχι μόνο ότι μοντέλα όπως το Sora κάνουν δεν πραγματικά εσωτερικεύουν ντετερμινιστικούς φυσικούς νόμους με αυτόν τον τρόπο, αλλά ότι η κλιμάκωση των δεδομένων (μια κοινή προσέγγιση τους τελευταίους 18 μήνες) φαίνεται, στις περισσότερες περιπτώσεις, να μην παράγει πραγματική βελτίωση από αυτή την άποψη.
Η εργασία διερευνά όχι μόνο τα όρια της παρέκτασης συγκεκριμένων φυσικών νόμων – όπως η συμπεριφορά των αντικειμένων σε κίνηση όταν συγκρούονται ή όταν η πορεία τους εμποδίζεται – αλλά και την ικανότητα ενός μοντέλου για συνδυαστική γενίκευση – περιπτώσεις όπου οι αναπαραστάσεις δύο διαφορετικών φυσικών αρχών συγχωνεύονται σε ένα ενιαίο παραγωγικό αποτέλεσμα.
Μια σύνοψη βίντεο της νέας εφημερίδας. Πηγή: https://x.com/bingyikang/status/1853635009611219019
Οι τρεις φυσικοί νόμοι που επιλέχθηκαν για μελέτη από τους ερευνητές ήταν παραβολική κίνηση; ομοιόμορφη γραμμική κίνηση? Και τέλεια ελαστική σύγκρουση.
Όπως φαίνεται στο παραπάνω βίντεο, τα ευρήματα δείχνουν ότι μοντέλα όπως το Sora δεν εσωτερικεύουν πραγματικά τους φυσικούς νόμους, αλλά τείνουν να αναπαράγουν δεδομένα προπόνησης.
Περαιτέρω, οι συγγραφείς διαπίστωσαν ότι πτυχές όπως το χρώμα και το σχήμα μπλέκονται τόσο πολύ κατά το χρόνο συμπερασμάτων που μια δημιουργούμενη μπάλα πιθανότατα θα μετατρεπόταν σε τετράγωνο, προφανώς επειδή μια παρόμοια κίνηση σε ένα παράδειγμα δεδομένων παρουσίαζε ένα τετράγωνο και όχι μια μπάλα (βλ. παράδειγμα στο βίντεο ενσωματωμένο παραπάνω).
Το χαρτί, που έχει ιδιαίτερα αρραβωνιασμένοι ο ερευνητικός τομέας στα μέσα κοινωνικής δικτύωσης, καταλήγει:
«Η μελέτη μας δείχνει ότι η κλιμάκωση από μόνη της είναι ανεπαρκής για τα μοντέλα παραγωγής βίντεο για να αποκαλύψουν θεμελιώδεις φυσικούς νόμους, παρά τον ρόλο της στην ευρύτερη επιτυχία του Sora…
«…[Τα ευρήματα] δείχνουν ότι η κλιμάκωση από μόνη της δεν μπορεί να αντιμετωπίσει το πρόβλημα OOD, αν και βελτιώνει την απόδοση σε άλλα σενάρια.
«Η εις βάθος ανάλυσή μας υποδηλώνει ότι η γενίκευση μοντέλων βίντεο βασίζεται περισσότερο στην αναφορά παρόμοιων παραδειγμάτων εκπαίδευσης παρά στην εκμάθηση καθολικών κανόνων. Παρατηρήσαμε μια σειρά προτεραιότητας χρώματος > μεγέθους > ταχύτητας > σχήματος σε αυτήν τη συμπεριφορά «βασισμένη σε περίπτωση».
«[Η] μελέτη μας υποδηλώνει ότι η αφελής κλιμάκωση δεν επαρκεί για τα μοντέλα παραγωγής βίντεο ώστε να ανακαλύψουν θεμελιώδεις φυσικούς νόμους.»
Ερωτηθείς εάν η ερευνητική ομάδα είχε βρει λύση στο ζήτημα, ένας από τους συγγραφείς της εργασίας σχολίασε:
«Δυστυχώς, δεν το έχουμε κάνει. Στην πραγματικότητα, αυτή είναι πιθανώς η αποστολή ολόκληρης της κοινότητας της Τεχνητής Νοημοσύνης.»
Μέθοδος και Δεδομένα
Οι ερευνητές χρησιμοποίησαν α Μεταβλητός αυτόματος κωδικοποιητής (VAE) και DiT αρχιτεκτονικές για τη δημιουργία δειγμάτων βίντεο. Σε αυτή τη ρύθμιση, το συμπιεσμένο λανθάνουσες αναπαραστάσεις που παράγεται από την VAE σε συνδυασμό με τη μοντελοποίηση του DiT εκκαθάριση διαδικασία.
Τα βίντεο εκπαιδεύτηκαν μέσω του Stable Diffusion V1.5-VAE. Το σχήμα έμεινε ουσιαστικά αμετάβλητο, με μόνο αρχιτεκτονικές βελτιώσεις στο τέλος της διαδικασίας:
«[Διατηρούμε] την πλειονότητα των αρχικών μηχανισμών 2D συνέλιξης, ομαλοποίησης ομάδων και προσοχής στις χωρικές διαστάσεις.
«Για να διογκώσουμε αυτήν τη δομή σε έναν χωροχρονικό αυτόματο κωδικοποιητή, μετατρέπουμε τα τελευταία δισδιάστατα μπλοκ υποδειγματοληψίας του κωδικοποιητή και τα αρχικά δισδιάστατα μπλοκ ανοδικής δειγματοληψίας του αποκωδικοποιητή σε τρισδιάστατα και χρησιμοποιούμε πολλαπλά επιπλέον μονοδιάστατα επίπεδα για να βελτιώσουμε τη χρονική μοντελοποίηση.»
Προκειμένου να ενεργοποιηθεί η μοντελοποίηση βίντεο, το τροποποιημένο VAE εκπαιδεύτηκε από κοινού με δεδομένα εικόνας και βίντεο HQ, με το στοιχείο 2D Generative Adversarial Network (GAN) που είναι εγγενές στην αρχιτεκτονική SD1.5 επαυξημένη για 3D.
Το σύνολο δεδομένων εικόνας που χρησιμοποιήθηκε ήταν η αρχική πηγή του Stable Diffusion, ΛΑΙΩΝ-Αισθητική, με φιλτράρισμα, εκτός από DataComp. Για δεδομένα βίντεο, επιμελήθηκε ένα υποσύνολο από το Vimeo-90K, Panda-70μ και HDVG σύνολα δεδομένων.
Τα δεδομένα εκπαιδεύτηκαν για ένα εκατομμύριο βήματα, με τυχαία αλλαγή μεγέθους περικοπή και τυχαία οριζόντια αναστροφή που εφαρμόστηκε ως αύξηση δεδομένων διαδικασίες.
Αναστροφή
Όπως σημειώθηκε παραπάνω, η τυχαία οριζόντια αύξηση δεδομένων αναστροφής διαδικασια μας μπορεί να είναι μια υποχρέωση στην εκπαίδευση ενός συστήματος σχεδιασμένου να παράγει αυθεντική κίνηση. Αυτό συμβαίνει επειδή η έξοδος από το εκπαιδευμένο μοντέλο μπορεί να ληφθεί υπόψη και οι δύο κατευθύνσεις ενός αντικειμένου και προκαλούν τυχαίες ανατροπές καθώς προσπαθεί να διαπραγματευτεί αυτά τα αντικρουόμενα δεδομένα (δείτε το ενσωματωμένο βίντεο παραπάνω).
Από την άλλη, αν κάποιος γυρίσει οριζόντια ανατροπή off, τότε το μοντέλο είναι πιο πιθανό να παράγει αποτελέσματα που τηρούν μόνο μία κατεύθυνση μάθαμε από τα δεδομένα εκπαίδευσης.
Επομένως, δεν υπάρχει εύκολη λύση στο ζήτημα, εκτός από το ότι το σύστημα αφομοιώνει πραγματικά το σύνολο των δυνατοτήτων κίνησης τόσο από την εγγενή όσο και από την αναστρέψιμη έκδοση - μια δυνατότητα που τα παιδιά αναπτύσσουν εύκολα, αλλά που είναι περισσότερο μια πρόκληση, προφανώς, για τα μοντέλα AI .
Δοκιμές
Για το πρώτο σετ πειραμάτων, οι ερευνητές διαμόρφωσαν έναν προσομοιωτή 2D για την παραγωγή βίντεο με την κίνηση των αντικειμένων και τις συγκρούσεις που συμφωνούν με τους νόμους της κλασικής μηχανικής, που παρείχαν μεγάλο όγκο και ελεγχόμενο σύνολο δεδομένων που απέκλειε τις ασάφειες των βίντεο του πραγματικού κόσμου. αξιολόγηση των μοντέλων. Ο Box2D Η μηχανή παιχνιδιών φυσικής χρησιμοποιήθηκε για τη δημιουργία αυτών των βίντεο.
Τα τρία θεμελιώδη σενάρια που αναφέρονται παραπάνω ήταν το επίκεντρο των δοκιμών: ομοιόμορφη γραμμική κίνηση, τέλεια ελαστικές συγκρούσεις και παραβολική κίνηση.
Σύνολα δεδομένων αυξανόμενου μεγέθους (που κυμαίνονται από 30,000 έως τρία εκατομμύρια βίντεο) χρησιμοποιήθηκαν για την εκπαίδευση μοντέλων διαφορετικού μεγέθους και πολυπλοκότητας (DiT-S έως DiT-L), με τα τρία πρώτα καρέ κάθε βίντεο να χρησιμοποιούνται για προετοιμασία.

Λεπτομέρειες για τα διαφορετικά μοντέλα που εκπαιδεύτηκαν στο πρώτο σύνολο πειραμάτων. Πηγή: https://arxiv.org/pdf/2411.02385
Οι ερευνητές διαπίστωσαν ότι τα αποτελέσματα εντός της διανομής (ID) κλιμακώθηκαν καλά με αυξανόμενους όγκους δεδομένων, ενώ οι γενιές OOD δεν βελτιώθηκαν, υποδεικνύοντας ελλείψεις στη γενίκευση.

Αποτελέσματα για τον πρώτο κύκλο δοκιμών.
Οι συγγραφείς σημειώνουν:
«Αυτά τα ευρήματα υποδηλώνουν την αδυναμία κλιμάκωσης για την εκτέλεση συλλογισμού σε σενάρια OOD.»
Στη συνέχεια, οι ερευνητές δοκίμασαν και εκπαίδευσαν συστήματα σχεδιασμένα να επιδεικνύουν ικανότητα συνδυαστικής γενίκευσης, όπου δύο αντιθετικές κινήσεις συνδυάζονται για να παράγουν (ελπίζουμε) μια συνεκτική κίνηση που είναι πιστή στον φυσικό νόμο πίσω από κάθε μια από τις ξεχωριστές κινήσεις.
Για αυτή τη φάση των δοκιμών, οι συγγραφείς χρησιμοποίησαν το PHYRE προσομοιωτή, δημιουργώντας ένα δισδιάστατο περιβάλλον που απεικονίζει πολλαπλά και διαφορετικού σχήματος αντικείμενα σε ελεύθερη πτώση, που συγκρούονται μεταξύ τους σε μια ποικιλία σύνθετων αλληλεπιδράσεων.
Οι μετρήσεις αξιολόγησης για αυτό το δεύτερο τεστ ήταν Απόσταση βίντεο Fréchet (FVD); Δείκτης Δομικής Ομοιότητας (SSIM); Αναλογία αιχμής σήματος προς θόρυβο (PSNR); Έμαθες μετρήσεις αντιληπτικής ομοιότητας (LPIPS)· και μια μελέτη σε ανθρώπους (που χαρακτηρίζεται ως «μη φυσιολογική» στα αποτελέσματα).
Δημιουργήθηκαν τρεις κλίμακες συνόλων δεδομένων εκπαίδευσης, με 100,000 βίντεο, 0.6 εκατομμύρια βίντεο και 3-6 εκατομμύρια βίντεο. Χρησιμοποιήθηκαν μοντέλα DiT-B και DiT-XL, λόγω της αυξημένης πολυπλοκότητας των βίντεο, με το πρώτο καρέ να χρησιμοποιείται για προετοιμασία.
Τα μοντέλα εκπαιδεύτηκαν για ένα εκατομμύριο βήματα σε ανάλυση 256×256, με 32 καρέ ανά βίντεο.

Αποτελέσματα για τον δεύτερο κύκλο δοκιμών.
Το αποτέλεσμα αυτής της δοκιμής υποδηλώνει ότι η απλή αύξηση του όγκου δεδομένων είναι μια ανεπαρκής προσέγγιση:
Το έγγραφο αναφέρει:
«Αυτά τα αποτελέσματα υποδηλώνουν ότι τόσο η χωρητικότητα του μοντέλου όσο και η κάλυψη του χώρου συνδυασμών είναι κρίσιμες για τη συνδυαστική γενίκευση. Αυτή η διαπίστωση υποδηλώνει ότι οι νόμοι κλιμάκωσης για την παραγωγή βίντεο θα πρέπει να επικεντρώνονται στην αύξηση της ποικιλομορφίας των συνδυασμών, και όχι απλώς στην κλιμάκωση του όγκου των δεδομένων.»
Τέλος, οι ερευνητές διεξήγαγαν περαιτέρω δοκιμές για να προσπαθήσουν να προσδιορίσουν εάν τα μοντέλα παραγωγής βίντεο μπορούν πραγματικά να αφομοιώσουν τους φυσικούς νόμους ή αν απλώς απομνημονεύει και αναπαράγει δεδομένα εκπαίδευσης σε χρόνο συμπερασμάτων.
Εδώ εξέτασαν την έννοια της γενίκευσης «βασισμένης σε περιπτώσεις», όπου τα μοντέλα τείνουν να μιμούνται συγκεκριμένα παραδείγματα εκπαίδευσης όταν αντιμετωπίζουν νέες καταστάσεις, καθώς και να εξετάζουν παραδείγματα ομοιόμορφης κίνησης - συγκεκριμένα, πώς η κατεύθυνση της κίνησης στα δεδομένα εκπαίδευσης επηρεάζει τις προβλέψεις του εκπαιδευμένου μοντέλου.
Δύο σετ δεδομένων εκπαίδευσης, για ομοιόμορφη κίνηση και σύγκρουση, επιμελήθηκαν, το καθένα αποτελούμενο από βίντεο ομοιόμορφης κίνησης που απεικονίζουν ταχύτητες μεταξύ 2.5 και 4 μονάδων, με τα τρία πρώτα καρέ να χρησιμοποιούνται ως κλιματιστικά. Λανθάνουσες τιμές όπως ταχύτητα παραλήφθηκαν και, μετά την εκπαίδευση, διεξήχθη δοκιμές τόσο σε ορατά όσο και σε μη ορατά σενάρια.
Παρακάτω βλέπουμε τα αποτελέσματα για τη δοκιμή για ομοιόμορφη δημιουργία κίνησης:

Αποτελέσματα δοκιμών για την παραγωγή ομοιόμορφης κίνησης, όπου η μεταβλητή «ταχύτητα» παραλείπεται κατά την εκπαίδευση.
Οι συγγραφείς αναφέρουν:
«[Με] ένα μεγάλο κενό στο σύνολο εκπαίδευσης, το μοντέλο τείνει να δημιουργεί βίντεο όπου η ταχύτητα είναι είτε υψηλή είτε χαμηλή, ώστε να μοιάζει με δεδομένα εκπαίδευσης, όταν τα αρχικά καρέ δείχνουν ταχύτητες μεσαίου εύρους.»
Για τις δοκιμές σύγκρουσης, εμπλέκονται πολύ περισσότερες μεταβλητές και το μοντέλο πρέπει να μάθει ένα δισδιάστατο μη γραμμική συνάρτηση.

Σύγκρουση: αποτελέσματα για τον τρίτο και τελευταίο γύρο δοκιμών.
Οι συγγραφείς παρατηρούν ότι η παρουσία «παραπλανητικών» παραδειγμάτων, όπως η αντίστροφη κίνηση (δηλαδή, μια μπάλα που αναπηδά από μια επιφάνεια και αντιστρέφει την πορεία της), μπορεί να παραπλανήσει το μοντέλο και να το κάνει να παράγει φυσικά λανθασμένες προβλέψεις.
Συμπέρασμα
Εάν ένας αλγόριθμος που δεν βασίζεται στην Τεχνητή Νοημοσύνη (δηλαδή, μια «ψημένη», διαδικαστική μέθοδος) περιέχει μαθηματικούς κανόνες για τη συμπεριφορά φυσικών φαινομένων όπως τα υγρά ή τα αντικείμενα υπό βαρύτητα ή υπό πίεση, υπάρχει ένα σύνολο από αμετάβλητες σταθερές διαθέσιμες για ακριβή απόδοση.
Ωστόσο, τα ευρήματα της νέας εργασίας δείχνουν ότι δεν αναπτύσσεται τέτοια ισοδύναμη σχέση ή εγγενής κατανόηση των κλασικών φυσικών νόμων κατά την εκπαίδευση των γενετικών μοντέλων και ότι οι αυξανόμενες ποσότητες δεδομένων δεν επιλύουν το πρόβλημα, αλλά μάλλον το συσκοτίζουν - επειδή ένας μεγαλύτερος αριθμός εκπαιδευτικών βίντεο είναι διαθέσιμος για μίμηση από το σύστημα κατά τον χρόνο εξαγωγής συμπερασμάτων.
* Η μετατροπή μου των ενσωματωμένων παραπομπών των συγγραφέων σε υπερσυνδέσμους.
Πρώτη δημοσίευση Τρίτη, 26 Νοεμβρίου 2024