Η γωνία του Anderson

Το AI Βίντεο Βελτιώνει την Αυτοφωτογραφία της Γάτας

Δημοσιεύτηκε 19 Δεκεμβρίου 2025

Ενημερώθηκε 17 Μαΐου 2026

Martin Anderson

A still from a demo video for the paper 'Factorized Video Generation: Decoupling Scene Construction and Temporal Synthesis in Text-to-Video Diffusion Models', depicting a POV of a 'cat selfie', while a dog skateboards in the background. Source: https://vita-epfl.github.io/FVG/

Οι γεννήτριες βίντεο AI συχνά δίνουν αποτελέσματα που είναι κοντά, αλλά δεν είναι ακριβή, όσον αφορά την παράδοση του τι ζητάει η πρόσκληση κειμένου. Nhưng μια νέα υψηλού επιπέδου επιδιόρθωση κάνει όλη τη διαφορά.

Οι γεννήτριες βίντεο συχνά έχουν δυσκολία να δημιουργήσουν βίντεο που είναι πραγματικά δημιουργικά ή άγρια και συχνά αποτυγχάνουν να ανταποκριθούν στις προσδοκίες των χρηστών.

Μέρος του λόγου για αυτό είναι entanglement – το γεγονός ότι τα μοντέλα όρασης/γλώσσας πρέπει να συμβιβαστούν σχετικά με το πόσο καιρό εκπαιδεύονται στα δεδομένα τους. Λίγη εκπαίδευση, και οι έννοιες είναι ευέλικτες, αλλά δεν είναι πλήρως διαμορφωμένες – πολύ εκπαίδευση, και οι έννοιες είναι ακριβείς, αλλά δεν είναι πλέον αρκετά ευέλικτες για να ενσωματωθούν σε νέες συνδυασμούς.

Μπορείτε να πάρετε την ιδέα από το βίντεο που είναι ενσωματωμένο παρακάτω. Στο αριστερό μέρος είναι το είδος του συμβιβασμού που πολλά συστήματα AI παρέχουν ως απάντηση σε μια απαιτητική πρόσκληση (η πρόσκληση είναι στην κορυφή του βίντεο σε όλα τα τέσσερα παραδείγματα) που ζητάει κάποια αντίθεση στοιχείων που είναι πολύ φανταστικά για να έχουν υπάρξει πραγματικά παραδείγματα. Στο δεξί μέρος, είναι μια έξοδος AI που ακολουθεί την πρόσκληση πολύ καλύτερα:

Κάντε κλικ για να παίξετε (χωρίς ήχο). Στο δεξί μέρος, βλέπουμε το ‘factorized’ WAN 2.2 να παράγει πραγματικά την πρόσκληση, σε σύγκριση με τις ασαφείς ερμηνείες του ‘vanilla’ Wan 2.2., στο αριστερό μέρος. Παρακαλώ αναφερθείτε στα αρχικά αρχεία βίντεο για καλύτερη ανάλυση και πολλά περισσότερα παραδείγματα, αν και τα επιλεγμένα παραδείγματα που φαίνονται εδώ δεν υπάρχουν στην ιστοσελίδα του έργου και συναρμολογήθηκαν για αυτό το άρθρο. Πηγή

Λόγω του γεγονότος ότι πρέπει να συγχωρήσουμε τα χέρια του ανθρώπου που χτυπούν την πάπια (!), είναι σαφές ότι τα παραδείγματα στο δεξί μέρος ακολουθούν την αρχική πρόσκληση κειμένου πολύ καλύτερα από αυτά στο αριστερό μέρος.

Ενδιαφέρον είναι ότι και οι δύο αρχιτεκτονικές που εμφανίζονται είναι ουσιαστικά η ίδια αρχιτεκτονική – η δημοφιλής και πολύ ικανή Wan 2.2, μια κινεζική κυκλοφορία που έχει κερδίσει σημαντικό έδαφος στις ανοιχτές πηγές και τις κοινότητες χόμπι αυτού του έτους.

Η διαφορά είναι ότι η δεύτερη γεννήτρια πipeline είναι factorized, που σε αυτή την περίπτωση σημαίνει ότι ένα μεγάλο γλωσσικό μοντέλο (LLM) έχει χρησιμοποιηθεί για να επανερμηνεύσει το πρώτο (seed) πλαίσιο του βίντεο, ώστε να είναι πολύ πιο εύκολο για το σύστημα να παράγει αυτό που ζητάει ο χρήστης.

Αυτό το ‘visual anchoring’涉λαμβάνει την ένεση μιας εικόνας που έχει δημιουργηθεί από αυτό το LLM-ενισχυμένο πρόσκληση στο γεννήτρια πipeline ως ‘start frame’, και χρησιμοποιώντας ένα LoRA ερμηνευτικό μοντέλο για να βοηθήσει στην ενσωμάτωση του ‘intruder’ πλαισίου στη διαδικασία δημιουργίας βίντεο.

Τα αποτελέσματα, σε σχέση με την πίστη της πρόσκλησης, είναι πραγματικά αξιοσημείωτα, ιδιαίτερα για μια λύση που φαίνεται αρκετά κομψή:

Κάντε κλικ για να παίξετε (χωρίς ήχο). Περαιτέρω παραδείγματα ‘factorized’ γεννήτριας βίντεο που ακολουθούν πραγματικά το σενάριο. Παρακαλώ αναφερθείτε στα αρχικά αρχεία βίντεο για καλύτερη ανάλυση και πολλά περισσότερα παραδείγματα, αν και τα επιλεγμένα παραδείγματα που φαίνονται εδώ δεν υπάρχουν στην ιστοσελίδα του έργου και συναρμολογήθηκαν για αυτό το άρθρο.

Αυτή η λύση έρχεται στη μορφή του νέου εγγράφου Factorized Video Generation: Decoupling Scene Construction and Temporal Synthesis in Text-to-Video Diffusion Models, και της συνοδευτικής ιστοσελίδας του έργου.

Ενώ πολλά τρέχοντα συστήματα προσπαθούν να αυξήσουν την ακρίβεια της πρόσκλησης χρησιμοποιώντας γλωσσικά μοντέλα για να ξαναγράψουν ασαφείς ή μη καθορισμένες κείμενα, η νέα εργασία υποστηρίζει ότι αυτή η στρατηγική vẫn οδηγεί σε αποτυχία όταν η εσωτερική αναπαράσταση της σκηνής του μοντέλου είναι ελαττωματική.

Ε，即使 με μια λεπτομερή ξαναγραμμένη πρόσκληση, τα μοντέλα κειμένου-προς-βίντεο συχνά λανθάνουν στην σύνθεση κρίσιμων στοιχείων ή παράγουν ασύμβατες αρχικές καταστάσεις που σπάνε τη λογική της animation. Όσο η πρώτη πλαισίου δεν ανταποκρίνεται στην περιγραφή της πρόσκλησης, το αποτέλεσμα βίντεο δεν μπορεί να ανακτήσει, ανεξάρτητα από το πόσο καλό είναι το μοντέλο κίνησης.

Το έγγραφο αναφέρει*:

‘[Text-to-video] μοντέλα συχνά παράγουν διανεμημένα πλαισιά που έχουν μετατοπιστεί, αλλά ακόμα επιτύχουν [αξιολογήσεις] συγκρίσιμες με τα μοντέλα I2V, υποδεικνύοντας ότι η κίνηση μοντελοποίησής τους παραμένει λογικά φυσιολογική, ακόμη και όταν η πιστότητα της σκηνής είναι σχετικά κακή.

‘[Image-to-Video] μοντέλα εμφανίζουν την συμπληρωματική συμπεριφορά, ισχυρές [αξιολογήσεις] από ακριβείς αρχικές σκηνές και ασθενέστερη χρονική συνάφεια, ενώ το I2V+text ισορροπεί και τις δύο πτυχές.

‘Αυτή η αντίθεση υποδηλώνει μια структурική ανισότητα στα τρέχοντα T2V μοντέλα: η σκηνική γειώση και η χρονική σύνθεση ωφελούνται από διαφορετικές επαγωγικές προκαταλήψεις, αλλά τα υπάρχοντα αρχιτεκτονικά προσπαθούν να μάθουν και τις δύο ταυτόχρονα μέσα σε ένα μοντέλο.’

Μια διαγνωστική σύγκριση των τρόπων γεννήτριας βρήκε ότι τα μοντέλα χωρίς ρητή σκηνική γειώση σημείωσαν καλά στην κίνηση, αλλά συχνά συμβιβάστηκαν στην διάταξη της σκηνής, ενώ οι προσεγγίσεις που έχουν ως προϋπόθεση την εικόνα έδειξαν την αντίθετη τάση:

Σύγκριση των τρόπων γεννήτριας βίντεο σε δύο συνόλους δεδομένων, δείχνοντας ότι το I2V+text επιτύγχαίνει την καλύτερη ποιότητα πλαισίου (FID) και χρονική συνάφεια (FVD), υπογραμμίζοντας το όφελος της διαχωρισμού της σκηνικής κατασκευής από την κίνηση.

Αυτά τα ευρήματα δείχνουν ότι τα τρέχοντα μοντέλα προσπαθούν να μάθουν και την διάταξη της σκηνής και την κίνηση σε ένα βήμα, αν και οι δύο εργασίες απαιτούν διαφορετικές επαγωγικές προκαταλήψεις και αντιμετωπίζονται καλύτερα χωριστά.

Πιθανότατα το πιο ενδιαφέρον είναι ότι αυτή η ‘τεχνική’ μπορεί να εφαρμοστεί σε τοπικές εγκαταστάσεις μοντέλων όπως το Wan 2.1 και 2.2, και παρόμοιων μοντέλων βίντεο διάχυσης όπως το Hunyuan Video. Αναφορικά, συγκρίνοντας την ποιότητα της έξοδου των χόμπι με τις εμπορικές πύλες γεννήτριας όπως το Kling και το Runway, οι περισσότεροι από τους μεγάλους παρόχους API βελτιώνουν τις προσφορές ανοιχτού κώδικα όπως το WAN με LoRAs, και – φαίνεται – με τεχνικές του είδους που φαίνονται στη νέα εργασία. Έτσι, αυτή η συγκεκριμένη προσέγγιση μπορεί να αντιπροσωπεύει μια αναβάθμιση για την κοινότητα ανοιχτού κώδικα.

Οι δοκιμές που διεξήχθησαν για τη μέθοδο δείχνουν ότι αυτή η απλή και modulaire προσέγγιση προσφέρει ένα νέο state-of-the-art στο T2V-CompBench benchmark, βελτιώνοντας σημαντικά όλα τα μοντέλα που δοκιμάστηκαν. Οι συγγραφείς σημειώνουν στο συμπέρασμα ότι ενώ το σύστημά τους βελτιώνει радικά την πιστότητα, δεν αντιμετωπίζει (ούτε προορίζεται να αντιμετωπίσει) ταυτότητα drift, που είναι τώρα το μεγαλύτερο πρόβλημα της έρευνας γεννήτριας AI.

Η νέα εργασία προέρχεται από τέσσερις ερευνητές στο Ecole Polytechnique Fédérale de Lausanne (EPFL) στην Ελβετία.

Μέθοδος και Δεδομένα

Η κεντρική πρόταση της νέας τεχνικής είναι ότι τα μοντέλα κειμένου-προς-βίντεο διάχυσης (T2V) πρέπει να ‘γειαρρεύονται’ σε αρχικά πλαισιά που πραγματικά ταιριάζουν στην επιθυμητή πρόσκληση κειμένου.

Για να διασφαλιστεί ότι το μοντέλο σέβεται το αρχικό πλαισίο, η νέα μέθοδος διαταράσσει τη τυπική διαδικασία διάχυσης με την ένεση ενός καθαρού λατινικού από την εικόνα-γέφυρα στο βήμα零, αντικαθιστώντας одну από τις συνήθεις θορυβώδεις εισόδους. Αυτή η άγνωστη είσοδος confuses το μοντέλο αρχικά, αλλά με ελάχιστη LoRA finetuning, μαθαίνει να αντιμετωπίζει την ενετημένη εικόνα ως σταθερό οπτικό άγκιστρο και όχι ως μέρος της τροχιάς του θορύβου:

Δύο-βήμα μέθοδος για την εναρμόνιση της γεννήτριας βίντεο με μια οπτική γέφυρα: Αριστερά, το μοντέλο είναι finetuned χρησιμοποιώντας ελαφριά LoRA για να αντιμετωπίζει μια ενετημένη καθαρή λατινική ως σταθερό περιορισμό σκηνής. Δεξιά, η πρόσκληση χωρίζεται σε μια πρώτη-πλαισίου υπότιτλο, που χρησιμοποιείται για τη δημιουργία της εικόνας-γέφυρας που οδηγεί το βίντεο.

Στην εύρεση, η μέθοδος ξαναγράφει την πρόσκληση για να περιγράψει μόνο το πρώτο πλαισίο, χρησιμοποιώντας ένα LLM για να εξαγάγει μια πιθανή αρχική κατάσταση σκηνής που επικεντρώνεται στην διάταξη και την εμφάνιση.

Αυτή η ξαναγραμμένη πρόσκληση περνάει σε einen γεννήτρια εικόνας για να παράγει μια υποψήφια εικόνα-γέφυρα (που μπορεί να βελτιωθεί από τον χρήστη). Η επιλεγμένη εικόνα κωδικοποιείται σε μια λατινική και ενετείται στη διαδικασία διάχυσης αντικαθιστώντας το πρώτο βήμα, επιτρέποντας στο μοντέλο να γεννήσει το υπόλοιπο βίντεο ενώ παραμένει γειαρρεύεται στην αρχική σκηνή – μια διαδικασία που λειτουργεί χωρίς να απαιτεί αλλαγές στην υποκείμενη αρχιτεκτονική.

Η διαδικασία δοκιμάστηκε με τη δημιουργία LoRAs για Wan2.2-14B, Wan2.1-1B, και CogVideo1.5-5B. Η εκπαίδευση LoRA διεξήχθη σε βαθμό 256, σε 5000 τυχαία δείγματα κλιπ από τη UltraVideo συλλογή.

Η εκπαίδευση διήρκεσε 6000 βήματα, και απαιτούσε 48 GPU ώρες^† για Wan-1B και CogVideo-5B, και 96 GPU ώρες για Wan-14B. Οι συγγραφείς σημειώνουν ότι Wan-5B υποστηρίζει φυσικά την κείμενο-μόνο και κείμενο-εικόνα συνθήκη (που σε αυτή την περίπτωση έχουν επιβληθεί στα παλαιότερα πλαίσια), και επομένως δεν απαιτούσε καμία finetuning.

Δοκιμές

Στις δοκιμές που διεξήχθησαν για τη διαδικασία, κάθε πρόσκληση κειμένου αρχικά βελτιώθηκε χρησιμοποιώντας Qwen2.5-7B-Instruct, που χρησιμοποιούσε το αποτέλεσμα για να γεννήσει μια λεπτομερή ‘seed image’ υπότιτλο που περιείχε μια περιγραφή της ολόκληρης σκηνής. Αυτό περάστηκε στη QwenImage, που είχε ανατεθεί να γεννήσει την ‘μαγική’ εικόνα που θα ενετηθεί στη διαδικασία διάχυσης.

Οι δοκιμαστικοί δείκτες που χρησιμοποιήθηκαν για την αξιολόγηση του συστήματος περιελάμβαναν το προαναφερθέν T2V-CompBench, για δοκιμή της σύνθεσης κατανόησης με την αξιολόγηση του πόσο καλά τα μοντέλα διατήρησαν αντικείμενα, ιδιότητες και ενέργειες σε μια συνεχή σκηνή: και VBench 2.0, για την αξιολόγηση της ευρύτερης λογικής και συνεπαγωγής σε 18 μετρήσεις, ομαδοποιημένες σε δημιουργικότητα, κοινή λογική, ελέγχου, ανθρώπινη πιστότητα, και φυσική:

Σε όλες τις επτά κατηγορίες αξιολόγησης του T2V-CompBench, η factorized T2V μέθοδος υπερέβη cả τα τυπικά και τα upsampled T2V baselines για κάθε δοκιμασμένο μοντέλο, με κέρδη που φτάνουν μέχρι και 53.25%. Οι υψηλότερες ποσοστιαίες μεταβολές συχνά αντιστοιχούσαν ή υπερέβησαν το ιδιωτικό PixVerse-V3 benchmark.

Σχετικά με αυτή την αρχική γύρο δοκιμών, οι συγγραφείς αναφέρουν*:

‘[Σε] όλα τα μοντέλα, η προσθήκη μιας εικόνας-γέφυρας βελτιώνει συνεχώς τις συνθετικές επιδόσεις. Όλα τα μικρότερα factorized μοντέλα (CogVideo 5B, Wan 5B και Wan 1B) υπερέβησαν το μεγαλύτερο Wan 14B T2V μοντέλο.

‘Το factorized Wan 5B μας επίσης υπερέβη το εμπορικό PixVerse-V3 baseline, που είναι το καλύτερο αναφερθέν μοντέλο στο benchmark. Αυτό δείχνει ότι η οπτική γειώση ενισχύει σημαντικά την κατανόηση της σκηνής και της δράσης, ακόμη και σε μικρότερης ικανότητας μοντέλα.

‘Σε κάθε οικογένεια μοντέλων, η factorized εκδοχή υπερέβη το αρχικό μοντέλο. Ιδιαίτερα, η ελαφριά anchor-grounded LoRA μας σε WAN 14B έφτασε σε απόδοση συγκρίσιμη με την προ-εκπαιδευμένη I2V 14B εκδοχή (0.661 vs. 0.666), παρά το γεγονός ότι δεν απαιτούσε πλήρη επανα-εκπαίδευση.’

Επόμενη ήρθε η VBench2.0 γύρος:

Η factorized T2V προσέγγιση βελτίωσε συνεχώς την απόδοση VBench 2.0 σε σύνθεση, κοινή λογική, έλεγχο και φυσική, με κάποια κέρδη που ξεπερνούν το 60% – αν και η ανθρώπινη πιστότητα παρέμεινε κάτω από το ιδιωτικό Veo 3 baseline.

Σε όλα τα αρχιτεκτονικά, η factorized προσέγγιση αυξήθηκε τους δείκτες σε κάθε κατηγορία VBench, εκτός από ανθρώπινη πιστότητα, που μειώθηκε ελαφρά ακόμη και με την upsampling της πρόσκλησης. Το Wan 5B υπερέβη το μεγαλύτερο Wan 14B, ενισχύοντας τις προηγούμενες T2V-CompBench αποτελέσματα ότι η οπτική γειώση συνεισέφερε περισσότερο από την κλίμακα.

Ενώ τα κέρδη στη VBench ήταν συνεχής, ήταν μικρότερα από αυτά που είδαν στο T2V-CompBench, και οι συγγραφείς αποδίδουν αυτό στο αυστηρότερο δυαδικό σύστημα αξιολόγησης της VBench.

Για τις ποιοτικές δοκιμές, το έγγραφο παρέχει στατικές εικόνες, αλλά αναφερόμαστε τον αναγνώστη στα συνδυασμένα βίντεο που είναι ενσωματωμένα σε αυτό το άρθρο, για μια πιο σαφή ιδέα, με την προειδοποίηση ότι τα αρχικά βίντεο είναι περισσότερα και πιο ποικίλα, καθώς και με μεγαλύτερη ανάλυση και λεπτομέρεια. Βρείτε τα εδώ. Σχετικά με τα ποιοτικά αποτελέσματα, το έγγραφο αναφέρει:

‘Οι γειαρρευμένες βίντεο εμφανίζουν συνεχώς πιο ακριβή σύνθεση σκηνής, ισχυρότερη σύνδεση αντικειμένου-ιδιότητας και σαφέστερη χρονική πρόοδο.’

Η factorized μέθοδος παρέμεινε σταθερή ακόμη και όταν ο αριθμός των βημάτων διάχυσης μειώθηκε από 50 σε 15, δείχνοντας σχεδόν keine απόδοση απώλεια στο T2V-CompBench. Αντίθετα, και τα text-only και τα upsampled baselines χειροτέρεψαν δραματικά υπό τις ίδιες συνθήκες.

Αν και η μείωση των βημάτων θα μπορούσε θεωρητικά να τριπλασιάσει την ταχύτητα, η πλήρης διαδικασία γεννήτριας έγινε μόνο 2.1x ταχύτερη στην πράξη, λόγω των σταθερών κόστους από την γεννήτρια εικόνας-γέφυρας. Παρόλα αυτά, τα αποτελέσματα έδειξαν ότι η γειώση όχι μόνο βελτίωσε την ποιότητα του δείγματος, αλλά也 βοήθησε να σταθεροποιήσει τη διαδικασία διάχυσης, υποστηρίζοντας ταχύτερη και πιο αποτελεσματική γεννήτρια χωρίς απώλεια ακρίβειας.

Η ιστοσελίδα του έργου παρέχει παραδείγματα upsampled vs. νέας μεθόδου γεννήτριας, από τα οποία προσφέρουμε μερικά (χαμηλότερης ανάλυσης) επεξεργασμένα παραδείγματα εδώ:

Κάντε κλικ για να παίξετε (χωρίς ήχο). Upsampled αρχικές πηγές vs. η factorized προσέγγιση των συγγραφέων.

Οι συγγραφείς καταλήγουν:

‘Τα αποτελέσματά μας δείχνουν ότι η βελτιωμένη γειώση, και όχι μόνο η αύξηση της ικανότητας, μπορεί να είναι εξίσου σημαντική. Οι πρόσφατες προόδους στη διάχυση T2V έχουν βασιστεί σε μεγάλο βαθμό στην αύξηση του μεγέθους του μοντέλου και των δεδομένων εκπαίδευσης, αλλά ακόμη και τα μεγάλα μοντέλα συχνά αγωνίζονται να υποθέσουν μια συνεχή αρχική σκηνή από κείμενο μόνο.

‘Αυτό αντιτίθεται στην διάχυση εικόνας, όπου η κλίμακα είναι σχετικά απλή: στα μοντέλα βίντεο, κάθε αρχιτεκτονική βελτίωση πρέπει να λειτουργήσει πάνω από μια πρόσθετη χρονική διάσταση, καθιστώντας την κλίμακα σημαντικά πιο πόρων-εντατική.

‘Τα ευρήματά μας δείχνουν ότι η βελτιωμένη γειώση μπορεί να συμπληρώσει την κλίμακα, αντιμετωπίζοντας ένα διαφορετικό φράγμα: τη θέσπιση της σωστής σκηνής πριν από την κίνηση σύνθεση.

‘Με την factorization της γεννήτριας βίντεο σε σκηνική κατασκευή και χρονική μοντελοποίηση, μετριάζουμε πολλά κοινά modes αποτυχίας χωρίς να απαιτούμε σημαντικά μεγαλύτερα μοντέλα. Θεωρούμε αυτή τη σχεδιαστική αρχή ως μια συμπληρωματική που μπορεί να οδηγήσει τις μελλοντικές αρχιτεκτονικές προς πιο αξιόπιστες και δομημένες συνθέσεις βίντεο.’

Συμπέρασμα

Αν και τα προβλήματα της entanglement είναι πολύ πραγματικά, και μπορεί να απαιτούν αφιερωμένες λύσεις (όπως βελτιωμένη επιμέλεια και διανομή αξιολογήσεων πριν από την εκπαίδευση), ήταν ένα ανοιχτό μάτι να δούμε την factorization να ‘αποκολλά’ μερικά σκληρά και ‘κολλημένα’ concept prompt-οργανώσεις σε πολύ πιο ακριβείς αναπαραστάσεις – με μόνο μια μέτρια στρώση LoRA conditioning, και την παρέμβαση μιας αξιοσημείωτα βελτιωμένης αρχικής/seed εικόνας.

Το χάσμα των πόρων μεταξύ τοπικής inference χόμπι και εμπορικών λύσεων μπορεί να μην είναι τόσο τεράστιο όσο υποτίθεται, δεδομένου ότι σχεδόν όλοι οι πάροχοι προσπαθούν να ρacionalize τις σημαντικές GPU πόρους τους στους καταναλωτές.

Αναφορικά, ένας πολύ μεγάλος αριθμός των τρεχόντων παρόχων γεννήτριας βίντεο φαίνεται να χρησιμοποιούν επωνυμένες και γενικά ‘βελτιωμένες’ εκδοχές κινεζικών μοντέλων ανοιχτού κώδικα. Η κύρια ‘τείχος’ που αυτά τα ‘μεσολαβικά’ συστήματα φαίνεται να έχουν είναι ότι έχουν πάρει την ταλαιπωρία να εκπαιδεύσουν LoRAs, ή αλλιώς – με μεγαλύτερο κόστος, και κάπως μεγαλύτερο ανταπόδομα – να διεξάγουν μια πλήρη finetune των βαρών του μοντέλου^††.

Εντιθέσεις αυτού του είδους θα μπορούσαν να βοηθήσουν να κλείσουν αυτό το χάσμα περαιτέρω, στο πλαίσιο μιας κυκλοφορίας σκηνής όπου οι Κινέζοι φαίνεται να είναι αποφασισμένοι (όχι απαραίτητα για αλτρουιστικούς ή ιδανικούς λόγους) να δημοκρατίσουν τη γεννήτρια AI, ενώ τα δυτικά επιχειρηματικά συμφέροντα θα προτιμούσαν ότι η αύξηση του μεγέθους του μοντέλου και οι κανονισμοί θα κλείσουν τελικά τα καλά μοντέλα πίσω από APIs, και πολλαπλά στρώματα φίλτρων περιεχομένου.

* Σημειώσεις των συγγραφέων, όχι δικά μου.

^†Το έγγραφο δεν αναφέρει ποιο GPU επιλέχθηκε, ή πόσα χρησιμοποιήθηκαν.

^†† Αν και ο δρόμος LoRA είναι πιο πιθανός, και για οικονομική ευκολία χρήσης, και επειδή τα πλήρη βάρη, και όχι quantized βάρη, δεν είναι πάντα διαθέσιμα.

Πρώτη δημοσίευση Παρασκευή, 19 Δεκεμβρίου 2025

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]

Unite.AI

Το AI Βίντεο Βελτιώνει την Αυτοφωτογραφία της Γάτας

Μέθοδος και Δεδομένα

Δοκιμές

Συμπέρασμα

You may like