Συνδεθείτε μαζί μας

The Rise of Hunyuan Video Deepfakes

Τεχνητή νοημοσύνη

The Rise of Hunyuan Video Deepfakes

mm
Ένα Arnie Hunyuan Video LoRA που επιδεικνύεται από τον Bob Doyle, στο ComfyUI, στο YouTube (https://www.youtube.com/watch?v=1D7B9g9rY68) – και, δεξιά, αντλεί από διάφορα δείγματα βίντεο για το ίδιο LoRA στο Civit. Όλα συμπεριλαμβάνονται

Λόγω της φύσης ορισμένου υλικού που συζητείται εδώ, αυτό το άρθρο θα περιέχει λιγότερους συνδέσμους αναφοράς και εικόνες από ό,τι συνήθως.

Κάτι αξιοσημείωτο συμβαίνει αυτήν τη στιγμή στην κοινότητα σύνθεσης AI, αν και η σημασία του μπορεί να πάρει λίγο χρόνο για να γίνει ξεκάθαρη. Οι χομπίστες εκπαιδεύουν παραγωγικά μοντέλα βίντεο AI για να αναπαράγουν τις ομοιότητες των ανθρώπων, χρησιμοποιώντας βίντεο που βασίζονται LoRAs στο πρόσφατα κυκλοφορημένο λογισμικό ανοιχτού κώδικα της Tencent Πλαίσιο βίντεο Hunyuan.*

Κάντε κλικ για να παίξετε. Διαφορετικά αποτελέσματα από προσαρμογές LoRA που βασίζονται στο Hunyuan είναι ελεύθερα διαθέσιμα στην κοινότητα Civit. Με την εκπαίδευση μοντέλων προσαρμογής χαμηλής βαθμίδας (LoRAs), τα προβλήματα με τη χρονική σταθερότητα, τα οποία ταλαιπωρούν τη δημιουργία βίντεο AI για δύο χρόνια, μειώνονται σημαντικά. Πηγές: civit.ai

Στο παραπάνω βίντεο, οι ομοιότητες των ηθοποιών Natalie Portman, Christina Hendricks και Scarlett Johansson, μαζί με τον ηγέτη τεχνολογίας Elon Musk, έχουν εκπαιδευτεί σε σχετικά μικρά πρόσθετα αρχεία για το σύστημα παραγωγής βίντεο Hunyuan, το οποίο μπορεί να εγκατασταθεί χωρίς φίλτρα περιεχομένου (όπως φίλτρα NSFW) στον υπολογιστή ενός χρήστη.

Η δημιουργός του Christina Hendricks LoRA που εμφανίζεται παραπάνω δηλώνει ότι μόνο 16 εικόνες από το Mad Men Χρειάστηκαν τηλεοπτικές εκπομπές για την ανάπτυξη του μοντέλου (το οποίο είναι μια απλή λήψη 307mb). πολλές αναρτήσεις από την κοινότητα Stable Diffusion στο Reddit και στο Discord επιβεβαιώνουν ότι οι LoRA αυτού του είδους δεν απαιτούν μεγάλο όγκο δεδομένων εκπαίδευσης ή υψηλούς χρόνους εκπαίδευσης, στις περισσότερες περιπτώσεις.

Cγλείφω για να παίξω. Ο Arnold Schwarzenegger ζωντανεύει σε ένα βίντεο Hunyuan LoRA που μπορείτε να το κατεβάσετε στο Civit. Δείτε https://www.youtube.com/watch?v=1D7B9g9rY68 για περαιτέρω παραδείγματα Arnie, από τον λάτρη της τεχνητής νοημοσύνης Bob Doyle.

Τα Hunyuan LoRA μπορούν να εκπαιδευτούν είτε σε στατικές εικόνες είτε σε βίντεο, αν και η εκπαίδευση σε βίντεο απαιτεί μεγαλύτερους πόρους υλικού και αυξημένο χρόνο εκπαίδευσης.

Το μοντέλο Hunyuan Video διαθέτει 13 δισεκατομμύρια παραμέτρους, ξεπερνώντας τα 12 δισεκατομμύρια παραμέτρους του Sora και ξεπερνώντας κατά πολύ τις λιγότερο ικανές. Hunyuan-DiT μοντέλο που κυκλοφόρησε σε ανοιχτό κώδικα το καλοκαίρι του 2024, το οποίο έχει μόνο 1.5 δισεκατομμύριο παραμέτρους.

Όπως και έγινε πριν από δυόμισι χρόνια με Σταθερή Διάχυση και LoRA (δείτε παραδείγματα «εγγενών» διασημοτήτων της Σταθερής Διάχυσης 1.5) εδώ), το εν λόγω μοντέλο βάσης έχει πολύ πιο περιορισμένη κατανόηση των προσωπικοτήτων των διασημοτήτων, σε σύγκριση με το επίπεδο πιστότητας που μπορεί να επιτευχθεί μέσω εφαρμογών LoRA με «ένεση ταυτότητας».

Ουσιαστικά, ένα προσαρμοσμένο, επικεντρωμένο στην προσωπικότητα LoRA επωφελείται από τις σημαντικές δυνατότητες σύνθεσης του βασικού μοντέλου Hunyuan, προσφέροντας μια αξιοσημείωτα πιο αποτελεσματική ανθρώπινη σύνθεση από ό,τι μπορεί να επιτευχθεί μέχρι την εποχή του 2017. αυτοκωδικοποιητής deepfakes ή επιχειρώντας να προσθέσετε κίνηση σε στατικές εικόνες μέσω συστημάτων όπως το feted LivePortrait.

Όλα τα LoRA που απεικονίζονται εδώ μπορούν να ληφθούν δωρεάν από την εξαιρετικά δημοφιλή κοινότητα Civit, ενώ ο μεγαλύτερος αριθμός παλαιότερων, προσαρμοσμένων LoRA με «στατική εικόνα» μπορούν επίσης να δημιουργήσουν εικόνες «αρχικού μεγέθους» για τη διαδικασία δημιουργίας βίντεο (δηλαδή, εικόνα-σε-βίντεο, μια εκκρεμής κυκλοφορία για το Hunyuan Video, αν και...) είναι δυνατές λύσεις, προς το παρόν).

Κάντε κλικ για να παίξετε. Παραπάνω, δείγματα από ένα «στατικό» Flux LoRA. Παρακάτω, παραδείγματα από ένα βίντεο LoRA από το Hunyuan με τη μουσικό Taylor Swift. Και τα δύο αυτά LoRA είναι ελεύθερα διαθέσιμα στην κοινότητα Civit.

Καθώς γράφω, ο ιστότοπος Civit προσφέρει 128 αποτελέσματα αναζήτησης για τον όρο «Hunyuan»*. Σχεδόν όλα αυτά είναι κατά κάποιο τρόπο μοντέλα NSFW. 22 απεικονίζουν διασημότητες. 18 έχουν σχεδιαστεί για να διευκολύνουν τη δημιουργία σκληρής πορνογραφίας. Και μόνο επτά από αυτά απεικονίζουν άνδρες και όχι γυναίκες.

Λοιπόν, τι νέα?

Λόγω της εξελισσόμενη φύση του όρου deepfakeκαι περιορισμένη κατανόηση του κοινού του (αρκετά σοβαρή) περιορισμοί των πλαισίων σύνθεσης βίντεο από ανθρώπους με τεχνητή νοημοσύνη μέχρι σήμερα, η σημασία του Hunyuan LoRA δεν είναι εύκολο να κατανοηθεί για ένα άτομο που παρακολουθεί αδιάφορα την παραγωγική σκηνή της Τεχνητής Νοημοσύνης. Ας εξετάσουμε ορισμένες από τις βασικές διαφορές μεταξύ των Hunyuan LoRA και προηγούμενων προσεγγίσεων για τη δημιουργία βίντεο με τεχνητή νοημοσύνη βάσει ταυτότητας.

1: Απεριόριστη τοπική εγκατάσταση

Η πιο σημαντική πτυχή του Hunyuan Video είναι το γεγονός ότι μπορεί να ληφθεί τοπικά και ότι παρέχει ένα πολύ ισχυρό και μη λογοκριθείς Σύστημα δημιουργίας βίντεο AI στα χέρια του περιστασιακού χρήστη, καθώς και της κοινότητας VFX (στο βαθμό που οι άδειες επιτρέπουν σε όλες τις γεωγραφικές περιοχές).

Η τελευταία φορά που συνέβη αυτό ήταν η έλευση της κυκλοφορίας σε ανοιχτό κώδικα του μοντέλου Stability.ai Stable Diffusion το καλοκαίρι του 2022Εκείνη την εποχή, το DALL-E2 της OpenAI είχε συλλαμβάνονται τη φαντασία του κοινού, αν και το DALLE-2 ήταν μια πληρωμένη υπηρεσία με αξιοσημείωτους περιορισμούς (που μεγάλωσε με την πάροδο του χρόνου).

Όταν το Stable Diffusion έγινε διαθέσιμο και το Low-Rank Adaptation κατέστησε δυνατή τη δημιουργία εικόνων της ταυτότητας του κάθε άτομο (διασημότητα ή όχι), ο τεράστιος τόπος ενδιαφέροντος των προγραμματιστών και των καταναλωτών βοήθησε το Stable Diffusion να επισκιάσει τη δημοτικότητα του DALLE-2. Αν και το τελευταίο ήταν ένα πιο ικανό σύστημα εκτός συσκευασίας, οι ρουτίνες λογοκρισίας του ήταν θεωρείται επαχθής από πολλούς από τους χρήστες του και η προσαρμογή δεν ήταν δυνατή.

Αναμφισβήτητα, το ίδιο σενάριο ισχύει τώρα μεταξύ Sora και Hunyuan – ή, ακριβέστερα, μεταξύ Sora-grade ιδιόκτητα συστήματα παραγωγής βίντεο και ανταγωνιστές ανοιχτού κώδικα, εκ των οποίων το Hunyuan είναι το πρώτο – αλλά μάλλον όχι το τελευταίο (εδώ, σκεφτείτε ότι Ροή θα κέρδιζε τελικά σημαντικό έδαφος στη Σταθερή Διάχυση).

Οι χρήστες που επιθυμούν να δημιουργήσουν έξοδο Hunyuan LoRA, αλλά δεν έχουν αποτελεσματικό εξοπλισμό, μπορούν, όπως πάντα, να μεταφορτώσουν την πτυχή της GPU της εκπαίδευσης σε διαδικτυακές υπηρεσίες υπολογιστών όπως το RunPod. Αυτό δεν είναι το ίδιο με τη δημιουργία βίντεο AI σε πλατφόρμες όπως η Kaiber ή η Kling, καθώς δεν υπάρχει σημασιολογικό ή φιλτράρισμα βάσει εικόνας (λογοκρισία) που συνεπάγεται η ενοικίαση μιας ηλεκτρονικής GPU για την υποστήριξη μιας κατά τα άλλα τοπικής ροής εργασιών.

2: Δεν χρειάζονται βίντεο "Host" και υψηλή προσπάθεια

Όταν τα deepfakes εμφανιστούν στη σκηνή στα τέλη του 2017, ο ανώνυμα αναρτημένος κώδικας θα εξελισσόταν στα mainstream forks DeepFaceLab και Ανταλλαγή προσώπου (καθώς και η DeepFaceLive σύστημα deepfaking σε πραγματικό χρόνο).

Αυτή η μέθοδος απαιτούσε την επίπονη επιμέλεια χιλιάδων εικόνων προσώπων για κάθε ταυτότητα που έπρεπε να αντικατασταθούν. Όσο λιγότερη προσπάθεια καταβάλλεται σε αυτό το στάδιο, τόσο λιγότερο αποτελεσματικό θα είναι το μοντέλο. Επιπλέον, οι χρόνοι εκπαίδευσης κυμαίνονταν μεταξύ 2-14 ημερών, ανάλογα με το διαθέσιμο υλικό, δίνοντας έμφαση ακόμη και σε ικανά συστήματα μακροπρόθεσμα.

Όταν το μοντέλο ήταν τελικά έτοιμο, μπορούσε μόνο να επιβάλει πρόσωπα σε υπάρχον βίντεο και συνήθως χρειαζόταν μια «στόχο» (δηλαδή, πραγματική) ταυτότητα που να ήταν παρόμοια σε εμφάνιση με την επικαλυπτόμενη ταυτότητα.

Πιο πρόσφατα, ROOP, το LivePortrait και πολλά παρόμοια πλαίσια έχουν παράσχει παρόμοια λειτουργικότητα με πολύ λιγότερη προσπάθεια και συχνά με ανώτερα αποτελέσματα – αλλά χωρίς δυνατότητα δημιουργίας ακριβών ολόσωμα deepfakes – ή οποιοδήποτε άλλο στοιχείο εκτός από πρόσωπα.

Παραδείγματα ROOP Unleashed και LivePortrait (εισαγωγή κάτω αριστερά), από τη ροή περιεχομένου του Bob Doyle στο YouTube. Πηγές: https://www.youtube.com/watch?v=i39xeYPBAAM και https://www.youtube.com/watch?v=QGatEItg2Ns

Παραδείγματα των ROOP Unleashed και LivePortrait (ένθετο κάτω αριστερά), από τη ροή περιεχομένου του Bob Doyle στο YouTube. Πηγές: https://www.youtube.com/watch?v=i39xeYPBAAM και https://www.youtube.com/watch?v=QGatEItg2Ns

Αντίθετα, τα Hunyuan LoRA (και τα παρόμοια συστήματα που αναπόφευκτα θα ακολουθήσουν) επιτρέπουν την απεριόριστη δημιουργία ολόκληρων κόσμων, συμπεριλαμβανομένης της προσομοίωσης ολόκληρου του σώματος της ταυτότητας LoRA που έχει εκπαιδευτεί από τον χρήστη.

3: Μαζικά βελτιωμένη χρονική συνέπεια

Η χρονική συνέπεια υπήρξε το Άγιο Δισκοπότηρο του βίντεο διάχυσης εδώ και αρκετά χρόνια. Η χρήση ενός LoRA, μαζί με κατάλληλες προτροπές, δίνει σε μια γενιά βίντεο Hunyuan μια σταθερή αναφορά ταυτότητας που πρέπει να τηρεί. Θεωρητικά (αυτές είναι πρώτες μέρες), θα μπορούσε κανείς να εκπαιδεύσει πολλαπλά LoRAs μιας συγκεκριμένης ταυτότητας, με το καθένα να φορά συγκεκριμένα ρούχα.

Υπό αυτές τις προϋποθέσεις, και τα ρούχα είναι λιγότερο πιθανό να «μεταλλαχθούν» καθ' όλη τη διάρκεια μιας δημιουργίας βίντεο (καθώς το σύστημα δημιουργίας βασίζει το επόμενο καρέ σε ένα πολύ περιορισμένο παράθυρο προηγούμενων καρέ).

(Εναλλακτικά, όπως και με τα συστήματα LoRA που βασίζονται σε εικόνα, μπορεί κανείς απλώς να εφαρμόσει πολλαπλά LoRA, όπως LoRA ταυτότητας + κοστούμι, σε μία μόνο γενιά βίντεο)

4: Πρόσβαση στο «Ανθρώπινο Πείραμα»

Όπως εγώ παρατηρήθηκε πρόσφατα, ο ιδιόκτητος και παραγωγικός τομέας τεχνητής νοημοσύνης σε επίπεδο FAANG φαίνεται τώρα να είναι τόσο επιφυλακτικός απέναντι σε πιθανή κριτική που σχετίζεται με τις δυνατότητες ανθρώπινης σύνθεσης των έργων του, ώστε η πραγματική ατομα σπάνια εμφανίζονται στις σελίδες των έργων για σημαντικές ανακοινώσεις και κυκλοφορίες. Αντίθετα, η σχετική διαφημιστική βιβλιογραφία τείνει όλο και περισσότερο να εμφανίζει «χαριτωμένα» και κατά τα άλλα «μη απειλητικά» θέματα στα συνθετικά αποτελέσματα.

Με την έλευση των Hunyuan LoRAs, για πρώτη φορά, η κοινότητα έχει την ευκαιρία να ξεπεράσει τα όρια της ανθρώπινης σύνθεσης βίντεο που βασίζεται σε LDM σε ένα εξαιρετικά ικανό (και όχι οριακό) σύστημα και να διερευνήσει πλήρως το θέμα που ενδιαφέρει περισσότερο την πλειοψηφία από εμάς – τους ανθρώπους.

Επιπτώσεις

Δεδομένου ότι μια αναζήτηση για τον όρο «Hunyuan» στην κοινότητα Civit δείχνει κυρίως διασημότητες LoRA και «σκληροπυρηνικά» LoRA, η κεντρική συνέπεια της εμφάνισης των Hunyuan LoRA είναι ότι θα χρησιμοποιηθούν για τη δημιουργία πορνογραφικών (ή με άλλο τρόπο δυσφημιστικών) βίντεο με τεχνητή νοημοσύνη πραγματικών ανθρώπων - διασημοτήτων και αγνώστων.

Για λόγους συμμόρφωσης, οι χομπίστες που δημιουργούν Hunyuan LoRA και πειραματίζονται μαζί τους σε διάφορους διακομιστές Discord φροντίζουν να απαγορεύουν τη δημοσίευση παραδειγμάτων πραγματικών ανθρώπων. Η πραγματικότητα είναι ότι ακόμη εικόνα-Τα deepfakes που βασίζονται είναι τώρα βαριά οπλισμένος; και η προοπτική της προσθήκης πραγματικά ρεαλιστικών βίντεο στη μίξη μπορεί τελικά να δικαιολογήσει τους αυξημένους φόβους που επαναλαμβάνονται στα μέσα ενημέρωσης τα τελευταία επτά χρόνια και που έχουν προκαλέσει νέα κανονισμοί.

Η κινητήρια δύναμη

Όπως πάντα, πορνό λείψανα η κινητήρια δύναμη για την τεχνολογία. Όποια και αν είναι η γνώμη μας για μια τέτοια χρήση, αυτή η αδυσώπητη μηχανή ώθησης οδηγεί σε προόδους στο state-of-the-art που μπορεί τελικά να ωφελήσει περισσότερο την υιοθέτηση του mainstream.

Σε αυτήν την περίπτωση, είναι πιθανό η τιμή να είναι υψηλότερη από το συνηθισμένο, καθώς η ανοιχτή πηγή υπερρεαλιστικής δημιουργίας βίντεο έχει προφανείς συνέπειες για εγκληματική, πολιτική και ηθική κατάχρηση.

Μία ομάδα Reddit (την οποία δεν θα ονομάσω εδώ) αφιερωμένη στη δημιουργία AI περιεχομένου βίντεο NSFW έχει έναν συσχετισμένο, ανοιχτό διακομιστή Discord, όπου οι χρήστες βελτιώνουν ComfyUI Ροές εργασίας για τη δημιουργία βίντεο πορνό με βάση το Hunyuan. Καθημερινά, οι χρήστες δημοσιεύουν παραδείγματα κλιπ NSFW – πολλά από τα οποία μπορούν εύλογα να χαρακτηριστούν «ακραία» ή τουλάχιστον να παρακάμψουν τους περιορισμούς που αναφέρονται στους κανόνες του φόρουμ.

Αυτή η κοινότητα διατηρεί επίσης ένα σημαντικό και καλά ανεπτυγμένο αποθετήριο GitHub που διαθέτει εργαλεία που μπορούν να κατεβάσουν και να επεξεργαστούν πορνογραφικά βίντεο, για να παρέχουν εκπαιδευτικά δεδομένα για νέα μοντέλα.

Δεδομένου ότι ο πιο δημοφιλής εκπαιδευτής LoRA, Kohya-ss, τώρα υποστηρίζει την εκπαίδευση Hunyuan LoRA, τα εμπόδια εισόδου για απεριόριστη γενετική προπόνηση βίντεο μειώνονται καθημερινά, μαζί με τις απαιτήσεις υλικού για την εκπαίδευση Hunyuan και τη δημιουργία βίντεο.

Η κρίσιμη πτυχή των αποκλειστικών προγραμμάτων εκπαίδευσης για τεχνητή νοημοσύνη που βασίζεται σε πορνό (αντί ταυτότητα-μοντέλα που βασίζονται, όπως οι διασημότητες) είναι ότι ένα τυπικό μοντέλο θεμελίωσης όπως το Hunyuan δεν είναι ειδικά εκπαιδευμένο στην έξοδο NSFW και επομένως μπορεί είτε να έχει κακή απόδοση όταν του ζητηθεί να δημιουργήσει περιεχόμενο NSFW είτε να αποτύχει ξεμπερδεύω έμαθε έννοιες και συσχετισμούς με επιτελεστικό ή πειστικό τρόπο.

Αναπτύσσοντας βελτιστοποιημένα μοντέλα θεμελίωσης NSFW και LoRA, θα είναι ολοένα και πιο δυνατό να προβάλλονται εκπαιδευμένες ταυτότητες σε έναν ειδικό τομέα «πορνογραφικού» βίντεο. Άλλωστε, αυτή είναι μόνο η εκδοχή βίντεο κάποιου πράγματος που... έχει ήδη συμβεί για στατικές εικόνες τα τελευταία δυόμισι χρόνια.

VFX

Η τεράστια αύξηση της χρονικής συνέπειας που προσφέρουν τα Hunyuan Video LoRA είναι ένα προφανές όφελος για τη βιομηχανία οπτικών εφέ AI, η οποία βασίζεται πολύ στην προσαρμογή του λογισμικού ανοιχτού κώδικα.

Παρόλο που μια προσέγγιση Hunyuan Video LoRA δημιουργεί ένα ολόκληρο πλαίσιο και περιβάλλον, οι εταιρείες VFX έχουν σχεδόν σίγουρα αρχίσει να πειραματίζονται με την απομόνωση των χρονικά συνεπών ανθρώπινων προσώπων που μπορούν να ληφθούν με αυτήν τη μέθοδο, προκειμένου να υπερτεθούν ή να ενσωματωθούν πρόσωπα σε πλάνα από πραγματικό κόσμο. .

Όπως και η κοινότητα των ερασιτεχνών, οι εταιρείες οπτικών εφέ πρέπει να περιμένουν τη λειτουργικότητα μετατροπής εικόνας σε βίντεο και βίντεο σε βίντεο του Hunyuan Video, η οποία είναι ενδεχομένως η πιο χρήσιμη γέφυρα μεταξύ περιεχομένου «deepfake» που βασίζεται σε LoRA και ID, ή αλλιώς να αυτοσχεδιάσουν και να χρησιμοποιήσουν το διάστημα για να διερευνήσουν τις εξωτερικές δυνατότητες του πλαισίου και πιθανών προσαρμογών, ακόμη και ιδιόκτητων εσωτερικών fork του Hunyuan Video.

Αν και το όρους άδειας Για το Hunyuan Video, τεχνικά επιτρέπεται η απεικόνιση πραγματικών ατόμων, εφόσον δοθεί άδεια, απαγορεύεται η χρήση του στην ΕΕ, το Ηνωμένο Βασίλειο και τη Νότια Κορέα. Με βάση την αρχή «παραμονή στο Λας Βέγκας», αυτό δεν σημαίνει απαραίτητα ότι το Hunyuan Video δεν θα χρησιμοποιηθεί σε αυτές τις περιοχές. Ωστόσο, η προοπτική εξωτερικών ελέγχων δεδομένων, για την επιβολή ενός αυξανόμενοι κανονισμοί γύρω από τη γενετική τεχνητή νοημοσύνη, θα μπορούσε να καταστήσει επικίνδυνη μια τέτοια παράνομη χρήση.

Ένας άλλος δυνητικά διφορούμενος τομέας των όρων της άδειας δηλώνει:

«Εάν, κατά την ημερομηνία κυκλοφορίας της έκδοσης Tencent Hunyuan, ο μηνιαίος αριθμός ενεργών χρηστών όλων των προϊόντων ή υπηρεσιών που διατίθενται από ή για τον Αδειοδόχο υπερβαίνει τα 100 εκατομμύρια μηνιαίους ενεργούς χρήστες τον προηγούμενο ημερολογιακό μήνα, πρέπει να ζητήσετε άδεια χρήσης από την Tencent, την οποία η Tencent μπορεί να σας χορηγήσει κατά την αποκλειστική της κρίση και δεν έχετε εξουσιοδότηση να ασκήσετε κανένα από τα δικαιώματα που απορρέουν από την παρούσα Συμφωνία, εκτός εάν ή έως ότου η Tencent σας παραχωρήσει ρητά τα εν λόγω δικαιώματα.»

Αυτή η ρήτρα απευθύνεται σαφώς στο πλήθος των εταιρειών που είναι πιθανό να «μεσολαβήσουν» το Hunyuan Video για ένα σχετικά τεχνολογικά αναλφάβητο σύνολο χρηστών και οι οποίες θα πρέπει να βάλουν την Tencent στη διαδικασία, πάνω από ένα συγκεκριμένο όριο χρηστών.

Εάν η ευρεία διατύπωση θα μπορούσε επίσης να καλύψει ή όχι έμμεσος η χρήση (δηλαδή, μέσω της παροχής εξόδου οπτικών εφέ με δυνατότητα Hunyuan σε δημοφιλείς ταινίες και τηλεόραση) μπορεί να χρειάζεται διευκρίνιση.

Συμπέρασμα

Δεδομένου ότι το deepfake βίντεο υπάρχει εδώ και πολύ καιρό, θα ήταν εύκολο να υποτιμηθεί η σημασία του Hunyuan Video LoRA ως προσέγγιση για τη σύνθεση ταυτότητας και το deepfaking. και να υποθέσουμε ότι οι εξελίξεις που εκδηλώνονται επί του παρόντος στην κοινότητα του Civit, και στα σχετικά Discords και subreddits, αντιπροσωπεύουν μια απλή ώθηση προς την πραγματικά ελεγχόμενη ανθρώπινη σύνθεση βίντεο.

Το πιθανότερο είναι ότι οι τρέχουσες προσπάθειες αντιπροσωπεύουν μόνο ένα κλάσμα του δυναμικού του Hunyuan Video να δημιουργήσει πλήρως πειστικά deepfakes πλήρους σώματος και πλήρους περιβάλλοντος. Μόλις κυκλοφορήσει το στοιχείο μετατροπής εικόνας σε βίντεο (φημολογείται ότι θα γίνει αυτόν τον μήνα), ένα πολύ πιο λεπτομερές επίπεδο παραγωγικής δύναμης θα καταστεί διαθέσιμο τόσο στις κοινότητες των ερασιτεχνών όσο και στις επαγγελματικές κοινότητες.

Όταν το Stability.ai κυκλοφόρησε το Stable Diffusion το 2022, πολλοί παρατηρητές δεν μπορούσαν να προσδιορίσουν γιατί η εταιρεία απλώς θα χάριζε αυτό που ήταν, εκείνη την εποχή, ένα τόσο πολύτιμο και ισχυρό σύστημα παραγωγής. Με το Hunyuan Video, το κίνητρο του κέρδους ενσωματώνεται απευθείας στην άδεια χρήσης – αν και μπορεί να αποδειχθεί δύσκολο για την Tencent να προσδιορίσει πότε μια εταιρεία ενεργοποιεί το πρόγραμμα κατανομής κερδών.

Σε κάθε περίπτωση, το αποτέλεσμα είναι το ίδιο με το 2022: οι αφοσιωμένες κοινότητες ανάπτυξης έχουν δημιουργηθεί αμέσως και με έντονη ζέση γύρω από την κυκλοφορία. Ορισμένοι από τους δρόμους που θα διαρκέσουν αυτές οι προσπάθειες τους επόμενους 12 μήνες σίγουρα θα προκαλέσουν νέους τίτλους.

 

* Έως 136 μέχρι τη στιγμή της δημοσίευσης.

Πρώτη δημοσίευση Τρίτη 7 Ιανουαρίου 2025

Συγγραφέας στη μηχανική μάθηση, ειδικός τομέα στη σύνθεση ανθρώπινης εικόνας. Πρώην επικεφαλής ερευνητικού περιεχομένου στο Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επαφή: [προστασία μέσω email]
Twitter: @manders_ai