Συνεντεύξεις
Βίκτωρ Ερουχίμοφ, Διευθύνων Σύμβουλος της CraftStory – Σειρά Συνεντεύξεων

Βίκτωρ Ερουχίμοφ, Διευθύνων Σύμβουλος της CraftStory, είναι ένας μηχανικός ερευνών και ανάπτυξης υπολογιστικής όρασης που έγινε επιχειρηματίας και βοήθησε να διαμορφώσει την πρώιμη εξέλιξη του OpenCV, αργότερα συνίδρυσε την Itseez και την οδήγησε από μια τεχνική εταιρεία σε μια από τις κορυφαίες ομάδες ερευνών υπολογιστικής όρασης στον κόσμο πριν από την απόκτηση της από την Intel. Σε διάστημα περισσότερου από μια δεκαετίας, προχώρησε από Διευθύνων Σύμβουλος σε Προέδρο και συνέχισε αυτή την πορεία στην Itseez3D, όπου ηγήθηκε της ανάπτυξης προηγμένων τεχνολογιών σάρωσης 3D και δημιουργίας अवатάρ με κινητά τηλέφωνα, ενώ υπήρξε επίσης μακροχρόνιος μέλος του διοικητικού συμβουλίου του OpenCV.org.
Στην CraftStory, επικεντρώνεται τώρα στην δημιουργία βίντεο με τη χρήση τεχνητής νοημοσύνης, κατασκευάζοντας τεχνολογία που μετατρέπει απλές εισόδους σε εξαιρετικά ρεαλιστικά, έτοιμα για δημιουργούς βίντεο. Υπό την ηγεσία του, η εταιρεία αναπτύσσει μοντέλα γενετικής βίντεο της επόμενης γενιάς που προορίζονται για ομάδες μάρκετινγκ, εκπαιδευτές και δημιουργούς προϊόντων που χρειάζονται γρήγορη, υψηλής ποιότητας περιεχόμενο χωρίς το κόστος του στούντιο.
Έχετε sido μια κινητήρια δύναμη πίσω από κάποια από τα πιο επιδραστικά projecτς υπολογιστικής όρασης – από το OpenCV στο Itseez3D. Τι σας ενέπνευσε να ιδρύσετε την CraftStory και πώς η προηγούμενη δουλειά σας διαμόρφωσε την όραση για μακροχρόνια, στούντιο-ποιοτικά βίντεο AI;
Πριν από την CraftStory, η ομάδα μου και εγώ δουλεύαμε πάνω στο Avatar SDK – ένα εργαλείο που δημιουργεί ρεαλιστικά अवатар από selfies για VR/AR, gaming, μάρκετινγκ και άλλες εφαρμογές. Ήδη σκεφτόμασταν βαθιά για τους ψηφιακούς ανθρώπους για αρκετά χρόνια. Τότε, πριν από περίπου δύο χρόνια, συνειδητοποιήσαμε ότι η τεχνολογία GenAI για τη δημιουργία βίντεο ήταν αρκετά καλή για να ξεκλειδώσει μια εντελώς νέα σειρά εφαρμογών και πηδήξαμε μέσα.
Η CraftStory ξεκίνησε με τους δημιουργούς του OpenCV στο κέντρο της. Πώς επηρέασε η κοινή προέλευση την τεχνική κατεύθυνση και τις προτεραιότητες έρευνας για το Μοντέλο 2.0;
Ζούμε σε μια περίοδο εξαιρετικής πρόοδου στην υπολογιστική όραση και τη μηχανική μάθηση. Νιώθω σαν να βρισκόμαστε στην περίοδο όλων των突 pháτων της πρώιμης κβαντικής μηχανικής – αρχικά διασκορπισμένα σε δεκαετίες – που συμπιέζονται σε λίγα χρόνια. Η κατανόηση και δημιουργία εικόνων έχουν προχωρήσει πολύ πέρα από αυτά που δουλεύαμε όταν αναπτύσσαμε το OpenCV. Έχοντας παρατηρήσει αυτή την εξέλιξη για περισσότερο από μια δεκαετία, κάνωντας προβλέψεις και βλέποντας τις να επιτυγχάνουν ή να αποτυγχάνουν, abbiamo αποκτήσει μια βαθιά直觉 για το πού πηγαίνει η τεχνολογία και η αγορά. Αυτή η προοπτική διαμόρφωσε直接 τις προτεραιότητες έρευνας και το δρόμο για το Μοντέλο 2.0.
Το Μοντέλο 2.0 αντιμετωπίζει κάτι που πολλά μοντέλα βίντεο δυσκολεύονται: τη διατήρηση της ταυτότητας, του συναισθήματος και της συνεχείας σε διάρκεια λεπτών. Ποια επιτεύγματα έκαναν αυτό δυνατό;
Η ταυτότητα και η συνεχεία ήταν οι προτεραιότητές μας από την πρώτη στιγμή. Κάποιες αρχιτεκτονικές επιλογές στο δίκτυο σχεδιάστηκαν ειδικά για να αντιμετωπίσουν αυτές τις προκλήσεις. Αλλά εξίσου σημαντικό ήταν το fine-tuning του μοντέλου με δεδομένα που συλλέξαμε ourselves. Γύρισα επαγγελματίες ηθοποιούς σε ένα ελεγχόμενο στούντιο περιβάλλον χρησιμοποιώντας τις δικές μας υψηλής ταχύτητας κάμερες για να διασφαλίσουμε ότι κάθε кадρό – συμπεριλαμβανομένων των γρήγορων κινήσεων του σώματος, των χεριών και των δακτύλων – παρέμεινε σαφής. Αυτό το επίπεδο υψηλής ποιότητας, κίνησης-πλούσιου δεδομένων έκανε μια σημαντική διαφορά.
Η ομάδα σας εισήγαγε μια παράλληλη διαδικασία διάχυσης για να διατηρήσει τις μακροχρόνιες ακολουθίες συνεχή. Ποιο πρόβλημα σχεδιάστηκε να λύσει αυτό και γιατί ήταν απαραίτητο για τα βίντεο ανθρώπινου με διάρκεια πολλών λεπτών;
Η εκτέλεση μιας đơnικής διαδικασίας διάχυσης σε μια μακροχρόνια ακολουθία καρέ είναι εξαιρετικά απαιτητική – είναι υπολογιστικά ακριβή και απαιτεί τεράστια ποσότητα δεδομένων εκπαίδευσης. Η παράλληλη διαδικασία διάχυσης μας λύνει αυτό το πρόβλημα εκτελώντας πολλές διαδικασίες διάχυσης σε διαφορετικά χρονικά τμήματα ταυτόχρονα. Το κλειδί επιτεύγματος ήταν να βρούμε τον τρόπο να συνδέσουμε αυτά τα τμήματα ώστε να παραμείνουν συνεχή και συνεπή σε μακροχρόνιες διάρκειες. Το Μοντέλο 2.0 μπορεί τώρα να δημιουργήσει βίντεο μέχρι πέντε λεπτά, αλλά αυτό είναι κυρίως ένα τεχνικό περιορισμό. Με περισσότερη μηχανική εργασία, μπορούμε να επεκτείνουμε αυτό σε βίντεο ουσιαστικά αυθαίρετου μήκους.
Η CraftStory τονίζει την πραγματικότητα και στην κίνηση και στην έκφραση. Ποια ήταν τα πιο δύσκολα προκλήματα στη διατήρηση των φυσικών χεριών, σώματος και προσώπου δυναμικής σε μεγαλύτερες διάρκειες;
Η μεγαλύτερη πρόκληση είναι η δημιουργία ρεαλιστικών κινήσεων σώματος και προσώπου συνεχώς σε μακροχρόνιες διάρκειες. Μικρά λεπτά – όπως λεπτές κινήσεις χεριών, μεταβαλλόμενη στάση ή μικρο-εκφράσεις – έχουν την τάση να σπάσουν σε meisten μοντέλα καθώς η ακολουθία γίνεται μεγαλύτερη. Λύσαμε αυτό το πρόβλημα εκπαιδεύοντας το μοντέλο μας με τα δικά μας εκτεταμένα, υψηλής ποιότητας δεδομένα, που συλλέχθηκαν με επαγγελματίες ηθοποιούς και υψηλής ταχύτητας κάμερες. Αυτό το επίπεδο ελεγχόμενου, κίνησης-πλούσιου δεδομένων έδωσε στο μοντέλο το σήμα που χρειαζόταν για να διατηρήσει τις φυσικές δυναμικές σε όλη την απόδοση, όχι μόνο σε απομονωμένα момέντα.
Πολλά σχήματα είναι κολλημένα μεταξύ ακριβών ζωντανών βίντεο και σύντομων, αξιόπιστων κλιπ AI. Πού βλέπετε την μεγαλύτερη εμπορική ζήτηση να αναδυθεί για βίντεο ανθρώπινου με διάρκεια πολλών λεπτών;
Τα βίντεο που δημιουργούνται με τη χρήση AI γίνονται γρήγορα μη διακρίσιμα από τα βίντεο που γυρίστηκαν με κάμερα, ενώ κοστίζουν ένα κλάσμα του παραδοσιακού κόστους παραγωγής. Η μεγαλύτερη πρώιμη ζήτηση που βλέπουμε είναι στο εταιρικό περιεχόμενο – ιδιαίτερα στη Μάθηση και Ανάπτυξη – όπου οι εταιρείες χρειάζονται μεγάλες ποσότητες σαφούς, ανθρώπινου-κεντρικού εκπαιδευτικού βίντεο που μπορούν να ενημερωθούν αμέσως. Τα βίντεο με παρουσιαστές AI που διαρκούν πολλά λεπτά είναι ένα ιδανικό ταιριάζουν για αυτό.
Βλέπουμε επίσης αυξανόμενο ενδιαφέρον σε περιπτώσεις μάρκετινγκ όπως εισαγωγές προϊόντων, οδηγίες και εξηγήσεις. Όσο η τεχνολογία ωριμάζει, τα βίντεο AI με διάρκεια πολλών λεπτών θα αντικαταστήσουν ολοένα και περισσότερο τις ακριβές ζωντανές λήψεις και τα σύντομα, αξιόπιστα κλιπ που μπορούν να παραχθούν σήμερα.
Έχετε κατασκευάσει ένα προηγμένο σύστημα συγχρονισμού χειλιών και ευθυγράμμισης χειρονομιών. Πόσο μακριά είμαστε από πλήρως πιστευτά διαλόγους AI και τι χρειάζεται ακόμη βελτίωση;
Νομίζω ότι είμαστε πολύ κοντά. Μια ακόμη επανάληψη της τεχνολογίας – ιδιαίτερα για να την κάνει γρηγορότερη και να παράγει εγγενή 1080p – θα μας οδηγήσει σε πλήρως πιστευτούς διαλόγους AI.
Το μοντέλο κειμένου-βίντεο που αναπτύσσετε υποσχόμαστε μακροχρόνια δημιουργία απευθείας από σενάρια. Ποια τεχνικά εμπόδια πρέπει ακόμη να ξεπεραστούν πριν αυτό γίνει mainstream;
Δεν υπάρχουν θεμελιώδη εμπόδια – απλά μια πολλή μηχανική εργασία μπροστά μας. Το βίντεο-προς-βίντεο ήταν το πιο εύκολο, οπότε το φέραμε πρώτα στην αγορά. Τώρα επικεντρωνόμαστε στο μοντέλο εικόνας-προς-βίντεο που λαμβάνει ένα σενάριο και μια αναφορά εικόνας ως είσοδο. Κάνουμε γρήγορη πρόοδο και ελπίζουμε να το κυκλοφορήσουμε μέσα στις επόμενες εβδομάδες.
Οι ακολουθίες κίνησης κάμερας – όπως οι λήψεις περπατώντας και μιλώντας – είναι ένα σημαντικό βήμα προς την κινηματογραφική αυτοματοποίηση. Πώς αντιμετωπίζεται αυτή η πρόκληση από την ομάδα σας σε σύγκριση με τους ανταγωνιστές όπως η Sora;
Επικεντρωνόμαστε στην δημιουργία μακροχρόνιων λήψεων περπατώντας και μιλώντας – λήψεις πολλών λεπτών που νιώθουν κινηματογραφικές και φυσικές. Ο στόχος μας είναι να δώσουμε στους πελάτες τη δυνατότητα να δημιουργούν βίντεο στο στυλ της διάσημης καμπάνιας “Keep Walking” της Johnnie Walker, αλλά χωρίς μια πλήρη παραγωγή. Κάνουμε ταχεία πρόοδο και πολύ σύντομα θα μπορέσουμε να παράγουμε λήψεις περπατώντας και μιλώντας που διαρκούν αρκετά λεπτά με συνεχή χαρακτήρες, κίνηση και δυναμική κάμερας.
Με την OpenAI, την Google και άλλους που τρέχουν στην παραγωγή βίντεο μακράς διάρκειας, τι θεωρείτε ως το πλεονέκτημα της CraftStory σε αυτή την αναδυόμενη αγορά;
Η αγορά βίντεο AI είναι απίστευτα ανταγωνιστική και περιμένουμε πλήρως ότι οι μεγάλοι παίκτες θα μας φτάσουν τεχνολογικά. Αλλά το πλεονέκτημά μας είναι η εστίαση και η ταχύτητα. Έχουμε ένα πολύ φιλόδοξο δρόμο και είμαστε μια λεπτή ομάδα που μπορεί να κινηθεί γρήγορα και να επαναλάβουμε γρήγορα. Αυτή η ευελιξία – και η εστίασή μας σε βίντεο μακράς διάρκειας, κεντρικά στο άνθρωπο – είναι αυτό που διαφοροποιεί την CraftStory.
Όσο τα βίντεο AI που δημιουργούνται από ανθρώπους γίνονται πιο ρεαλιστικά και κλιμακωτά, ποια ηθικά ή δημιουργικά μέτρα πιστεύετε ότι πρέπει να υπάρχουν σε αυτή τη τεχνολογία καθώς εξαπλώνεται;
Κάθε ισχυρή τεχνολογία είναι ένα διπλό σπαθί, και είναι απαραίτητο να κατανοήσουμε τα συγκεκριμένα рисks που έρχονται με την εισαγωγή της στην αγορά. Στα βίντεο AI που δημιουργούνται από ανθρώπους, η μίμηση είναι το πιο σημαντικό – αν και όχι το μόνο – πρόβλημα. Έχουμε περάσει χρόνο αναλύοντας αυτά τα ρίσκα και έχουμε εφαρμόσει μέτρα ασφαλείας που αποτρέπουν ορισμένες επιζήμιες περιπτώσεις χρήσης. Όσο η τεχνολογία γίνεται πιο ρεαλιστική και κλιμακωτή, η διατήρηση ισχυρών ηθικών και δημιουργικών προστασιών θα είναι απαραίτητη για όλη την βιομηχανία.
Ευχαριστούμε για τη μεγάλη συνέντευξη, οι αναγνώστες που θέλουν να μάθουν περισσότερα πρέπει να επισκεφθούν την CraftStory.












