Interviews
Victor Erukhimov, CEO von CraftStory – Interview-Reihe

Victor Erukhimov, CEO von CraftStory, ist ein Computer-Vision-R&D-Ingenieur, der zum Unternehmer wurde und half, die frühe Evolution von OpenCV zu gestalten, später Itseez mitzubegründen und es von einem technischen Startup zu einem der weltweit führenden Computer-Vision-Forschungsteams zu führen, bevor es von Intel übernommen wurde. Über mehr als ein Jahrzehnt hinweg stieg er von CTO zu CEO zu Präsident auf und setzte diese Entwicklung bei Itseez3D fort, wo er die Entwicklung von fortschrittlichen mobilen 3D-Scanning- und Avatar-Generierungstechnologien leitete, während er auch langjähriges Vorstandsmitglied von OpenCV.org war.
Bei CraftStory konzentriert er sich nun auf AI-native Videoerstellung, indem er Technologie entwickelt, die einfache Eingaben in hochrealistische, creator-fertige Videos umwandelt. Unter seiner Führung entwickelt das Unternehmen nächste Generationen von generativen Video-Modellen, die für Marketing-Teams, Lehrer und Produkt-Erzähler konzipiert sind, die schnelles, hochwertiges Content ohne Studio-Overhead benötigen.
Sie waren eine treibende Kraft hinter einigen der einflussreichsten Computer-Vision-Projekten – von OpenCV bis Itseez3D. Was hat Sie dazu inspiriert, CraftStory zu gründen, und wie hat Ihre vorherige Arbeit die Vision für langfristige, studioqualitative AI-Videos geprägt?
Bevor CraftStory, arbeiteten mein Team und ich an Avatar SDK – einem Tool, das realistische Avatars aus Selfies für VR/AR, Gaming, Marketing und andere Anwendungen erstellt. Wir hatten bereits tief über digitale Menschen nachgedacht. Dann, vor etwa zwei Jahren, realisierten wir, dass GenAI-Technologie für Video-Generierung gut genug war, um eine ganz neue Welle von Anwendungen zu ermöglichen, und wir sprangen direkt hinein.
CraftStory startete mit den Erfindern von OpenCV im Kern. Wie hat diese gemeinsame Vergangenheit die technische Richtung und die Forschungsprioritäten für Modell 2.0 beeinflusst?
Wir leben in einer Zeit außergewöhnlichen Fortschritts in Computer-Vision und Machine Learning. Es fühlt sich an, als ob alle Durchbrüche der frühen Quantenmechanik – ursprünglich über Jahrzehnte verteilt – in nur wenige Jahre komprimiert wurden. Bildverständnis und -generierung haben sich weit über das hinaus entwickelt, mit dem wir bei der Entwicklung von OpenCV gearbeitet haben. Durch die Beobachtung dieser Entwicklung über mehr als ein Jahrzehnt hinweg, durch Vorhersagen und das Erfahren von Erfolgen oder Misserfolgen, haben wir eine tiefe Intuition für die Richtung, in die die Technologie und der Markt sich bewegen. Diese Perspektive hat unsere Forschungsprioritäten und den Fahrplan für Modell 2.0 direkt geprägt.
Modell 2.0 löst etwas, mit dem viele Video-Modelle kämpfen: die Aufrechterhaltung von Identität, Emotion und Konsistenz über Minuten von Footage. Welche Durchbrüche machten dies möglich?
Identität und Konsistenz waren von Anfang an unsere Prioritäten. Mehrere architektonische Entscheidungen im Netzwerk waren speziell darauf ausgerichtet, diese Herausforderungen anzugehen. Aber ebenso wichtig war es, das Modell auf Daten feinzujustieren, die wir selbst gesammelt hatten. Wir filmten professionelle Schauspieler in einer kontrollierten Studio-Umgebung mit unseren eigenen Hochgeschwindigkeitskameras, um sicherzustellen, dass jeder Frame – einschließlich schneller Körper-, Hand- und Fingerbewegungen – scharf blieb. Diese hohe Qualität und Bewegungsreichtum der Daten machten einen erheblichen Unterschied.
Ihr Team hat eine parallelisierte Diffusions-Pipeline eingeführt, um lange Sequenzen kohärent zu halten. Welches Problem sollte dies lösen, und warum war es für multi-minütige menschliche Videos unerlässlich?
Das Ausführen eines einzelnen Diffusionsprozesses über eine lange Sequenz von Frames ist extrem herausfordernd – es ist rechenintensiv und erfordert eine enorme Menge an Trainingsdaten. Unsere parallelisierte Diffusions-Pipeline löst dies, indem sie mehrere Diffusionsprozesse auf verschiedene Zeitsegmente gleichzeitig ausführt. Der Schlüsseldurchbruch war es, herauszufinden, wie man diese Segmente so verbindet, dass sie über lange Zeiträume kohärent und konsistent bleiben. Modell 2.0 kann jetzt Videos bis zu fünf Minuten generieren, aber das ist hauptsächlich eine technische Einschränkung. Mit mehr Ingenieursarbeit können wir dies auf Videos von im Wesentlichen beliebiger Länge erweitern.
CraftStory betont Realismus in Bewegung und Ausdruck. Welche waren die größten Herausforderungen bei der Erhaltung natürlicher Hand-, Körper- und Gesichtsdynamik bei längeren Dauern?
Die größte Herausforderung ist es, realistische Körper- und Gesichtsbewegungen konsistent über lange Zeiträume hinweg zu generieren. Kleine Details – wie subtile Handbewegungen, sich ändernde Haltung oder Mikro-Expressionen – neigen dazu, in den meisten Modellen zusammenzubrechen, wenn die Sequenz länger wird. Wir lösten dies, indem wir auf unserem eigenen umfangreichen, hochwertigen Datensatz trainierten, der mit professionellen Schauspielern und Hochgeschwindigkeitskameras aufgenommen wurde. Diese kontrollierte, bewegungsreiche Aufnahme gab dem Modell das Signal, das es benötigte, um natürliche Dynamik über die gesamte Leistung hinweg zu erhalten, nicht nur in isolierten Momenten.
Viele Unternehmen stecken zwischen teuren Live-Aufnahmen und kurzen, unzuverlässigen AI-Clips fest. Wo sehen Sie die größte kommerzielle Nachfrage nach multi-minütigen, menschzentrierten Videos entstehen?
AI-generierte Videos werden rasch ununterscheidbar von mit der Kamera aufgenommenen Footage, während sie nur einen Bruchteil der traditionellen Produktion kosten. Die größte frühe Nachfrage, die wir sehen, ist in Unternehmensinhalten – insbesondere in Lernen und Entwicklung – wo Unternehmen große Mengen an klaren, menschzentrierten Anweisungsvideos benötigen, die sofort aktualisiert werden können. Multi-minütige, konsistente AI-Präsentatoren sind ideal für diesen Bedarf.
Wir sehen auch ein wachsendes Interesse an Marketing-Anwendungsfällen wie Produkt-Einführungen, Tutorials und Erklärungen. Wenn die Technologie reift, wird langfristiges AI-Video zunehmend teure Live-Aufnahmen und die kurzen, unzuverlässigen Clips ersetzen, die die meisten Tools heute produzieren können.
Sie haben ein fortschrittliches Lip-Sync- und Gesten-Alignment-System entwickelt. Wie weit sind wir von völlig überzeugendem AI-Dialog entfernt, und was muss noch verbessert werden?
Ich denke, wir sind sehr nah dran. Eine weitere Iteration der Technologie – insbesondere, um sie schneller zu machen und native 1080p zu generieren – wird uns zu völlig überzeugendem AI-Dialog bringen.
Das Text-zu-Video-Modell, das Sie entwickeln, verspricht langfristige Generierung direkt aus Skripten. Welche technischen Barrieren müssen Sie noch überwinden, bevor dies zum Mainstream wird?
Es gibt keine grundlegenden Barrieren – nur noch viel Ingenieursarbeit vor uns. Video-zu-Video war die niedrigere Frucht, also brachten wir dies zuerst auf den Markt. Jetzt konzentrieren wir uns auf das Bild-zu-Video-Modell, das ein Skript und ein Referenzbild als Eingabe nimmt. Wir machen schnelle Fortschritte und hoffen, es innerhalb der nächsten Wochen veröffentlichen zu können.
Bewegte-Kamera-Sequenzen – wie Walk-and-Talk-Shots – sind ein wichtiger Schritt zur kinematografischen Automatisierung. Wie geht Ihr Team diesem Herausforderung gegenüber, im Vergleich zu Wettbewerbern wie Sora?
Wir konzentrieren uns auf die Generierung langer Walk-and-Talk-Sequenzen – multi-minütige Shots, die sich kinematografisch und natürlich anfühlen. Unser Ziel ist es, Kunden die Fähigkeit zu geben, Videos im Stil der berühmten “Keep Walking”-Kampagne von Johnnie Walker zu erstellen, aber ohne ein vollständiges Produktionsteam. Wir machen schnelle Fortschritte, und sehr bald werden wir in der Lage sein, Walk-and-Talk-Sequenzen zu produzieren, die über mehrere Minuten mit konsistenten Charakteren, Bewegung und Kameradynamik laufen.
Mit OpenAI, Google und anderen, die in langfristige Videos rasen, was sehen Sie als CraftStorys Vorteil in diesem aufkommenden Markt?
Der AI-Video-Markt ist unglaublich wettbewerbsintensiv, und wir erwarten, dass die großen Spieler technologisch aufholen werden. Aber unser Vorteil ist Fokus und Geschwindigkeit. Wir haben einen sehr ambitionierten Fahrplan, und wir sind ein schlankes Team, das schnell und agil iterieren kann. Diese Agilität – und unser Fokus auf langfristige, menschzentrierte Videos – ist es, was CraftStory auszeichnet.
Wenn AI-generierte menschliche Videos immer lebensnaher und skalierbarer werden, welche ethischen oder kreativen Schutzmaßnahmen glauben Sie, sollten in Kraft treten, während diese Technologie sich verbreitet?
Jede mächtige Technologie ist ein zweischneidiges Schwert, und es ist entscheidend, die spezifischen Risiken zu verstehen, die mit der Einführung auf den Markt verbunden sind. Bei AI-generierten menschlichen Videos ist die Nachahmung das größte – wenn auch nicht das einzige – Anliegen. Wir haben Zeit damit verbracht, diese Risiken zu analysieren und haben Schutzmaßnahmen implementiert, die bestimmte schädliche Anwendungsfälle verhindern. Wenn die Technologie immer lebensnaher und skalierbarer wird, wird es entscheidend sein, starke ethische und kreative Schutzmaßnahmen für die gesamte Branche zu wahren.
Vielen Dank für das großartige Interview. Leser, die mehr erfahren möchten, sollten CraftStory besuchen.












