مقابلات
فيكتور إروخيموف، الرئيس التنفيذي لشركة CraftStory – سلسلة المقابلات

فيكتور إروخيموف، الرئيس التنفيذي لشركة CraftStory، هو مهندس أبحاث في مجال الرؤية الحاسوبية تحول إلى رجل أعمال ساهم في تشكيل التطور المبكر لمكتبة OpenCV، ثم شارك في تأسيس شركة Itseez وقادها من شركة ناشئة تقنية إلى واحدة من أبرز فرق البحث في مجال الرؤية الحاسوبية في العالم قبل استحواذ شركة Intel عليها. على مدار أكثر من عقد، تقدم من منصب الرئيس التقني إلى الرئيس التنفيذي ثم إلى الرئيس، واستمر في هذا المسار في شركة Itseez3D، حيث قاد تطوير تقنيات المسح ثلاثي الأبعاد المتقدمة وتوليد الأفاتار، كما served كعضو مجلس إدارة لشركة OpenCV.org لمدة طويلة.
في CraftStory، يركز الآن على إنشاء فيديوهات اصطناعية بالاعتماد على الذكاء الاصطناعي، حيث يبني تقنيات تحول المدخلات البسيطة إلى فيديوهات واقعية عالية الجودة جاهزة للاستخدام. تحت قيادته، تعمل الشركة على تطوير نماذج فيديو توليدية من الجيل التالي مصممة للفرق التسويقية والمدربين وقصصي المنتجات الذين يحتاجون إلى محتوى سريع وعالية الجودة دون الحاجة إلى استوديوهات.
لقد كنت قوة دافعة وراء بعض أكثر المشاريع المؤثرة في مجال الرؤية الحاسوبية – من OpenCV إلى Itseez3D. ما هو ما ألهمك لتأسيس CraftStory، وكيف ساهمت عملك السابق في تشكيل رؤية الفيديو الاصطناعي ذي الجودة العالية؟
قبل CraftStory، كنت أنا وفريقي نعمل على Avatar SDK – أداة لإنشاء أفاتار واقعية من الصور الشخصية لاستخدامها في تطبيقات الواقع الافتراضي والواقع المعزز والألعاب والتسويق وغيرها. لقد كنا نفكر بعمق في البشر الرقميين لعدة سنوات. ثم، قبل عامين تقريبًا، أدركنا أن تقنية الجيل الاصطناعي للفيديو أصبحت جيدة بما يكفي لفتح موجة جديدة من التطبيقات، وانتقلنا مباشرة إلى هذا المجال.
أطلقت CraftStory مع مؤسسي OpenCV في قلبها. كيف أثر هذا الخلفية المشتركة على الاتجاه التقني وأولويات البحث لنموذج 2.0؟
نحن نعيش في فترة تقدم استثنائي في مجال الرؤية الحاسوبية والتعلم الآلي. يشعر الأمر وكأن جميع الاختراقات التي حدثت في ميكانيكا الكم في البداية – التي كانت منتشرة على عدة عقود – قد ضُغطت في بضع سنوات فقط. لقد تقدم فهم الصور وتوليدها إلى حد بعيد أكثر مما كنا نعمل عليه أثناء تطوير OpenCV. بعد ملاحظة هذه التطورات لمدة تزيد على عقد، ووضع التنبؤات ونجاحها أو فشلها، كنا قد اكتسبنا直ورة عميقة لاتجاه التكنولوجيا والسوق. هذا المنظور شكّل أولويات البحث وخارطة الطريق لنموذج 2.0 بشكل مباشر.
يتعامل نموذج 2.0 مع شيء يصعب على nhiều نماذج الفيديو التعامل معه: الحفاظ على الهوية والانفعالات والاتساق على مدار دقائق من الفيديو. ما هي الاختراقات التي جعلت هذا ممكنًا؟
الهوية والاتساق كانا أولوياتنا منذ اليوم الأول. كانت بعض الخيارات المعمارية في الشبكة مصممة خصيصًا لمواجهة هذه التحديات. ولكن كان من المهم أيضًا تعديل النموذج على البيانات التي جمعناها أنفسنا. لقد قمنا بتصوير ممثلين محترفين في بيئة استوديو خاضة باستخدام كاميراتنا الخاصة ذات معدل الإطار العالي لضمان أن يبقى كل إطار – بما في ذلك الحركات السريعة للجسم واليدين والأصابع – حادًا. هذا المستوى من البيانات عالية الجودة والغنية بالحركة كان له تأثير كبير.
قدم فريقك трубة انتشار موازية للحفاظ على الاتساق في التسلسلات الطويلة. ما هو المشكل الذي تم تصميمه لحله، ولماذا كان هذا ضروريًا للفيديوهات البشرية متعددة الدقائق؟
تشغيل عملية انتشار واحدة على تسلسل طويل من الإطارات هو تحدي كبير للغاية – إنه مكلف حسابيًا ويتطلب كمية هائلة من بيانات التدريب. трубة الانتشار الموازية لحل هذا عن طريق تشغيل عمليات انتشار متعددة على مقاطع زمنية مختلفة في نفس الوقت. كان الاختراق الرئيسي هو معرفة كيفية ربط هذه المقاطع بحيث تبقى متسقة ومتماسكة على مدار فترات طويلة. يمكن لنموذج 2.0 الآن توليد فيديوهات تصل إلى خمس دقائق، ولكن هذا主要 هو قيود تقنية. مع المزيد من العمل الهندسي، يمكننا تمديد هذا إلى فيديوهات بطول фактиًا عشوائي.
تؤكد CraftStory على الواقعية في الحركة والتعابير. ما كانت أكبر التحديات في الحفاظ على الديناميات الطبيعية لليد والجسم والوجه على مدار فترات أطول؟
الأكبر تحدي هو توليد حركة وحركة وجه طبيعية باستمرار على مدار فترات طويلة. التفاصيل الصغيرة – مثل حركة اليد الدقيقة أو تغيير الوضع أو التعبيرات الدقيقة – تميل إلى التدهور في معظم النماذج随ما يطول التسلسل. حلنا هذا عن طريق تدريب النموذج على مجموعة بياناتنا الشاملة عالية الجودة، التي تم التقاطها مع ممثلين محترفين وكاميرات ذات معدل إطار عالٍ. هذا المستوى من الفootage الغنية بالحركة والخاضعة للسيطرة أعطى النموذج الإشارة التي cầnها للحفاظ على الديناميات الطبيعية على مدار الأداء بأكمله، وليس فقط في لحظات معزولة.
تظل العديد من الشركات عالقة بين التصوير المباشر المكلف والقطع القصيرة غير الموثوق بها للفيديوهات الاصطناعية. أين ترى أكبر الطلب التجاري الناشئ لفيديوهات متعددة الدقائق والمركزة على البشر؟
أصبحت الفيديوهات الاصطناعية متطابقة تقريبًا مع اللقطات المصورة، مع تكلفة جزء صغير من الإنتاج التقليدية. أكبر الطلب المبكر الذي نراه هو في المحتوى الشركاتي – خاصة في مجال التعلم والتنمية – حيث تحتاج الشركات إلى كميات كبيرة من فيديوهات تعليمية واضحة ومركزة على البشر يمكن تحديثها على الفور. المقدمون الاصطناعيون المتساقون لمدة متعددة الدقائق مناسبون تمامًا لهذا الغرض.
نحن نرى أيضًا اهتمامًا متزايدًا في حالات استخدام التسويق مثل عروض المنتجات والدروس والتفسيرات. مع نضج التكنولوجيا، ستستبدل فيديوهات الأي أي الطويلة بشكل متزايد كل من التصوير المباشر المكلف والقطع القصيرة غير الموثوق بها التي يمكن أن تنتجها الأدوات اليوم.
لقد بنيت نظامًا متقدمًا لتنظيم الشفاه والحركات. كم نحن بعيدون عن الحوار الاصطناعي المعتمد على الذكاء الاصطناعي المتقن تمامًا، وما المطلوب تحسينه؟
أعتقد أننا قريبون جدًا. يتطلب تكرار واحد آخر من التكنولوجيا – خاصة لجعلها أسرع وتوليد 1080p الأصلي – أن يصلنا إلى حوار اصطناعي完全 موثوق.
يعد نموذج النص إلى فيديو الذي تتطويره وعدًا بإنشاء فيديوهات طويلة مباشرة من النصوص. ما هي الحواجز التقنية التي لا تزال تعمل على تجاوزها قبل أن يصبح هذا الشئ شائعًا؟
لا توجد حواجز أساسية – فقط الكثير من العمل الهندسي الذي يتعين القيام به. كان فيديو إلى فيديو هو الفاكهة الأسهل، لذلك أطلقناه على السوق أولًا. الآن نحن مركزون على نموذج الصورة إلى الفيديو الذي يأخذ نصًا وصورًا مرجعية كمدخلات. نحن نحرز تقدمًا سريعًا ونأمل في إطلاقه في غضون بضعة أسابيع.
تعد تسلسلات الكاميرا المتحركة – مثل لقطات المشي والكلام – خطوة كبيرة نحو آليّة السينما. كيف يتعامل فريقك مع هذا التحدي مقارنة بالمنافسين مثل Sora؟
نحن مركزون على توليد تسلسلات طويلة من المشي والكلام – لقطات متعددة الدقائق تشعر بالسينما والطبيعية. هدفنا هو إعطاء العملاء khảية إنشاء فيديوهات على نمط حملة “Keep Walking” الشهيرة لشركة Johnnie Walker، ولكن بدون طاقم إنتاج كامل. نحن نحرز تقدمًا سريعًا، وسرعان ما سنكون قادرين على إنتاج تسلسلات من المشي والكلام تصل إلى عدة دقائق مع شخصيات متسقة وحركة وكاميرا ديناميكية.
مع دخول OpenAI و Google وغيرهم إلى سوق الفيديو الطويل، ما هو ما ترى كحافز لشركة CraftStory في هذا السوق الناشئ؟
سوق فيديو الأي أي منافس للغاية، ونحن نتوقع أن يلحق به الفاعلون الكبار تقنيًا. لكن ميزتنا هي التركيز والسرعة. لدينا خارطة طريق طموحة، ونحن فريق رشيق يمكنه التحرك بسرعة والتكرار بسرعة. هذه المرونة – بالإضافة إلى تركيزنا على الفيديو الطويل والمركز على البشر – هو ما يميز CraftStory.
مع أن فيديو الأي أي البشري يصبح أكثر واقعية ومتوافقًا، ما هي الحواجز الأخلاقية أو الإبداعية التي تعتقد أنها يجب أن تكون موجودة مع انتشار هذه التكنولوجيا؟
كل تكنولوجيا قوية هي سيف ذو حدين، ومن المهم فهم المخاطر الخاصة التي تأتي مع إطلاقها إلى السوق. في فيديو الأي أي البشري، التمثيل هو القلق الأكبر – على الرغم من عدم كونه القلق الوحيد. لقد قمنا بتحليل هذه المخاطر وطبقنا حواجز تمنع بعض الحالات الضارة. مع أن التكنولوجيا تصبح أكثر واقعية ومتوافقًا، سيكون الحفاظ على حماية قوية أخلاقية وإبداعية ضروريًا للصناعة بأكملها.
شكرًا على المقابلة الرائعة، القراء الذين يرغبون في معرفة المزيد يمكنهم زيارة CraftStory.












