рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░
рд╡рд┐рдХреНрдЯрд░ рдПрд░реБрдЦрд┐рдореЛрд╡, рдХреНрд░рд╛рдлреНрдЯрд╕реНрдЯреЛрд░реА рдХреЗ рд╕реАрдИрдУ – рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░ рд╢реНрд░реГрдВрдЦрд▓рд╛

विक्टर एरुखिमोव, क्राफ्टस्टोरी के सीईओ, एक कंप्यूटर-विजन आरएंडडी इंजीनियर हैं जो उद्यमी बन गए और जिन्होंने ओपनसीवी के शुरुआती विकास को आकार देने में मदद की, बाद में इट्सीज़ की सह-स्थापना की और इसे एक तकनीकी स्टार्टअप से दुनिया की अग्रणी कंप्यूटर-विजन अनुसंधान टीमों में से एक में बदल दिया, जिसे बाद में इंटेल द्वारा अधिग्रहित किया गया। एक दशक से अधिक समय में, उन्होंने सीटीओ से सीईओ से लेकर राष्ट्रपति तक की प्रगति की, और इट्सीज़३डी में भी इसी प्रकार की प्रगति की, जहां उन्होंने उन्नत मोबाइल ३डी-स्कैनिंग और अवतार-जेनरेशन प्रौद्योगिकियों के विकास का नेतृत्व किया, साथ ही ओपनसीवी.ओआरजी के एक लंबे समय से बोर्ड सदस्य के रूप में कार्य किया।
क्राफ्टस्टोरी में, वह अब एआई-मूल वीडियो निर्माण पर ध्यान केंद्रित कर रहे हैं, जो सरल इनपुट को अत्यधिक वास्तविक, निर्माता-तैयार वीडियो में बदलने वाली प्रौद्योगिकी बना रहे हैं। उनके नेतृत्व में, कंपनी अगली पीढ़ी के जनरेटिव वीडियो मॉडल विकसित कर रही है जो विपणन टीमों, शिक्षकों और उत्पाद कहानीकारों के लिए डिज़ाइन किए गए हैं जिन्हें स्टूडियो ओवरहेड के बिना तेज़, उच्च-गुणवत्ता वाली सामग्री की आवश्यकता है।
आप कंप्यूटर विजन के कुछ सबसे प्रभावशाली परियोजनाओं के पीछे एक ड्राइविंग बल रहे हैं – ओपनसीवी से लेकर इट्सीज़३डी तक। आपको क्राफ्टस्टोरी की स्थापना के लिए क्या प्रेरित किया और आपका पिछला काम लंबी-फॉर्म, स्टूडियो-गुणवत्ता वाले एआई वीडियो के लिए आपके दृष्टिकोण को कैसे आकार दिया?
क्राफ्टस्टोरी से पहले, मेरी टीम और मैं अवतार एसडीके पर काम कर रहे थे – एक उपकरण जो वीआर/एआर, गेमिंग, विपणन और अन्य अनुप्रयोगों के लिए सेल्फी से वास्तविक अवतार बनाता है। हम पहले से ही कई वर्षों से डिजिटल मानवों के बारे में गहराई से सोच रहे थे। फिर, लगभग दो साल पहले, हमें एहसास हुआ कि जेनएआई प्रौद्योगिकी वीडियो जेनरेशन के लिए पर्याप्त अच्छी हो गई है ताकि यह पूरी तरह से नए अनुप्रयोगों को अनलॉक कर सके, और हम तुरंत इसमें कूद पड़े।
क्राफ्टस्टोरी की शुरुआत ओपनसीवी के निर्माताओं के साथ हुई। उनकी साझा पृष्ठभूमि ने मॉडल २.० के लिए तकनीकी दिशा और अनुसंधान प्राथमिकताओं को कैसे प्रभावित किया?
हम एक असाधारण प्रगति की अवधि में रह रहे हैं कंप्यूटर विजन और मशीन लर्निंग में। यह ऐसा लगता है जैसे कि प्रारंभिक क्वांटम मैकेनिक्स के सभी सफलताएं – मूल रूप से दशकों में फैली हुई – केवल कुछ वर्षों में संकुचित हो गई हैं। छवि समझ और पीढ़ी ने ओपनसीवी के विकास के दौरान हमारे साथ काम करने वाली चीजों से बहुत आगे निकल गई है। इस प्रगति को एक दशक से अधिक समय से देखकर, भविष्यवाणियां करते हुए और देखकर कि वे सफल होती हैं या विफल होती हैं, हमें यह समझने के लिए एक गहरी अंतर्दृष्टि मिली है कि तकनीक और बाजार कहां जा रहे हैं। यह परिप्रेक्ष्य सीधे हमारी अनुसंधान प्राथमिकताओं और मॉडल २.० के लिए रोडमैप को आकार देता है।
मॉडल २.० कुछ ऐसा करता है जिससे कई वीडियो मॉडल संघर्ष करते हैं: मिनटों की फुटेज में पहचान, भावना और स्थिरता बनाए रखना। यह संभव बनाने के लिए क्या सफलता मिली?
पहचान और स्थिरता हमारी प्राथमिकता रही है दिन एक से। नेटवर्क में कई वास्तुकला चुनाव विशेष रूप से इन चुनौतियों का समाधान करने के लिए डिज़ाइन किए गए थे। लेकिन समान रूप से महत्वपूर्ण था मॉडल को हमारे द्वारा स्वयं एकत्रित डेटा पर फाइन-ट्यून करना। हमने पेशेवर अभिनेताओं को एक नियंत्रित स्टूडियो वातावरण में हमारे自己的 उच्च-फ्रेम दर कैमरों का उपयोग करके फिल्माया, ताकि यह सुनिश्चित किया जा सके कि हर फ्रेम – तेजी से शरीर, हाथ और उंगलियों की गति सहित – तेज रहे। उस स्तर का उच्च-गुणवत्ता, गति-संपन्न डेटा ने एक महत्वपूर्ण अंतर बनाया।
आपकी टीम ने लंबे क्रमों को सुसंगत रखने के लिए एक समांतर प्रसार पाइपलाइन पेश की। यह किस समस्या का समाधान करने के लिए डिज़ाइन किया गया था, और यह मulti-मिनट मानव वीडियो के लिए क्यों आवश्यक था?
एक लंबी अनुक्रम के फ्रेमों पर एक ही प्रसार प्रक्रिया चलाना बेहद चुनौतीपूर्ण है – यह गणनात्मक रूप से महंगा है और大量 प्रशिक्षण डेटा की मांग करता है। हमारी समांतर प्रसार पाइपलाइन इस समस्या का समाधान करती है कई प्रसार प्रक्रियाओं को विभिन्न समय खंडों पर एक साथ चलाने से। मुख्य सफलता इन खंडों को जोड़ने का तरीका खोजना था ताकि वे लंबे समय तक सुसंगत और स्थिर रहें। मॉडल २.० अब पांच मिनट तक के वीडियो उत्पन्न कर सकता है, लेकिन यह मुख्य रूप से एक तकनीकी सीमा है। अधिक इंजीनियरिंग कार्य के साथ, हम इसे वीडियो की मूल रूप से मनमानी लंबाई तक बढ़ा सकते हैं।
क्राफ्टस्टोरी हाथ, शरीर और चेहरे की गतिविधियों में यथार्थवाद पर जोर देता है। लंबी अवधि में प्राकृतिक हाथ, शरीर और चेहरे की गतिविधियों को संरक्षित करने में सबसे कठिन चुनौतियां क्या थीं?
सबसे बड़ी चुनौती वास्तविक शरीर और चेहरे की गति लगातार लंबे समय तक उत्पन्न करना है। छोटे विवरण – जैसे कि सूक्ष्म हाथ गति, पोस्चर में बदलाव, या माइक्रो-अभिव्यक्तियां – आमतौर पर लंबे अनुक्रम में टूट जाते हैं। हमने इसे हल किया अपने व्यापक, उच्च-गुणवत्ता वाले डेटासेट पर प्रशिक्षण देकर, जिसे पेशेवर अभिनेताओं और उच्च-फ्रेम दर कैमरों के साथ कब्जा कर लिया गया था। उस स्तर का नियंत्रित, गति-संपन्न फुटेज ने मॉडल को पूरे प्रदर्शन में प्राकृतिक गतिविधियों को बनाए रखने के लिए संकेत दिया, न कि केवल अलग-अलग क्षणों में।
कई कंपनियां महंगे लाइव शूट और छोटे, अनिश्चित एआई क्लिप के बीच फंसी हुई हैं। आपको मulti-मिनट, मानव-केंद्रित वीडियो के लिए सबसे बड़ी व्यावसायिक मांग कहां दिखाई दे रही है?
एआई-जनरेटेड वीडियो तेजी से कैमरा-शॉट फुटेज से अंतर्निहित हो रहे हैं, जबकि पारंपरिक उत्पादन का केवल एक अंश लागत पर। हम जिस सबसे बड़ी प्रारंभिक मांग को देख रहे हैं वह कॉर्पोरेट सामग्री में है – विशेष रूप से लर्निंग एंड डेवलपमेंट – जहां कंपनियों को बड़ी मात्रा में स्पष्ट, मानव-केंद्रित निर्देशात्मक वीडियो की आवश्यकता होती है जिन्हें तुरंत अपडेट किया जा सकता है। मulti-मिनट, सुसंगत एआई प्रस्तुतकर्ता इसके लिए एकदम सही हैं।
हम उत्पाद परिचय, ट्यूटोरियल और एक्सप्लेनर जैसे विपणन उपयोग के मामलों में भी बढ़ती रुचि देख रहे हैं। जैसे-जैसे तकनीक परिपक्व होती है, लंबी-फॉर्म एआई वीडियो धीरे-धीरे महंगे लाइव शूट और आज अधिकांश टूल्स द्वारा उत्पादित छोटे, अनिश्चित क्लिप को प्रतिस्थापित करेगा।
आपके पास एक उन्नत लिप-सिंक और इशारा संरेखण प्रणाली है। हम पूरी तरह से विश्वसनीय एआई संवाद से कितनी दूर हैं और क्या अभी भी सुधार की आवश्यकता है?
मुझे लगता है कि हम बहुत करीब हैं। प्रौद्योगिकी की एक और पीढ़ी – विशेष रूप से इसे तेज़ बनाने और मूल १०८०पी उत्पन्न करने के लिए – हमें पूरी तरह से विश्वसनीय एआई संवाद तक पहुंचाएगी।
आप जिस पाठ-से-वीडियो मॉडल पर काम कर रहे हैं वह स्क्रिप्ट से लंबी-फॉर्म जेनरेशन का वादा करता है। यह मुख्यधारा बनने से पहले आपको अभी भी किन तकनीकी बाधाओं को पार करना होगा?
कोई मूलभूत बाधाएं नहीं हैं – बस आगे बहुत सारा इंजीनियरिंग कार्य। वीडियो-से-वीडियो निचला फल था, इसलिए हमने पहले उसे बाजार में लाया। अब हम छवि-से-वीडियो मॉडल पर ध्यान केंद्रित कर रहे हैं जो एक स्क्रिप्ट और एक रेफरेंस छवि को इनपुट के रूप में लेता है। हम तेजी से प्रगति कर रहे हैं और उम्मीद करते हैं कि इसे अगले कुछ हफ्तों के भीतर जारी करेंगे।
चलती कैमरा अनुक्रम – जैसे कि चलने और बात करने वाले शॉट – सिनेमैटिक स्वचालन की एक बड़ी प्रगति है। आप इस चुनौती का सामना अपने प्रतिस्पर्धियों जैसे सोरा की तुलना में कैसे कर रहे हैं?
हम लंबे चलने और बात करने वाले अनुक्रमों को उत्पन्न करने पर ध्यान केंद्रित कर रहे हैं – मulti-मिनट शॉट जो सिनेमैटिक और प्राकृतिक महसूस होते हैं। हमारा लक्ष्य ग्राहकों को जॉनी वॉकर के प्रसिद्ध “कीप वॉकिंग” अभियान की शैली में वीडियो बनाने की क्षमता प्रदान करना है, लेकिन एक पूर्ण उत्पादन चालक दल के बिना। हम तेजी से प्रगति कर रहे हैं, और बहुत जल्द हम कई मिनट तक चलने और बात करने वाले अनुक्रमों का उत्पादन कर पाएंगे जो सुसंगत पात्रों, गति और कैमरा गतिविधियों के साथ होंगे।
ओपनएआई, गूगल और अन्य लंबी-फॉर्म वीडियो में दौड़ रहे हैं, आप इस उभरते बाजार में क्राफ्टस्टोरी के लाभ को क्या मानते हैं?
एआई वीडियो बाजार अत्यधिक प्रतिस्पर्धी है, और हम पूरी तरह से उम्मीद करते हैं कि बड़े खिलाड़ी तकनीकी रूप से पकड़ में आ जाएंगे। लेकिन हमारा लाभ फोकस और गति है। हमारे पास एक बहुत ही महत्वाकांक्षी रोडमैप है, और हम एक पतली टीम हैं जो तेजी से आगे बढ़ सकती है और जल्दी से पुनरावृत्ति कर सकती है। यह लचीलापन – और लंबी-फॉर्म, मानव-केंद्रित वीडियो पर हमारा फोकस – क्राफ्टस्टोरी को अलग बनाता है।
जैसे-जैसे एआई-जनरेटेड मानव वीडियो अधिक यथार्थवादी और स्केलेबल होता जा रहा है, आपको लगता है कि इस प्रौद्योगिकी के प्रसार के साथ कौन से नैतिक या रचनात्मक सुरक्षा उपाय होने चाहिए?
हर शक्तिशाली प्रौद्योगिकी एक दो-धारी तलवार है, और यह समझना महत्वपूर्ण है कि इसे बाजार में लाने के साथ कौन से विशिष्ट जोखिम जुड़े हैं। एआई-जनरेटेड मानव वीडियो में, व्यक्तिगतीकरण सबसे महत्वपूर्ण – हालांकि एकमात्र – चिंता है। हमने इन जोखिमों का विश्लेषण किया है और कुछ हानिकारक उपयोग के मामलों को रोकने के लिए सुरक्षा उपायों को लागू किया है। जैसे-जैसे तकनीक अधिक यथार्थवादी और स्केलेबल होती जा रही है, पूरे उद्योग के लिए मजबूत नैतिक और रचनात्मक सुरक्षा का रखरखाव आवश्यक होगा।
साक्षात्कार के लिए धन्यवाद, पाठक जो अधिक जानना चाहते हैं उन्हें क्राफ्टस्टोरी पर जाना चाहिए।












