рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░

рд╡рд┐рдХреНрдЯрд░ рдПрд░реБрдЦрд┐рдореЛрд╡, рдХреНрд░рд╛рдлреНрдЯрд╕реНрдЯреЛрд░реА рдХреЗ рд╕реАрдИрдУ – рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░ рд╢реНрд░реГрдВрдЦрд▓рд╛

mm

विक्टर एरुखिमोव, क्राफ्टस्टोरी के सीईओ, एक कंप्यूटर-विजन आरएंडडी इंजीनियर हैं जो उद्यमी बन गए और जिन्होंने ओपनसीवी के शुरुआती विकास को आकार देने में मदद की, बाद में इट्सीज़ की सह-स्थापना की और इसे एक तकनीकी स्टार्टअप से दुनिया की अग्रणी कंप्यूटर-विजन अनुसंधान टीमों में से एक में बदल दिया, जिसे बाद में इंटेल द्वारा अधिग्रहित किया गया। एक दशक से अधिक समय में, उन्होंने सीटीओ से सीईओ से लेकर राष्ट्रपति तक की प्रगति की, और इट्सीज़३डी में भी इसी प्रकार की प्रगति की, जहां उन्होंने उन्नत मोबाइल ३डी-स्कैनिंग और अवतार-जेनरेशन प्रौद्योगिकियों के विकास का नेतृत्व किया, साथ ही ओपनसीवी.ओआरजी के एक लंबे समय से बोर्ड सदस्य के रूप में कार्य किया।

क्राफ्टस्टोरी में, वह अब एआई-मूल वीडियो निर्माण पर ध्यान केंद्रित कर रहे हैं, जो सरल इनपुट को अत्यधिक वास्तविक, निर्माता-तैयार वीडियो में बदलने वाली प्रौद्योगिकी बना रहे हैं। उनके नेतृत्व में, कंपनी अगली पीढ़ी के जनरेटिव वीडियो मॉडल विकसित कर रही है जो विपणन टीमों, शिक्षकों और उत्पाद कहानीकारों के लिए डिज़ाइन किए गए हैं जिन्हें स्टूडियो ओवरहेड के बिना तेज़, उच्च-गुणवत्ता वाली सामग्री की आवश्यकता है।

आप कंप्यूटर विजन के कुछ सबसे प्रभावशाली परियोजनाओं के पीछे एक ड्राइविंग बल रहे हैं – ओपनसीवी से लेकर इट्सीज़३डी तक। आपको क्राफ्टस्टोरी की स्थापना के लिए क्या प्रेरित किया और आपका पिछला काम लंबी-फॉर्म, स्टूडियो-गुणवत्ता वाले एआई वीडियो के लिए आपके दृष्टिकोण को कैसे आकार दिया?

क्राफ्टस्टोरी से पहले, मेरी टीम और मैं अवतार एसडीके पर काम कर रहे थे – एक उपकरण जो वीआर/एआर, गेमिंग, विपणन और अन्य अनुप्रयोगों के लिए सेल्फी से वास्तविक अवतार बनाता है। हम पहले से ही कई वर्षों से डिजिटल मानवों के बारे में गहराई से सोच रहे थे। फिर, लगभग दो साल पहले, हमें एहसास हुआ कि जेनएआई प्रौद्योगिकी वीडियो जेनरेशन के लिए पर्याप्त अच्छी हो गई है ताकि यह पूरी तरह से नए अनुप्रयोगों को अनलॉक कर सके, और हम तुरंत इसमें कूद पड़े।

क्राफ्टस्टोरी की शुरुआत ओपनसीवी के निर्माताओं के साथ हुई। उनकी साझा पृष्ठभूमि ने मॉडल २.० के लिए तकनीकी दिशा और अनुसंधान प्राथमिकताओं को कैसे प्रभावित किया?

हम एक असाधारण प्रगति की अवधि में रह रहे हैं कंप्यूटर विजन और मशीन लर्निंग में। यह ऐसा लगता है जैसे कि प्रारंभिक क्वांटम मैकेनिक्स के सभी सफलताएं – मूल रूप से दशकों में फैली हुई – केवल कुछ वर्षों में संकुचित हो गई हैं। छवि समझ और पीढ़ी ने ओपनसीवी के विकास के दौरान हमारे साथ काम करने वाली चीजों से बहुत आगे निकल गई है। इस प्रगति को एक दशक से अधिक समय से देखकर, भविष्यवाणियां करते हुए और देखकर कि वे सफल होती हैं या विफल होती हैं, हमें यह समझने के लिए एक गहरी अंतर्दृष्टि मिली है कि तकनीक और बाजार कहां जा रहे हैं। यह परिप्रेक्ष्य सीधे हमारी अनुसंधान प्राथमिकताओं और मॉडल २.० के लिए रोडमैप को आकार देता है।

मॉडल २.० कुछ ऐसा करता है जिससे कई वीडियो मॉडल संघर्ष करते हैं: मिनटों की फुटेज में पहचान, भावना और स्थिरता बनाए रखना। यह संभव बनाने के लिए क्या सफलता मिली?

पहचान और स्थिरता हमारी प्राथमिकता रही है दिन एक से। नेटवर्क में कई वास्तुकला चुनाव विशेष रूप से इन चुनौतियों का समाधान करने के लिए डिज़ाइन किए गए थे। लेकिन समान रूप से महत्वपूर्ण था मॉडल को हमारे द्वारा स्वयं एकत्रित डेटा पर फाइन-ट्यून करना। हमने पेशेवर अभिनेताओं को एक नियंत्रित स्टूडियो वातावरण में हमारे自己的 उच्च-फ्रेम दर कैमरों का उपयोग करके फिल्माया, ताकि यह सुनिश्चित किया जा सके कि हर फ्रेम – तेजी से शरीर, हाथ और उंगलियों की गति सहित – तेज रहे। उस स्तर का उच्च-गुणवत्ता, गति-संपन्न डेटा ने एक महत्वपूर्ण अंतर बनाया।

आपकी टीम ने लंबे क्रमों को सुसंगत रखने के लिए एक समांतर प्रसार पाइपलाइन पेश की। यह किस समस्या का समाधान करने के लिए डिज़ाइन किया गया था, और यह मulti-मिनट मानव वीडियो के लिए क्यों आवश्यक था?

एक लंबी अनुक्रम के फ्रेमों पर एक ही प्रसार प्रक्रिया चलाना बेहद चुनौतीपूर्ण है – यह गणनात्मक रूप से महंगा है और大量 प्रशिक्षण डेटा की मांग करता है। हमारी समांतर प्रसार पाइपलाइन इस समस्या का समाधान करती है कई प्रसार प्रक्रियाओं को विभिन्न समय खंडों पर एक साथ चलाने से। मुख्य सफलता इन खंडों को जोड़ने का तरीका खोजना था ताकि वे लंबे समय तक सुसंगत और स्थिर रहें। मॉडल २.० अब पांच मिनट तक के वीडियो उत्पन्न कर सकता है, लेकिन यह मुख्य रूप से एक तकनीकी सीमा है। अधिक इंजीनियरिंग कार्य के साथ, हम इसे वीडियो की मूल रूप से मनमानी लंबाई तक बढ़ा सकते हैं।

क्राफ्टस्टोरी हाथ, शरीर और चेहरे की गतिविधियों में यथार्थवाद पर जोर देता है। लंबी अवधि में प्राकृतिक हाथ, शरीर और चेहरे की गतिविधियों को संरक्षित करने में सबसे कठिन चुनौतियां क्या थीं?

सबसे बड़ी चुनौती वास्तविक शरीर और चेहरे की गति लगातार लंबे समय तक उत्पन्न करना है। छोटे विवरण – जैसे कि सूक्ष्म हाथ गति, पोस्चर में बदलाव, या माइक्रो-अभिव्यक्तियां – आमतौर पर लंबे अनुक्रम में टूट जाते हैं। हमने इसे हल किया अपने व्यापक, उच्च-गुणवत्ता वाले डेटासेट पर प्रशिक्षण देकर, जिसे पेशेवर अभिनेताओं और उच्च-फ्रेम दर कैमरों के साथ कब्जा कर लिया गया था। उस स्तर का नियंत्रित, गति-संपन्न फुटेज ने मॉडल को पूरे प्रदर्शन में प्राकृतिक गतिविधियों को बनाए रखने के लिए संकेत दिया, न कि केवल अलग-अलग क्षणों में।

कई कंपनियां महंगे लाइव शूट और छोटे, अनिश्चित एआई क्लिप के बीच फंसी हुई हैं। आपको मulti-मिनट, मानव-केंद्रित वीडियो के लिए सबसे बड़ी व्यावसायिक मांग कहां दिखाई दे रही है?

एआई-जनरेटेड वीडियो तेजी से कैमरा-शॉट फुटेज से अंतर्निहित हो रहे हैं, जबकि पारंपरिक उत्पादन का केवल एक अंश लागत पर। हम जिस सबसे बड़ी प्रारंभिक मांग को देख रहे हैं वह कॉर्पोरेट सामग्री में है – विशेष रूप से लर्निंग एंड डेवलपमेंट – जहां कंपनियों को बड़ी मात्रा में स्पष्ट, मानव-केंद्रित निर्देशात्मक वीडियो की आवश्यकता होती है जिन्हें तुरंत अपडेट किया जा सकता है। मulti-मिनट, सुसंगत एआई प्रस्तुतकर्ता इसके लिए एकदम सही हैं।

हम उत्पाद परिचय, ट्यूटोरियल और एक्सप्लेनर जैसे विपणन उपयोग के मामलों में भी बढ़ती रुचि देख रहे हैं। जैसे-जैसे तकनीक परिपक्व होती है, लंबी-फॉर्म एआई वीडियो धीरे-धीरे महंगे लाइव शूट और आज अधिकांश टूल्स द्वारा उत्पादित छोटे, अनिश्चित क्लिप को प्रतिस्थापित करेगा।

आपके पास एक उन्नत लिप-सिंक और इशारा संरेखण प्रणाली है। हम पूरी तरह से विश्वसनीय एआई संवाद से कितनी दूर हैं और क्या अभी भी सुधार की आवश्यकता है?

मुझे लगता है कि हम बहुत करीब हैं। प्रौद्योगिकी की एक और पीढ़ी – विशेष रूप से इसे तेज़ बनाने और मूल १०८०पी उत्पन्न करने के लिए – हमें पूरी तरह से विश्वसनीय एआई संवाद तक पहुंचाएगी।

आप जिस पाठ-से-वीडियो मॉडल पर काम कर रहे हैं वह स्क्रिप्ट से लंबी-फॉर्म जेनरेशन का वादा करता है। यह मुख्यधारा बनने से पहले आपको अभी भी किन तकनीकी बाधाओं को पार करना होगा?

कोई मूलभूत बाधाएं नहीं हैं – बस आगे बहुत सारा इंजीनियरिंग कार्य। वीडियो-से-वीडियो निचला फल था, इसलिए हमने पहले उसे बाजार में लाया। अब हम छवि-से-वीडियो मॉडल पर ध्यान केंद्रित कर रहे हैं जो एक स्क्रिप्ट और एक रेफरेंस छवि को इनपुट के रूप में लेता है। हम तेजी से प्रगति कर रहे हैं और उम्मीद करते हैं कि इसे अगले कुछ हफ्तों के भीतर जारी करेंगे।

चलती कैमरा अनुक्रम – जैसे कि चलने और बात करने वाले शॉट – सिनेमैटिक स्वचालन की एक बड़ी प्रगति है। आप इस चुनौती का सामना अपने प्रतिस्पर्धियों जैसे सोरा की तुलना में कैसे कर रहे हैं?

हम लंबे चलने और बात करने वाले अनुक्रमों को उत्पन्न करने पर ध्यान केंद्रित कर रहे हैं – मulti-मिनट शॉट जो सिनेमैटिक और प्राकृतिक महसूस होते हैं। हमारा लक्ष्य ग्राहकों को जॉनी वॉकर के प्रसिद्ध “कीप वॉकिंग” अभियान की शैली में वीडियो बनाने की क्षमता प्रदान करना है, लेकिन एक पूर्ण उत्पादन चालक दल के बिना। हम तेजी से प्रगति कर रहे हैं, और बहुत जल्द हम कई मिनट तक चलने और बात करने वाले अनुक्रमों का उत्पादन कर पाएंगे जो सुसंगत पात्रों, गति और कैमरा गतिविधियों के साथ होंगे।

ओपनएआई, गूगल और अन्य लंबी-फॉर्म वीडियो में दौड़ रहे हैं, आप इस उभरते बाजार में क्राफ्टस्टोरी के लाभ को क्या मानते हैं?

एआई वीडियो बाजार अत्यधिक प्रतिस्पर्धी है, और हम पूरी तरह से उम्मीद करते हैं कि बड़े खिलाड़ी तकनीकी रूप से पकड़ में आ जाएंगे। लेकिन हमारा लाभ फोकस और गति है। हमारे पास एक बहुत ही महत्वाकांक्षी रोडमैप है, और हम एक पतली टीम हैं जो तेजी से आगे बढ़ सकती है और जल्दी से पुनरावृत्ति कर सकती है। यह लचीलापन – और लंबी-फॉर्म, मानव-केंद्रित वीडियो पर हमारा फोकस – क्राफ्टस्टोरी को अलग बनाता है।

जैसे-जैसे एआई-जनरेटेड मानव वीडियो अधिक यथार्थवादी और स्केलेबल होता जा रहा है, आपको लगता है कि इस प्रौद्योगिकी के प्रसार के साथ कौन से नैतिक या रचनात्मक सुरक्षा उपाय होने चाहिए?

हर शक्तिशाली प्रौद्योगिकी एक दो-धारी तलवार है, और यह समझना महत्वपूर्ण है कि इसे बाजार में लाने के साथ कौन से विशिष्ट जोखिम जुड़े हैं। एआई-जनरेटेड मानव वीडियो में, व्यक्तिगतीकरण सबसे महत्वपूर्ण – हालांकि एकमात्र – चिंता है। हमने इन जोखिमों का विश्लेषण किया है और कुछ हानिकारक उपयोग के मामलों को रोकने के लिए सुरक्षा उपायों को लागू किया है। जैसे-जैसे तकनीक अधिक यथार्थवादी और स्केलेबल होती जा रही है, पूरे उद्योग के लिए मजबूत नैतिक और रचनात्मक सुरक्षा का रखरखाव आवश्यक होगा।

साक्षात्कार के लिए धन्यवाद, पाठक जो अधिक जानना चाहते हैं उन्हें क्राफ्टस्टोरी पर जाना चाहिए।

рдПрдВрдЯреЛрдиреА рдПрдХ рджреВрд░рджрд░реНрд╢реА рдиреЗрддрд╛ рдФрд░ Unite.AI рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рднрд╛рдЧреАрджрд╛рд░ рд╣реИрдВ, рдЬреЛ рдХрд┐ рдПрдЖрдИ рдФрд░ рд░реЛрдмреЛрдЯрд┐рдХреНрд╕ рдХреЗ рднрд╡рд┐рд╖реНрдп рдХреЛ рдЖрдХрд╛рд░ рджреЗрдиреЗ рдФрд░ рдмрдврд╝рд╛рд╡рд╛ рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдЕрдЯреВрдЯ рдЬреБрдиреВрди рд╕реЗ рдкреНрд░реЗрд░рд┐рдд рд╣реИрдВред рдПрдХ рд╢реНрд░реГрдВрдЦрд▓рд╛ рдЙрджреНрдпрдореА, рд╡рд╣ рдорд╛рдирддрд╛ рд╣реИ рдХрд┐ рдПрдЖрдИ рд╕рдорд╛рдЬ рдХреЗ рд▓рд┐рдП рдЙрддрдирд╛ рд╣реА рд╡рд┐рдШрдЯрдирдХрд╛рд░реА рд╣реЛрдЧрд╛ рдЬрд┐рддрдирд╛ рдХрд┐ рдмрд┐рдЬрд▓реА, рдФрд░ рдЕрдХреНрд╕рд░ рд╡рд┐рдШрдЯрдирдХрд╛рд░реА рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдФрд░ рдПрдЬреАрдЖрдИ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЙрддреНрд╕рд╛рд╣рд┐рдд рд╣реЛрддрд╛ рд╣реИред

рдПрдХ рдлреНрдпреВрдЪрд░рд┐рд╕реНрдЯ рдХреЗ рд░реВрдк рдореЗрдВ, рд╡рд╣ рдЗрди рдирд╡рд╛рдЪрд╛рд░реЛрдВ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╣рдорд╛рд░реА рджреБрдирд┐рдпрд╛ рдХреЛ рдЖрдХрд╛рд░ рджреЗрдиреЗ рдХреА рдЦреЛрдЬ рдореЗрдВ рд╕рдорд░реНрдкрд┐рдд рд╣реИред рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рд╡рд╣ рд╕рд┐рдХреНрдпреЛрд░рд┐рдЯреАрдЬрд╝.io рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рд╣реИрдВ, рдПрдХ рдордВрдЪ рдЬреЛ рднрд╡рд┐рд╖реНрдп рдХреЛ рдлрд┐рд░ рд╕реЗ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рдиреЗ рдФрд░ рдкреВрд░реЗ рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреЛ рдлрд┐рд░ рд╕реЗ рдЖрдХрд╛рд░ рджреЗрдиреЗ рд╡рд╛рд▓реА рдЕрддреНрдпрд╛рдзреБрдирд┐рдХ рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдореЗрдВ рдирд┐рд╡реЗрд╢ рдкрд░ рдХреЗрдВрджреНрд░рд┐рдд рд╣реИред