Connect with us

рд╡рд┐рдХреНрд░рд╛рдВрдд рддреЛрдорд░, рдлреНрд▓реБрдПрдВрдЯ.рдПрдЖрдИ рдХреЗ рд╕реАрдЯреАрдУ рдФрд░ рд╕рдВрд╕реНрдерд╛рдкрдХ – рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░ рд╢реНрд░реГрдВрдЦрд▓рд╛

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рд╡рд┐рдХреНрд░рд╛рдВрдд рддреЛрдорд░, рдлреНрд▓реБрдПрдВрдЯ.рдПрдЖрдИ рдХреЗ рд╕реАрдЯреАрдУ рдФрд░ рд╕рдВрд╕реНрдерд╛рдкрдХ – рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░ рд╢реНрд░реГрдВрдЦрд▓рд╛

mm

विक्रांत तोमर, फ्लुएंट.एआई के सीटीओ और संस्थापक हैं, जो डिवाइस ओईएम और सेवा प्रदाताओं के लिए भाषा समझने और वॉयस यूजर इंटरफेस सॉफ्टवेयर है।

आपको शुरू में अकाउस्टिक मॉडलिंग के लिए भाषा पहचान में क्या आकर्षित किया?

वास्तव में, उपकरणों से बात करने की क्षमता जिस तरह हम दूसरे मानव से बात करते हैं। यह दृष्टि मुझे आकर्षित करती है। मैंने अपने स्नातक के अंतिम वर्ष में भाषा पहचान का अध्ययन शुरू किया। यह तब था जब मैं शोध में रुचि लेने लगा था, इसलिए मैंने एक भाषा पहचान पाठ्यक्रम और एक संबंधित शोध परियोजना ली। मैं इस काम से एक शोध पत्र प्रकाशित करने में सक्षम था, जो इंटरस्पीच सम्मेलन में था, जो सबसे बड़ा और सबसे प्रतिष्ठित भाषा पहचान सम्मेलन है। यह मुझे लंबी अवधि के लिए भाषा पहचान में शोध को चुनने के लिए प्रेरित किया, इसलिए पीएचडी।

2015 में आपने फ्लुएंट.एआई लॉन्च किया, इस स्टार्टअप की उत्पत्ति की कहानी साझा करें?

मुझमें लंबे समय से उद्यमी की इच्छा थी। मैं, अपने दो अन्य मित्रों के साथ, स्नातक की डिग्री के बाद एक कंपनी शुरू करने का प्रयास किया था, लेकिन कुछ कारणों से, यह प्रयास सफल नहीं हुआ। मैकगिल में अपनी पीएचडी के दौरान, मैंने मॉन्ट्रियल के स्टार्टअप दृश्य पर नजर रखी। इस दौरान, मैं टैंडेमलॉन्च के लोगों से मिला, जहां मैंने फ्लुएंट.एआई बनाया। मैं अपनी पीएचडी के अंत में था और मैं उद्यमिता में हाथ आजमाने के बारे में गंभीरता से सोच रहा था। मेरे अनुभव, शोध और अन्य भाषा शोध समूहों के साथ संबंध के माध्यम से, मुझे एहसास हुआ कि अधिकांश अनुभव भाषा पहचान को एक विशिष्ट तरीके से करने पर केंद्रित थे: भाषा से पाठ प्रतिलिपि और फिर प्राकृतिक भाषा प्रसंस्करण। हालांकि, इससे उपयोगिता में एक अंतराल बन गया। दुनिया की एक बड़ी आबादी भाषा समाधानों से लाभान्वित नहीं हो सकती जो इस तरह विकसित किए गए हैं। ऐसे तरीकों के लिए आवश्यक डेटा की मात्रा इतनी बड़ी है कि यह वित्तीय रूप से समझदार नहीं होगा कि कम बोलने वाली भाषाओं के लिए अलग-अलग मॉडल विकसित किए जाएं। इसके अलावा, कई बोलियों और भाषाओं का कोई विशिष्ट लिखित रूप नहीं है। मेरे अपने परिवार को मेरे द्वारा विकसित किए गए उपकरणों का उपयोग करने में असमर्थ थे (वे हिंदी की एक बोली बोलते हैं)। इन सभी बातों पर विचार करते हुए, मैंने भाषा मॉडल बनाने के विभिन्न तरीकों के बारे में सोचना शुरू किया, जहां आवश्यक डेटा की मात्रा कम होती है और/या अंतिम उपयोगकर्ता स्वयं मॉडल को प्रशिक्षित या अद्यतन कर सकते हैं। मुझे पता था कि क्यूएल यूनिवर्सिटी (केयूएल) में किया गया काम जो इन आवश्यकताओं को पूरा कर सकता है। केयूएल से आंशिक प्रौद्योगिकी के साथ, हम फ्लुएंट क्या है आज की ओर पहले कदम उठाने में सक्षम थे।

फ्लुएंट.एआई की直觉 भाषा समझने वाले समाधानों के बारे में विस्तार से बताएं?

फ्लुएंट.एआई के भाषा पहचान समाधान मानव द्वारा भाषा को सीखने और पहचानने के तरीके से प्रेरित हैं। पारंपरिक भाषा पहचान प्रणाली पहले इनपुट भाषा को पाठ में परिवर्तित करती है, और फिर उस पाठ से अर्थ निकालती है। यह मानव द्वारा भाषा को पहचानने का तरीका नहीं है। एक उदाहरण के रूप में, बच्चों को देखें जो पढ़ना और लिखना सीखने से पहले हैं: भाषा के लिखित प्रतिनिधित्व के बारे में कुछ नहीं जानते हुए, वे आसानी से बोली जाने वाली बातचीत कर सकते हैं। इसी तरह, फ्लुएंट के गहरे तंत्रिका नेटवर्क-आधारित मॉडल सीधे भाषा ध्वनियों से अर्थ निकालने में सक्षम हैं بدون पहले इसे पाठ में परिवर्तित करने की। तकनीकी रूप से, यह सच्ची बोली भाषा समझ है। इस दृष्टिकोण के कई फायदे हैं। पारंपरिक भाषा पहचान एक जटिल दृष्टिकोण है, जहां कई मॉड्यूल जो अलग-अलग प्रशिक्षित होते हैं उन्हें एक साथ बुनना पड़ता है ताकि अंतिम प्रतिक्रिया प्रदान की जा सके। इससे एक गैर-आदर्श समाधान होता है जो उच्चारण, शोर, पृष्ठभूमि स्थितियों आदि के लिए परिणामों में भिन्नता से पीड़ित होता है। फ्लुएंट की स्वचालित इरादा पहचान (एआईआर) प्रणाली अंत से अंत तक अनुकूलित है; यह पूरी तरह से एक तंत्रिका नेटवर्क-आधारित वास्तुकला है, जहां सभी मॉड्यूल संयुक्त रूप से प्रशिक्षित होते हैं ताकि सबसे अनुकूल समाधान प्रदान किया जा सके। इसके अलावा, हम पारंपरिक भाषा पहचान प्रणाली में सामान्य रूप से मौजूद कई गणनात्मक रूप से भारी मॉड्यूल को हटाने में सक्षम हैं। इससे हम कम-फुटप्रिंट भाषा पहचान प्रणाली बनाने में सक्षम हैं जो केवल 40 केबी रैम में 50 मेगाहर्ट्ज पर चलने वाले कम-शक्ति वाले माइक्रोकंट्रोलर पर चल सकती है। अंत में, हमारी बोली भाषा समझ आधारित एआईआर प्रणाली विभिन्न भाषाओं के बीच समानताओं का फायदा उठाने में सक्षम हैं ताकि एक ही मॉडल में कई भाषाओं को पहचानने जैसी असाधारण विशेषताएं प्रदान की जा सकें।

परिवेशी शोर समस्या को पार करने के पीछे कुछ एआई चुनौतियां क्या हैं?

शोर भाषा पहचान के लिए सबसे बड़ी चुनौतियों में से एक है। जो इसे वास्तव में एक चुनौतीपूर्ण समस्या बनाता है वह यह है कि कई प्रकार के शोर हैं और वे भाषा के स्पेक्ट्रम को विभिन्न तरीकों से प्रभावित करते हैं। कभी-कभी शोर माइक्रोफोन प्रतिक्रिया पर भी प्रभाव डाल सकता है। कई मामलों में, यह संभव नहीं है कि भाषा स्रोतों को शोर स्रोतों से अलग किया जा सके। कुछ मामलों में, शोर भाषा स्पेक्ट्रम में उपलब्ध जानकारी को मास्क कर सकता है, जबकि अन्य में यह उपयोगी जानकारी को पूरी तरह से हटा सकता है। दोनों ही कम सटीकता का परिणाम हैं। जबकि निरंतर शोर प्रकारों को हटाना आसान है, जैसे कि पंखे की आवाज, कुछ शोर प्रकार, जैसे कि बकबक या पृष्ठभूमि में लोगों की बातचीत या संगीत, बहुत मुश्किल हैं क्योंकि वे भाषा स्पेक्ट्रम को कैसे प्रभावित करते हैं।

एज एआई को परिभाषित करें और फ्लुएंट.एआई इस प्रकार के एआई का उपयोग कैसे कर रहा है?

एज एआई एक छतरी शब्द है जिसका उपयोग विभिन्न तरीकों से किया जाता है जिसमें एआई अनुप्रयोगों को कम-शक्ति वाले उपकरणों में स्थानांतरित किया जा सकता है। अधिक से अधिक, इस शब्द का उपयोग तब किया जाता है जब एज उपकरणों में कुछ बुद्धिमान गणनाएं स्वयं की जा रही होती हैं। फ्लुएंट में, हम एज पर उच्च गुणवत्ता वाली बोली भाषा समझ लाने पर केंद्रित हैं। हमने कुशल एल्गोरिदम विकसित किए हैं जो कम-शक्ति वाले कंप्यूट डिवाइसों को स्वयं इनपुट भाषा को पहचानने की अनुमति देते हैं बिना डेटा को क्लाउड-आधारित सर्वर पर प्रसंस्करण के लिए भेजे। इसके दो फायदे हैं: पहला, उपयोगकर्ता की गोपनीयता क्लाउड में अपनी आवाज डेटा स्ट्रीमिंग और संग्रहीत करने से समझौता नहीं किया जाता है। दूसरा, इस दृष्टिकोण से देरी कम हो जाती है क्योंकि भाषा डेटा और प्रतिक्रिया को क्लाउड सर्वर और डिवाइस के बीच यात्रा करने की आवश्यकता नहीं होती है।

कौन से अन्य प्रकार के मशीन लर्निंग प्रौद्योगिकी का उपयोग किया जा रहा है?

हमारा प्राथमिक फोकस गहरे शिक्षण-आधारित दृष्टिकोणों पर है जो भाषा पहचान के लिए हैं। हम आरएल (प्रबल शिक्षण) विधियों का उपयोग कर रहे हैं, जैसे कि एनएसआईएल, नए, पहले से अज्ञात एआई मॉडल वास्तुकला की खोज करने के लिए। और हम ऑटोमल का उपयोग अपने पूर्व निर्धारित एआई मॉडल को विभिन्न अनुप्रयोगों के लिए विश्वसनीय परिणाम प्राप्त करने के लिए ट्यून करने के लिए कर रहे हैं, जिससे विश्वसनीयता और पुनरुत्पादकता में वृद्धि होती है। मॉडल संपीड़न और अन्य गणितीय दृष्टिकोण मॉडल प्रदर्शन को अनुकूलित करने में मदद करते हैं।

आगामी 5 वर्षों में प्राकृतिक भाषा समझ और प्राकृतिक भाषा प्रसंस्करण के लिए क्या होगा?

मुझे लगता है कि प्रणाली अधिक प्राकृतिक इंटरैक्शन प्रदान करने के लिए विकसित होंगी। हाल के वर्षों में प्रगति के बावजूद, अधिकांश वर्तमान प्रणाली केवल सरल प्रश्नों का उत्तर दे सकती हैं या वॉयस-अक्टिवेटेड इंटरनेट खोज कर सकती हैं। हम उन समाधानों को देखेंगे जो एक व्यक्ति के लिए पूरे प्रश्न का उत्तर दे सकते हैं, न कि केवल एक वॉयस-आधारित खोज इंजन के रूप में कार्य करते हैं।

एक और दिलचस्प पहलू गोपनीयता है। वर्तमान लोकप्रिय समाधान मुख्य रूप से इंटरनेट से जुड़े उपकरण हैं जो सभी उपयोगकर्ता की आवाज डेटा को क्लाउड सर्वर पर स्ट्रीम करते हैं। हालांकि, ऐसे समाधानों की गोपनीयता एक मुद्दा बन रही है। हम वॉयस यूआई के आवेदनों को भी उपभोक्ता इलेक्ट्रॉनिक्स से परे औद्योगिक सेटिंग्स, पेशेवर ऑडियो स्पेस, हॉस्पिटैलिटी और कॉन्फ्रेंस रूम में देख रहे हैं। इन अनुप्रयोगों के लिए एक प्रमुख आवश्यकता गोपनीयता है, इसलिए वर्तमान जुड़े समाधान पर्याप्त नहीं हैं – इसलिए हम एज एआई या डिवाइस पर प्राकृतिक भाषा समाधानों को अधिक देखेंगे।

जैसा कि मैंने पहले उल्लेख किया है, भाषा और प्राकृतिक भाषा समाधान दुनिया भर की एक बड़ी आबादी के लिए अनुपलब्ध रहते हैं। कुछ नए प्रकार के एआई मॉडल बनाने के लिए काम किया जा रहा है जो कम डेटा के साथ प्रशिक्षित हो सकते हैं, जिससे विकास लागत कम हो जाती है और कम बोलने वाली भाषाओं में मॉडल विकसित करने को सक्षम बनाता है। इसी तरह, हम उन समाधानों को देखेंगे जो एक ही मॉडल में कई भाषाओं को पहचानना सीख सकते हैं। कुल मिलाकर, हम अधिक से अधिक बहुभाषी एआई मॉडलों को देखेंगे जो उपयोगकर्ता के प्रश्न का उत्तर उनकी मूल भाषा में दे सकते हैं।

फ्लुएंट.एआई के बारे में और क्या है जो आप साझा करना चाहेंगे?

भाषा प्रौद्योगिकी ने पिछले कुछ वर्षों में बहुत प्रगति की है, और इसके आगे बढ़ने की बहुत संभावना है। फ्लुएंट.एआई में, हम हमेशा अपनी मौजूदा प्रौद्योगिकी के नए उपयोगों की तलाश में रहते हैं और लगातार आंतरिक रूप से नवाचार कर रहे हैं। कोविड-19 महामारी ने उच्च-स्पर्श वाले क्षेत्रों जैसे कि लिफ्ट बटन, रेस्तरां में कियोस्क आदि के प्रति संवेदनशीलता बढ़ा दी है, जिसने वॉयस-एनेबल्ड प्रौद्योगिकी की मांग को बढ़ावा दिया है। फ्लुएंट.एआई को इन अंतरालों को भरने में मदद करने की उम्मीद है, क्योंकि हमारे समाधान बहुभाषी हैं और इसलिए अधिक समावेशी हैं, और वे ऑफलाइन काम करते हैं, जो एक अतिरिक्त गोपनीयता परत प्रदान करते हैं। ये कार्य, जैसा कि उल्लेख किया गया है, भाषा प्रौद्योगिकी के भविष्य की संभावना हैं।

साक्षात्कार के लिए धन्यवाद, पाठक जो अधिक जानना चाहते हैं उन्हें फ्लुएंट.एआई की वेबसाइट पर जाना चाहिए।

[1] https://www.researchgate.net/profile/Farzaneh_Sheikhnezhad_Fard/publication/341083699_Nasil_Neural_Archit

рдПрдВрдЯреЛрдиреА рдПрдХ рджреВрд░рджрд░реНрд╢реА рдиреЗрддрд╛ рдФрд░ Unite.AI рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рднрд╛рдЧреАрджрд╛рд░ рд╣реИрдВ, рдЬреЛ рдХрд┐ рдПрдЖрдИ рдФрд░ рд░реЛрдмреЛрдЯрд┐рдХреНрд╕ рдХреЗ рднрд╡рд┐рд╖реНрдп рдХреЛ рдЖрдХрд╛рд░ рджреЗрдиреЗ рдФрд░ рдмрдврд╝рд╛рд╡рд╛ рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдЕрдЯреВрдЯ рдЬреБрдиреВрди рд╕реЗ рдкреНрд░реЗрд░рд┐рдд рд╣реИрдВред рдПрдХ рд╢реНрд░реГрдВрдЦрд▓рд╛ рдЙрджреНрдпрдореА, рд╡рд╣ рдорд╛рдирддрд╛ рд╣реИ рдХрд┐ рдПрдЖрдИ рд╕рдорд╛рдЬ рдХреЗ рд▓рд┐рдП рдЙрддрдирд╛ рд╣реА рд╡рд┐рдШрдЯрдирдХрд╛рд░реА рд╣реЛрдЧрд╛ рдЬрд┐рддрдирд╛ рдХрд┐ рдмрд┐рдЬрд▓реА, рдФрд░ рдЕрдХреНрд╕рд░ рд╡рд┐рдШрдЯрдирдХрд╛рд░реА рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдФрд░ рдПрдЬреАрдЖрдИ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЙрддреНрд╕рд╛рд╣рд┐рдд рд╣реЛрддрд╛ рд╣реИред

рдПрдХ рдлреНрдпреВрдЪрд░рд┐рд╕реНрдЯ рдХреЗ рд░реВрдк рдореЗрдВ, рд╡рд╣ рдЗрди рдирд╡рд╛рдЪрд╛рд░реЛрдВ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╣рдорд╛рд░реА рджреБрдирд┐рдпрд╛ рдХреЛ рдЖрдХрд╛рд░ рджреЗрдиреЗ рдХреА рдЦреЛрдЬ рдореЗрдВ рд╕рдорд░реНрдкрд┐рдд рд╣реИред рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рд╡рд╣ рд╕рд┐рдХреНрдпреЛрд░рд┐рдЯреАрдЬрд╝.io рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рд╣реИрдВ, рдПрдХ рдордВрдЪ рдЬреЛ рднрд╡рд┐рд╖реНрдп рдХреЛ рдлрд┐рд░ рд╕реЗ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рдиреЗ рдФрд░ рдкреВрд░реЗ рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреЛ рдлрд┐рд░ рд╕реЗ рдЖрдХрд╛рд░ рджреЗрдиреЗ рд╡рд╛рд▓реА рдЕрддреНрдпрд╛рдзреБрдирд┐рдХ рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдореЗрдВ рдирд┐рд╡реЗрд╢ рдкрд░ рдХреЗрдВрджреНрд░рд┐рдд рд╣реИред