рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рд╡рд┐рдХреНрд░рд╛рдВрдд рддреЛрдорд░, рдлреНрд▓реБрдПрдВрдЯ.рдПрдЖрдИ рдХреЗ рд╕реАрдЯреАрдУ рдФрд░ рд╕рдВрд╕реНрдерд╛рдкрдХ – рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░ рд╢реНрд░реГрдВрдЦрд▓рд╛

विक्रांत तोमर, फ्लुएंट.एआई के सीटीओ और संस्थापक हैं, जो डिवाइस ओईएम और सेवा प्रदाताओं के लिए भाषा समझने और वॉयस यूजर इंटरफेस सॉफ्टवेयर है।
आपको शुरू में अकाउस्टिक मॉडलिंग के लिए भाषा पहचान में क्या आकर्षित किया?
वास्तव में, उपकरणों से बात करने की क्षमता जिस तरह हम दूसरे मानव से बात करते हैं। यह दृष्टि मुझे आकर्षित करती है। मैंने अपने स्नातक के अंतिम वर्ष में भाषा पहचान का अध्ययन शुरू किया। यह तब था जब मैं शोध में रुचि लेने लगा था, इसलिए मैंने एक भाषा पहचान पाठ्यक्रम और एक संबंधित शोध परियोजना ली। मैं इस काम से एक शोध पत्र प्रकाशित करने में सक्षम था, जो इंटरस्पीच सम्मेलन में था, जो सबसे बड़ा और सबसे प्रतिष्ठित भाषा पहचान सम्मेलन है। यह मुझे लंबी अवधि के लिए भाषा पहचान में शोध को चुनने के लिए प्रेरित किया, इसलिए पीएचडी।
2015 में आपने फ्लुएंट.एआई लॉन्च किया, इस स्टार्टअप की उत्पत्ति की कहानी साझा करें?
मुझमें लंबे समय से उद्यमी की इच्छा थी। मैं, अपने दो अन्य मित्रों के साथ, स्नातक की डिग्री के बाद एक कंपनी शुरू करने का प्रयास किया था, लेकिन कुछ कारणों से, यह प्रयास सफल नहीं हुआ। मैकगिल में अपनी पीएचडी के दौरान, मैंने मॉन्ट्रियल के स्टार्टअप दृश्य पर नजर रखी। इस दौरान, मैं टैंडेमलॉन्च के लोगों से मिला, जहां मैंने फ्लुएंट.एआई बनाया। मैं अपनी पीएचडी के अंत में था और मैं उद्यमिता में हाथ आजमाने के बारे में गंभीरता से सोच रहा था। मेरे अनुभव, शोध और अन्य भाषा शोध समूहों के साथ संबंध के माध्यम से, मुझे एहसास हुआ कि अधिकांश अनुभव भाषा पहचान को एक विशिष्ट तरीके से करने पर केंद्रित थे: भाषा से पाठ प्रतिलिपि और फिर प्राकृतिक भाषा प्रसंस्करण। हालांकि, इससे उपयोगिता में एक अंतराल बन गया। दुनिया की एक बड़ी आबादी भाषा समाधानों से लाभान्वित नहीं हो सकती जो इस तरह विकसित किए गए हैं। ऐसे तरीकों के लिए आवश्यक डेटा की मात्रा इतनी बड़ी है कि यह वित्तीय रूप से समझदार नहीं होगा कि कम बोलने वाली भाषाओं के लिए अलग-अलग मॉडल विकसित किए जाएं। इसके अलावा, कई बोलियों और भाषाओं का कोई विशिष्ट लिखित रूप नहीं है। मेरे अपने परिवार को मेरे द्वारा विकसित किए गए उपकरणों का उपयोग करने में असमर्थ थे (वे हिंदी की एक बोली बोलते हैं)। इन सभी बातों पर विचार करते हुए, मैंने भाषा मॉडल बनाने के विभिन्न तरीकों के बारे में सोचना शुरू किया, जहां आवश्यक डेटा की मात्रा कम होती है और/या अंतिम उपयोगकर्ता स्वयं मॉडल को प्रशिक्षित या अद्यतन कर सकते हैं। मुझे पता था कि क्यूएल यूनिवर्सिटी (केयूएल) में किया गया काम जो इन आवश्यकताओं को पूरा कर सकता है। केयूएल से आंशिक प्रौद्योगिकी के साथ, हम फ्लुएंट क्या है आज की ओर पहले कदम उठाने में सक्षम थे।
फ्लुएंट.एआई की直觉 भाषा समझने वाले समाधानों के बारे में विस्तार से बताएं?
फ्लुएंट.एआई के भाषा पहचान समाधान मानव द्वारा भाषा को सीखने और पहचानने के तरीके से प्रेरित हैं। पारंपरिक भाषा पहचान प्रणाली पहले इनपुट भाषा को पाठ में परिवर्तित करती है, और फिर उस पाठ से अर्थ निकालती है। यह मानव द्वारा भाषा को पहचानने का तरीका नहीं है। एक उदाहरण के रूप में, बच्चों को देखें जो पढ़ना और लिखना सीखने से पहले हैं: भाषा के लिखित प्रतिनिधित्व के बारे में कुछ नहीं जानते हुए, वे आसानी से बोली जाने वाली बातचीत कर सकते हैं। इसी तरह, फ्लुएंट के गहरे तंत्रिका नेटवर्क-आधारित मॉडल सीधे भाषा ध्वनियों से अर्थ निकालने में सक्षम हैं بدون पहले इसे पाठ में परिवर्तित करने की। तकनीकी रूप से, यह सच्ची बोली भाषा समझ है। इस दृष्टिकोण के कई फायदे हैं। पारंपरिक भाषा पहचान एक जटिल दृष्टिकोण है, जहां कई मॉड्यूल जो अलग-अलग प्रशिक्षित होते हैं उन्हें एक साथ बुनना पड़ता है ताकि अंतिम प्रतिक्रिया प्रदान की जा सके। इससे एक गैर-आदर्श समाधान होता है जो उच्चारण, शोर, पृष्ठभूमि स्थितियों आदि के लिए परिणामों में भिन्नता से पीड़ित होता है। फ्लुएंट की स्वचालित इरादा पहचान (एआईआर) प्रणाली अंत से अंत तक अनुकूलित है; यह पूरी तरह से एक तंत्रिका नेटवर्क-आधारित वास्तुकला है, जहां सभी मॉड्यूल संयुक्त रूप से प्रशिक्षित होते हैं ताकि सबसे अनुकूल समाधान प्रदान किया जा सके। इसके अलावा, हम पारंपरिक भाषा पहचान प्रणाली में सामान्य रूप से मौजूद कई गणनात्मक रूप से भारी मॉड्यूल को हटाने में सक्षम हैं। इससे हम कम-फुटप्रिंट भाषा पहचान प्रणाली बनाने में सक्षम हैं जो केवल 40 केबी रैम में 50 मेगाहर्ट्ज पर चलने वाले कम-शक्ति वाले माइक्रोकंट्रोलर पर चल सकती है। अंत में, हमारी बोली भाषा समझ आधारित एआईआर प्रणाली विभिन्न भाषाओं के बीच समानताओं का फायदा उठाने में सक्षम हैं ताकि एक ही मॉडल में कई भाषाओं को पहचानने जैसी असाधारण विशेषताएं प्रदान की जा सकें।
परिवेशी शोर समस्या को पार करने के पीछे कुछ एआई चुनौतियां क्या हैं?
शोर भाषा पहचान के लिए सबसे बड़ी चुनौतियों में से एक है। जो इसे वास्तव में एक चुनौतीपूर्ण समस्या बनाता है वह यह है कि कई प्रकार के शोर हैं और वे भाषा के स्पेक्ट्रम को विभिन्न तरीकों से प्रभावित करते हैं। कभी-कभी शोर माइक्रोफोन प्रतिक्रिया पर भी प्रभाव डाल सकता है। कई मामलों में, यह संभव नहीं है कि भाषा स्रोतों को शोर स्रोतों से अलग किया जा सके। कुछ मामलों में, शोर भाषा स्पेक्ट्रम में उपलब्ध जानकारी को मास्क कर सकता है, जबकि अन्य में यह उपयोगी जानकारी को पूरी तरह से हटा सकता है। दोनों ही कम सटीकता का परिणाम हैं। जबकि निरंतर शोर प्रकारों को हटाना आसान है, जैसे कि पंखे की आवाज, कुछ शोर प्रकार, जैसे कि बकबक या पृष्ठभूमि में लोगों की बातचीत या संगीत, बहुत मुश्किल हैं क्योंकि वे भाषा स्पेक्ट्रम को कैसे प्रभावित करते हैं।
एज एआई को परिभाषित करें और फ्लुएंट.एआई इस प्रकार के एआई का उपयोग कैसे कर रहा है?
एज एआई एक छतरी शब्द है जिसका उपयोग विभिन्न तरीकों से किया जाता है जिसमें एआई अनुप्रयोगों को कम-शक्ति वाले उपकरणों में स्थानांतरित किया जा सकता है। अधिक से अधिक, इस शब्द का उपयोग तब किया जाता है जब एज उपकरणों में कुछ बुद्धिमान गणनाएं स्वयं की जा रही होती हैं। फ्लुएंट में, हम एज पर उच्च गुणवत्ता वाली बोली भाषा समझ लाने पर केंद्रित हैं। हमने कुशल एल्गोरिदम विकसित किए हैं जो कम-शक्ति वाले कंप्यूट डिवाइसों को स्वयं इनपुट भाषा को पहचानने की अनुमति देते हैं बिना डेटा को क्लाउड-आधारित सर्वर पर प्रसंस्करण के लिए भेजे। इसके दो फायदे हैं: पहला, उपयोगकर्ता की गोपनीयता क्लाउड में अपनी आवाज डेटा स्ट्रीमिंग और संग्रहीत करने से समझौता नहीं किया जाता है। दूसरा, इस दृष्टिकोण से देरी कम हो जाती है क्योंकि भाषा डेटा और प्रतिक्रिया को क्लाउड सर्वर और डिवाइस के बीच यात्रा करने की आवश्यकता नहीं होती है।
कौन से अन्य प्रकार के मशीन लर्निंग प्रौद्योगिकी का उपयोग किया जा रहा है?
हमारा प्राथमिक फोकस गहरे शिक्षण-आधारित दृष्टिकोणों पर है जो भाषा पहचान के लिए हैं। हम आरएल (प्रबल शिक्षण) विधियों का उपयोग कर रहे हैं, जैसे कि एनएसआईएल, नए, पहले से अज्ञात एआई मॉडल वास्तुकला की खोज करने के लिए। और हम ऑटोमल का उपयोग अपने पूर्व निर्धारित एआई मॉडल को विभिन्न अनुप्रयोगों के लिए विश्वसनीय परिणाम प्राप्त करने के लिए ट्यून करने के लिए कर रहे हैं, जिससे विश्वसनीयता और पुनरुत्पादकता में वृद्धि होती है। मॉडल संपीड़न और अन्य गणितीय दृष्टिकोण मॉडल प्रदर्शन को अनुकूलित करने में मदद करते हैं।
आगामी 5 वर्षों में प्राकृतिक भाषा समझ और प्राकृतिक भाषा प्रसंस्करण के लिए क्या होगा?
मुझे लगता है कि प्रणाली अधिक प्राकृतिक इंटरैक्शन प्रदान करने के लिए विकसित होंगी। हाल के वर्षों में प्रगति के बावजूद, अधिकांश वर्तमान प्रणाली केवल सरल प्रश्नों का उत्तर दे सकती हैं या वॉयस-अक्टिवेटेड इंटरनेट खोज कर सकती हैं। हम उन समाधानों को देखेंगे जो एक व्यक्ति के लिए पूरे प्रश्न का उत्तर दे सकते हैं, न कि केवल एक वॉयस-आधारित खोज इंजन के रूप में कार्य करते हैं।
एक और दिलचस्प पहलू गोपनीयता है। वर्तमान लोकप्रिय समाधान मुख्य रूप से इंटरनेट से जुड़े उपकरण हैं जो सभी उपयोगकर्ता की आवाज डेटा को क्लाउड सर्वर पर स्ट्रीम करते हैं। हालांकि, ऐसे समाधानों की गोपनीयता एक मुद्दा बन रही है। हम वॉयस यूआई के आवेदनों को भी उपभोक्ता इलेक्ट्रॉनिक्स से परे औद्योगिक सेटिंग्स, पेशेवर ऑडियो स्पेस, हॉस्पिटैलिटी और कॉन्फ्रेंस रूम में देख रहे हैं। इन अनुप्रयोगों के लिए एक प्रमुख आवश्यकता गोपनीयता है, इसलिए वर्तमान जुड़े समाधान पर्याप्त नहीं हैं – इसलिए हम एज एआई या डिवाइस पर प्राकृतिक भाषा समाधानों को अधिक देखेंगे।
जैसा कि मैंने पहले उल्लेख किया है, भाषा और प्राकृतिक भाषा समाधान दुनिया भर की एक बड़ी आबादी के लिए अनुपलब्ध रहते हैं। कुछ नए प्रकार के एआई मॉडल बनाने के लिए काम किया जा रहा है जो कम डेटा के साथ प्रशिक्षित हो सकते हैं, जिससे विकास लागत कम हो जाती है और कम बोलने वाली भाषाओं में मॉडल विकसित करने को सक्षम बनाता है। इसी तरह, हम उन समाधानों को देखेंगे जो एक ही मॉडल में कई भाषाओं को पहचानना सीख सकते हैं। कुल मिलाकर, हम अधिक से अधिक बहुभाषी एआई मॉडलों को देखेंगे जो उपयोगकर्ता के प्रश्न का उत्तर उनकी मूल भाषा में दे सकते हैं।
फ्लुएंट.एआई के बारे में और क्या है जो आप साझा करना चाहेंगे?
भाषा प्रौद्योगिकी ने पिछले कुछ वर्षों में बहुत प्रगति की है, और इसके आगे बढ़ने की बहुत संभावना है। फ्लुएंट.एआई में, हम हमेशा अपनी मौजूदा प्रौद्योगिकी के नए उपयोगों की तलाश में रहते हैं और लगातार आंतरिक रूप से नवाचार कर रहे हैं। कोविड-19 महामारी ने उच्च-स्पर्श वाले क्षेत्रों जैसे कि लिफ्ट बटन, रेस्तरां में कियोस्क आदि के प्रति संवेदनशीलता बढ़ा दी है, जिसने वॉयस-एनेबल्ड प्रौद्योगिकी की मांग को बढ़ावा दिया है। फ्लुएंट.एआई को इन अंतरालों को भरने में मदद करने की उम्मीद है, क्योंकि हमारे समाधान बहुभाषी हैं और इसलिए अधिक समावेशी हैं, और वे ऑफलाइन काम करते हैं, जो एक अतिरिक्त गोपनीयता परत प्रदान करते हैं। ये कार्य, जैसा कि उल्लेख किया गया है, भाषा प्रौद्योगिकी के भविष्य की संभावना हैं।
साक्षात्कार के लिए धन्यवाद, पाठक जो अधिक जानना चाहते हैं उन्हें फ्लुएंट.एआई की वेबसाइट पर जाना चाहिए।
[1] https://www.researchgate.net/profile/Farzaneh_Sheikhnezhad_Fard/publication/341083699_Nasil_Neural_Archit












