हमसे जुडे

Artificial Intelligence

इकोस्पीच: साइलेंट-स्पीच रिकग्निशन टेक्नोलॉजी के साथ संचार में क्रांति लाना

प्रकाशित

 on

छवि: रुडोंग झांग/कॉर्नेल विश्वविद्यालय

कॉर्नेल विश्वविद्यालय के शोधकर्ताओं ने इकोस्पीच विकसित किया है, जो एक मूक-वाक् पहचान इंटरफ़ेस है जो होंठ और मुंह के आंदोलनों के आधार पर 31 अघोषित आदेशों को लगातार पहचानने के लिए ध्वनिक-संवेदन और कृत्रिम बुद्धिमत्ता का उपयोग करता है। यह कम-शक्ति, पहनने योग्य इंटरफ़ेस स्मार्टफोन पर संचालित किया जा सकता है और कमांड पहचान के लिए केवल कुछ मिनट के उपयोगकर्ता प्रशिक्षण डेटा की आवश्यकता होती है।

रुइदोंग झांग, सूचना विज्ञान के डॉक्टरेट छात्र, "के प्रमुख लेखक हैंइकोस्पीच: ध्वनिक सेंसिंग द्वारा संचालित न्यूनतम-अवरोधक आईवियर पर निरंतर मूक भाषण पहचान,'' जिसे इस महीने हैम्बर्ग, जर्मनी में कंप्यूटिंग सिस्टम में मानव कारकों पर एसोसिएशन फॉर कंप्यूटिंग मशीनरी सम्मेलन (सीएचआई) में प्रस्तुत किया जाएगा।

“जो लोग ध्वनि को मुखरित नहीं कर सकते, उनके लिए यह मूक वाक् तकनीक ध्वनि सिंथेसाइज़र के लिए एक उत्कृष्ट इनपुट हो सकती है। यह मरीजों को उनकी आवाज वापस दे सकता है,'' झांग ने आगे के विकास के साथ प्रौद्योगिकी के संभावित अनुप्रयोगों पर प्रकाश डालते हुए कहा।

वास्तविक दुनिया के अनुप्रयोग और गोपनीयता लाभ

अपने वर्तमान स्वरूप में, इकोस्पीच का उपयोग ऐसे वातावरण में स्मार्टफोन के माध्यम से दूसरों के साथ संचार करने के लिए किया जा सकता है जहां भाषण असुविधाजनक या अनुपयुक्त है, जैसे शोर वाले रेस्तरां या शांत पुस्तकालय। मूक भाषण इंटरफ़ेस को स्टाइलस के साथ भी जोड़ा जा सकता है और सीएडी जैसे डिज़ाइन सॉफ़्टवेयर के साथ उपयोग किया जा सकता है, जिससे कीबोर्ड और माउस की आवश्यकता काफी कम हो जाती है।

पेंसिल इरेज़र से छोटे माइक्रोफोन और स्पीकर से लैस, इकोस्पीच चश्मा पहनने योग्य एआई-संचालित सोनार सिस्टम के रूप में कार्य करता है, जो चेहरे पर ध्वनि तरंगों को भेजता और प्राप्त करता है और मुंह की गतिविधियों का पता लगाता है। फिर एक गहन शिक्षण एल्गोरिदम लगभग 95% सटीकता के साथ वास्तविक समय में इन इको प्रोफाइल का विश्लेषण करता है।

सूचना विज्ञान के सहायक प्रोफेसर और कॉर्नेल के स्मार्ट कंप्यूटर इंटरफेस फॉर फ्यूचर इंटरेक्शन्स (SciFi) लैब के निदेशक चेंग झांग ने कहा, "हम शरीर पर सोनार ले जा रहे हैं।"

मौजूदा मूक-वाक् पहचान तकनीक आम तौर पर पूर्व निर्धारित आदेशों के सीमित सेट पर निर्भर करती है और उपयोगकर्ता को कैमरे का सामना करने या पहनने की आवश्यकता होती है। चेंग झांग ने बताया कि यह न तो व्यावहारिक है और न ही संभव है और यह उपयोगकर्ता और जिनके साथ वे बातचीत करते हैं, दोनों के लिए महत्वपूर्ण गोपनीयता संबंधी चिंताएं भी पैदा करता है।

इकोस्पीच की ध्वनिक-संवेदन तकनीक पहनने योग्य वीडियो कैमरों की आवश्यकता को समाप्त कर देती है। इसके अलावा, चूंकि ऑडियो डेटा छवि या वीडियो डेटा से छोटा होता है, इसलिए इसे संसाधित करने के लिए कम बैंडविड्थ की आवश्यकता होती है और सूचना विज्ञान के प्रोफेसर फ्रांकोइस गुइम्ब्रेटिएर के अनुसार, इसे वास्तविक समय में ब्लूटूथ के माध्यम से स्मार्टफोन में प्रेषित किया जा सकता है।

"और क्योंकि डेटा को क्लाउड पर अपलोड करने के बजाय आपके स्मार्टफ़ोन पर स्थानीय रूप से संसाधित किया जाता है," उन्होंने कहा, "गोपनीयता-संवेदनशील जानकारी कभी भी आपका नियंत्रण नहीं छोड़ती है।"

एलेक्स मैकफ़ारलैंड एक एआई पत्रकार और लेखक हैं जो कृत्रिम बुद्धिमत्ता में नवीनतम विकास की खोज कर रहे हैं। उन्होंने दुनिया भर में कई एआई स्टार्टअप और प्रकाशनों के साथ सहयोग किया है।