Connect with us

Modulate, Ensemble Listening Models рдХрд╛ рдкрд░рд┐рдЪрдп рджреЗрддрд╛ рд╣реИ, рдЬреЛ AI рджреНрд╡рд╛рд░рд╛ рдорд╛рдирд╡реАрдп рдЖрд╡рд╛рдЬрд╝ рдХреЛ рд╕рдордЭрдиреЗ рдХреЗ рддрд░реАрдХреЗ рдХреЛ рдкреБрдирд░реНрдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рддрд╛ рд╣реИ

Artificial Intelligence

Modulate, Ensemble Listening Models рдХрд╛ рдкрд░рд┐рдЪрдп рджреЗрддрд╛ рд╣реИ, рдЬреЛ AI рджреНрд╡рд╛рд░рд╛ рдорд╛рдирд╡реАрдп рдЖрд╡рд╛рдЬрд╝ рдХреЛ рд╕рдордЭрдиреЗ рдХреЗ рддрд░реАрдХреЗ рдХреЛ рдкреБрдирд░реНрдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рддрд╛ рд╣реИ

mm

कृत्रिम बुद्धिमत्ता ने तेजी से प्रगति की है, फिर भी एक क्षेत्र लगातार कठिन बना हुआ है: मानवीय आवाज़ को वास्तव में समझना। सिर्फ बोले गए शब्द ही नहीं, बल्कि उनके पीछे का भाव, स्वर और समय द्वारा आकार दी गई मंशा, और वे सूक्ष्म संकेत जो मित्रतापूर्ण मजाक को निराशा, धोखे या नुकसान से अलग करते हैं। आज, Modulate ने Ensemble Listening Model (ELM) की शुरुआत के साथ एक बड़ी सफलता की घोषणा की, जो वास्तविक दुनिया में आवाज़ की समझ के लिए विशेष रूप से डिज़ाइन किया गया एक नया AI आर्किटेक्चर है।

शोध घोषणा के साथ, Modulate ने Velma 2.0 का अनावरण किया, जो एक Ensemble Listening Model की पहली प्रोडक्शन डिप्लॉयमेंट है। कंपनी रिपोर्ट करती है कि Velma 2.0 बातचीत की सटीकता में अग्रणी फाउंडेशन मॉडल्स को पीछे छोड़ते हुए लागत के एक अंश पर काम करता है, एक ऐसे समय में यह एक उल्लेखनीय दावा है जब उद्यम बड़े पैमाने पर AI डिप्लॉयमेंट की स्थिरता का पुनर्मूल्यांकन कर रहे हैं।

AI के लिए आवाज़ क्यों कठिन रही है

अधिकांश AI सिस्टम जो भाषण का विश्लेषण करते हैं, एक परिचित दृष्टिकोण का पालन करते हैं। ऑडियो को टेक्स्ट में बदला जाता है, और उस ट्रांसक्रिप्ट को फिर एक बड़े भाषा मॉडल द्वारा प्रोसेस किया जाता है। ट्रांसक्रिप्शन और सारांश के लिए प्रभावी होते हुए भी, यह प्रक्रिया आवाज़ को सार्थक बनाने वाली बहुत सी चीजों को हटा देती है।

स्वर, भावनात्मक उतार-चढ़ाव, हिचकिचाहट, व्यंग्य, एक साथ होने वाली बातचीत, और पृष्ठभूमि का शोर – सभी महत्वपूर्ण संदर्भ लेकर चलते हैं। जब भाषण को टेक्स्ट में समतल कर दिया जाता है, तो वे आयाम खो जाते हैं, जिसके परिणामस्वरूप अक्सर मंशा या भावना की गलत व्याख्या होती है। यह ग्राहक सहायता, धोखाधड़ी का पता लगाने, ऑनलाइन गेमिंग, और AI-संचालित संचार जैसे वातावरणों में विशेष रूप से समस्याग्रस्त हो जाता है, जहां बारीकियां सीधे परिणामों को प्रभावित करती हैं।

Modulate के अनुसार, यह सीमा डेटा-संचालित नहीं बल्कि आर्किटेक्चरल है। बड़े भाषा मॉडल टेक्स्ट भविष्यवाणी के लिए अनुकूलित हैं, न कि कई ध्वनिक और व्यवहारिक संकेतों को वास्तविक समय में एकीकृत करने के लिए। Ensemble Listening Models को उस अंतर को दूर करने के लिए बनाया गया था।

Ensemble Listening Model क्या है?

एक Ensemble Listening Model एक ऐसा एकल न्यूरल नेटवर्क नहीं है जिसे एक साथ सब कुछ करने के लिए प्रशिक्षित किया गया हो। बल्कि, यह कई विशेष मॉडलों से बना एक समन्वित सिस्टम है, जिनमें से प्रत्येक आवाज़ की बातचीत के एक अलग आयाम का विश्लेषण करने के लिए जिम्मेदार है।

एक ELM के भीतर, अलग-अलग मॉडल भावना, तनाव, धोखे के संकेतक, वक्ता की पहचान, समय, स्वराघात, पृष्ठभूमि का शोर, और संभावित सिंथेटिक या नकली आवाजों की जांच करते हैं। इन संकेतों को एक समय-संरेखित ऑर्केस्ट्रेशन लेयर के माध्यम से सिंक्रनाइज़ किया जाता है जो एक बातचीत में क्या हो रहा है, इसकी एक एकीकृत और समझाने योग्य व्याख्या तैयार करती है।

श्रम की यह स्पष्ट विभाजन ELM दृष्टिकोण का केंद्र है। अर्थ का अनुमान लगाने के लिए एक विशाल मॉडल पर निर्भर रहने के बजाय, Ensemble Listening Models कई लक्षित दृष्टिकोणों को जोड़ती हैं, जिससे सटीकता और पारदर्शिता दोनों में सुधार होता है।

Velma 2.0 के अंदर

Velma 2.0, Modulate के पहले के एन्सेम्बल-आधारित सिस्टम का एक पर्याप्त विकास है। यह वास्तविक समय में एक साथ काम करने वाले 100 से अधिक घटक मॉडलों का उपयोग करता है, जो पांच विश्लेषणात्मक परतों में संरचित हैं।

पहली परत बुनियादी ऑडियो प्रोसेसिंग पर केंद्रित है, जो वक्ताओं की संख्या, बोलने का समय और ठहराव निर्धारित करती है। इसके बाद ध्वनिक संकेत निष्कर्षण आता है, जो भावनात्मक स्थिति, तनाव के स्तर, धोखे के संकेत, सिंथेटिक आवाज़ के मार्कर और पर्यावरणीय शोर की पहचान करता है।

तीसरी परत अनुमानित मंशा का आकलन करती है, जो ईमानदार प्रशंसा और व्यंग्यात्मक या शत्रुतापूर्ण टिप्पणियों के बीच अंतर करती है। व्यवहार मॉडलिंग फिर समय के साथ बातचीत की गतिशीलता को ट्रैक करती है, निराशा, भ्रम, स्क्रिप्टेड भाषण, या सोशल इंजीनियरिंग के प्रयासों को चिह्नित करती है। अंतिम परत, बातचीत विश्लेषण, इन अंतर्दृष्टियों को उद्यम-प्रासंगिक घटनाओं जैसे असंतुष्ट ग्राहकों, नीति उल्लंघनों, संभावित धोखाधड़ी, या खराबी वाले AI एजेंटों में अनुवादित करती है।

Modulate रिपोर्ट करता है कि Velma 2.0 बातचीत के अर्थ और मंशा को अग्रणी LLM-आधारित दृष्टिकोणों की तुलना में लगभग 30 प्रतिशत अधिक सटीकता से समझता है, जबकि बड़े पैमाने पर 10 से 100 गुना अधिक लागत-प्रभावी है।

गेमिंग मॉडरेशन से उद्यम बुद्धिमत्ता तक

Ensemble Listening Models की उत्पत्ति Modulate के ऑनलाइन गेम्स के साथ शुरुआती काम में निहित है। Call of Duty और Grand Theft Auto Online जैसे लोकप्रिय शीर्षक कल्पनीय सबसे चुनौतीपूर्ण आवाज़ वाले वातावरण उत्पन्न करते हैं। बातचीत तेज, शोरगुल वाली, भावनात्मक रूप से आवेशपूर्ण, और स्लैंग और संदर्भगत संदर्भों से भरी होती है।

वास्तविक समय में मजाकिया ट्रैश टॉक को वास्तविक उत्पीड़न से अलग करने के लिए ट्रांसक्रिप्शन से कहीं अधिक की आवश्यकता होती है। जैसे-जैसे Modulate ने अपने वॉयस मॉडरेशन सिस्टम, ToxMod को संचालित किया, इसने धीरे-धीरे इन बारीकियों को पकड़ने के लिए मॉडलों के तेजी से जटिल एन्सेम्बल्स को इकट्ठा किया। दर्जनों विशेष मॉडलों का समन्वय करना आवश्यक सटीकता प्राप्त करने के लिए आवश्यक हो गया, जिससे अंततः टीम को इस दृष्टिकोण को एक नए आर्किटेक्चरल फ्रेमवर्क में औपचारिक रूप देने के लिए प्रेरित किया।

Velma 2.0 उस आर्किटेक्चर को गेमिंग से परे सामान्यीकृत करता है। आज, यह Modulate के उद्यम प्लेटफॉर्म को शक्ति प्रदान करता है, जो धोखाधड़ी, अपमानजनक व्यवहार, ग्राहक असंतोष और असामान्य AI गतिविधि की पहचान करने के लिए उद्योगों में सैकड़ों मिलियन बातचीतों का विश्लेषण करता है।

फाउंडेशन मॉडल्स के लिए एक चुनौती

यह घोषणा ऐसे समय में आई है जब उद्यम अपनी AI रणनीतियों का पुनर्मूल्यांकन कर रहे हैं। भारी निवेश के बावजूद, AI पहलों का एक बड़ा प्रतिशत प्रोडक्शन तक नहीं पहुंच पाता या स्थायी मूल्य प्रदान नहीं कर पाता। सामान्य बाधाओं में हैलुसिनेशन, बढ़ती अनुमान लागत, अपारदर्शी निर्णय लेने, और AI अंतर्दृष्टि को परिचालन वर्कफ़्लो में एकीकृत करने में कठिनाई शामिल हैं।

Ensemble Listening Models इन मुद्दों को सीधे संबोधित करते हैं। एक एकल एकीकृत सिस्टम के बजाय कई छोटे, उद्देश्य-निर्मित मॉडलों पर निर्भर करके, ELMs संचालित करने में कम खर्चीले, ऑडिट करने में आसान और अधिक व्याख्यात्मक हैं। प्रत्येक आउटपुट को विशिष्ट संकेतों तक वापस खोजा जा सकता है, जिससे संगठनों को यह समझने की अनुमति मिलती है कि कोई निष्कर्ष क्यों पहुंचा।

पारदर्शिता का यह स्तर विनियमित या उच्च-जोखिम वाले वातावरणों में विशेष रूप से महत्वपूर्ण है जहां ब्लैक-बॉक्स निर्णय अस्वीकार्य हैं। Modulate, ELMs को बड़े भाषा मॉडल के प्रतिस्थापन के रूप में नहीं, बल्कि उद्यम-ग्रेड वॉयस इंटेलिजेंस के लिए एक अधिक उपयुक्त आर्किटेक्चर के रूप में स्थापित करता है।

स्पीच टू टेक्स्ट से परे

Velma 2.0 के सबसे अग्रगामी पहलुओं में से एक यह है कि यह किसी चीज को कैसे कहा गया है, इसका विश्लेषण करने की क्षमता रखता है, न कि सिर्फ क्या कहा गया है। इसमें सिंथेटिक या नकली आवाजों का पता लगाना भी शामिल है, जो आवाज जनरेशन तकनीक के अधिक सुलभ होने के साथ एक बढ़ती चिंता है।

जैसे-जैसे आवाज क्लोनिंग में सुधार हो रहा है, उद्यमों को धोखाधड़ी, पहचान स्पूफिंग और सोशल इंजीनियरिंग से संबंधित बढ़ते जोखिमों का सामना करना पड़ रहा है। सिंथेटिक वॉयस डिटेक्शन को सीधे अपने एन्सेम्बल में एम्बेड करके, Velma 2.0 प्रामाणिकता को एक वैकल्पिक ऐड-ऑन के बजाय एक मूल संकेत के रूप में मानता है।

सिस्टम की व्यवहार मॉडलिंग सक्रिय अंतर्दृष्टि को भी सक्षम बनाती है। यह पहचान सकती है कि कोई वक्ता स्क्रिप्ट से पढ़ रहा है, निराशा बढ़ रही है, या कोई बातचीत संघर्ष की ओर बढ़ रही है। ये क्षमताएं संगठनों को पहले और अधिक प्रभावी ढंग से हस्तक्षेप करने की अनुमति देती हैं।

उद्यम AI के लिए एक नई दिशा

Modulate Ensemble Listening Model को AI आर्किटेक्चर की एक नई श्रेणी के रूप में वर्णित करता है, जो पारंपरिक सिग्नल प्रोसेसिंग पाइपलाइन और बड़े फाउंडेशन मॉडल दोनों से अलग है। अंतर्निहित अंतर्दृष्टि यह है कि जटिल मानवीय बातचीत को बलपूर्वक स्केलिंग के बजाय समन्वित विशेषज्ञता के माध्यम से बेहतर ढंग से समझा जाता है।

जैसे-जैसे उद्यम AI सिस्टम की मांग कर रहे हैं जो जवाबदेह, कुशल और वास्तविक परिचालन आवश्यकताओं के अनुरूप हों, Ensemble Listening Models एक ऐसे भविष्य की ओर इशारा करते हैं जहां बुद्धिमत्ता कई केंद्रित घटकों से इकट्ठा की जाती है। Velma 2.0 के अब प्रोडक्शन वातावरण में लाइव होने के साथ, Modulate इस बात पर दांव लगा रहा है कि यह आर्किटेक्चरल बदलाव आवाज मॉडरेशन और ग्राहक सहायता से कहीं आगे प्रतिध्वनित होगा।

एक ऐसे उद्योग में जो हमेशा बड़े ब्लैक बॉक्स के विकल्पों की तलाश में है, Ensemble Listening Models सुझाव देते हैं कि AI में अगली बड़ी प्रगति अधिक सावधानी से सुनने से आ सकती है, न कि सिर्फ अधिक आक्रामकता से कंप्यूटिंग करने से।

//www.futurist.ai">рдлреНрдпреВрдЪрд░рд┐рд╕реНрдЯ рдХреЗ рд░реВрдк рдореЗрдВ, рд╡реЗ рдЗрд╕ рдмрд╛рдд рдХреА рдЦреЛрдЬ рдХреЗ рдкреНрд░рддрд┐ рд╕рдорд░реНрдкрд┐рдд рд╣реИрдВ рдХрд┐ рдпреЗ рдирд╡рд╛рдЪрд╛рд░ рд╣рдорд╛рд░реА рджреБрдирд┐рдпрд╛ рдХреЛ рдХреИрд╕реЗ рдЖрдХрд╛рд░ рджреЗрдВрдЧреЗред рдЗрд╕рдХреЗ рдЕрддрд┐рд░рд┐рдХреНрдд, рд╡реЗ Securities.io рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рд╣реИрдВ, рдЬреЛ рдЕрддреНрдпрд╛рдзреБрдирд┐рдХ рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдореЗрдВ рдирд┐рд╡реЗрд╢ рдкрд░ рдХреЗрдВрджреНрд░рд┐рдд рдПрдХ рдкреНрд▓реЗрдЯрдлреЙрд░реНрдо рд╣реИ рдЬреЛ рднрд╡рд┐рд╖реНрдп рдХреЛ рдкреБрдирдГ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░ рд░рд╣реА рд╣реИрдВ рдФрд░ рд╕рдВрдкреВрд░реНрдг рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреЛ рдкреБрдирдГ рдЖрдХрд╛рд░ рджреЗ рд░рд╣реА рд╣реИрдВред