कृत्रिम बुद्धिमत्ता

MOSEL: सभी यूरोपीय भाषाओं के लिए भाषण डेटा संग्रह को आगे बढ़ाना

Published October 7, 2024

Updated April 27, 2026

Alex McFarland

कृत्रिम भाषा मॉडल के विकास में मुख्य रूप से अंग्रेजी का वर्चस्व रहा है, जिससे कई यूरोपीय भाषाएं कम प्रतिनिधित्व में हैं। इससे कृत्रिम भाषा प्रौद्योगिकियों में विभिन्न भाषाओं और संस्कृतियों की समझ और प्रतिक्रिया में एक महत्वपूर्ण असंतुलन पैदा हुआ है। MOSEL इस कथा को बदलने का उद्देश्य रखता है bằng यूरोपीय संघ की 24 आधिकारिक भाषाओं के लिए एक व्यापक, ओपन-सोर्स भाषण डेटा संग्रह बनाने के द्वारा। विविध भाषा डेटा प्रदान करके, MOSEL यह सुनिश्चित करना चाहता है कि कृत्रिम भाषा मॉडल अधिक समावेशी और यूरोप के समृद्ध भाषाई परिदृश्य का प्रतिनिधित्व करते हैं।

भाषा विविधता कृत्रिम भाषा विकास में समावेशिता सुनिश्चित करने के लिए महत्वपूर्ण है। अंग्रेजी केंद्रित मॉडल पर अधिक निर्भर रहने से ऐसी प्रौद्योगिकियां बन सकती हैं जो अन्य भाषाओं के वक्ताओं के लिए कम प्रभावी या यहां तक कि अनुपलब्ध भी हो सकती हैं। बहुभाषी डेटासेट ऐसे कृत्रिम भाषा प्रणाली बनाने में मदद करते हैं जो हर किसी की सेवा करते हैं, चाहे वे कोई भी भाषा बोलें। भाषा विविधता को अपनाने से प्रौद्योगिकी की सुलभता बढ़ती है और विभिन्न संस्कृतियों और समुदायों का न्यायपूर्ण प्रतिनिधित्व सुनिश्चित होता है। भाषाई समावेशिता को बढ़ावा देकर, कृत्रिम भाषा वास्तव में अपने उपयोगकर्ताओं की विविध आवश्यकताओं और आवाजों को प्रतिबिंबित कर सकती है।

MOSEL का अवलोकन

MOSEL, या मासिव ओपन-सोर्स स्पीच डेटा फॉर यूरोपीयन लैंग्वेजेज, एक अग्रणी परियोजना है जिसका उद्देश्य यूरोपीय संघ की 24 आधिकारिक भाषाओं को कवर करने वाला एक व्यापक, ओपन-सोर्स भाषण डेटा संग्रह बनाना है। अनुसंधानकर्ताओं की एक अंतरराष्ट्रीय टीम द्वारा विकसित, MOSEL 18 अलग-अलग परियोजनाओं से डेटा एकीकृत करता है, जैसे कि CommonVoice, LibriSpeech, और VoxPopuli। इस संग्रह में प्रतिलिपि भाषण रिकॉर्डिंग और अनलेबल्ड ऑडियो डेटा शामिल है, जो बहुभाषी कृत्रिम भाषा विकास को आगे बढ़ाने के लिए एक महत्वपूर्ण संसाधन प्रदान करता है। MOSEL के मुख्य योगदानों में से एक प्रतिलिपि और अनलेबल्ड डेटा दोनों का समावेश है। प्रतिलिपि डेटा कृत्रिम भाषा मॉडल को प्रशिक्षित करने के लिए एक विश्वसनीय आधार प्रदान करता है, जबकि अनलेबल्ड ऑडियो डेटा का उपयोग आगे के शोध और प्रयोग के लिए किया जा सकता है, विशेष रूप से संसाधन-गरीब भाषाओं के लिए। इन डेटासेट्स का संयोजन एक अनोखा अवसर प्रदान करता है जो अधिक समावेशी और यूरोप के विविध भाषाई परिदृश्य को समझने में सक्षम भाषा मॉडल विकसित करने के लिए।

अपर प्रतिनिधित्व वाली भाषाओं के लिए डेटा अंतर को पाटना

यूरोपीय भाषाओं में भाषण डेटा का वितरण अत्यधिक असमान है, जिसमें अंग्रेजी अधिकांश उपलब्ध डेटासेट को-dominate करती है। यह असंतुलन कम प्रतिनिधित्व वाली भाषाओं के लिए कृत्रिम भाषा मॉडल विकसित करने में महत्वपूर्ण चुनौतियां प्रस्तुत करता है। यूरोपीय संघ की कई आधिकारिक भाषाएं, जैसे कि माल्टीज या आयरिश, बहुत सीमित डेटा है, जो कृत्रिम भाषा प्रौद्योगिकियों को इन भाषाई समुदायों की प्रभावी सेवा करने की क्षमता को बाधित करता है। MOSEL OpenAI के Whisper मॉडल का उपयोग करके पहले से अनलेबल्ड ऑडियो डेटा के 441,000 घंटे को स्वचालित रूप से प्रतिलिपि करने के द्वारा इस डेटा अंतर को पाटने का लक्ष्य रखता है। यह दृष्टिकोण प्रशिक्षण सामग्री की उपलब्धता को काफी बढ़ा देता है, विशेष रूप से उन भाषाओं के लिए जिनमें व्यापक मैनुअल प्रतिलिपि डेटा की कमी थी। हालांकि स्वचालित प्रतिलिपि परिपूर्ण नहीं है, यह आगे के विकास के लिए एक मूल्यवान प्रारंभिक बिंदु प्रदान करता है, जिससे अधिक समावेशी भाषा मॉडल बनाने की अनुमति मिलती है। हालांकि, कुछ भाषाओं के लिए चुनौतियां विशेष रूप से स्पष्ट हैं। उदाहरण के लिए, Whisper मॉडल माल्टीज़ के साथ संघर्ष करता है, जिसमें 80 प्रतिशत से अधिक शब्द त्रुटि दर हासिल करता है। ऐसी उच्च त्रुटि दरें प्रतिलिपि मॉडल में सुधार और अधिक उच्च गुणवत्ता वाले, मैनुअल प्रतिलिपि डेटा के संग्रह की आवश्यकता को रेखांकित करती हैं। MOSEL टीम इन प्रयासों को जारी रखने के लिए प्रतिबद्ध है, सुनिश्चित करती है कि संसाधन-गरीब भाषाएं भी कृत्रिम भाषा प्रौद्योगिकी में प्रगति से लाभान्वित हो सकें।

कृत्रिम भाषा नवाचार को बढ़ावा देने में ओपन एक्सेस की भूमिका

MOSEL की ओपन-सोर्स उपलब्धता यूरोपीय कृत्रिम भाषा अनुसंधान में नवाचार को बढ़ावा देने में एक महत्वपूर्ण कारक है। भाषण डेटा को नि:शुल्क रूप से उपलब्ध कराकर, MOSEL अनुसंधानकर्ताओं और विकासकर्ताओं को व्यापक, उच्च गुणवत्ता वाले डेटासेट के साथ काम करने में सक्षम बनाता है जो पहले अनुपलब्ध या सीमित थे। यह सुलभता सहयोग और प्रयोग को प्रोत्साहित करती है, एक समुदाय-चालित दृष्टिकोण को बढ़ावा देती है जो कृत्रिम भाषा प्रौद्योगिकियों को सभी यूरोपीय भाषाओं के लिए आगे बढ़ाने में मदद करती है। अनुसंधानकर्ता और विकासकर्ता MOSEL के डेटा का उपयोग कृत्रिम भाषा मॉडल को प्रशिक्षित, परीक्षण और परिष्कृत करने के लिए कर सकते हैं, विशेष रूप से उन भाषाओं के लिए जो कृत्रिम भाषा परिदृश्य में कम प्रतिनिधित्व में हैं। डेटा की ओपन प्रकृति छोटे संगठनों और शैक्षिक संस्थानों को भी कृत्रिम भाषा अनुसंधान में भाग लेने की अनुमति देती है, जो अक्सर बड़ी प्रौद्योगिकी कंपनियों के लिए अनन्य संसाधनों को पसंद करते हैं।

भविष्य की दिशा और आगे का मार्ग

आगे देखते हुए, MOSEL टीम कम प्रतिनिधित्व वाली भाषाओं के लिए डेटासेट का विस्तार करना जारी रखने की योजना बना रही है। अधिक डेटा संग्रह और स्वचालित प्रतिलिपि की सटीकता में सुधार करके, MOSEL एक अधिक संतुलित और समावेशी संसाधन बनाने का लक्ष्य रखता है जो कृत्रिम भाषा विकास के लिए उपयुक्त हो। ये प्रयास यह सुनिश्चित करने के लिए महत्वपूर्ण हैं कि यूरोप की सभी भाषाएं, चाहे वे कितने भी वक्ता हों, कृत्रिम भाषा परिदृश्य में अपना स्थान बनाए रखें। MOSEL की सफलता वैश्विक स्तर पर समान पहल को प्रेरित कर सकती है, जो कृत्रिम भाषा में भाषाई विविधता को बढ़ावा देती है, यूरोप से परे। ओपन एक्सेस और सहयोगी विकास के लिए एक मिसाल कायम करके, MOSEL एक अधिक न्यायपूर्ण प्रौद्योगिकी भविष्य की दिशा में एक महत्वपूर्ण योगदान करता है।

Alex McFarland

एलेक्स मैकफारलैंड एक एआई पत्रकार और लेखक हैं जो कृत्रिम बुद्धिमत्ता में नवीनतम विकासों का अन्वेषण कर रहे हैं। उन्होंने विश्वभर के कई एआई स्टार्टअप्स और प्रकाशनों के साथ सहयोग किया है।