कृत्रिम बुद्धिमत्ता

Text-to-Music जनरेटिव AI : Stability Audio, Google’s MusicLM और अधिक

Published September 25, 2023

Updated April 28, 2026

Aayush Mittal Mittal

संगीत, जो मानव आत्मा के साथ गूंथता है, हम सभी के लिए एक निरंतर साथी रहा है। कृत्रिम बुद्धिमत्ता का उपयोग करके संगीत बनाने की शुरुआत कई दशकों पहले हुई थी। शुरुआत में, प्रयास सरल और सहज थे, जिसमें बुनियादी एल्गोरिदम ने एकरस धुनें बनाईं। हालांकि, जैसे ही प्रौद्योगिकी आगे बढ़ी, वैसे ही एआई संगीत जनरेटर की जटिलता और क्षमताएं भी बढ़ीं, जिससे गहरे शिक्षण और प्राकृतिक भाषा प्रसंस्करण (एनएलपी) में महत्वपूर्ण भूमिका निभाई गई।

आज प्लेटफ़ॉर्म जैसे स्पॉटिफ़ाई अपने उपयोगकर्ताओं के सुनने के अनुभव को बारीक करने के लिए एआई का लाभ उठा रहे हैं। ये गहरे शिक्षण एल्गोरिदम विभिन्न संगीत तत्वों जैसे ताल और मूड के आधार पर व्यक्तिगत पसंद को विभाजित करते हैं, जिससे व्यक्तिगत गीत सुझाव तैयार किए जा सकते हैं। वे यहां तक कि व्यापक सुनने के पैटर्न का विश्लेषण करते हैं और गीत से संबंधित चर्चाओं के लिए इंटरनेट को खंगालते हैं, जिससे विस्तृत गीत प्रोफाइल बनाई जा सकती है।

संगीत में एआई की उत्पत्ति: एल्गोरिदमिक संरचना से जनरेटिव मॉडलिंग तक की यात्रा

संगीत जगत में एआई के मिलने के शुरुआती चरणों में, 1950 के दशक से 1970 के दशक तक, ध्यान मुख्य रूप से एल्गोरिदमिक संरचना पर केंद्रित था। यह एक ऐसी विधि थी जिसमें कंप्यूटर ने निर्धारित नियमों का उपयोग करके संगीत बनाया। इस अवधि के दौरान पहली उल्लेखनीय रचना इलियाक सूट फॉर स्ट्रिंग क्वार्टेट थी, जो 1957 में बनाई गई थी। इसमें मोंटे कार्लो एल्गोरिदम का उपयोग किया गया था, जो एक प्रक्रिया है जिसमें यादृच्छिक संख्याओं का उपयोग पिच और लय को निर्धारित करने के लिए किया जाता है, जो पारंपरिक संगीत सिद्धांत और सांख्यिकीय संभावनाओं के भीतर होता है।

मिडजॉर्नी का उपयोग करके लेखक द्वारा उत्पन्न छवि

इस समय, एक अन्य पioneer, आईएनएनआईस एक्सेनाकिस, ने स्टोकास्टिक प्रक्रियाओं का उपयोग किया, जो एक अवधारणा है जिसमें यादृच्छिक संभावना वितरण शामिल है, संगीत बनाने के लिए। उन्होंने कंप्यूटर और फॉर्ट्रान भाषा का उपयोग किया, जो कई संभावना कार्यों को जोड़ने के लिए किया गया था, जिससे एक पैटर्न बनता है जहां विभिन्न ग्राफिकल प्रतिनिधित्व विभिन्न ध्वनि स्थानों के अनुरूप होते हैं।

पाठ को संगीत में अनुवाद करने की जटिलता

संगीत एक समृद्ध और बहुस्तरीय डेटा प्रारूप में संग्रहीत किया जाता है, जिसमें धुन, सामंजस्य, लय, और ताल जैसे तत्व शामिल हैं, जो पाठ को संगीत में अनुवाद करने का कार्य अत्यधिक जटिल बनाता है। एक मानक गीत लगभग एक मिलियन संख्याओं में एक कंप्यूटर द्वारा प्रतिनिधित्व किया जाता है, जो अन्य डेटा प्रारूपों जैसे छवि और पाठ की तुलना में काफी अधिक है।

ऑडियो पीढ़ी के क्षेत्र में वास्तविक ध्वनि बनाने की चुनौतियों को पार करने के लिए नवाचारी दृष्टिकोण देखे जा रहे हैं। एक विधि में एक स्पेक्ट्रोग्राम को उत्पन्न करना और फिर इसे ऑडियो में परिवर्तित करना शामिल है।

एक अन्य रणनीति संगीत के प्रतीकात्मक प्रतिनिधित्व का लाभ उठाती है, जैसे कि शीट संगीत, जिसे संगीतकार व्याख्या और प्रदर्शन कर सकते हैं। इस विधि को सफलतापूर्वक डिजिटल किया गया है, जिसमें मैगेंटा के चैंबर एन्सेम्बल जनरेटर जैसे उपकरण मिडी प्रारूप में संगीत बनाते हैं, जो एक प्रोटोकॉल है जो कंप्यूटर और संगीत उपकरणों के बीच संचार को सुविधाजनक बनाता है।

हालांकि ये दृष्टिकोण इस क्षेत्र में आगे बढ़ाए गए हैं, वे अपनी सीमाओं के साथ आते हैं, जो ऑडियो पीढ़ी की जटिल प्रकृति को रेखांकित करते हैं।

ट्रांसफॉर्मर-आधारित स्व-सरल मॉडल और यू-नेट-आधारित डिफ्यूजन मॉडल प्रौद्योगिकी के अग्रिम मोर्चे पर हैं, जो ऑडियो, पाठ, संगीत और बहुत कुछ में राज्य-ऑफ-द-आर्ट (एसओटीए) परिणामों का उत्पादन कर रहे हैं। ओपनएआई की जीपीटी श्रृंखला और लगभग सभी अन्य एलएलएम वर्तमान में ट्रांसफॉर्मर द्वारा संचालित होते हैं, जो एनकोडर, डिकोडर या दोनों वास्तुकला का उपयोग करते हैं। कला/छवि की ओर, मिडजॉर्नी, स्टेबिलिटी एआई और डीएलएल-ई 2 सभी डिफ्यूजन फ्रेमवर्क का लाभ उठाते हैं। ये दो मूल प्रौद्योगिकियां ऑडियो क्षेत्र में भी एसओटीए परिणाम प्राप्त करने में महत्वपूर्ण रही हैं। इस लेख में, हम गूगल के म्यूजिकएलएम और स्टेबल ऑडियो में गहराई से जाएंगे, जो इन प्रौद्योगिकियों की उल्लेखनीय क्षमताओं का प्रमाण हैं।

गूगल का म्यूजिकएलएम

गूगल का म्यूजिकएलएम इस साल मई में जारी किया गया था। म्यूजिकएलएम उच्च-विश्वसनीयता वाले संगीत टुकड़े बना सकता है, जो पाठ में वर्णित भावना के साथ गूंथता है। हायरार्किकल सीक्वेंस-टू-सीक्वेंस मॉडलिंग का उपयोग करके, म्यूजिकएलएम 24 kHz पर विस्तारित अवधि में संगीत में पाठ विवरण को परिवर्तित करने की क्षमता रखता है।

मॉडल एक बहुस्तरीय स्तर पर कार्य करता है, न केवल पाठ इनपुट का पालन करता है, बल्कि धुनों पर भी सशर्त होने की क्षमता प्रदर्शित करता है। इसका अर्थ है कि यह एक गुनगुनाई या सीटी बजाई गई धुन ले सकता है और इसे पाठ कैप्शन में वर्णित शैली के अनुसार परिवर्तित कर सकता है।

तकनीकी अंतर्दृष्टि

म्यूजिकएलएम ऑडियोलएम के सिद्धांतों का लाभ उठाता है, जो 2022 में ऑडियो पीढ़ी के लिए एक फ्रेमवर्क पेश किया गया था। ऑडियोलएम एक विवेकपूर्ण प्रतिनिधित्व स्थान में एक भाषा मॉडलिंग कार्य के रूप में ऑडियो का संश्लेषण करता है, जिसमें एक पदानुक्रमित क्रूड-टू-फाइन ऑडियो डिस्क्रीट यूनिट्स, जिन्हें टोकन भी कहा जाता है, का उपयोग किया जाता है। यह दृष्टिकोण उच्च-विश्वसनीयता और लंबी अवधि में सुसंगतता सुनिश्चित करता है।

उत्पादन प्रक्रिया को सुविधाजनक बनाने के लिए, म्यूजिकएलएम ने ऑडियोलएम की क्षमताओं को विस्तारित किया है ताकि पाठ सशर्तता को शामिल किया जा सके, जो एक तकनीक है जो उत्पन्न ऑडियो को इनपुट पाठ की बारीकियों के साथ संरेखित करती है। यह एक साझा एम्बेडिंग स्पेस बनाकर प्राप्त किया जाता है जो मुलान, एक संयुक्त संगीत-पाठ मॉडल द्वारा बनाया जाता है, जो संगीत और इसके संबंधित पाठ विवरणों को एक एम्बेडिंग स्पेस में एक दूसरे के करीब परियोजना करने के लिए प्रशिक्षित होता है। यह रणनीति प्रभावी ढंग से प्रशिक्षण के दौरान कैप्शन की आवश्यकता को समाप्त करती है, जिससे मॉडल को विशाल ऑडियो-केवल निगमों पर प्रशिक्षित किया जा सकता है।

म्यूजिकएलएम मॉडल साउंडस्ट्रीम का भी उपयोग करता है जो इसका ऑडियो टोकनाइज़र है, जो 6 केबीपीएस पर 24 kHz संगीत को प्रभावशाली विश्वसनीयता के साथ पुनर्निर्माण कर सकता है, जो शेष वेक्टर क्वांटीकरण (आरवीक्यू) का लाभ उठाता है उच्च-गुणवत्ता वाले ऑडियो संपीड़न के लिए।

म्यूजिकएलएम के मूलभूत मॉडलों के स्वतंत्र प्री-प्रशिक्षण प्रक्रिया का एक चित्रण: साउंडस्ट्रीम, डब्ल्यू2वी-बीईआरटी और मुलान,

म्यूजिकएलएम के प्री-प्रशिक्षण प्रक्रिया का चित्रण: साउंडस्ट्रीम, डब्ल्यू2वी-बीईआरटी और मुलान | छवि स्रोत: यहाँ

इसके अलावा, म्यूजिकएलएम अपनी क्षमताओं को विस्तारित करता है जो धुन सशर्तता की अनुमति देता है। यह दृष्टिकोण सुनिश्चित करता है कि एक सरल गुनगुनाई गई धुन एक शानदार श्रवण अनुभव के लिए आधार बन सकती है, जो सटीक पाठ शैली विवरण के अनुसार परिष्कृत है।

म्यूजिकएलएम के विकासकर्ताओं ने म्यूजिककैप्स नामक एक डेटासेट भी ओपन-सोर्स किया है, जिसमें 5.5k संगीत-पाठ जोड़े हैं, प्रत्येक के साथ समृद्ध पाठ विवरण हैं जो मानव विशेषज्ञों द्वारा तैयार किए गए हैं। आप इसे यहां देख सकते हैं: म्यूजिककैप्स ऑन हगिंग फेस.

गूगल के म्यूजिकएलएम के साथ एआई साउंडट्रैक बनाने के लिए तैयार हैं? यहां शुरू करने का तरीका है:

आधिकारिक म्यूजिकएलएम वेबसाइट पर जाएं और “प्रारंभ करें” पर क्लिक करें।
पंजीकरण करने के लिए “रुचि दर्ज करें” चुनें।
अपने गूगल अकाउंट का उपयोग करके लॉग इन करें।
एक बार जब आपको पहुंच प्रदान की जाती है, तो शुरू करने के लिए “अब आजमाएं” पर क्लिक करें।

नीचे कुछ उदाहरण प्रॉम्प्ट हैं जिन्हें मैंने प्रयोग किया है:

“ध्यानपूर्ण गीत, शांत और सुखदायक, बांसुरी और गिटार के साथ। संगीत धीमा है, जो शांति और शांति की भावना पैदा करने पर केंद्रित है।”

“जैज़ सैक्सोफोन के साथ”

जब रिफ्यूज़न और म्यूबेर्ट जैसे पिछले एसओटीए मॉडल की तुलना में एक गुणात्मक मूल्यांकन में की गई, तो म्यूजिकएलएम को अन्य लोगों की तुलना में अधिक पसंद किया गया, जिसमें भागीदारों ने 10 सेकंड के ऑडियो क्लिप के साथ पाठ कैप्शन की संगति को अनुकूल रूप से रेट किया।

म्यूजिकएलएम प्रदर्शन, छवि स्रोत: यहां

स्टेबिलिटी ऑडियो

स्टेबिलिटी एआई ने हाल ही में “स्टेबल ऑडियो” पेश किया है, जो एक लेटेंट डिफ्यूजन मॉडल आर्किटेक्चर है जो पाठ मेटाडेटा के साथ-साथ ऑडियो फ़ाइल अवधि और प्रारंभ समय पर सशर्त है। यह दृष्टिकोण, गूगल के म्यूजिकएलएम की तरह, उत्पन्न ऑडियो की सामग्री और लंबाई पर नियंत्रण प्रदान करता है, जिससे निर्दिष्ट लंबाई के ऑडियो क्लिप बनाने की अनुमति मिलती है, जो प्रशिक्षण विंडो के आकार तक हो सकती है।

स्टेबल ऑडियो

तकनीकी अंतर्दृष्टि

स्टेबल ऑडियो में कई घटक शामिल हैं, जिनमें एक वैरिएशनल ऑटोएनकोडर (वीएई) और एक यू-नेट-आधारित सशर्त डिफ्यूजन मॉडल शामिल है, जो एक पाठ एनकोडर के साथ मिलकर काम करता है।

एक वैरिएशनल ऑटोएनकोडर, एक पाठ एनकोडर और एक यू-नेट-आधारित सशर्त डिफ्यूजन मॉडल के एकीकरण को दर्शाने वाला एक चित्रण

स्टेबल ऑडियो आर्किटेक्चर, छवि स्रोत: यहां

वीएई तेजी से पीढ़ी और प्रशिक्षण को सुविधाजनक बनाने के लिए स्टीरियो ऑडियो को एक डेटा-संकुचित, शोर-प्रतिरोधी और परिवर्तनीय लॉसी लेटेंट एन्कोडिंग में संकुचित करता है, जिससे कच्चे ऑडियो नमूनों के साथ काम करने की आवश्यकता समाप्त हो जाती है।

पाठ एनकोडर, जो एक सीएलएपी मॉडल से व्युत्पन्न है, पाठ और ध्वनि के बीच जटिल संबंधों को समझने में एक महत्वपूर्ण भूमिका निभाता है, जो टोकनाइज्ड इनपुट पाठ का एक सूचनात्मक प्रतिनिधित्व प्रदान करता है। यह सीएलएपी पाठ एनकोडर के पेनअल्टिमेट लेयर से पाठ सुविधाओं का उपयोग करके प्राप्त किया जाता है, जो तब क्रॉस-ध्यान लेयर के माध्यम से डिफ्यूजन यू-नेट में एकीकृत किया जाता है।

एक महत्वपूर्ण पहलू समय एम्बेडिंग का समावेश है, जो दो गुणों पर आधारित होता है: ऑडियो चंक का प्रारंभिक सेकंड और मूल ऑडियो फ़ाइल की कुल अवधि। ये मान, प्रति सेकंड विचाराधीन सीखे गए एम्बेडिंग में अनुवादित, क्रॉस-ध्यान लेयर में प्रॉम्प्ट टोकन के साथ जोड़े जाते हैं, जो उपयोगकर्ताओं को आउटपुट ऑडियो की समग्र लंबाई निर्दिष्ट करने की अनुमति देता है।

स्टेबल ऑडियो मॉडल को स्टॉक म्यूजिक प्रदाता ऑडियोस्परक्स के साथ सहयोग से 800,000 से अधिक ऑडियो फ़ाइलों के व्यापक डेटासेट का उपयोग करके प्रशिक्षित किया गया था।

स्टेबल ऑडियो विज्ञापन

स्टेबल ऑडियो एक नि:शुल्क संस्करण प्रदान करता है, जो प्रति माह 20 सेकंड तक के 20 जेनरेशन की अनुमति देता है, और एक $12/माह प्रो योजना, जो 90 सेकंड तक के 500 जेनरेशन की अनुमति देती है।

नीचे स्टेबल ऑडियो का उपयोग करके बनाया गया एक ऑडियो क्लिप है:

मिडजॉर्नी का उपयोग करके लेखक द्वारा उत्पन्न छवि

“सिनेमैटिक, साउंडट्रैक शांत वर्षा, एंबिएंट, सुखदायक, दूरस्थ कुत्तों की भौंक, शांत पत्ती की सरसराहट, सूक्ष्म हवा, 40 बीपीएम”

ऐसे सावधानी से तैयार किए गए ऑडियो टुकड़ों के अनुप्रयोग अंतहीन हैं। फिल्म निर्माता इस प्रौद्योगिकी का उपयोग करके समृद्ध और विसर्जन साउंडस्केप बना सकते हैं। वाणिज्यिक क्षेत्र में, विज्ञापनदाता इन अनुकूलित ऑडियो ट्रैक का उपयोग कर सकते हैं। इसके अलावा, यह उपकरण व्यक्तिगत रचनाकारों और कलाकारों के लिए प्रयोग और नवाचार के लिए अवसर प्रदान करता है, जो कहानियों को सुनाने, भावनाओं को व्यक्त करने और एक गहराई के साथ वातावरण बनाने के लिए एक असीमित क्षमता वाला कैनवास प्रदान करता है जो पहले बिना महत्वपूर्ण बजट या तकनीकी विशेषज्ञता के प्राप्त करना मुश्किल था।

प्रॉम्प्टिंग युक्तियाँ

पाठ प्रॉम्प्ट का उपयोग करके आदर्श ऑडियो बनाएं। यहां एक त्वरित मार्गदर्शिका है जो आपको शुरू करने में मदद करेगी:

विस्तृत रहें: शैलियों, मूड और उपकरणों का उल्लेख करें। उदाहरण के लिए: सिनेमैटिक, वाइल्ड वेस्ट, पर्क्यूशन, तनावपूर्ण, वायुमंडलीय
मूड सेटिंग: संगीत और भावनात्मक शब्दों को मिलाकर वांछित मूड को व्यक्त करें।
उपकरण चयन: उपकरण नामों को विशेषणों के साथ बढ़ाएं, जैसे “रिवर्बरेटेड गिटार” या “शक्तिशाली कोरस”।
बीपीएम: ताल को शैली के साथ संरेखित करें ताकि एक सामंजस्यपूर्ण आउटपुट सुनिश्चित किया जा सके, जैसे कि ड्रम और बास ट्रैक के लिए “170 बीपीएम”।

समापन नोट

मिडजॉर्नी का उपयोग करके लेखक द्वारा उत्पन्न छवि

इस लेख में, हमने एआई-जनित संगीत/ऑडियो की यात्रा में गहराई से जाने का प्रयास किया है, एल्गोरिदमिक संरचना से लेकर आज के जटिल जनरेटिव एआई फ्रेमवर्क तक, जैसे कि गूगल का म्यूजिकएलएम और स्टेबिलिटी ऑडियो। ये प्रौद्योगिकियां, जो गहरे शिक्षण और एसओटीए संपीड़न मॉडल का लाभ उठाती हैं, न केवल संगीत पीढ़ी को बढ़ाती हैं, बल्कि सुनने वालों के अनुभवों को भी बारीक करती हैं।

हालांकि, यह एक ऐसा क्षेत्र है जो निरंतर विकास में है, जिसमें लंबी अवधि में सुसंगतता बनाए रखने और एआई-निर्मित संगीत की प्रामाणिकता पर चल रही बहस जैसी चुनौतियां इस क्षेत्र के अग्रणियों के लिए बाधाएं हैं। बस पिछले हफ्ते, यह खबर थी कि एक एआई-निर्मित गीत, जो ड्रेक और द वीकेंड की शैली को चैनल करता है, जो पहले इस साल ऑनलाइन आग लगा दी थी, को ग्रैमी नामांकन सूची से हटा दिया गया था, जो इस उद्योग में एआई-जनित संगीत की वैधता के बारे में जारी बहस को प्रदर्शित करता है (स्रोत). जैसे ही एआई संगीत और सुनने वालों के बीच की खाई को पाटता है, यह निश्चित रूप से एक पारिस्थितिकी तंत्र को बढ़ावा देता है जहां प्रौद्योगिकी कला के साथ सह-अस्तित्व में रहती है, नवाचार को बढ़ावा देती है और परंपरा का सम्मान करती है।

Aayush Mittal

मैं पिछले पांच वर्षों से मशीन लर्निंग और डीप लर्निंग की आकर्षक दुनिया में खुद को डूबा रहा हूं। मेरा जुनून और विशेषज्ञता ने मुझे 50 से अधिक विविध सॉफ्टवेयर इंजीनियरिंग परियोजनाओं में योगदान देने के लिए प्रेरित किया है, जिसमें विशेष रूप से एआई/एमएल पर ध्यान केंद्रित किया गया है। मेरी लगातार जिज्ञासा ने मुझे प्राकृतिक भाषा प्रसंस्करण की ओर आकर्षित किया है, जो एक क्षेत्र है जिसे मैं आगे अन्वेषण करने के लिए उत्सुक हूं।

Unite.AI

Text-to-Music जनरेटिव AI : Stability Audio, Google’s MusicLM और अधिक

संगीत में एआई की उत्पत्ति: एल्गोरिदमिक संरचना से जनरेटिव मॉडलिंग तक की यात्रा

पाठ को संगीत में अनुवाद करने की जटिलता

गूगल का म्यूजिकएलएम

तकनीकी अंतर्दृष्टि

स्टेबिलिटी ऑडियो

तकनीकी अंतर्दृष्टि

प्रॉम्प्टिंग युक्तियाँ

समापन नोट

You may like