الذكاء الاصطناعي
Text-to-Music Generative AI : Stability Audio, Google’s MusicLM and More

الموسيقى، وهي شكل فني يرنّ مع روح الإنسان، كانت رفيقًا دائمًا لنا جميعًا. بدأ创اء الموسيقى باستخدام الذكاء الاصطناعي منذ عدة عقود. في البداية، كانت المحاولات بسيطة و直forward، مع خوارزميات أساسية تُنشئ نغمات مُملّة. ومع تقدم التكنولوجيا، زادت تعقيدات وقدرات مولدات الموسيقى الاصطناعية، مما مهد الطريق لتلعب التعلم العميق ومعالجة اللغة الطبيعية (NLP) دورًا حاسمًا في هذه التكنولوجيا.
اليوم، منصات مثل Spotify تُستخدم الذكاء الاصطناعي لتعديل تجارب المستخدمين بشكل دقيق. تقوم خوارزميات التعلم العميق بتحليل تفضيلات الفرد بناءً على عناصر موسيقية مختلفة مثل الإيقاع والمزاج لإنشاء اقتراحات أغانٍ مُخصّصة. كما أنها تُحلل أنماط الاستماع الأوسع وتفتش الإنترنت عن مناقشات متعلقة بالأغاني لإنشاء ملفات أغاني مفصلة.
أصل الذكاء الاصطناعي في الموسيقى: رحلة من التأليف الخوارزمي إلى النمذجة التوليدية
في المراحل الأولى للخليط الاصطناعي في عالم الموسيقى، من الخمسينيات إلى السبعينيات، كان التركيز في الغالب على التأليف الخوارزمي. كانت هذه طريقة حيث استخدمت الحواسيب مجموعة محددة من القواعد لإنشاء الموسيقى. أول إبداع ملحوظ خلال هذه الفترة كان Illiac Suite for String Quartet في عام 1957. استخدمت خوارزمية مونتي كارلو، عملية تتضمن أرقامًا عشوائية لتحديد النغمة والإيقاع داخل حدود النظرية الموسيقية التقليدية والاحتمالات الإحصائية.
خلال هذه الفترة، كان رواد آخرون، مثل Iannis Xenakis، يستخدمون العمليات العشوائية، مفهومًا ي涉ل أرقامًا عشوائية، لإنشاء الموسيقى. استخدم الحواسيب ولغة FORTRAN لربط وظائف احتمالية متعددة، مما خلق نمطًا حيث تمثل تمثيلات графية متعددة مساحات صوتية متنوعة.
تعقيد ترجمة النص إلى موسيقى
تخزّن الموسيقى في تنسيق بيانات غني ومتعدد الأبعاد يضم عناصر مثل اللحن والتناغم والإيقاع والوزن، مما يجعل مهمة ترجمة النص إلى موسيقى معقدة للغاية. تمثل الأغنية القياسية بواسطة ما يقرب من مليون رقم في الحاسوب، وهو رقم أعلى بكثير من تنسيقات البيانات الأخرى مثل الصور والنصوص وغيرها.
يشهد مجال توليد الصوت نهجًا مبتكرًا للتغلب على تحديات إنشاء صوت واقعي. يتضمن أحد الأساليب توليد مخطط طيفي، ثم تحويله مرة أخرى إلى صوت.
تعتمد استراتيجية أخرى على التمثيل الرمزي للموسيقى، مثل النوتة الموسيقية، والتي يمكن تفسيرها ولعبها من قبل الموسيقيين. تم رقمنة هذه الطريقة بنجاح، مع أدوات مثل Chamber Ensemble Generator من Magenta، التي تُنشئ موسيقى بالتنسيق MIDI، وهو بروتوكول يسهل التواصل بين الحواسيب والأدوات الموسيقية.
على الرغم من تقدم هذه الأساليب، إلا أنها تأتي مع قيودها الخاصة، مما يُبرز الطبيعة المعقدة لتوليد الصوت.
Transformer-based autoregressive models and U-Net-based diffusion models، هما في طليعة التكنولوجيا، مما يُنتج نتائج متقدمة في توليد الصوت والنص والموسيقى وغيرها. تعتمد سلسلة GPT من OpenAI وجميع النماذج الأخرى على معالجات اللغة تقريبًا على المحولات، باستخدام معماريات المُشفر أو المُفسر أو كليهما. في الجانب الفني والصوري، MidJourney وStability AI وDALL-E 2 جميعها تعتمد إطارات الانحلال. تمثل هذه التكنولوجيا الأساسية حجر الزاوية في تحقيق نتائج متقدمة في قطاع الصوت أيضًا. في هذا المقال، سنغوص في MusicLM من Google وStable Audio، التي تشهد على القدرات الرائعة لهذه التكنولوجيا.
MusicLM من Google
تم إصدار MusicLM من Google في مايو من هذا العام. يمكن لموسيقى MusicLM توليد قطع موسيقية عالية الجودة، تتوافق مع المشاعر الدقيقة الموصوفة في النص. باستخدام نمذجة التسلسل المتسلسل الهرمي، تتمتع MusicLM بقدرة على تحويل وصف النص إلى موسيقى ترنّ على 24 kHz لمدة طويلة.
تعمل النموذج على مستوى متعدد، لا يلتزم فقط بالمدخلات النصية ولكن أيضًا يُظهر القدرة على التكييف على اللحن. هذا يعني أنه يمكنه أخذ لحن مهمل أو صفير و تحويله وفقًا للأسلوب المحدد في نص التعليق.
التحليل الفني
تعتمد MusicLM على مبادئ AudioLM، وهي إطار تم تقديمه في عام 2022 لتوليد الصوت. يُ合ن AudioLM الصوت كمهام نمذجة اللغة في مساحة تمثيل متقطعة، باستخدام هرمية وحدات صوتية متقطعة خشن إلى دقيق، والمعروفة باسم الرموز. هذا النهج يضمن جودة عالية وتماسك طويل الأمد على مدى فترات زمنية كبيرة.
为了 تسهيل عملية التوليد، توسعت MusicLM قدرات AudioLM لتشمل التكييف على النص، وهي تقنية تُحاذي الصوت المُولَّد مع دقائق النص المدخل. يتم تحقيق ذلك من خلال مساحة التضمين المشتركة التي تم إنشاؤها باستخدام MuLan، وهو نموذج موسيقى-نص مشترك تم تدريبه على وضع الموسيقى ووصف النص الخاص بها قريبًا من بعضهما البعض في مساحة التضمين. هذه الاستراتيجية تلغي بشكل فعال الحاجة إلى التعليقات أثناء التدريب، مما يسمح للنموذج بالتدريب على مجموعات بيانات صوتية ضخمة فقط.
كما تستخدم MusicLM SoundStream كعامل صوتي، والذي يمكنه إعادة بناء موسيقى 24 kHz بسرعة 6 كيلوبت في الثانية بدقة ممتازة، مستخدمًا الكمية المتعاقبة لل量ة (RVQ) لضغط الصوت الفعال والجودة العالية.

An illustration of the pretraining process of MusicLM: SoundStream, w2v-BERT, and Mulan | Image source: here
علاوة على ذلك، توسعت MusicLM قدراتها من خلال السماح بالتكييف على اللحن. هذا النهج يضمن أن حتى لحن مهمل يمكن أن يُشكل أساسًا لتجربة صوتية رائعة، مُحسنة وفقًا لوصف النمط النصي الدقيق.
لقد قام مطورو MusicLM أيضًا بنشر MusicCaps، وهو مجموعة بيانات يضم 5.5 آلاف زوج من الموسيقى والنص، كل منها مصحوب بتعليقات نصية غنية من قبل خبراء بشريين. يمكنك الاطلاع عليه هنا: MusicCaps on Hugging Face.
جاهز لإنشاء موسيقى صوتية مع MusicLM من Google؟ ها هي كيفية البدء:
- زر الموقع الرسمي ل MusicLM واضغط على “ابدأ”.
- انضم إلى قائمة الانتظار bằng اختيار “سجل اهتمامك”.
- سجل الدخول باستخدام حساب Google.
- بمجرد منح الوصول، اضغط على “جرب الآن” لبدء التشغيل.
فيما يلي بعض الأمثلة على الدفعات التي قمت بتجربتها:
“أغنية هادئة، مهدئة، مع أوتار وقيثارات. الموسيقى بطيئة، مع تركيز على خلق شعور بالسلام والهدوء.”
“جاز مع ساكسفون”
عند المقارنة مع نماذج SOTA السابقة مثل Riffusion وMubert في التقييم النوعي، تفوقت MusicLM أكثر من غيرها، مع تقييم المشاركين لتوافق التعليقات النصية مع مقاطع صوتية مدتها 10 ثوان.

MusicLM Performance, Image source: here
Stability Audio
قدمت Stability AI مؤخرًا “Stable Audio” وهو نموذج انحلال متأخر مشروط على بيانات النص بالإضافة إلى مدة الملف الصوتي ووقت البدء. هذا النهج، مثل MusicLM من Google، يسمح بالسيطرة على المحتوى وطول الصوت المولَّد، مما يسمح بإنشاء مقاطع صوتية بطول محدد يصل إلى حجم النافذة التدريبية.
التحليل الفني
يتكون Stable Audio من عدة مكونات، بما في ذلك معمارية VAE ونموذج انحلال مشروط بناءً على U-Net، يعملان معًا مع معالج نص.

Stable Audio Architecture, Image source: here
تسهل VAE عملية التوليد والتدريب بضغط الصوت الاستريو إلى تمثيل متقطع مضغوط ومقاوم للضوضاء ومتعاكس، مما يُجنب الحاجة للعمل مع عينات صوتية خام.
يلعب معالج النص، المشتق من نموذج CLAP، دورًا حاسمًا في فهم العلاقات المعقدة بين الكلمات والأصوات، مما يوفر تمثيلًا مفيدًا للنص المدخل المُقسم. يتم تحقيق ذلك من خلال استخدام ميزات النص من الطبقة قبل الأخيرة من معالج النص CLAP، والتي يتم دمجها في شبكة الانحلال U-Net من خلال طبقات الانتباه المتقاطع.
ميزة مهمة هي دمج التضمين الزمني، الذي يتم حسابه بناءً على خاصيتين: ثانية البدء من قطعة الصوت ومدة الملف الصوتي الأصلي. يتم دمج هذه القيم، المُترجمة إلى تضمينات متعلمة منفصلة لكل ثانية، مع رموز الدفعة وتمريرها إلى طبقات الانتباه المتقاطع في U-Net، مما يمنح المستخدمين khảية تحديد الطول الإجمالي للصوت المُولَّد.
تم تدريب نموذج Stable Audio باستخدام مجموعة بيانات واسعة تضم أكثر من 800,000 ملف صوتي، من خلال التعاون مع مزود الموسيقى الخلفية AudioSparx.
يقدم Stable Audio إصدارًا مجانيًا، يسمح بإنشاء 20 قطعة صوتية لكل شهر، وخططًا احترافية بسعر 12 دولارًا في الشهر، مما يسمح بإنشاء 500 قطعة صوتية كل شهر.
فيما يلي مقطع صوتي أنشأته باستخدام Stable Audio.
“سينمائي، ساوندتراك هادئ، مهمل، مع مطر، مهمل، مهمل، مهمل، مهمل، 40 إيقاع في الدقيقة”
تطبيقات هذه القطع الصوتية المُصنّعة بدقة لا حصر لها. يمكن للمخرجين السينمائيين استخدام هذه التكنولوجيا لإنشاء مناظر صوتية غنية وغامرة. في القطاع التجاري، يمكن للمعلنين استخدام هذه المسارات الصوتية المُعدّة خصيصًا. بالإضافة إلى ذلك، يفتح هذا الأداة أبوابًا للفنانين والمبدعين الفرديين لتجربة وابتكار، مما يوفر لوحة من الإمكانيات غير المحدودة لإنشاء قطع صوتية تحكي قصصًا، وتثير العواطف، وتنشئ أجواءً بعمق لم يكن من السهل تحقيقها بدون ميزانية كبيرة أو خبرة تقنية.
نصائح الدفعة
انشئ الصوت المثالي باستخدام دفعات النص. ها هي دليل سريع لبدء استخدامك:
- كن مفصلا: حدد الأنواع والمزاج والأدوات. على سبيل المثال: السينمائي، الغرب المتوحش، الإيقاع، المُحفز، الجوّي
- إعداد المزاج: اجمع بين المصطلحات الموسيقية والعاطفية لنقل المزاج المرغوب.
- اختيار الأداة: عزز أسماء الأدوات بالصفات، مثل “الجيتار المُحفز” أو “الكورال القوي”.
- الإيقاع: حاذي الإيقاع مع النوع لتحقيق مخرج متناسق، مثل “170 إيقاع في الدقيقة” لأغنية Drum and Bass.
ملاحظات الختام
في هذا المقال، غوصنا في الموسيقى المُولَّدة بالذكاء الاصطناعي، من التأليف الخوارزمي إلى الإطارات التوليدية المتقدمة مثل MusicLM من Google وStable Audio. تُحسن هذه التكنولوجيا، التي تعتمد على التعلم العميق ونماذج الانحلال المتقدمة، ليس فقط توليد الموسيقى ولكن أيضًا تحسين تجارب المستمعين.
ومع ذلك، فإنها مجال في تطور مستمر، مع عقبات مثل الحفاظ على التماسك على المدى الطويل والمناقشة الجارية حول مصداقية الموسيقى المُصنَّعة بالذكاء الاصطناعي، مما ي представляет تحديًا للرواد في هذا المجال. قبل أسبوع واحد فقط، كان كل الحديث عن أغنية مُصنَّعة بالذكاء الاصطناعي تقليد أسلوب Drake وThe Weeknd، والتي كانت قد اشتدت النار حولها في الإنترنت في وقت سابق من هذا العام. ومع ذلك، تم إزالتها من قائمة ترشيحات الجائزة الغرامي، مما يُظهر المناقشة الجارية حول شرعية الموسيقى المُصنَّعة بالذكاء الاصطناعي في الصناعة (المصدر). مع استمرار الذكاء الاصطناعي في جسر الفجوات بين الموسيقى والمستمعين، فإنه يُشجع نظامًا يجمع بين التكنولوجيا والفن، مما يُحفز الابتكار مع احترام التقاليد.

















