رطم الذكاء الاصطناعي التوليدي لتحويل النص إلى موسيقى: استقرار الصوت، وموسيقى Google's MusicLM والمزيد - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

الذكاء الاصطناعي التوليدي لتحويل النص إلى موسيقى: استقرار الصوت وموسيقى Google's MusicLM والمزيد

mm
تحديث on

لقد كانت الموسيقى، وهي شكل فني يتردد صداه مع الروح البشرية، رفيقًا دائمًا لنا جميعًا. بدأ إنشاء الموسيقى باستخدام الذكاء الاصطناعي منذ عدة عقود. في البداية، كانت المحاولات بسيطة وبديهية، حيث قامت الخوارزميات الأساسية بإنشاء نغمات رتيبة. ومع ذلك، مع تقدم التكنولوجيا، تطور أيضًا تعقيد وقدرات مولدات الموسيقى المدعومة بالذكاء الاصطناعي، مما مهد الطريق للتعلم العميق ومعالجة اللغات الطبيعية (NLP) للعب أدوار محورية في هذه التكنولوجيا.

تستفيد منصات مثل Spotify اليوم من الذكاء الاصطناعي لتحسين تجارب الاستماع لمستخدميها. تقوم خوارزميات التعلم العميق هذه بتشريح التفضيلات الفردية بناءً على عناصر موسيقية مختلفة مثل الإيقاع والحالة المزاجية لصياغة اقتراحات الأغاني المخصصة. حتى أنهم يقومون بتحليل أنماط الاستماع الأوسع نطاقًا ويبحثون في الإنترنت عن المناقشات المتعلقة بالأغاني لإنشاء ملفات تعريف مفصلة للأغاني.

أصل الذكاء الاصطناعي في الموسيقى: رحلة من التركيب الخوارزمي إلى النمذجة التوليدية

في المراحل الأولى لمزج الذكاء الاصطناعي في عالم الموسيقى، والتي امتدت من الخمسينيات إلى السبعينيات، كان التركيز في المقام الأول على التأليف الخوارزمي. كانت هذه طريقة تستخدم فيها أجهزة الكمبيوتر مجموعة محددة من القواعد لإنشاء الموسيقى. كان أول إنشاء ملحوظ خلال هذه الفترة هو جناح إلياك للرباعية الوترية في عام 1957. واستخدمت خوارزمية مونت كارلو، وهي عملية تنطوي على أرقام عشوائية لإملاء طبقة الصوت والإيقاع ضمن حدود النظرية الموسيقية التقليدية والاحتمالات الإحصائية.

الصورة التي أنشأها المؤلف باستخدام Midjourney

الصورة التي أنشأها المؤلف باستخدام Midjourney

خلال هذا الوقت، رائد آخر، إيانيس زناكيس، استخدم العمليات العشوائية، وهو مفهوم يتضمن التوزيعات الاحتمالية العشوائية، لصياغة الموسيقى. كان يستخدم أجهزة الكمبيوتر و فورتران لغة لربط وظائف احتمالية متعددة، وإنشاء نمط تتوافق فيه التمثيلات الرسومية المختلفة مع مساحات صوتية متنوعة.

تعقيد ترجمة النص إلى موسيقى

يتم تخزين الموسيقى بتنسيق غني ومتعدد الأبعاد من البيانات التي تشمل عناصر مثل اللحن والتناغم والإيقاع والإيقاع، مما يجعل مهمة ترجمة النص إلى موسيقى معقدة للغاية. يتم تمثيل الأغنية القياسية بما يقرب من مليون رقم في جهاز الكمبيوتر، وهو رقم أعلى بكثير من تنسيقات البيانات الأخرى مثل الصورة والنص وما إلى ذلك.

يشهد مجال توليد الصوت أساليب مبتكرة للتغلب على تحديات إنشاء صوت واقعي. تتضمن إحدى الطرق إنشاء مخطط طيفي، ثم تحويله مرة أخرى إلى صوت.

هناك استراتيجية أخرى تستفيد من التمثيل الرمزي للموسيقى، مثل النوتة الموسيقية، والتي يمكن للموسيقيين تفسيرها وتشغيلها. لقد تمت رقمنة هذه الطريقة بنجاح باستخدام أدوات مثل أداة Magenta مولد فرقة الغرفة إنشاء الموسيقى بتنسيق MIDI، وهو بروتوكول يسهل الاتصال بين أجهزة الكمبيوتر والآلات الموسيقية.

في حين أن هذه الأساليب قد طورت هذا المجال، إلا أنها تأتي مع مجموعة من القيود الخاصة بها، مما يؤكد الطبيعة المعقدة لتوليد الصوت.

محولنماذج الانحدار الذاتي المستندة إلى U-Net نماذج الانتشار، هي في طليعة التكنولوجيا، حيث ينتج عن إنتاج أحدث (SOTA) إنتاج الصوت والنص والموسيقى وغير ذلك الكثير. يتم تشغيل سلسلة GPT الخاصة بـ OpenAI وجميع برامج LLM الأخرى تقريبًا حاليًا بواسطة محولات تستخدم إما التشفير أو وحدة فك التشفير أو كلا البنيتين. على الجانب الفني/الصورة، تستفيد كل من MidJourney وStability AI وDALL-E 2 من أطر النشر. لقد كانت هاتان التقنيتان الأساسيتان أساسيتين في تحقيق نتائج SOTA في قطاع الصوت أيضًا. في هذه المقالة، سوف نتعمق في MusicLM وStable Audio من Google، والتي تقف بمثابة شهادة على القدرات الرائعة لهذه التقنيات.

موسيقى جوجل LM

تم إصدار MusicLM من Google في شهر مايو من هذا العام. يمكن لـ MusicLM إنشاء مقطوعات موسيقية عالية الدقة، تتوافق مع المشاعر الدقيقة الموضحة في النص. باستخدام النمذجة الهرمية للتسلسل إلى التسلسل، تتمتع MusicLM بالقدرة على تحويل أوصاف النص إلى موسيقى يتردد صداها عند 24 كيلو هرتز على مدى فترات طويلة.

يعمل النموذج على مستوى متعدد الأبعاد، ولا يقتصر على الالتزام بالمدخلات النصية فحسب، بل يُظهر أيضًا القدرة على التكيف مع الألحان. هذا يعني أنه يمكن أن يأخذ لحنًا هامدًا أو صفيرًا ويحوله وفقًا للنمط الموضح في التسمية التوضيحية النصية.

رؤى فنية

يستفيد MusicLM من مبادئ AudioLM، وهو إطار تم تقديمه في عام 2022 لتوليد الصوت. يقوم AudioLM بتجميع الصوت كمهمة نمذجة لغة ضمن مساحة تمثيل منفصلة، ​​وذلك باستخدام تسلسل هرمي من الوحدات الصوتية المنفصلة من الخشن إلى الدقيق، والمعروفة أيضًا باسم الرموز المميزة. ويضمن هذا النهج دقة عالية وتماسكًا طويل المدى على مدى فترات طويلة.

لتسهيل عملية الإنشاء، يعمل MusicLM على توسيع قدرات AudioLM لدمج تكييف النص، وهي تقنية تعمل على محاذاة الصوت الناتج مع الفروق الدقيقة في نص الإدخال. يتم تحقيق ذلك من خلال مساحة تضمين مشتركة تم إنشاؤها باستخدام MuLan، وهو نموذج نص موسيقي مشترك تم تدريبه على عرض الموسيقى وأوصاف النص المقابلة لها بالقرب من بعضها البعض في مساحة التضمين. تلغي هذه الإستراتيجية بشكل فعال الحاجة إلى التسميات التوضيحية أثناء التدريب، مما يسمح بتدريب النموذج على مجموعات صوتية ضخمة فقط.

يستخدم نموذج MusicLM أيضًا SoundStream باعتباره رمزًا صوتيًا، يمكنه إعادة إنشاء موسيقى بتردد 24 كيلو هرتز وسرعة 6 كيلوبت في الثانية بدقة مذهلة، والاستفادة من تكميم المتجهات المتبقية (RVQ) لضغط الصوت بكفاءة وعالي الجودة.

رسم توضيحي لعملية التدريب المسبق المستقلة للنماذج الأساسية لـ MusicLM: SoundStream، وw2v-BERT، وMuLan،

رسم توضيحي لعملية التدريب المسبق لـ MusicLM: SoundStream وw2v-BERT وMulan | مصدر الصورة: هنا

علاوة على ذلك، تعمل MusicLM على توسيع قدراتها من خلال السماح بتكييف اللحن. ويضمن هذا النهج أنه حتى النغمة البسيطة يمكن أن تضع الأساس لتجربة سمعية رائعة، ويتم ضبطها بدقة لتتوافق مع أوصاف النمط النصي الدقيق.

قام مطورو MusicLM أيضًا بفتح MusicCaps، وهي مجموعة بيانات تضم 5.5 ألف زوج من النصوص الموسيقية، كل منها مصحوب بأوصاف نصية غنية أعدها خبراء بشريون. يمكنك التحقق من ذلك هنا: قبعات موسيقية على الوجه المعانق.

هل أنت مستعد لإنشاء مقاطع صوتية مدعمة بالذكاء الاصطناعي باستخدام MusicLM من Google؟ إليك كيفية البدء:

  1. قم بزيارة موقع MusicLM الرسمي وانقر على "البدء".
  2. انضم إلى قائمة الانتظار عن طريق تحديد "تسجيل اهتمامك".
  3. قم بتسجيل الدخول باستخدام حساب جوجل الخاص بك.
  4. بمجرد منح حق الوصول، انقر فوق "جرب الآن" للبدء.

فيما يلي بعض الأمثلة على المطالبات التي قمت بتجربتها:

"أغنية تأملية، مهدئة ومهدئة، مع المزامير والقيثارات. الموسيقى بطيئة، مع التركيز على خلق شعور بالسلام والهدوء.

”موسيقى الجاز مع الساكسفون“

عند مقارنتها بنماذج SOTA السابقة مثل Riffusion وMubert في تقييم نوعي، تم تفضيل MusicLM أكثر من غيرها، حيث قام المشاركون بتقييم توافق التسميات التوضيحية النصية بشكل إيجابي مع مقاطع صوتية مدتها 10 ثوانٍ.

مقارنة أداء MusicLM

أداء MusicLM، مصدر الصورة: هنا

استقرار الصوت

الاستقرار الذكاء الاصطناعي قدم الأسبوع الماضي "صوت مستقر” هي بنية نموذجية للانتشار الكامن مشروطة ببيانات التعريف النصية إلى جانب مدة الملف الصوتي ووقت البدء. يتمتع هذا الأسلوب، مثل MusicLM من Google، بالتحكم في المحتوى وطول الصوت الذي تم إنشاؤه، مما يسمح بإنشاء مقاطع صوتية بأطوال محددة تصل إلى حجم نافذة التدريب.

رؤى فنية

يشتمل الصوت الثابت على عدة مكونات بما في ذلك جهاز التشفير التلقائي المتغير (VAE) ونموذج الانتشار المشروط المستند إلى U-Net، والذي يعمل جنبًا إلى جنب مع برنامج تشفير النص.

رسم توضيحي يوضح تكامل جهاز التشفير التلقائي المتغير (VAE)، وجهاز تشفير النص، ونموذج الانتشار المشروط المستند إلى U-Net

بنية صوتية مستقرة، مصدر الصورة: هنا

VAE يسهل التوليد والتدريب بشكل أسرع عن طريق ضغط صوت الاستريو في تشفير كامن مضغوط ومقاوم للضوضاء وقابل للعكس، مما يتجاوز الحاجة إلى العمل مع عينات الصوت الخام.

برنامج تشفير النص، مشتق من أ CLAP يلعب النموذج دورًا محوريًا في فهم العلاقات المعقدة بين الكلمات والأصوات، ويقدم تمثيلًا إعلاميًا لنص الإدخال المميز. يتم تحقيق ذلك من خلال استخدام ميزات النص من الطبقة قبل الأخيرة لمشفر النص CLAP، والتي يتم دمجها بعد ذلك في شبكة U-Net الانتشارية من خلال طبقات الانتباه المتبادل.

أحد الجوانب المهمة هو دمج تضمينات التوقيت، والتي يتم حسابها بناءً على خاصيتين: بداية ثانية المقطع الصوتي والمدة الإجمالية للملف الصوتي الأصلي. يتم دمج هذه القيم، المترجمة إلى عمليات تضمين متعلمة منفصلة في الثانية، مع الرموز المميزة وتغذيتها في طبقات الانتباه المتقاطع لشبكة U-Net، مما يمكّن المستخدمين من تحديد الطول الإجمالي لإخراج الصوت.

تم تدريب نموذج الصوت الثابت باستخدام مجموعة بيانات شاملة تضم أكثر من 800,000 ملف صوتي، من خلال التعاون مع مزود الموسيقى AudioSparx.

إعلانات تجارية صوتية مستقرة

الإعلانات التجارية الصوتية المستقرة

يقدم Stable Audio إصدارًا مجانيًا، يسمح بـ 20 جيلًا من المسارات التي تصل مدتها إلى 20 ثانية شهريًا، وخطة Pro بقيمة 12 دولارًا شهريًا، مما يسمح بـ 500 جيل من المسارات التي تصل مدتها إلى 90 ثانية.

يوجد أدناه مقطع صوتي قمت بإنشائه باستخدام صوت ثابت.

الصورة التي أنشأها المؤلف باستخدام Midjourney

الصورة التي أنشأها المؤلف باستخدام Midjourney

"سينمائي، موسيقى تصويرية أمطار لطيفة، محيط، مهدئ، نباح الكلاب البعيدة، حفيف أوراق الشجر الهادئ، الرياح الخفيفة، 40 نبضة في الدقيقة"

تطبيقات مثل هذه القطع الصوتية المصممة بدقة لا حصر لها. يمكن لصانعي الأفلام الاستفادة من هذه التكنولوجيا لإنشاء مقاطع صوتية غنية وغامرة. وفي القطاع التجاري، يمكن للمعلنين الاستفادة من هذه المقاطع الصوتية المخصصة. علاوة على ذلك، تفتح هذه الأداة سبلًا للمبدعين والفنانين الأفراد للتجربة والابتكار، مما يوفر لوحة ذات إمكانات غير محدودة لصياغة مقطوعات صوتية تروي القصص وتثير المشاعر وتخلق أجواء بعمق كان من الصعب في السابق تحقيقها بدون ميزانية كبيرة أو الخبرة الفنية.

نصائح حثيثة

قم بصياغة الصوت المثالي باستخدام المطالبات النصية. فيما يلي دليل سريع للبدء:

  1. كن مفصلا: تحديد الأنواع، والحالات المزاجية، والأدوات. على سبيل المثال: سينمائي، الغرب المتوحش، الإيقاع، التوتر، الغلاف الجوي
  2. ضبط المزاج: الجمع بين المصطلحات الموسيقية والعاطفية لتوصيل الحالة المزاجية المطلوبة.
  3. اختيار الصك: تحسين أسماء الآلات الموسيقية بصفات، مثل "Reverberated Guitar" أو "Powerful Choir".
  4. BPM: قم بمحاذاة الإيقاع مع النوع للحصول على مخرجات متناغمة، مثل "170 BPM" لمسار Drum and Bass.

ملاحظات ختامية

الصورة التي أنشأها المؤلف باستخدام Midjourney

الصورة التي أنشأها المؤلف باستخدام Midjourney

في هذه المقالة، بحثنا في الموسيقى/الصوت المولد بواسطة الذكاء الاصطناعي، بدءًا من المؤلفات الخوارزمية وحتى أطر عمل الذكاء الاصطناعي المتطورة اليوم مثل MusicLM من Google وStability Audio. هذه التقنيات، التي تستفيد من التعلم العميق ونماذج ضغط SOTA، لا تعمل فقط على تحسين توليد الموسيقى ولكن أيضًا تحسين تجارب المستمعين.

ومع ذلك، فهو مجال في تطور مستمر، مع وجود عقبات مثل الحفاظ على التماسك على المدى الطويل والجدل المستمر حول صحة الموسيقى المصنوعة بواسطة الذكاء الاصطناعي، مما يشكل تحديًا للرواد في هذا المجال. منذ أسبوع واحد فقط، كانت الضجة تدور حول أغنية تم إنشاؤها بواسطة الذكاء الاصطناعي لتوجيه أنماط Drake وThe Weeknd، والتي اشتعلت في البداية على الإنترنت في وقت سابق من هذا العام. ومع ذلك، فقد واجهت الإزالة من قائمة ترشيحات جرامي، مما يعرض الجدل الدائر حول شرعية الموسيقى المولدة بواسطة الذكاء الاصطناعي في الصناعة (مصدر). ومع استمرار الذكاء الاصطناعي في سد الفجوات بين الموسيقى والمستمعين، فمن المؤكد أنه يعمل على تعزيز نظام بيئي تتعايش فيه التكنولوجيا مع الفن، مما يعزز الابتكار مع احترام التقاليد.

لقد أمضيت السنوات الخمس الماضية منغمسًا في عالم رائع من التعلم الآلي والتعلم العميق. قادني شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا متنوعًا لهندسة البرمجيات ، مع التركيز بشكل خاص على الذكاء الاصطناعي / التعلم الآلي. جذبني فضولي المستمر أيضًا نحو معالجة اللغة الطبيعية ، وهو مجال أتوق لاستكشافه بشكل أكبر.