الذكاء الاصطناعي

Stability AI تكشف عن Stable Audio 2.0: تمكين المبدعين مع الصوت المتقدم المولّد بواسطة الذكاء الاصطناعي

نُشر في 3 أبريل 2024

تم التحديث في 22 مايو 2026

بواسطة

Alex McFarland

لقد دفعت Stability AI مرة أخرى حدود الابتكار مع إصدار Stable Audio 2.0. هذا النموذج المتقدم يبني على نجاح سابقه، ويقدم مجموعة من الميزات الرائدة التي توعد بثورة طريقة عمل الفنانين والموسيقيين في创ية المحتوى الصوتي.

ي đại diện Stable Audio 2.0 عن علامة فارقة في تطور الصوت المولّد بواسطة الذكاء الاصطناعي، مما يحدد معيارًا جديدًا للجودة والتنوع والإمكانيات الإبداعية. مع khảية توليد مسارات كاملة، وتحويل عينات الصوت باستخدام عبارات لغة طبيعية، وإنتاج مجموعة واسعة من المؤثرات الصوتية، يفتح هذا النموذج عالمًا من الإمكانيات للمبدعين في مختلف الصناعات.

مع استمرار نمو الطلب على حلول الصوت المبتكرة، فإن أحدث عروض Stability AI على وشك أن تصبح أداة لا غنى عنها للمحترفين الذين يبحثون عن تعزيز الإنتاج الإبداعي وتبسيط سير العمل. من خلال استغلال قوة التكنولوجيا المتقدمة للذكاء الاصطناعي، يمنح Stable Audio 2.0 المستخدمين khảية استكشاف المناطق غير المكتشفة في التأليف الموسيقي وتصميم الصوت والتعديل الصوتي.

ما هي الميزات الرئيسية ل Stable Audio 2.0

يتميز Stable Audio 2.0 بمجموعة مثيرة للإعجاب من الميزات التي يمكن أن تعيد تعريف مشهد الصوت المولّد بواسطة الذكاء الاصطناعي. من توليد المسارات الكاملة إلى تحويل الصوت إلى صوت، وإنتاج المؤثرات الصوتية المحسّنة، وانتقال الأسلوب، يوفر هذا النموذج للمبدعين أداة شاملة لجعل رؤاهم الصوتية حقيقة.

توليد المسارات الكاملة

يتميز Stable Audio 2.0 عن غيره من نماذج الصوت المولّد بواسطة الذكاء الاصطناعي بقدرته على إنشاء مسارات كاملة تصل إلى ثلاث دقائق. هذه التأليف ليست مجرد مقاطع مدّونة، بل هي قطع منفصلة تحتوي على أقسام متميزة مثل المقدمة والتنمية والختام. هذه الميزة تسمح للمستخدمين بتوليد أعمال موسيقية كاملة مع سرد وترقيب متناسقين، مما يرفع من الإمكانات لإنشاء الموسيقى بمساعدة الذكاء الاصطناعي.

علاوة على ذلك، يدمج النموذج تأثيرات صوتية ستيريو، مما يضيف عمقًا وابعادًا إلى الصوت المولّد. هذا التحويل يزيد من الواقعية والجودة الغامرة للمسارات، مما يجعلها مناسبة لاستخدامات متنوعة، من الموسيقى الخلفية في الفيديوهات إلى التأليف الموسيقي المستقل.

تحويل الصوت إلى صوت

أحد الإضافات الأكثر إثارة للاهتمام إلى Stable Audio 2.0 هي khảية تحويل الصوت إلى صوت. يمكن للمستخدمين الآن تحميل عينات الصوت الخاصة بهم و تحويلها باستخدام عبارات لغة طبيعية. هذه الميزة تفتح عالمًا من الإمكانيات الإبداعية، مما يسمح للفنانين والموسيقيين بالتجربة مع تحويل الصوت وتجديده بطرق كانت غير متخيلة من قبل.

باستخدام قوة الذكاء الاصطناعي، يمكن للمستخدمين بسهولة تعديل موجودات الصوت الحالية لتناسب احتياجاتهم أو رؤيتهم الفنية. سواء كان ذلك تغيير نبرة الآلة، أو تغيير المزاج القطعة، أو إنشاء أصوات جديدة بالكامل بناءً على عينات موجودة، يوفر Stable Audio 2.0 طريقة直ة لاستكشاف تحويل الصوت.

إنتاج المؤثرات الصوتية المحسّنة

بالإضافة إلى khảيات توليد الموسيقى، يمتاز Stable Audio 2.0 بإنشاء مجموعة متنوعة من المؤثرات الصوتية. من الأصوات الخلفية الهادئة مثل صوت أوراق الشجر أو صوت الآلات إلى مناظر صوتية أكثر غنى وتنوعًا مثل شوارع المدن المزدحمة أو البيئات الطبيعية، يمكن للنموذج توليد مجموعة واسعة من العناصر الصوتية.

تعد هذه الميزة المحسّنة لإنتاج المؤثرات الصوتية قيمة بشكل خاص للمبدعين الذين يعملون في الأفلام والتلفزيون والألعاب الإلكترونية والمشاريع المتعددة الوسائط. مع Stable Audio 2.0، يمكن للمستخدمين توليد مؤثرات صوتية عالية الجودة بسرعة وسهولة، مما يلغي الحاجة إلى عمل فاولي أو استخدام موجودات مرخصة باهظة الثمن.

انتقال الأسلوب

يقدم Stable Audio 2.0 ميزة انتقال الأسلوب التي تسمح للمستخدمين بتعديل الجودة الجمالية والطونات الصوتية للملفات الصوتية المولّدة أو المرفوعة. هذه الخảية تمكن المبدعين من تtailor الصوت الناتج ليتوافق مع المواضيع أو الأنماط أو الدفعات العاطفية لمشاريعهم.

باستخدام انتقال الأسلوب، يمكن للمستخدمين تجربة أنماط موسيقية مختلفة، أو مزج الأنماط، أو إنشاء لوحات صوتية جديدة بالكامل. هذه الميزة مفيدة بشكل خاص لإنشاء مسارات صوتية متسقة، أو تعديل الموسيقى لتناسب المحتوى المرئي، أو استكشاف التمازج الإبداعي والريمكس.

التقدم التكنولوجي ل Stable Audio 2.0

تحت الغطاء، يتم تشغيل Stable Audio 2.0 بواسطة تكنولوجيا الذكاء الاصطناعي المتقدمة التي تمكن من أدائه المثير للإعجاب ونتائجه عالية الجودة. تم تصميم هيكل النموذج بعناية ليتحمل التحديات الفريدة لتوليد تركيبات صوتية كاملة ومتسقة مع الحفاظ على التحكم الدقيق على التفاصيل.

هيكل نموذج الانتشار الكامن

في قلب Stable Audio 2.0 يوجد هيكل نموذج انتشار كامن تم تحسينه لتوليد الصوت. يتكون هذا الهيكل من مكونين رئيسيين: معزز متضاغط للغاية و مُحوّل انتشار (DiT).

يعمل المعزز على ضغط موجات الصوت الخام إلى تمثيلات مضغوطة. يسمح هذا الضغط للنموذج بالحفاظ على الميزات الأساسية للصوت مع تصفية التفاصيل الأقل أهمية، مما يؤدي إلى نتائج مولدة أكثر تماسكًا وتنظيمًا.

مُحوّل الانتشار، مشابه لتلك المستخدمة في نموذج Stable Diffusion 3 الرائد من Stability AI، ي置ّض المعمارية التقليدية U-Net المستخدمة في الإصدارات السابقة. يُعتبر DiT مناسبًا بشكل خاص لمعالجة وتوليد تسلسلات بيانات طويلة، مما يجعله مناسبًا للغاية لمعالجة وتوليد التأليف الصوتي الممتد.

تحسين الأداء والجودة

التركيبة بين المعزز المتضاغط ومُحوّل الانتشار تمكن Stable Audio 2.0 من تحقيق تحسينات ملحوظة في الأداء والجودة مقارنة بسابقه.

الضغط الفعال للمعزز يسمح للنموذج بمعالجة وتوليد الصوت بسرعة أكبر، مما يقلل من الموارد الحاسوبية المطلوبة ويجعلها أكثر إمكانية الوصول لمستخدمين أوسع. في الوقت نفسه، يضمن مُحوّل الانتشار القدرة على التعرف على الهياكل الكبيرة وإعادة إنتاجها، مما يحافظ على الصوت المولّد على مستوى عالٍ من التماسك والسلامة الموسيقية.

تتوج هذه التقدمات التكنولوجية بنموذج يمكنه توليد صوت واقعي ومثير للانتباه، سواء كان ذلك مسارًا موسيقيًا كاملًا أو منظرًا صوتيًا معقدًا أو تأثيرًا صوتيًا دقيقًا. يضع هيكل Stable Audio 2.0 الأساس لمزيد من الابتكارات في الصوت المولّد بواسطة الذكاء الاصطناعي، مما يفتح الطريق لادوات أكثر تطورًا وتعبيرًا للمبدعين.

حقوق المبدعين مع Stable Audio 2.0

مع استمرار تقدم الصوت المولّد بواسطة الذكاء الاصطناعي وزيادة إمكانية الوصول إليه، من المهم معالجة الآثار الأخلاقية وضمان حماية حقوق المبدعين. لقد اتخذت Stability AI خطوات استباقية لتحديد الأولوية للتنمية الأخلاقية والتعويض العادل للفنانين الذين يساهمون في تدريب Stable Audio 2.0.

تم تدريب Stable Audio 2.0 حصريًا على مجموعة بيانات مرخصة من AudioSparx، وهي مصدر موثوق به للمحتوى الصوتي عالي الجودة. تتكون هذه المجموعة من أكثر من 800,000 ملف صوتي، بما في ذلك الموسيقى والمؤثرات الصوتية وأجزاء الآلات الفردية، إلى جانب البيانات الوصفية النصية. من خلال استخدام مجموعة بيانات مرخصة، تضمن Stability AI أن النموذج مبني على أساس من البيانات الصوتية المكتسبة قانونيًا والمعترف بها بشكل مناسب.

مع الاعتراف بأهمية استقلالية المبدعين، قدمت Stability AI جميع الفنانين الذين يعملون في مجموعة بيانات AudioSparx فرصة للاستبعاد من استخدام أعمالهم في تدريب Stable Audio 2.0. يسمح آلية الاستبعاد للمبدعين بالحفاظ على التحكم في كيفية استخدام أعمالهم، ويتأكد من أن فقط أولئك الذين يرغبون في استخدام أعمالهم لتدريب الذكاء الاصطناعي يتم تضمينهم في المجموعة.

تتعهد Stability AI بضمان حصول المبدعين الذين يساهمون في تطوير Stable Audio 2.0 على تعويض عادل لجهودهم. من خلال ترخيص مجموعة بيانات AudioSparx وتمكين خيارات الاستبعاد، تظهر الشركة التزامها بتحقيق نظام مستدام ومتعادل للصوت المولّد بواسطة الذكاء الاصطناعي، حيث يتم احترام المبدعين ومكافأتهم على مساهماتهم.

为了 حماية حقوق المبدعين ومنع انتهاك حقوق النشر، قد شرعت Stability AI في شراكة مع Audible Magic، وهي شركة رائدة في تكنولوجيا التعرف على المحتوى. من خلال دمج نظام التعرف على المحتوى المتقدم (ACR) من Audible Magic في عملية تحميل الصوت، يمكن ل Stable Audio 2.0 التعرف على المحتوى المحتمل للانتهاك ووضع علامة عليه، مما يضمن استخدام الصوت الأصلي أو المرخص فقط داخل المنصة.

من خلال هذه الاعتبارات الأخلاقية والمبادرات التي تضع المبدعين في tâm، تحدد Stability AI سابقة قوية لتطوير الذكاء الاصطناعي المسؤول في مجال الصوت. من خلال تحديد الأولوية ل права المبدعين ووضع إرشادات واضحة لاستخدام البيانات والتعويض، تخلق الشركة بيئة تعاونية ومستدامة حيث يمكن للذكاء الاصطناعي والإبداع البشري التعايش والازدهار.

شaping المستقبل لإنشاء الصوت مع Stability AI

ي đại diện Stable Audio 2.0 عن علامة فارقة في الصوت المولّد بواسطة الذكاء الاصطناعي، مما يمنح المبدعين مجموعة شاملة من الأدوات لاستكشاف مجالات جديدة في الموسيقى وتصميم الصوت والإنتاج الصوتي. مع هيكل نموذج الانتشار الكامن المتقدم وأدائه المثير للإعجاب والتزامها بالاعتبارات الأخلاقية و حقوق المبدعين، تقود Stability AI مستقبل إنشاء الصوت. مع استمرار تطور هذه التكنولوجيا، من الواضح أن الصوت المولّد بواسطة الذكاء الاصطناعي سيلعب دورًا حاسمًا بشكل متزايد في المشهد الإبداعي، مما يوفر للمبدعين الأدوات التي يحتاجونها لتحدي حدود مهنتهم وإعادة تعريف ما هو ممكن في عالم الصوت.