Connect with us

إطلاق Speechmatics برنامج التعرف على الكلام المستقل

الذكاء الاصطناعي

إطلاق Speechmatics برنامج التعرف على الكلام المستقل

mm

أطلقت شركة Speechmatics الرائدة في تكنولوجيا التعرف على الكلام برنامج “التعرف على الكلام المستقل” الذي يستخدم أحدث تقنيات التعلم العميق ونمذجة التوجيه الذاتي. وقد أظهر النظام قدرة على التفوق على Amazon و Google و Microsoft.

مجموعة بيانات ستانفورد

تستند Speechmatics على مجموعة بيانات وجدت في دراسة ستانفورد حول “الاختلافات العرقية في التعرف على الكلام”، وقد حقق نظام Speechmatics دقة بنسبة 82.8٪ لآلات الأصوات الأمريكية الأفريقية. ومن أجل المرجع، حقق Google نسبة دقة 68.7٪، في حين حقق Amazon نسبة دقة 68.6٪.

ت相当 مستوى الدقة إلى انخفاض بنسبة 45٪ في أخطاء التعرف على الكلام، وهو ما يعادل ثلاث كلمات في الجملة المتوسطة. ليس فقط نظام Speechmatics الجديد دقيقا في هذا الصدد، ولكنها أظهرت تحسينات في الدقة عبر اللهجات والعمر واللهجات والمؤشرات الاجتماعية والديموغرافية الأخرى.

غالبًا ما يكون هناك سوء فهم في التعرف على الكلام بسبب كمية البيانات المحدودة التي يمكن للخوارزميات استخدامها لتدريب نفسها. يتم تخصيص البيانات المحددة يدويًا من قبل البشر، مما يؤدي إلى كمية أقل من البيانات المتاحة لهذه الأنظمة. كما أن هذا يحد من تمثيل جميع الأصوات، مما يخلق مجموعة جديدة من المشاكل.

التدريب على البيانات غير المحددة

تجعل Speechmatics التقدم الكبير في هذا الصدد حيث يتم تدريب تقنياتها على كميات هائلة من البيانات غير المحددة التي يتم الحصول عليها مباشرة من الإنترنت. تأتي البيانات من أشياء مثل المحتوى على وسائل الإعلام الاجتماعية والبودكاست.

أ启ش التعلم الذاتي التوجيهي نظام Speechmatics لتدريبه على 1.1 مليون ساعة من الصوت، وهو ما يزيد عن الساعات 30,000 السابقة. هذا يتيح له أن يكون له تمثيل أوسع للأصوات، مما يساعد على تقليل انحياز الذكاء الاصطناعي والأخطاء في التعرف على الكلام.

عندما يتعلق الأمر بأصوات الأطفال، أظهر نظام Speechmatics أيضًا القدرة على التفوق على المنافسين. تعتبر أصوات الأطفال صعبة التعرف عليها من خلال تقنيات التعرف على الكلام التقليدية، لكن Speechmatics تمكنت من تسجيل نسبة دقة 91.8٪. لم يتمكن Google من تحقيق أكثر من 83.4٪ و Deepgram 82.3٪.

كايتي ويداهال هي الرئيس التنفيذي لشركة Speechmatics.

“نحن في مهمة لتقديم الجيل التالي من قدرات التعلم الآلي، ومن خلال ذلك تقديم تقنيات كلام أكثر شمولاً وسهولة الوصول. هذا الإعلان هو خطوة كبيرة نحو تحقيق هذه المهمة”.

“ركزنا على معالجة انحياز الذكاء الاصطناعي، مما أدى إلى هذا القفزة الهائلة إلى الأمام في صناعة التعرف على الكلام، وستؤدي تأثيراتها إلى تغييرات في مجموعة متنوعة من السيناريوهات”، واصل ويداهال. “فكر في التعليقات الخاطئة التي نراها على وسائل الإعلام الاجتماعية، والاجتماعات القضائية التي يتم فيها تسجيل الكلمات بشكل خاطئ، ومنصات التعلم الإلكتروني التي عانت من أصوات الأطفال طوال فترة الوباء. يمكن للأخطاء التي كان الناس يضطرون إلى قبولها حتى الآن أن يكون لها تأثير ملموس على حياتهم اليومية”.

أليسون زو كوينيكي هي المؤلف الرئيسي لدراسة ستانفورد حول التعرف على الكلام.

“من المهم دراسة وتحسين العدالة في أنظمة الكلام إلى النص نظرًا لاحتمال الأضرار المختلفة للأفراد من خلال القطاعات التنازلية التي تتراوح من الرعاية الصحية إلى العدالة الجنائية”.

Alex McFarland هو صحفي وكاتب في مجال الذكاء الاصطناعي يستكشف أحدث التطورات في الذكاء الاصطناعي. وقد تعاون مع العديد من الشركات الناشئة في مجال الذكاء الاصطناعي والمنشورات في جميع أنحاء العالم.