Connect with us

aiOla تقدم QUASAR لإعادة التفكير في كيفية عمل التعرف على الكلام في الإنتاج

الذكاء الاصطناعي

aiOla تقدم QUASAR لإعادة التفكير في كيفية عمل التعرف على الكلام في الإنتاج

mm

aiOla قد كشفت عن QUASAR، منصة مصممة لحل واحدة من أكثر المشاكل استمرارًا في مجال الذكاء الاصطناعي للصوت في الشركات: أداء التعرف على الكلام غير المتسق في الظروف الحقيقية. بدلاً من حصر العملاء في مزود واحد لخدمة التعرف التلقائي على الكلام (ASR) ، يعمل QUASAR كبوابة ذكية توجيه ديناميكي لكل互одействة صوتية إلى محرك ASR الأكثر احتمالاً للعمل بشكل جيد في ذلك الوقت.

هذا التحول مهم حيث يصبح الكلام مدخلاً أساسياً للعمليات التي تقودها الذكاء الاصطناعي عبر مراكز الاتصال والامتثال والتحليلات والبحث، وأيضاً وكلاء الذكاء الاصطناعي المستقلين بشكل متزايد. بينما توجيه نتائج البenchmarks غالباً اختيار ASR ، فإن بيئات الإنتاج تسيطر عليها اللهجات والضوضاء الخلفية والمصطلحات الخاصة بالمنطقة وتغير جودة الشبكة – عوامل يمكن أن تغير بشكل كبير دقة التعرف من تفاعل إلى آخر.

لماذا ينهار التعرف على الكلام من النوع الواحد في المقاييس الكبيرة

معظم الشركات اليوم تنشر ASR كdecision بنية ثابتة. يتم اختيار مزود واحد بناءً على معايير مجتمعة، ثم دمجها深око في العمليات. في الممارسة، هذا يخلق نقاط عمياء. محرك قد يتفوق في الكلام النقي والمقروء قد يصطدم مع المتحدثين ذوي اللهجات أو المفردات الثقيلة في الصناعة. قد يتعامل محرك آخر مع الصوت العالي جيداً ولكنه يفقد الأسماء المناسبة أو التسلسلات الرقمية الحاسمة للامتثال والفواتير.

تبديل المزودين لمعالجة هذه الفجوات مكلف ومزعج، غالباً ما يتطلب إعادة التدريب والتحقق والوقت العاطل عن العمل. في غضون ذلك، يتم إصدار نماذج ASR والتحديثات بسرعة تفوق قدرة معظم المنظمات على اختبارها واعتمادها. النتيجة هي انخفاض معدلات الاحتواء والملخصات غير دقيقة والتحليلات الأضعف وزيادة التكاليف الإدارية لضمان الجودة – كل ذلك مدفوعًا بأخطاء النسخ التي يمكن تجنبها.

داخل هندسة QUASAR: التعامل مع التعرف على الكلام كتحدي ديناميكي

يقترب QUASAR من التعرف على الكلام كتحدي تحسين في الوقت الفعلي. يتم تقييم كل طلب صوتي قادم قبل النسخ، مع مراعاة عوامل مثل خصائص المتحدث والظروف الصوتية والسياق الخاص بالمنطقة. بناءً على هذه التقييم، يتم توجيه الصوت إلى محرك ASR الأكثر احتمالاً لتقديم أعلى جودة للنتيجة لتلك التفاعل المحدد.

فنيًا، يعمل QUASAR كطبقة توجيه يمكنها العمل عبر واجهات برمجة التطبيقات السحابية التجارية وطرازات المضيفة الذاتية وتوزيعات ASR المخصصة. يسمح هذا التمثيل للمؤسسات بتجربة محركات جديدة، وترجيح التكلفة مقابل الجودة، وتجنب حصر البائع على المدى الطويل – كل ذلك دون تغيير التطبيقات التنازلية.

في الوسط يوجد آلية تقييم وترتيب غير مُشرّف التي تُقيم خيارات ASR في الوقت الفعلي. بدلاً من الاعتماد فقط على المتوسطات التاريخية، يتم تعلم النظام باستمرار من الظروف الحية، وتمكين قرارات النسخ التي تتكيف مع تطور البيئات والمتحدثين والحالات.

الأداء عبر ظروف الصوت الحقيقية

في التقييمات الداخلية التي شملت ست مجموعات بيانات متنوعة – من الكلام النقي والمحاضرات المهنية إلى الصوت المُصاحَب باللهجات والضوضاء والصوت المُثقَل بالمعلومات المالية – اختار QUASAR أفضل خيار أداء ASR بنسبة دقة 88.8% بشكل عام، أو الخيار الأفضل عندما كانت النتائج متشابهة بشكل فعال. بلغت الدقة 97% على الكلام النقي وتراوحت بين 79-88% للصوت الأكثر تحديًا الذي يتضمن اللهجات والضوضاء والمفردات المتخصصة.

تُبرز هذه النتائج رؤية رئيسية: لا يوجد محرك ASR واحد يتفوق بشكل مستمر عبر جميع السيناريوهات، ولكن التوجيه الذكي يمكن أن يلتقط نقاط القوة للعديد.

تمكين الصوت كبنية حية

من خلال فك ربط جودة التعرف على الكلام من مزود محدد، يتحول QUASAR ASR إلى ما وصفه aiOla بـ “البنية الحية”. تكتسب المؤسسات رؤية دقيقة لاداء النسخ على مستوى التفاعل، إلى جانب القدرة على تحسين الدقة أو التكلفة أو التأخير حسب الحالة.

يُسرع هذا النهج أيضًا التوسع في المناطق والقطاعات الجديدة. بدلاً من انتظار مزود واحد لدعم لغة أو لهجة أو مصطلحات خاصة بالصناعة، يمكن للمنظمات توجيه حركة المرور إلى المحرك الأكثر ملاءمة لتلك النيش اليوم – وتغييره عند ظهور خيارات أفضل.

رؤية aiOla الأوسع لعمليات الصوت

يُبنى QUASAR على مهمة aiOla الأوسع لجعل الصوت واجهة طبيعية لأنظمة الشركات. تُجاوز نماذج الشركة المُتخصصة التعرف على الصوت القياسي، حيث تُجمع معها ذكاء سير العمل لتحويل الإدخال الصوتي إلى بيانات هيكلية في الوقت الفعلي. هذا يُمكن التutomatisation اليدوي عبر الصناعات الحاسمة حيث يبقى إدخال البيانات اليدوي عائقا.

مدعومًا بـ 58 مليون دولار في التمويل وفريق بحثي، توضع aiOla الصوت ليس فقط كوسيلة إدخال، ولكن كبنية أساسية لعمليات الذكاء الاصطناعي. مع QUASAR، تُوسع الشركة رؤيتها إلى طبقة ASR نفسها – وتحدي افتراضات طويلة الأمد حول كيفية نشر التعرف على الكلام في المقاييس الكبيرة.

随着 تحول الصوت إلى واجهة رئيسية للوكلاء الذكاء الاصطناعي وأنظمة الشركات على حد سواء، قد يُثبت التعرف على الكلام الديناميكي والمتأثر بالسياق أهميته. إطلاق QUASAR يُشير إلى تحول من اختيار النماذج الثابتة إلى توجيه ديناميكي قائم على الأداء – نهج قد يُغير كيفية استهلاك نظام الصوت الاصطناعي كله لخدمة ASR.

أنطوان هو قائد رؤى ومؤسس شريك في Unite.AI، مدفوعًا بشغف لا يتزعزع لتشكيل وتعزيز مستقبل الذكاء الاصطناعي والروبوتات. رجل أعمال متسلسل، يعتقد أن الذكاء الاصطناعي سيكون مدمرًا للمجتمع مثل الكهرباء، وغالبًا ما يُقبض عليه وهو يثرثر عن إمكانات التكنولوجيات المدمرة و AGI.

كما أنه مستقبلي، فهو مخصص لاستكشاف كيف سيشكل هذه الابتكارات العالم. بالإضافة إلى ذلك، فهو مؤسس Securities.io، وهي منصة تركز على الاستثمار في التكنولوجيات المتقدمة التي تعيد تعريف المستقبل وتهيئ القطاعات بأكملها.