قادة الفكر
ينتشر صوت الذكاء الاصطناعي – لكن هل هو واقعي بدرجة كافية للتأثير؟

سوق وكلاء الصوت الذكاء الاصطناعي العالمي ينتشر، و من المتوقع أن ينمو من 3.14 مليار دولار في عام 2024 إلى 47.5 مليار دولار بحلول عام 2034. لم يعد هذا التكنولوجيا حيزا ضيقا، حيث أن معظم الشركات التكنولوجية الكبرى (بما في ذلك جوجل وأمازون وأبل وميتا ومايكروسوفت) لديها الآن منتجات صوتية، والشركات الناشئة تقدم ابتكارات إلى السوق، والتكنولوجيا نفسها تصبح متاحة بشكل متزايد مع نماذج مفتوحة المصدر. من المساعدين الافتراضيين اليوميين مثل سيري وأليكسا إلى الدوبلاج الإقليمي في الأفلام والتلفزيون، لم يكن هناك فرصة أكثر خصوبة لاعتماد صوت الذكاء الاصطناعي.
لكن مع زيادة وصول صوت الذكاء الاصطناعي، تظل الخبرات غير متساوية بشكل عميق. ذلك لأن الجزء الأصعب من صوت الذكاء الاصطناعي ليس في توليد صوت الصوت، بل في توليد صوت يبدو معقولا في التفاعلات اليومية. الإتاحة الواسعة لا تعني أن هذه الأصوات الذكاء الاصطناعي كافية لاحتياجات الشركات أو لاعتماد المستخدمين على المدى الطويل. المناظر التنافسية الحقيقية سوف يتمكن من تحقيقها من خلال أولئك الذين يقدمون أصواتا تشعر بالديناميكية والوعي العاطفي في المواقف الواقعية.
وادي الغربة: “جيد بما فيه الكفاية” لا يكفي
افتراض متزايد داخل الصناعة هو أن تحقيق صوت ذكاء اصطناعي شبيه بالبشر سيكون “جيد بما فيه الكفاية” للاستخدام الواسع، وبالتالي ينتهي السباق. سيتحمل المستخدمون قليلا من غير الطبيعية لأن الفائدة تفوق العيوب.
في الواقع، هذا الافتراض يسيء فهم كيف يدرك الناس الكلام والانفعالات والصدق. الأصوات شبه البشرية معرضة لإنشاء تأثير “وادي الغربة” الذي يجعل المستخدمين غير مرتاحين، خاصة خلال دعم العملاء أو التفاعلات الصحية أو التخطيط للسفر، حيث يمكن أن تكون الانفعالات مرتفعة والشعور بالفهم هو الأهم. مع زيادة التعرض لأصوات الذكاء الاصطناعي، ينخفض تحمل الوسطية.
في الواقع، البحث على التفاعل بين الإنسان والآلة يظهر باستمرار أن عندما يكون الصوت قريبا من البشرية ولكن يفتقر إلى الانسجام العاطفي أو الإيقاعي، يستشعر المستخدمون ب_instinctively_ أن هناك شيئا ما خاطئا. على سبيل المثال، بعض الشركات التي لديها موظفو استقبال ذكاء اصطناعي يلاحظون أن المستخدمين يصفون التفاعلات بأنها مخيفة أو غير مريحة لأن الصوت له اختلافات إيقاعية أو زمنية عاطفية دقيقة لا تشعر بالصواب.
الخروج من هذا الوضع “جيد بما فيه الكفاية” يصبح أكثر أهمية للاهداف التجارية. من المتوقع أن يتعامل الذكاء الاصطناعي مع حوالي 50% من قضايا دعم العملاء بحلول عام 2027، ومع ذلك، يمكن أن تؤدي التفاعلات الآلية السلبية تؤثر بشكل مباشر على تصور العلامة التجارية. التفاعل السيئ مع روبوت الدردشة متبوعا بتجربة صوت غير طبيعية أو غير مريحة سيخلق بالتأكيد شعورا عميقا بالضيق وقد يشير إلى أن هناك طريقا موثوقا للحصول على المساعدة.
مع زيادة تفاعل المستهلكين مع أصوات الذكاء الاصطناعي، ينخفض تحمل التفاعلات الغير مريحة أو الروبوتية، وسوف يتخلى المستخدمون بسرعة، مما يطرح عواقب تجارية خطيرة للشركات التي تعتمد على هذه الأدوات.
الواقعية الحقيقية
في صوت الذكاء الاصطناعي، الواقعية على مستوى الإنسان هي أكثر من مجرد دقة النطق أو إزالة الأصوات الروبوتية. كما يتطلب ذلك مزيجا متعددي الأبعاد من العواطف والسياق وال细يات الثقافية والإيقاع والعوامل الأكثر دقة. التحدي الحقيقي يكمن في تفكيك وفهم وتكرار الطبقات التي تشكل التواصل البشري، مثل:
المدى العاطفي والصدق
جمال الأصوات البشرية يكمن في khảيتهم لنقل الدفء والاستعجال والفكاهة والخيبية والحماس، إلى جانب الكلمات نفسها. هذا الدقة العاطفية يؤثر مباشرة على ما إذا كان المستخدم يشعر بالفهم أو بالاستبعاد، أو بالاطمئنان أو بالغضب.
تخيل، على سبيل المثال، وكيل دعم ذكاء اصطناعي يتعامل مع عميل محبط. قد يقول الوكيل، “أنا أفهم تماما كيف يكون هذا محبطا. دعونا نرى كيف يمكننا إصلاحه.” عندما يبدو الصوت الذي ينطق هذه الكلمات متعاطفا، يمكن أن يخفض مستوى القلق ويشير إلى حل حقيقي للنزاع. نفس الكلمات المنطوقة بصوت مسطح أو غير طبيعي يمكن أن يؤدي إلى رد فعل معاكس.
الذكاء السياقي
البشر يعدلون تلقائيا كلامهم بناء على الضرورة الحاسمة للموقف، حالة المستمع العاطفية، تعقيد المعلومات، والسياق الاجتماعي. اليوم، تميل أصوات الذكاء الاصطناعي إلى تقديم السطور بشكل موحد، متغاضية عن الإشارات السياقية التي تجعل الكلام يبدو استجابة وحاضرا. يتطلب الكلام الواقعي فهما ليس فقط للكلمات، ولكن لماذا يتم نطقها وتصور من يعبرون عنها.
التعبيرات الدقيقة في الصوت
التواصل الطبيعي يتضمن عيوب دقيقة مثل التنفس والتنفسات والتراجع والتنظيم غير المنتظم. هذا هو أحد الأسباب الرئيسية التي تجعل الكلام الآلي المثالي غير مريح بشكل أساسي. للأسف، تكرار هذه الإشارات بصدق يبقى تحديا تقنيا.
الرقة الثقافية واللغوية
إضافة إلى إعادة إنتاج النبرة، يعتمد التواصل الإقليمي الحقيقي على意识 بالثقافات المختلفة، وتيرة النطق، والتعابير، ومستويات الرسمية، وأساليب التواصل. على سبيل المثال، نمط نبرة متزايدة يُظهر الودية والحماس في ثقافة معينة قد يُفسر على أنه عدم اليقين أو التساؤل في ثقافة أخرى، مما قد يغير تصور المستخدم للنوايا أو الانفعالات.
بدون هذه النعومات الصوتية المتضمنة في نماذج الذكاء الاصطناعي، قد تشعر الأصوات الدقيقة تقنيا بالغير ملائمة أو الغامضة للمستخدمين من خلفيات ثقافية مختلفة. تتطلب الواقعية الحقيقية القدرة على التكيف مع النبرة والنمط وفقا لتوقعات المستخدمين.
عندما نحسب جميع هذه العوامل الدقيقة ولكن المهمة، يصبح من الواضح أن أصوات الذكاء الاصطناعي لا يجب أن يبدو مثل البشر فقط، ولكن يجب أن يتفاعل في الوقت الفعلي مثل البشر. هذا هو السبب في أن التأخر هو عنصر حاسم في تقييم كيف يشعر صوت الذكاء الاصطناعي بالواقعية. في المحادثة الطبيعية، يأخذ البشر دورهم في التحدث بفترات متوسطة من 250 ملي ثانية. أية فترة أطول من ذلك وتفاعل يبدو متأخرا أو غير منتبه أو مشوشا. الفرق الطفيف بين وقفة فكريّة وتأخير تقني يمكن أن يكون كافيا لتعطيل وهم المحادثة الطبيعية وجعل الصوت يبدو أقل انتباها.
لماذا يهم هذا
في المستقبل، سوف تفضل السوق الشركات التي يمكنها تقديم الواقعية والاستجابة في الوقت الفعلي.
对于 وكلاء الذكاء الاصطناعي والمساعدين، يعتمد اعتماد المستخدم والاستمرار في الاستخدام على ما إذا كان الناس يرغبون في التفاعل مع التكنولوجيا في المقام الأول. الفرق بين أداة يجرّبها شخص مرة واحدة وأداة يعتمد عليها كل يوم هو جودة تجربة المحادثة.
في صناعة الترفيه، يعتمد الغمر والاستمرار على مدى واقعية المحتوى، ويمكن أن يؤدي سطر غير طبيعي إلى تعطيل انتباه المشاهد. يجب أن تندمج أصوات الذكاء الاصطناعي المستخدمة في الدوبلاج أو أداء الشخصيات بشكل كامل في السرد لتحقيق الأثر العاطفي.
对于 دعم العملاء، الثقة والتعاطف هما الأهم، خاصة عندما تحدث العديد من التفاعلات مع العملاء في لحظات الضيق أو الحيرة. صوت يبدو صلبا أو غير متعاطف يمكن أن يزيد من الحالة بدلا من حلها. ي期待 المستخدمون أصواتا تعكس القلق أو الصبر أو الطمأنينة، وليس مجرد تقديم استجابات مخططة.
ما يأتي بعد ذلك
الشركات التي سوف تفوز في سباق صوت الذكاء الاصطناعي سوف تكون تلك التي تتقن الدقة العاطفية، تفهم التباين السياقي والثقافي، وتستجيب بسرعة وسلاسة، وتقدم تجارب لا يمكن تمييزها عن التحدث مع إنسان.
في سوق حيث يمكن لأي شخص توليد صوت ذكاء اصطناعي، وتتطور توقعات المستخدمين بالتالي، “جيد بما فيه الكفاية” سوف لن يكون جيدا على الإطلاق. الطريقة الوحيدة للبقاء التنافسي سوف تكون توليد أصوات ذكاء اصطناعي التي يمكن للمستخدمين忘 أنهم ذكاء اصطناعي.












