قادة الفكر

وكلاء صوت مدعومون بالذكاء الاصطناعي للشركات: تحديان رئيسيان

Published January 31, 2024

Updated April 27, 2026

Dr. Itamar Arel and Dr. Ron Chrisley

الآن، أكثر من أي وقت مضى، هو الوقت المناسب لأنظمة مدعومة بالذكاء الاصطناعي تعتمد على الصوت. فكّر في مكالمة إلى خدمة العملاء. قريباً سيتلاشى كل التقلقل والجفاف – الأصوات الروبوتية الصلبة، والقوائم المقيدة بنمط “اضغط 1 للمبيعات”، والخبرات المزعجة التي جعلتنا جميعاً نضغط بصرامة على الرقم 0 بأمل التحدث مع وكيل بشري. (أو، بالنظر إلى الأوقات الطويلة من الانتظار التي قد تترتب على نقل المكالمة إلى وكيل بشري، قد يؤدي إلى放弃 المكالمة تماماً.)

لا أكثر. التقدم ليس فقط في نماذج اللغة الكبيرة القائمة على الترانسفورمر (LLMs) ولكن في نظام التعرف على الكلام التلقائي (ASR) ونظام النص إلى الكلام (TTS) يعني أن وكلاء الصوت الجيل التالي هنا – إذا كنت تعرف كيف تبنيهم.

اليوم نحصل على نظرة على التحديات التي تواجه أي شخص يأمل في بناء وكيل محادثة صوتي متقدم.

لماذا الصوت؟

قبل القفز، دعنا نلقي نظرة سريعة على الجاذبية والعلاقة العامة لوكلاء الصوت (بالمقارنة مع التفاعلات النصية). هناك العديد من الأسباب التي قد تجعل التفاعل الصوتي أكثر ملاءمة من التفاعل النصي – يمكن أن تشمل هذه الأسباب، بالترتيب التصاعدي للشدة:

التفضيل أو العادة – يتحدث قبل الكتابة تطوريا وتاريخيا
ادخال نص بطيء – يمكن للكثيرين التحدث بشكل أسرع من الكتابة
حالات بدون استخدام اليدين – مثل القيادة أو ممارسة الرياضة أو غسل الأطباق
أمراض القراءة – على الأقل في اللغة (اللغات) التي يفهمها الوكيل
الاعاقة – مثل العمى أو عدم السيطرة على الحركة غير الصوتية

في عصر يبدو أنه يهيمن عليه المعاملات عبر الموقع الإلكتروني، يبقى الصوت قناة قوية للتجارة. على سبيل المثال، وجدت دراسة حديثة بواسطة JD Power عن رضا العملاء في صناعة الفنادق أن النزلاء الذين حجزوا غرفتهم عبر الهاتف كانوا أكثر رضا عن إقامتهم من أولئك الذين حجزوا عبر وكالة سفر إلكترونية (OTA) أو مباشرة عبر موقع الفندق.

لكن الاستجابات التفاعلية الصوتية، أو IVRs اختصاراً، لا تكفي. دراسة عام 2023 بواسطة Zippia وجدت أن 88% من العملاء يفضلون المكالمات الصوتية مع وكيل حي بدلاً من التنقل في قائمة هاتفية آلية. وجدت الدراسة أيضا أن الأشياء التي تزعج الناس أكثر حول قوائم الهاتف تشمل الاستماع إلى خيارات غير ذات صلة (69%)، عدم القدرة على وصف القضية بشكل كامل (67%)، خدمة غير فعالة (33%)، وخيارات غير واضحة (15%).

وهناك انفتاح على استخدام المساعدين الصوتيين. وفقا لدراسة بواسطة Accenture، حوالي 47% من المستهلكين يشعرون بالراحة عند استخدام مساعدين صوتيين للتفاعل مع الشركات وحوالي 31% من المستهلكين قد استخدموا مساعدا صوتيا للتفاعل مع شركة.

أيا كان السبب، هناك تفضيل وطلب للتفاعل المنطوق – طالما أنه طبيعي ومريح.

ما يجعل وكيل صوت جيد؟

بمعنى تقريبي، يجب أن يستجيب وكيل الصوت لل用户 بطريقة هي:

ملائم: بناء على فهم صحيح لما قاله المستخدم / ما أراد. لاحظ أن استجابة الوكيل قد لا تكون مجرد رد صوتي، ولكن بعض أشكال الإجراءات من خلال التكامل مع الخلفية (على سبيل المثال، الحجز الفعلي لغرفة في الفندق عندما يقول المستخدم “امضِ وقم بالحجز”).
دقيق: بناء على الحقائق (على سبيل المثال، لا تقول إن هناك غرفة متاحة في الفندق في 19 يناير إلا إذا كانت هناك)
واضح: يجب أن تكون الاستجابة مفهومة
في الوقت المناسب: مع التأخير الذي يتوقعه المرء من تفاعل بشري
آمن: لا يوجد لغة غير لائقة أو غير مناسبة، أو كشف معلومات محمية، إلخ.

المشكلة

تحاول الأنظمة الآلية الصوتية الحالية تلبية المعايير المذكورة أعلاه على حساب ا) كونها محدودة للغاية وb) مزعجة للاستخدام. جزء من هذا ناتج عن التوقعات العالية التي يحددتها سياق المحادثة الصوتية، مع ارتفاع هذه التوقعات أكثر فأكثر مع تحسن جودة الصوت في أنظمة TTS لدرجة أن تصبح غير قابلة للتمييز عن الأصوات البشرية. لكن هذه التوقعات تتحطمت في الأنظمة الموزعة على نطاق واسع في الوقت الحالي. لماذا؟

بكلمة واحدة – انعدام المرونة:

كلام محدود – يُجبر المستخدم عادة على قول أشياء بشكل غير طبيعي: في جمل قصيرة، بالترتيب، بدون معلومات غير ضرورية، إلخ. هذا لا يوفر أي تحسن على نظام القائمة القديم الذي يعتمد على الأرقام
مفهوم ضيق وغير شامل لما يُعتبر “مقبول” – تحمل منخفضة لللهجات، والآهات، إلخ.
لا يوجد إمكانية للتراجع: إذا شيء ما ي went wrong، قد يكون هناك القليل من الفرص ل “إصلاح” أو تصحيح المعلومات المعيبة، ولكن بدلاً من ذلك يجب البدء من جديد، أو الانتظار لنقل إلى وكيل بشري.
التحول الصارم – لا khảية لتعطيل أو التحدث مع الوكيل

من غير المفاجئ أن الناس يجدون هذه القيود مزعجة أو مثيرة للغضب.

الحل:

الخبر السار هو أن الأنظمة الحديثة للذكاء الاصطناعي قوية وسريعة بما يكفي لتحسين هذه الأنواع من الخبرات بشكل كبير، بدلاً من مجرد الاقتراب من معايير خدمة العملاء البشرية أو تجاوزها. هذا نتيجة لمجموعة من العوامل:

أجهزة أسرع وأقوى
تحسينات في ASR (دقة أعلى، وتحقيق Noise، واللهجات، إلخ.)
تحسينات في TTS (أصوات طبيعية أو حتى منسخة)
وصول نماذج LLMs التوليدية (محادثات طبيعية الصوت)

ذلك النقطة الأخيرة هي تغيير اللعبة. الفكرة الرئيسية كانت أن نموذج تنبؤ جيد يمكن أن يكون نموذج توليد جيد. يمكن للوكيل الاصطناعي أن يقترب من أداء المحادثة البشرية إذا قال ما يتوقعه نموذج LLM جيد ليكون الأكثر احتمالا لما يقوله وكيل خدمة عملاء بشري جيد في السياق المحادثي المعطى.

هذا يدعو إلى Appearance عشرات الشركات الناشئة التي تأمل في حل مشكلة وكيل المحادثة الصوتي ببساطة عن طريق اختيار و接着 وحدات ASR و TTS جاهزة إلى نواة LLM. من هذا المنظور، الحل هو مجرد مسألة اختيار مزيج يقلل من التأخير والتكلفة. وبالطبع، هذا مهم. لكن هل يكفي؟

لا بسرعة

هناك عدة أسباب محددة لماذا هذا النهج البسيط لن يعمل، ولكنها تنبع من نقطتين عامتين:

LLMs لا يمكنها، بمفردها، تقديم محادثات نصية قائمة على الحقائق من النوع المطلوب لتطبيقات الشركات مثل خدمة العملاء. لذلك لا يمكنها، بمفردها، القيام بذلك للمحادثات الصوتية أيضا. شيء آخر مطلوب.
حتى لو قمت بإضافة ما هو مطلوب إلى LLMs لجعل وكيل محادثة نصي جيد، فإن تحويل ذلك إلى وكيل محادثة صوتي جيد يتطلب أكثر من مجرد ربطه بأفضل وحدات ASR و TTS التي يمكنك تحمل تكاليفها.

دعنا نلقي نظرة على مثال محدد لكل من هذه التحديات.

التحدي 1: الحفاظ على الواقعية

كما هو معروف على نطاق واسع، تنتج LLMs أحيانا معلومات غير دقيقة أو “متخيلة”. هذا هو مدمر في سياق العديد من التطبيقات التجارية، حتى لو كان من الممكن أن يكون جيدا لتطبيقات الترفيه حيث قد لا تكون الدقة هي النقطة.

من الطبيعي أن تنتج LLMs أحيانا معلومات غير دقيقة، عند التفكير في الأمر. هذا هو نتيجة مباشرة لاستخدام نماذج مدربة على بيانات من سنة (أو أكثر) سابقة لتوليد إجابات على أسئلة حول حقائق ليست جزءا من، أو مستنتجة من، مجموعة بيانات (مهما كانت ضخمة) قد تكون قديمة سنة أو أكثر. عندما يسأل المتصل “ما رقم عضويتي؟”، لا يمكن لنموذج LLM المسبق التدريب إلا توليد إجابة تبدو مقبولة، وليس دقيقة.

أحد الطرق الشائعة للتعامل مع هذه المشكلة هي:

التحسين الدقيق: تدريب نموذج LLM المسبق التدريب بشكل أكبر، هذه المرة على جميع البيانات الخاصة بالمنطقة التي تريد أن يستطيع الإجابة عليها بشكل صحيح.
هندسة التحفيز: إضافة البيانات الإضافية / الإرشادات كمدخل إلى LLM، بالإضافة إلى تاريخ المحادثة
التوليد المدعوم بالاسترجاع (RAG): مثل هندسة التحفيز، إلا أن البيانات المضافة إلى التحفيز يتم تحديدها بشكل ديناميكي عن طريق مطابقة السياق المحادثي الحالي (على سبيل المثال، سأل العميل “هل يوجد حمام سباحة في فندقك؟”) إلى فهرس مشفر بمؤشر بيانات خاصتك (الذي يتضمن، على سبيل المثال، ملفا يقول: “هنا المرافق المتاحة في الفندق: حمام سباحة، ساونا، محطة شحن سيارات كهربائية.”)
التحكم القائم على القواعد: مثل RAG، ولكن ما يجب إضافته إلى (أو إزالته من) التحفيز لا يتم استرجاعه بواسطة ذاكرة عصبية، ولكن يتم تحديده من خلال قواعد مدونة يدوياً.

لاحظ أن حجم واحد لا يناسب الجميع. سيكون من المهم تحديد أي من هذه الطرق سيكون مناسبًا، وستعتمد على، على سبيل المثال، البيانات الخاصة بالمنطقة التي تُخبر إجابة الوكيل. على وجه الخصوص، سوف تعتمد على ما إذا كانت البيانات تتغير بانتظام (مكالمة إلى مكالمة، على سبيل المثال – مثل اسم العميل) أو نادراً ما تتغير (على سبيل المثال، التحية الأولية: “مرحباً، شكراً لاتصالك بفندق بودابست. كيف يمكنني مساعدتك اليوم؟”). لن يكون التحسين الدقيق مناسبًا للأولى، وستكون RAG حلًا غير عملي للثانية. لذلك، سيتعين على أي نظام يعمل استخدام مجموعة من هذه الطرق.

ما هو أكثر من ذلك، فإن دمج هذه الطرق مع LLM وكلها مع بعضها البعض بطريقة تقلل من التأخير والتكلفة يتطلب هندسة دقيقة. على سبيل المثال، قد تتحسن أداء نموذجك RAG إذا قمت بتحسينه لتعزيز تلك الطريقة.

قد لا يكون من المفاجئ أن كل هذه الطرق تطرح تحدياتها الخاصة. على سبيل المثال، خذ التحسين الدقيق. سوف يُحسن التحسين الدقيق لنموذج LLM المسبق التدريب أدائه على بياناتك الخاصة بالمنطقة، نعم. لكن التحسين الدقيق يعدل المعاملات (الأوزان) التي هي أساس أداء النموذج المسبق التدريب (الجيد بشكل معقول). هذا التعديل يسبب في حدوث نسيان (أو “نسيان كارثي”) لبعض معرفة النموذج السابقة. يمكن أن يؤدي هذا إلى أن يقدم النموذج إجابات غير دقيقة أو غير مناسبة (حتى غير آمنة). إذا كنت تريد أن يستمر وكيلك في الاستجابة بدقة وأمان، فستحتاج إلى طريقة تحسين دقيق تقلل من نسيان كارثي.

التحدي 2: النهاية

تحديد وقت انتهاء كلام العميل هو أمر حيوي لتدفق المحادثة الطبيعي. وبالمثل، يجب على النظام التعامل مع Interruptions بسهولة، وضمان أن تبقى المحادثة متسقة ومتجاوبة مع احتياجات العميل. تحقيق ذلك بمعيار قابل للمقارنة مع التفاعل البشري هو مهمة معقدة، لكنها ضرورية لإنشاء تجارب محادثة طبيعية ومريحة.

الحل الذي يعمل يتطلب من المصممين النظر في أسئلة مثل:

كم يجب على الوكيل الانتظار بعد توقف العميل عن التحدث قبل أن يقرر أن العميل قد توقف عن التحدث؟
هل يعتمد ما سبق على ما إذا كان العميل قد أكمل جملة كاملة؟
ما يجب فعله إذا قاطع العميل الوكيل؟
على وجه الخصوص، يجب على الوكيل افتراض أن ما كان يقوله لم يسمعه العميل؟

تتعلق هذه القضايا، التي تتعلق بشكل كبير بالتوقيت، تتطلب هندسة دقيقة فوق ما هو مطلوب لجعل LLM يُجيب بشكل صحيح.

الختام

تطور الأنظمة الصوتية المدعومة بالذكاء الاصطناعي يعد ثورة في ديناميات خدمة العملاء، واستبدال الأنظمة الهاتفية القديمة بنماذج LLMs الحديثة و ASR و TTS. ومع ذلك، فإن التغلب على التحديات في المعلومات المتخيلة وتنسيق النهاية سيكون حاسما لتقديم تفاعلات صوتية طبيعية وفعالة.

يمكن أن يصبح تلقين خدمة العملاء قوة حقيقية لتغيير اللعبة للشركات، ولكن فقط إذا تم القيام به بشكل صحيح. في عام 2024، خاصة مع كل هذه التكنولوجيات الجديدة، يمكننا بناء أنظمة يمكن أن تشعر بالطبيعية والتدفق والمتانة لفهمنا. سوف يؤدي ذلك إلى تقليل أوقات الانتظار، وتحسين الخبرة الحالية التي لدينا مع البوتات الصوتية، مما يحدد عصراً تحولياً في المشاركة والجودة الخدمية.

Dr. Itamar Arel

الدكتور إيتامار أريل، الحالي الرئيس التنفيذي في Tenyx، يدمج خلفيته الأكاديمية كأستاذ سابق في جامعة تينيسي ومختبر ستانفورد للذكاء الاصطناعي مع النجاح الريادي، حيث شارك في تأسيس شركات رائدة مثل Binatix وApprente (التي تم الاستحواذ عليها من قبل ماكدونالدز وآي بي إم) وTenyx. وقد شغل إيتامار مؤخرًا منصب نائب الرئيس التنفيذي ورئيس مختبرات McD Tech في شركة ماكدونالدز ومدير الذكاء الاصطناعي الحواري في IBM Watson Orders.

Dr. Ron Chrisley

Dr. Ron Chrisley is currently Chief Scientific Advisor at Tenyx, which he co-founded in 2021. He received a BS in Symbolic Systems from Stanford, holds a doctorate from the University of Oxford, and is Professor of Cognitive Science and Artificial Intelligence at the University of Sussex. From 2019 to 2020, he was Visiting Scholar at Stanford’s Institute for Human-Centered AI.

Unite.AI