قاده التفكير

الوكلاء الصوتيون المعتمدون على الذكاء الاصطناعي للمؤسسات: تحديان رئيسيان

تم النشر 31 كانون الثاني 2024

تحديث ٥ فبراير، ٢٠٢٤

الآن، أكثر من أي وقت مضى، هو الوقت المناسب للأنظمة الصوتية التي تعمل بالذكاء الاصطناعي. فكر في الاتصال بخدمة العملاء. وسرعان ما ستختفي كل الهشاشة وعدم المرونة - الأصوات الآلية القاسية، والقوائم الضيقة على غرار "الشخص الصحفي للمبيعات"، والتجارب المزعجة التي جعلتنا جميعًا نضغط بشكل محموم على الصفر على أمل التحدث بدلاً من ذلك مع وكيل بشري. (أو، بالنظر إلى فترات الانتظار الطويلة التي يمكن أن يستلزمها التحويل إلى وكيل بشري، لو توقفنا عن المكالمة تمامًا.)

لا أكثر. التقدم ليس فقط في المحولات القائمة نماذج اللغات الكبيرة (LLMs) ولكن بشكل تلقائي التعرف على الكلام (عسر) و النص إلى الكلام تعني أنظمة (TTS) أن الوكلاء الصوتيين من "الجيل التالي" موجودون هنا - إذا كنت تعرف كيفية بنائها.

اليوم نلقي نظرة على التحديات التي تواجه أي شخص يأمل في بناء وكيل محادثة صوتي متطور.

لماذا الصوت؟

قبل البدء، دعونا نلقي نظرة سريعة على عوامل الجذب العامة وأهمية الوكلاء المعتمدين على الصوت (على عكس التفاعلات المستندة إلى النصوص). هناك العديد من الأسباب التي تجعل التفاعل الصوتي أكثر ملاءمة من التفاعل النصي - يمكن أن تشمل هذه الأسباب، بترتيب متزايد من حيث الخطورة:

التفضيل أو العادة - التحدث يسبق الكتابة تطوريًا وتاريخيًا
إدخال النص البطيء - يمكن للكثيرين التحدث بشكل أسرع من قدرتهم على إرسال الرسائل النصية
المواقف التي لا تتطلب استخدام اليدين - مثل القيادة أو ممارسة التمارين الرياضية أو غسل الأطباق
الأمية - على الأقل باللغة (اللغات) التي يفهمها الوكيل
الإعاقات – مثل العمى أو عدم القدرة على التحكم الحركي غير الصوتي

في عصر يبدو أن المعاملات التي تتم عبر مواقع الويب تهيمن عليه، يظل الصوت قناة قوية للتجارة. على سبيل المثال، وجدت دراسة حديثة أجرتها شركة JD Power حول رضا العملاء في قطاع الفنادق أن الضيوف الذين حجزوا غرفهم عبر الهاتف كانوا أكثر رضا عن إقامتهم من أولئك الذين حجزوا من خلال وكالة سفر عبر الإنترنت (OTA) أو مباشرة من خلال موقع الفندق على الويب. .

لكن الاستجابات الصوتية التفاعلية، أو IVRs باختصار، ليست كافية. دراسة 2023 بواسطة Zippia وجدت أن 88% من العملاء يفضلون إجراء المكالمات الصوتية مع وكيل مباشر بدلاً من التنقل في قائمة الهاتف الآلية. ووجدت الدراسة أيضًا أن أهم الأشياء التي تزعج الأشخاص أكثر بشأن قوائم الهاتف تشمل الاستماع إلى خيارات غير ذات صلة (69٪)، وعدم القدرة على وصف المشكلة بشكل كامل (67٪)، والخدمة غير الفعالة (33٪)، والخيارات المربكة (15٪). ).

وهناك انفتاح على استخدام المساعدين الصوتيين. وفقًا لدراسة أجرتها شركة Accenture، فإن حوالي 47% من المستهلكين يشعرون بالارتياح بالفعل عند استخدام المساعدين الصوتيين للتفاعل مع الشركات، وقد استخدم حوالي 31% من المستهلكين بالفعل مساعدًا صوتيًا للتفاعل مع الأعمال التجارية.

مهما كان السبب، بالنسبة للكثيرين، هناك تفضيل وطلب للتفاعل المنطوق - طالما أنه طبيعي ومريح.

ما الذي يجعل الوكيل الصوتي جيدًا؟

بشكل تقريبي، يجب أن يستجيب الوكيل الصوتي الجيد للمستخدم بطريقة:

ذات صلة: بناءً على الفهم الصحيح لما قاله/أراده المستخدم. لاحظ أنه في بعض الحالات، لن يكون رد الوكيل مجرد رد منطوق، بل سيكون شكلاً من أشكال الإجراء من خلال التكامل مع الواجهة الخلفية (على سبيل المثال، التسبب فعليًا في حجز غرفة فندق عندما يقول المتصل "تابع واحجزها") .
دقيق: استنادًا إلى الحقائق (على سبيل المثال، قل فقط أن هناك غرفة متاحة في الفندق في 19 يناير إذا كانت هناك غرفة متاحة)
واضح: يجب أن يكون الرد مفهوما
في الوقت المناسب: مع نوع الكمون الذي يتوقعه المرء من الإنسان
آمن: لا يجوز استخدام لغة مسيئة أو غير لائقة، أو الكشف عن المعلومات المحمية، وما إلى ذلك.

المشكلة

تحاول الأنظمة الآلية الحالية القائمة على الصوت تلبية المعايير المذكورة أعلاه على حساب أ) كونها أ) محدودة للغاية وب) محبطة للغاية للاستخدام. يرجع جزء من هذا إلى التوقعات العالية التي يحددها سياق المحادثة المعتمد على الصوت، حيث تزداد هذه التوقعات كلما أصبحت جودة الصوت في أنظمة تحويل النص إلى كلام غير قابلة للتمييز عن الأصوات البشرية. لكن هذه التوقعات تحطمت في الأنظمة المنتشرة على نطاق واسع في الوقت الحالي. لماذا؟

في كلمة واحدة - عدم المرونة:

الكلام المحدود - يضطر المستخدم عادةً إلى قول الأشياء بشكل غير طبيعي: بعبارات قصيرة، وبترتيب معين، دون معلومات زائفة، وما إلى ذلك. وهذا لا يوفر تقدمًا كبيرًا أو لا يقدم أي تقدم على نظام القائمة القديم القائم على الأرقام
المفهوم الضيق وغير الشامل للكلام "المقبول" - انخفاض التسامح مع اللغات العامية وuhms وahs، وما إلى ذلك.
عدم التراجع: إذا حدث خطأ ما، فقد تكون هناك فرصة ضئيلة "لإصلاح" أو تصحيح المعلومة التي بها مشكلة، ولكن بدلاً من ذلك يتعين عليك البدء من جديد، أو انتظار نقلها إلى إنسان.
تبادل الأدوار بشكل صارم - عدم القدرة على مقاطعة الوكيل أو التحدث إليه

وغني عن القول أن الناس يجدون هذه القيود مزعجة أو محبطة.

الحل:

والخبر السار هو أن أنظمة الذكاء الاصطناعي الحديثة قوية وسريعة بما يكفي لتحسين أنواع التجارب المذكورة أعلاه بشكل كبير، بدلاً من الاقتراب (أو تجاوز!) معايير خدمة العملاء البشرية. ويرجع ذلك إلى مجموعة متنوعة من العوامل:

أجهزة أسرع وأكثر قوة
تحسينات في ASR (دقة أعلى، والتغلب على الضوضاء، واللهجات، وما إلى ذلك)
تحسينات في تحويل النص إلى كلام (الأصوات الطبيعية أو حتى الأصوات المستنسخة)
وصول LLMs التوليدية (المحادثات الطبيعية)

هذه النقطة الأخيرة هي تغيير قواعد اللعبة. وكانت الفكرة الرئيسية هي أن النموذج التنبؤي الجيد يمكن أن يكون بمثابة نموذج توليدي جيد. يمكن للوكيل الاصطناعي أن يقترب من أداء المحادثة على المستوى البشري إذا قال ما يتوقعه ماجستير إدارة الأعمال الجيد بدرجة كافية أنه الشيء الأكثر احتمالاً الذي قد يقوله وكيل خدمة العملاء البشري الجيد في سياق المحادثة المحدد.

يشير وصول العشرات من الشركات الناشئة في مجال الذكاء الاصطناعي إلى حل مشكلة وكيل المحادثة المعتمد على الصوت ببساطة عن طريق اختيار وحدات ASR وTTS الجاهزة ثم توصيلها بنواة LLM. ومن وجهة النظر هذه، فإن الحل يكمن فقط في اختيار مجموعة تقلل من زمن الوصول والتكلفة. وبالطبع هذا مهم. ولكن هل هذا يكفي؟

ليس بهذه السرعة

هناك عدة أسباب محددة لعدم نجاح هذا النهج البسيط، ولكنها مستمدة من نقطتين عامتين:

في الواقع، لا يستطيع حاملو شهادات LLM، بمفردهم، تقديم محادثات نصية جيدة قائمة على الحقائق من النوع المطلوب لتطبيقات المؤسسات مثل خدمة العملاء. لذلك لا يمكنهم، بمفردهم، القيام بذلك في المحادثات الصوتية أيضًا. هناك حاجة إلى شيء آخر.
حتى إذا قمت بتكملة LLMs بما هو مطلوب لإنشاء وكيل محادثة جيد يعتمد على النصوص، فإن تحويل ذلك إلى وكيل محادثة جيد يعتمد على الصوت يتطلب أكثر من مجرد ربطه بأفضل وحدات ASR وTTS التي يمكنك تحمل تكلفتها.

دعونا نلقي نظرة على مثال محدد لكل من هذه التحديات.

التحدي الأول: إبقائها حقيقية

كما هو معروف على نطاق واسع، تُنتج برامج الماجستير في القانون أحيانًا معلومات غير دقيقة أو "مُضللة". وهذا يُمثل كارثة في سياق العديد من التطبيقات التجارية، حتى وإن كان يُمثل تطبيقًا ترفيهيًا جيدًا حيث قد لا تكون الدقة هي الهدف.

من المتوقع أن يهلوس طلاب ماجستير القانون في بعض الأحيان، عند التفكير. إنها نتيجة مباشرة لاستخدام النماذج التي تم تدريبها على البيانات منذ عام (أو أكثر) لتوليد إجابات لأسئلة حول الحقائق التي لا تشكل جزءًا من مجموعة بيانات (مهما كانت ضخمة) والتي قد تكون موجودة منذ عام أو أكثر أو لا تتضمنها. قديم. عندما يسأل المتصل "ما هو رقم عضويتي؟"، لا يستطيع برنامج LLM البسيط المدرب مسبقًا سوى توليد إجابة تبدو معقولة، وليست دقيقة.

الطرق الأكثر شيوعًا للتعامل مع هذه المشكلة هي:

الضبط الدقيق: قم بتدريب ماجستير إدارة الأعمال المدرب مسبقًا بشكل أكبر، هذه المرة على جميع البيانات الخاصة بالمجال والتي تريد أن يتمكن من الإجابة عليها بشكل صحيح.
الهندسة السريعة: قم بإضافة البيانات/التعليمات الإضافية كمدخل إلى LLM، بالإضافة إلى سجل المحادثة
الجيل المعزز للاسترجاع (RAG): مثل الهندسة الفورية، باستثناء أن البيانات المضافة إلى الموجه يتم تحديدها بسرعة عن طريق مطابقة سياق المحادثة الحالي (على سبيل المثال، سأل العميل "هل يحتوي فندقك على مسبح؟") مع تضمين مشفر فهرس للبيانات الخاصة بنطاقك (يتضمن، على سبيل المثال، ملفًا يقول: "إليك المرافق المتاحة في الفندق: حمام سباحة، وساونا، ومحطة شحن EV.").
التحكم القائم على القواعد: مثل RAG، ولكن ما يجب إضافته إلى (أو طرحه) من الموجه لا يتم استرجاعه عن طريق مطابقة الذاكرة العصبية ولكن يتم تحديده من خلال قواعد مشفرة (ومشفرة يدويًا).

لاحظ أن مقاسًا واحدًا لا يناسب الجميع. أي من هذه الطرق سيكون مناسبًا سيعتمد، على سبيل المثال، على البيانات الخاصة بالمجال التي تحدد إجابة الوكيل. على وجه الخصوص، سيعتمد ذلك على ما إذا كانت البيانات المذكورة تتغير بشكل متكرر (اتصال للاتصال، على سبيل المثال - على سبيل المثال اسم العميل) أو نادرًا ما تتغير (على سبيل المثال، التحية الأولية: "مرحبًا، شكرًا لك على الاتصال بفندق بودابست. كيف يمكنني مساعدتك اليوم" "؟"). لن يكون الضبط الدقيق مناسبًا للأول، وسيكون RAG حلاً أخرقًا للأخير. لذلك سيتعين على أي نظام عمل استخدام مجموعة متنوعة من هذه الأساليب.

علاوة على ذلك، فإن دمج هذه الأساليب مع LLM ومع بعضها البعض بطريقة تقلل من زمن الوصول والتكلفة يتطلب هندسة دقيقة. على سبيل المثال، قد يتحسن أداء RAG الخاص بنموذجك إذا قمت بضبطه لتسهيل هذه الطريقة.

قد لا يكون من المستغرب أن كل من هذه الأساليب بدورها تقدم تحدياتها الخاصة. على سبيل المثال، خذ الضبط الدقيق. إن الضبط الدقيق لشهادة LLM المدربة مسبقًا على البيانات الخاصة بالمجال الخاص بك سيؤدي إلى تحسين أدائها على تلك البيانات، نعم. لكن الضبط الدقيق يعدل المعلمات (الأوزان) التي تشكل أساس الأداء العام للنموذج المُدرب مسبقًا (الذي يُفترض أنه جيد إلى حد ما). وبالتالي يؤدي هذا التعديل إلى فقدان التعلم (أو "النسيان الكارثي") لبعض المعرفة السابقة للنموذج. يمكن أن يؤدي هذا إلى إعطاء النموذج استجابات غير صحيحة أو غير مناسبة (حتى غير آمنة). إذا كنت تريد أن يستمر وكيلك في الاستجابة بدقة وأمان، فأنت بحاجة إلى طريقة ضبط دقيقة تخفف من النسيان الكارثي.

التحدي 2: نقطة النهاية

يعد تحديد متى ينتهي العميل من التحدث أمرًا بالغ الأهمية لتدفق المحادثة الطبيعي. وبالمثل، يجب أن يتعامل النظام مع الانقطاعات بأمان، مما يضمن أن تظل المحادثة متماسكة ومستجيبة لاحتياجات العميل. يعد تحقيق ذلك بمعيار مماثل للتفاعل البشري مهمة معقدة ولكنه ضروري لخلق تجارب محادثة طبيعية وممتعة.

يتطلب الحل الناجح من المصممين التفكير في أسئلة مثل هذه:

كم من الوقت بعد توقف العميل عن التحدث يجب على الوكيل الانتظار قبل أن يقرر توقف العميل عن التحدث؟
هل يعتمد ما سبق على ما إذا كان العميل قد أكمل جملة كاملة؟
ما الذي يجب فعله إذا قام العميل بمقاطعة الوكيل؟
وعلى وجه الخصوص، هل يجب على الوكيل أن يفترض أن ما يقوله لم يسمعه العميل؟

تتطلب هذه المشكلات، التي تتعلق إلى حد كبير بالتوقيت، هندسة دقيقة تتجاوز تلك التي ينطوي عليها الحصول على ماجستير في القانون لإعطاء الإجابة الصحيحة.

خاتمة

يعد تطور الأنظمة الصوتية المدعومة بالذكاء الاصطناعي بتحول ثوري في ديناميكيات خدمة العملاء، واستبدال أنظمة الهاتف القديمة بتقنيات LLM وASR وTTS المتقدمة. ومع ذلك، فإن التغلب على التحديات في المعلومات المهلوسة وتحديد النقاط النهائية بشكل سلس سيكون أمرًا محوريًا لتقديم تفاعلات صوتية طبيعية وفعالة.

تتمتع أتمتة خدمة العملاء بالقدرة على تغيير قواعد اللعبة الحقيقية للمؤسسات، ولكن فقط إذا تم تنفيذها بشكل صحيح. في عام 2024، وخاصة مع كل هذه التقنيات الجديدة، يمكننا أخيرًا بناء أنظمة يمكن أن تبدو طبيعية ومتدفقة وتفهمنا بقوة. سيؤدي التأثير الصافي إلى تقليل أوقات الانتظار وتحسين تجربتنا الحالية مع الروبوتات الصوتية، مما يمثل حقبة تحويلية في مشاركة العملاء وجودة الخدمة.

مواضيع ذات صلة:قادة الفكر الذكاء الاصطناعي القائم على الصوت

الدكتور ايتمار ارئيل

الدكتور إيتامار أريل، الرئيس التنفيذي حاليًا في تينكسيمزج بين خلفيته الأكاديمية كأستاذ سابق في جامعة تينيسي ومختبر الذكاء الاصطناعي بجامعة ستانفورد مع النجاح في ريادة الأعمال، حيث شارك في تأسيس الشركات الرائدة Binatix وApprente (التي استحوذت عليها ماكدونالدز وIBM) وTenyx. شغل إيتامار مؤخرًا منصب نائب الرئيس للشركة ورئيس مختبرات McD Tech Labs في شركة McDonald's ورئيس قسم الذكاء الاصطناعي للمحادثة في IBM Watson Orders.

دكتور رون كريسلي

يشغل الدكتور رون كريسلي حاليًا منصب كبير المستشارين العلميين في تينكسالتي شارك في تأسيسها عام 2021. حصل على بكالوريوس في الأنظمة الرمزية من جامعة ستانفورد، وحاصل على درجة الدكتوراه من جامعة أكسفورد، وهو أستاذ العلوم المعرفية والذكاء الاصطناعي في جامعة ساسكس. ومن عام 2019 إلى عام 2020، كان باحثًا زائرًا في معهد ستانفورد للذكاء الاصطناعي المتمركز حول الإنسان.

اتحدوا