مقابلات
إيزاياه إن. غرانيت، المؤسس المشارك والرئيس التنفيذي لشركة Bland – سلسلة المقابلات

إيزاياه إن. غرانيت، المؤسس المشارك والرئيس التنفيذي لشركة Bland، هو مؤسس شركة ناشئة ومهندس ذو خلفية تجمع بين التنفيذ الفني والتجربة المبكرة في ريادة الأعمال والعمل التأثيري الاجتماعي على المدى الطويل. قبل إطلاق مشروعه الحالي، شارك في برنامج Z Fellows وY Combinator، واكتسب خبرة هندسية في Lantern، وأسس San Diego Chill، وهي منظمة غير ربحية جمعت أكثر من 2.5 مليون دولار لمساعدة الأطفال ذوي الإعاقات التنموية على الوصول إلى الرياضة، وحصلت على اعتراف وطني واستمرت حتى اليوم مع مشاركته في مجلس الإدارة.
Bland تركز على بناء البنية التحتية لمكالمات الهاتف التي تعمل بالذكاء الاصطناعي، مما يسمح للشركات بنشر وكلاء صوت يمكنهم التعامل مع دعم العملاء والمبيعات والعمليات التشغيلية على نطاق واسع. تم تصميم المنصة لتحل محل أو تعزز مراكز الاتصال التقليدية من خلال تقديم تفاعلات صوتية قابلة للبرمجة والاستجابة في الوقت الفعلي والدمج العميق مع أنظمة الأعمال، مما يجعلها طبقة أساسية في كيفية تautomatisation الشركات للاتصال مع العملاء.
لقد أسست San Diego Chill في سن المراهقة لتقديم وصول شامل إلى الرياضة للأطفال ذوي الإعاقات التنموية، قبل دخولك إلى Y Combinator أو إطلاق Bland. كيف أثرت تلك التجربة المبكرة في بناء منظمة حقيقية على نهجك في تأسيس شركة تعتمد على الذكاء الاصطناعي تعمل على صوت أولاً وتقع بين الشركات و عملائها؟
الكثير من حياتي وعملي ركز على البناء. منذ سن مبكرة، كان لدي رغبة مستمرة في إعطاء الحياة للأفكار. بمجرد أن تظهر فكرة أو اعتقاد عن العالم في رأسي، يصبح من المستحيل بالنسبة لي تجاهله. بناء San Diego Chill لم يعلمني فقط كيفية إنشاء و تشغيل منظمة، بل أيضًا عن التأثير الذي يمكن أن يكون لنا على الآخرين. أن نتمكن من العودة بالفضل عن طريق إنشاء منظمة لن تكون موجودة خلاف ذلك، هو شيء ممتع للغاية. الدروس والقيم التي تعلمتها من Chill تتبعني كل يوم.
بعد прохلك برنامج YC في 2023، ما الذي أقنعك بأن بنية الاتصالات الصوتية للشركات ما زالت معطلة بشكل أساسي لدرجة تبرر بناء نظام من النهاية إلى النهاية بدلاً من وضع نماذج LLM على رأس أدوات IVR التقليدية؟
فكر في المرة الأخيرة التي استخدمت فيها روبوت دردشة بنكي. ربما انتظرط أكثر مما ينبغي، وحصلت على إجابة لم تكن تتناول ما سألته بالفعل، واختتمت بالاتصال هاتفياً. ثم قادك صوت آلي خلال قائمة من الخيارات التي لم تكن ترغب فيها، وضغط على 0 لم يفعل شيئًا مفيدًا.
البنوك أنفقت مليارات على جعل تلك التجربة ممكنة، ولا تزال الروبوتات الدردشة تحتل المرتبة الأخيرة في رضا العملاء بنسبة 29٪. أقل من البريد الإلكتروني. أقل من مراكز الاتصال، التي يشتكي mọiها الناس بالفعل.
ذلك كان الوضع لمدة عقدين. الشركات تحاول منع العملاء من الوصول إلى موظفيها. العملاء يحاولون الوصول إلى شخص. لا طرف يفوز.
الproblem ليس أن الشركات لا تريد إصلاحه. إنها ببساطة لا تستطيع توفير طاقم كافٍ لتقديم تجربة جيدة على نطاق واسع. مركز اتصال يتعامل مع مليون مكالمة في الشهر هو عملية باهظة التكلفة وصعبة، و جودة الخدمة غير متسقة تقريباً بالتعريف.
ما تغير هو أن الذكاء الاصطناعي أصبح يسمح أخيراً بحل المكالمات بدلاً من مجرد توجيهها أو صرف الانتباه عنها. لا شجرة هاتفية. لا موسيقى انتظار. وكلاء يفهمون ما يسألونه العملاء ويعالجونه.
لكن ذلك يعمل فقط إذا تم بناء النظام من الصفر ليكون مناسبًا للصوت في الوقت الفعلي. عندما تضع نماذج LLM على رأس أدوات IVR التقليدية أو تجمّع خدمات طرف ثالث، تنتقل التأخير وتنخفض الموثوقية. المحادثات تتدهور.
ذلك هو السبب الذي دفعنا إلى بناء البنية التحتية من النهاية إلى النهاية. الصوت يعمل فقط إذا كان يبدو فوريًا وطبيعيًا. إذا لم يكن كذلك، يقطع العميل الخط.
لقد اتخذت Bland خطوة غير عادية من خلال بناء وHosting نظامها الخاص لتحويل النص إلى كلام، والاستدلال، والترجمة النصية داخليًا. ما هي التضحيات التي رأيتها في الاعتماد على واجهات برمجة التطبيقات للطرف الثالث التي دفعتك في النهاية إلى امتلاك طبقة البنية التحتية للصوت بالكامل؟
كل طبقة تُخاطبها تُضيف تأخيرًا وتُضيف مخاطر.
معظم منصات الذكاء الاصطناعي الصوتية هي بائعي طرف ثالث. يأخذون ترجمة نصية من طرف ثالث، ويضيفون نموذجًا من طرف ثالث، ويعيدون توجيهه من خلال تحويل نص إلى كلام من طرف ثالث، ويسلمون لك النتيجة. ذلك يمكن أن يعمل في عرض توضيحي خاضع للرقابة. نادرًا ما يثبت أنه يعمل عندما يرتفع حجم المكالمات أو يحدث شيء ما في السلسلة.
هناك أيضًا مشكلة بيانات. مقدمو نماذج الأساس، مثل OpenAI، استخدموا بيانات العملاء لتدريب النماذج. يقولون إن تراخيص الشركات المختلفة تختلف. ربما تكون كذلك. لكن تلك الشكوك كافية لجعل الكثير من فرق الأمان والامتثال يشعرون بالانزعاج.
عندما تُضيف البنية التحتية الكاملة — الترجمة النصية، والاستدلال، وتحويل النص إلى كلام، وتنسيق العمل — تتحكم في كل مللي ثانية وتحديث نموذج. تبقى بيانات العملاء داخل نظام العملاء. لا تلمس трубة تدريب طرف ثالث، ولا تعبر من خلال بنية لا يمكن فحصها، ولا تتحرك إلا إذا قرر العملاء ذلك.
يمكنك تقديم بنية تحتية مخصصة لكل عميل من الشركات، بحيث لا تؤثر زيادة الطلب من شركة أخرى على أدائهم. وعندما يحدث خطأ، يمكنك إصلاحه بدلاً من انتظار بائع البائع.
对于 الصناعات الخاضعة للرقابة، يحتاج بعض العملاء إلى البنية التحتية الكاملة في مركز بياناتهم الخاص أو على الموقع. ذلك ممكن فقط إذا كان البائع يمتلك ما يُطرح.
لماذا قررت التركيز على تفاعلات العملاء المعقدة ذات الذيل الطويل بدلاً من تحسين التفاعلات التلقائية على أساس الحجم؟
التركيز التقليدي لتأتمتة مركز الاتصال كان يركز بشكل كبير على صرف المكالمات الدعم البسيطة. لماذا أعطيت الأولوية للتفاعلات المعقدة بدلاً من البدء bằng حالات الاستخدام عالية الحجم؟
اتخذنا النهج المعاكس. إذا كنا نستطيع التعامل مع المكالمات الأكثر تعقيدًا وحساسية بشكل موثوق، فإن كل شيء آخر يصبح بسيطًا. الهدف ليس بناء عروض توضيحية، بل تقديم حلول مکالمات کاملة في الوقت الفعلي. ذلك يتطلب أنظمة منخفضة التأخير وعالية الموثوقية يمكنها التعامل مع الحالات النادرة التي تحدد بالفعل محادثات العملاء الحقيقية.
كيف يتغير هيكل سير العمل الداخلي للشركات مع تطور التأتمتة الصوتية الأصلية مقارنة بالمساعدات القائمة على الدردشة؟
النظم التقليدية غالبًا ما لا تتحدث إلى بعضها البعض. أنظمة إدارة علاقات العملاء، وأدوات جدولة، ومنصات فواتير معزولة. بدون الوصول إلى تلك الأنظمة، لا يمكن لوكيل الصوت إلا الإجابة على أسئلة عامة ولا شيء أكثر.
لا يمكنه البحث في حساب، أو تحديث سجل، أو حجز موعد. يجمع المعلومات ويسلمها. في نفس الوقت، يقضي ممثلو البشر وقتًا في عمل لا ينبغي أن يلمسه شخص، مثل تسجيل ملاحظات المكالمة، وتنظيم الموعد يدويًا، وسحب التقارير لمعرفة من يحتاج إلى اتباع.
الدمج العميق هو ما يجعل من الحل الكامل ممكنًا. بدون ذلك، لقد أتمتت التحية، وليس المكالمة.
هل تتوقع أن تتطور وكلاء الصوت في الشركات إلى ممثلين رقميين يعملون بشكل مستمر عبر قنوات المبيعات والدعم الفني والتسويق؟
بالتأكيد. نرى عالمًا حيث يكون لكل عميل علاقة شخصية مع أعماله المفضلة والأساسية. ما يهم هو أن الذكاء الاصطناعي ليس مجرد “مرح” بل قادرًا على حل مشاكلك الأكثر تعقيدًا حقًا.
ما كانت التحديات الفنية الأكثر صعوبة التي واجهتها عند بناء وكلاء يحتاجون إلى الاستجابة في أقل من ثانية مع الحفاظ على دقة المحادثة؟
التأخير. ذلك هو المكان الذي تموت فيه معظم العروض التوضيحية.
إذا استغرق روبوت الدردشة ثلاث ثوان للاستجابة، ينتظر المستخدم. إذا توقف وكيل الصوت بشكل غريب بعد انتهاءك من التحدث، فإن المحادثة已经 انحرفت. يجب أن تأتي الاستجابات في أقل من 400 مللي ثانية. لا تتمكن معظم المنصات من الوصول إلى ذلك لأنها تجمّع خدمات طرف ثالث متعددة، كل منها يضيف تأخيره الخاص.
لكن التأخير هو جزء فقط. المكالمات الحقيقية مع العملاء فوضوية بطرق لا تظهر في العروض التوضيحية. الناس يقاطعون في منتصف الجملة. يتدخل الضوضاء الخلفية. المتصلون يغيرون اللغات. الطلبات غامضة. وكيل الذكاء الاصطناعي الذي يثبت في الإنتاج يتعامل مع المقاطعات دون فقدان السياق، ويتكيف عندما تخرج المحادثات عن السيناريو، ويفعل ذلك دون أن يبدو أنه يُخزن.
العملاء لا يقارنون وكلاء الذكاء الاصطناعي بالروبوتات الأخرى. إنهم يقارنونها بالتحدث إلى شخص.
كيف ينبغي للشركات النظر إلى الشفافية عند نشر وكلاء محادثة قد يكونون غير مميزين عن الموظفين البشر؟
نحن نؤمن بصدق وشفافية المستخدم النهائي. في حين أن بعض التنظيمات قد تكون معيقة ومثبطة، فإن أي شكل من أشكال الخداع لا ي chấp nhận. نعمل مع الشركات لتقديم تجارب سلسة تقوم على أساس الثقة مع العملاء.
عندما يبدأ وكلاء الذكاء الاصطناعي في التعامل مع ملايين التفاعلات مع العملاء في نفس الوقت، ما هي التحديات التشغيلية التي تظهر أولاً عندما تنتقل الشركات من عمليات الاختبار إلى عمليات الإنتاج على نطاق واسع؟
بعض الأشياء تهم في الممارسة. الأول هو هيكل الدعوة الموديولار. الدعوات الشاملة几乎 من المستحيل تحديدها. عندما تذهب المكالمة بشكل خاطئ، تحتاج إلى عزل مكان وسبب الخطأ بدقة، وليس النظر إلى جدار من الإرشادات حاول تحديد السطر الذي تسبب في المشكلة.
الرؤية الكاملة تهم بنفس القدر. ملخصات المكالمات بعد انتهائها ليست كافية. تحتاج إلى رؤية حقيقية في الوقت الفعلي لما يفعله الوكيل في كل نقطة من كل تفاعل.
الحوافز أيضا ضرورية، خاصة في الصناعات الخاضعة للرقابة. الوكيل يجب أن يبقى داخل السياسة. ذلك ليس اختياريًا. وإذا لم يكن كذلك، فيجب أن يكون هناك تراجع مهذب.
أخيرًا، هناك إدارة المعرفة. الوكيل يحتاج إلى الوصول إلى بيانات خاصة مثل المنتجات والسياسات والإجراءات. يجب أن تظهر المنصة أيضًا فجوات المعرفة تلقائيًا كما تظهر في المكالمات الحقيقية، وليس بعد أسابيع من شكوى العميل.
متى نتطلع إلى المستقبل، هل تظن أن وكلاء الصوت في الشركات سيعملون كأدوات محددة للمهام، أو سيتطورون إلى وكلاء ذكاء اصطناعي عامين يمكنهم إدارة العمليات التجارية بالكامل التي تتم عن طريق المحادثة؟
لو كنت أعرف الإجابة! أعتقد أن وكلاء الصوت سيتطورون عبر كل مكدس الأعمال، لكن من غير المحتمل أن نرى عملًا كاملاً يدار بواسطة وكيل صوت. ذلك قال، أعتقد أن البشر سيكونون قادرين على الحصول على خدمة فورية ودقيقة وشاملة أكثر من وكلاء الذكاء الاصطناعي أكثر مما يحصلون عليه اليوم. في الواقع، نعتقد أن هناك المزيد من المكالمات الهاتفية التي ستحدث عند حدوث ذلك. ليس أقل.
شكرًا على المقابلة الرائعة، القراء الذين يرغبون في معرفة المزيد يجب أن يزوروا Bland.












