مقابلات
أليكسي آيلاروف، المؤسس المشارك والرئيس التنفيذي لشركة Voximplant – سلسلة المقابلات

أليكسي آيلاروف هو المؤسس المشارك لشركة Voximplant بعد عقد من الزمن قام خلاله ببناء أدوات اتصال من الصفر. وشملت أعماله المبكرة تطوير نظام IP PBX وتشغيل شركة برمجيات اتصالات خاصة به قبل أن تصبح الهاتفية السحابية شائعة. ثم جاءت Zingaya، التي أضافت مكالمات النقر داخل المتصفح. وتبعتها Voximplant، التي نمت لتصبح منصة خالية من الخادم التي يعتمد عليها المطورون لصوت وصور الفيديو في الوقت الفعلي. يكتب أليكسي عن الجانب العملي من الذكاء الاصطناعي الصوتي، خاصة حيث يتصادم النماذج اللغة الكبيرة مع حقيقة الاتصالات الهاتفية العالمية.
بدأت مسيرتك المهنية كمهندس VoIP في منتصف العقد الأول من القرن الحادي والعشرين، قبل أن يدخل الذكاء الاصطناعي الاتصالات في الوقت الفعلي. ما هي الفجوات الكبيرة التي رأيتها في ذلك الوقت والتي دفعتك في النهاية إلى تأسيس Voximplant؟
لقد شاركت في أنظمة VoIP منذ عام 2005. في ذلك الوقت، كان بناء اتصالات موثوقة بطيئًا ومركبًا. لاحظت أن العديد من المطورين يشاركونني الإحباط – كانت الفرق تحاول توصيل مكونات الاتصالات الهاتفية بدلاً من التركيز على تجربة المنتج التي يريدون تقديمها بالفعل. هذا دفعني إلى الانتقال إلى فكرة الاتصالات القابلة للبرمجة للمطورين. كنا نريد إنشاء منتج يسمح للجميع ببناء المنتجات دون الحاجة إلى أن يكونوا خبراء اتصالات.
قبل Voximplant، شاركت في تأسيس خدمات المكالمات القائمة على بروتوكول SIP مثل Flashphone وZingaya، والتي قدمت منتجات النقر للمكالمة في وقت مبكر. أثبت الطلب مرة أخرى أن الفرق تريد اتصالات قابلة للبرمجة، ولكن الأدوات لم تكن موجودة بعد. كل ذلك أدى إلى إنشاء Voximplant في عام 2013.
اليوم، نرى فجوة مماثلة، ولكن على نطاق أكبر. يدخل الذكاء الاصطناعي الصوتي إلى تدفقات الإنتاج، وتستمر النماذج اللغة الكبيرة في التطور كل شهر، لكن الشبكة الهاتفية العالمية لا تزال متجزئة. لا يمكن لمزود واحد حل كل شيء من النهاية إلى النهاية. لذلك تعمل Voximplant كطبقة تنسيق، وتقدم للمطورين وسيلة سريعة واقتصادية لتجربة الأدوات والأدوات الأكثر تقدمًا وتحميل وكلاء الصوت على المكالمات الفعلية، دون القلق بشأن بنية تحتية اتصالات هاتفية أو تعقيدات البث.
تضع Voximplant نفسها كطبقة تنسيق بدلاً من مزود ذكاء اصطناعي أو هاتفية واحد. لماذا كنت تعتقد أن التنسيق هو الطبقة الصحيحة للبناء من أجل مستقبل الذكاء الاصطناعي الصوتي؟
كان من المهم لنا من البداية أن نكون عالميين، ولا يمكنك تقديم منصة هاتفية عالمية دون القيام ببعض تنسيق الاتصالات. تتغير المتطلبات الفنية والبنية حسب البلد، ونقدم أرقام هاتف في أكثر من 190 دولة، مما يعني أننا نقوم ببعض الوساطة الفنية.
علاوة على ذلك، تطورت معايير الاتصالات الهاتفية مثل بروتوكول SIP إلى العديد من النكهات عبر البائعين. يتطلب الاتصال بين مشغلي الاتصالات والبنية التحتية للاتصالات مع العملاء أنظمة مرنة يمكنها التكيف بسرعة. تساهم شبكات الهاتف الجديدة، مثل WhatsApp، في دفع الاحتياجات هنا – وهذا قبل إضافة منطق التحكم في الاتصالات الذي ينفذ بالفعل منطق التطبيق الفريد للعملاء.
كيف يبدأ وكلاء الذكاء الاصطناعي الصوتي في تغيير اقتصاد الدعم الزبوني والمبيعات والعمليات التجارية الأخرى إلى أخرى مقارنة بالطرازات التقليدية لمراكز الاتصالات؟
قد يكون من المبكر الحديث عن تحول كبير في اقتصاد الدعم الزبوني، لكنه قادم بالتأكيد. اليوم، هناك مناطق حيث تكلفة ممثلي الدعم الزبوني أقل من خدمات الذكاء الاصطناعي القائمة على النماذج اللغة الكبيرة، ومع ذلك يأتي هذا النموذج مع تحديات معروفة حول القابلية للتوسع والاحتراق والتدريب والتشغيل. أعتقد أن الاقتصاد سيتغير بشكل كبير مع استمرار تحسين النماذج اللغة الكبيرة، على الرغم من أنه سيتطلب بعض الوقت.
ما الإشارات التي تخبرك بأن الذكاء الاصطناعي الصوتي يتحرك من التجربة إلى البنية التحتية الحيوية للمؤسسات؟
الإشارة الأقوى هنا هي الاستثمار في بنية تحتية الذكاء الاصطناعي الصوتي، وهو يتزايد بسرعة. هناك طرق لتتبع دقائق أو مكالمات الذكاء الاصطناعي الصوتي على نطاق عالمي، إذا لم يكن بالضبط، من خلال التقديرات. بينما أستطيع تتبع هذا مباشرة فقط لشركة Voximplant، نرى نموًا قويًا بوضوح.
كيف تتغير توقعات المطورين حول المرونة والتحكم مع تطور نماذج الذكاء الاصطناعي وتقنيات الصوت بشكل أسرع؟
هذا سؤال interessant. عندما يتعلق الأمر بسرعة التغيير، فإن الذكاء الاصطناعي لا مثيل له في التاريخ. المرونة والتحكم أقل وضوحًا، اعتمادًا على ما نقصد بهذه الكلمات. عندما يتعلق الأمر بالتحكم، هناك تحديات معروفة، وتحقيقها ليس سهلًا. تقضي شركات الذكاء الاصطناعي الكثير من الجهد على حماية النماذج، لكن القيام بذلك جيدًا يتطلب خبرة عميقة، وشركات مختلفة لديها بالتأكيد أهداف مختلفة.
ما هي الأخطاء التي يرتكبها الشركات بشكل شائع عند محاولة نشر وكلاء الذكاء الاصطناعي الصوتي مباشرة على أنظمة الاتصالات التقليدية؟
النظم التقليدية للاتصالات لا تتوافق مباشرة مع خدمات الذكاء الاصطناعي الصوتي، لذلك عادة ما تتطلب تكاملًا إضافيًا، عادةً عبر بروتوكول SIP أو WebSockets. تشمل الأخطاء الشائعة إدارة الفشل غير الكافية، ومشاكل التأخير (التي يمكن أن تسببها عوامل مختلفة)، وتحديات التوسع.
ما هي القدرات التي يجب أن تدعمها منصات الذكاء الاصطناعي الصوتي لتبقى ذات صلة مع زيادة استقلالية الذكاء الاصطناعي في الوقت الفعلي؟
أعتقد أن منصات الذكاء الاصطناعي الصوتي يجب أن تركز على معايير الخدمة، لأنها يمكن أن تكون مشكلة في بعض الأحيان، وعلى أدوات إضافية للاختبار والرصد.
في النهاية، ستقدم المنصات الأكثر تقدمًا كل ما هو مطلوب، ولكن اليوم، ما زلنا نتعلم دروسًا جديدة كل يوم، العديد منها يجب أن يصبح جزءًا من الحزمة الأساسية. إذا كنت تعمل مع مؤسسات كبيرة أو في بيئات منظمة، فإن وجود نسخة محلية من منتجك يمكن أن يكون حاسمًا.
عندما تنظر إلى رحلتك من البنية التحتية المبكرة لشركة VoIP إلى قيادة منصة الذكاء الاصطناعي الصوتي اليوم، ما هو ما أ驚ك أكثر عن كيفية تطور الصناعة؟
لقد أ驚ني العديد من الأشياء، ولكن واحدة منها هي أن التغييرات في بنية VoIP تأخذ سنوات للحدوث. مثال جيد على ذلك هو أن الاتصالات الهاتفية لا تزال تعتمد على ترميزات الصوت الضيقة (G.711، G.729)، بينما يعتاد الناس بالفعل على صوت الوideband في خدمات الاتصال عبر الإنترنت مثل Zoom وGoogle Meet وWhatsApp وغيرها.
جميع نماذج الذكاء الاصطناعي مدربة على بيانات صوت الوideband أيضًا. جميع الهواتف المحمولة الحديثة لها ترميزات صوت الوideband مدمجة، لكن هناك masih تحديات كبيرة في مستوى مشغل الخدمة التي تمنع استخدام صوت الوideband في المكالمات الهاتفية التقليدية. ليس هناك تقدم على الإطلاق، ولكن في رأيي، كان التقدم متواضعًا.












