مقابلات
ديلان فوكس، الرئيس التنفيذي ومؤسس AssemblyAI – سلسلة المقابلات

ديلان فوكس هو الرئيس التنفيذي ومؤسس AssemblyAI، منصة تُحول تلقائيًا الملفات الصوتية والفيديوية والبث الصوتي المباشر إلى نص باستخدام واجهات برمجة تطبيقات Speech-to-Text التابعة لشركة AssemblyAI.
ما الذي جذبك في البداية إلى تعلم الآلة؟
بدأت بتعلم البرمجة وحضرت اجتماعات Python في واشنطن العاصمة، حيث درست هناك. من خلال دورات الكلية، وجدت نفسي أتجه أكثر إلى نوع من مشاكل البرمجة الخوارزمية، والتي أدت بي تلقائيًا إلى تعلم الآلة والتعرف على النصوص الطبيعية.
قبل تأسيس AssemblyAI، كنت مهندس برمجيات كبير في شركة Cisco، ماذا كنت تعمل عليه؟
في شركة Cisco، كنت مهندس برمجيات كبير معني بتعلم الآلة لمنتجات الشركة التعاونية.
كيف ألهمتك عملك في Cisco ومشكلة الحصول على تكنولوجيا التعرف على الكلام لتشجيعك على إطلاق AssemblyAI؟
في بعض وظائفي السابقة، كان لدي فرصة للعمل على العديد من مشاريع الذكاء الاصطناعي، بما في ذلك مشاريع متعددة تتطلب التعرف على الكلام. ولكن جميع الشركات التي تقدم التعرف على الكلام كخدمة كانت قديمة جدًا، وصعبة الشراء منها، وتعمل على تكنولوجيا الذكاء الاصطناعي القديمة.
随着 زيادة اهتمامي بأبحاث الذكاء الاصطناعي، لاحظت أن هناك الكثير من العمل يتم إجراؤه في مجال التعرف على الكلام وكيف تحسنت الأبحاث بسرعة. لذلك كان هناك مجموعة من العوامل التي شجعتني على التفكير، “ماذا لو قمت ببناء شركة مثل Twilio باستخدام أحدث أبحاث الذكاء الاصطناعي التي كانت سهلة الوصول إليها للمطورين مع تجربة مطور أفضل؟”
من هناك، نمت فكرة AssemblyAI.
ما هو أكبر تحد في بناء تكنولوجيا التعرف على الكلام الدقيقة والموثوقة؟
التكلفة والموهبة هما أكبر التحديات لأي شركة لتackle بناء تكنولوجيا التعرف على الكلام الدقيقة والموثوقة.
البيانات مكلفة الحصول عليها، وغالبًا ما تحتاج إلى مئات الآلاف من الساعات لبناء نظام تعرف على الكلام قوي. ليس ذلك فقط، بل تتطلب متطلبات الحوسبة巨ة لتدريبها. كما أن تشغيل هذه النماذج في الإنتاج مكلف، ويتطلب مواهب متخصصة لتحسينها وجعلها مالية.
بناء هذه التكنولوجيا يتطلب أيضًا مهارات متخصصة من الصعب العثور عليها. هذا هو أحد الأسباب الكبيرة التي تجعل العملاء يأتون إلينا لتحصل على نماذج الذكاء الاصطناعي القوية التي نبحث عنها وندربها وننشرها داخل الشركة. يحصلون على وصول إلى سنوات من الأبحاث في نماذج الذكاء الاصطناعي المتقدمة للتعرف على الكلام والتعرف على النصوص الطبيعية، كل ذلك مع واجهة برمجة تطبيقات بسيطة.
خارج مجرد نسخ المحتوى الصوتي والفيديوي، تقدم AssemblyAI نماذج إضافية، هل يمكنك مناقشة ما هي هذه النماذج؟
مجموعة نماذج الذكاء الاصطناعي الخاصة بنا تمتد إلى ما هو أبعد من مجرد النسخ الفوري والنسخ غير المتزامن. نسمي هذه النماذج الإضافية بنماذج الذكاء الصوتي لأنها تساعد العملاء على تحليل وفهم أفضل للبيانات الصوتية.
نموذجنا للتلخيص يقدم تلخيصًا عامًا، بالإضافة إلى تلخيصات محددة زمنيًا التي تقسم وتلخص تلقائيًا كل “فصل” في محادثة تتغير مواضيعها (مثل فصول يوتيوب).
نموذجنا لتحليل المشاعر يكتشف مشاعر كل جملة من الكلام المُتحدث في الملفات الصوتية. يمكن وضع علامة على كل جملة في النص المنسوخ بالإيجابية أو السلبية أو المحايد.
نموذجنا لتحديد الكيانات يحدد مجموعة واسعة من الكيانات المذكورة في الملفات الصوتية، مثل أسماء الأشخاص أو الشركات أو العناوين الإلكترونية أو التواريخ أو الأماكن.
نموذجنا لتحديد الموضوع يضع علامات على المواضيع المذكورة في الصوت والفيديو. تتبع العلامات المتوقعة لمواضيع التصنيف المعياري لشركة IAB، مما يجعلها مناسبة لاستهداف سياقي.
نموذجنا لمراقبة المحتوى يكتشف المحتوى الحساس في الملفات الصوتية والفيديوية – مثل خطاب الكراهية أو العنف أو القضايا الاجتماعية الحساسة أو الكحول أو المخدرات وغيرها.
ما هي أكبر الحالات التي تستخدمها الشركات لشركة AssemblyAI؟
تتوزع أكبر الحالات التي تستخدمها الشركات لشركة AssemblyAI على أربعة فئات: الهاتف، الفيديو، الاجتماعات الافتراضية، والوسائط.
CallRail هو مثال رائع على عميل في مجال الهاتف، الذي يستخدم نماذج الذكاء الاصطناعي الخاصة بنا – النسخ الأساسي، والتسليط الضوئي التلقائي للنص، وحذف المعلومات الشخصية – لتسليم حلًا ذكاءً محادثاتيًا قويًا للعملاء.
باختصار، يمكن لـ CallRail الآن أن يطفو على السطح ويحدد تلقائيًا المحتوى المهم في مكالمات الهاتف الخاصة بهم بمقياس كبير – مثل الطلبات المحددة للعملاء، والأسئلة الشائعة، والكلمات والعبارات الشائعة.
نموذجنا لحذف المعلومات الشخصية يساعدهم على الكشف تلقائيًا وإزالة البيانات الحساسة الموجودة في نص النص المنسوخ (مثل أرقام التأمين الاجتماعي، وأرقام بطاقات الائتمان، وعناوين المنازل، وغيرها).
تتراوح حالات استخدام الفيديو من منصات بث الفيديو إلى محرري الفيديو مثل Veed، الذين يستخدمون نماذج النسخ الأساسية الخاصة بنا لتسهيل عملية تحرير الفيديو للمستخدمين. يسمح Veed لمستخدميه بنسخ مقاطع الفيديو الخاصة بهم وتحريرها مباشرة باستخدام العناوين.
في الاجتماعات الافتراضية، تستخدم شركات برمجيات نسخ الاجتماعات مثل Fathom AssemblyAI لبناء ميزات ذكية تساعد مستخدميها على نسخ وتسليط الضوء على اللحظات المهمة من مكالمات Zoom، مما يؤدي إلى تحسين المشاركة في الاجتماعات وإزالة المهام المملة أثناء الاجتماعات وبعدها (مثل كتابة الملاحظات).
في الوسائط، نرى منصات استضافة بودكاست تستخدم نماذج مراقبة المحتوى الخاصة بنا ونموذج تحديد الموضوع لتقديم أدوات إعلانية أفضل لحالات أمان العلامة التجارية وتنويع المحتوى الذي يتم إنشاؤه بواسطة المستخدم مع الإعلانات الديناميكية.
أعلنت AssemblyAI مؤخرًا raising $30M Series B round. كيف سوف يسرع هذا مهمة AssemblyAI؟
النجاح الذي يتم إحرازه في مجال الذكاء الاصطناعي مثير جدًا. هدفنا هو كشف هذا التقدم عن كل مطور وفريق منتج على الإنترنت – من خلال مجموعة بسيطة من واجهات برمجة التطبيقات. مع استمرارنا في البحث وتدريب نماذج الذكاء الاصطناعي المتقدمة لمهام التعرف على الكلام والتعرف على النصوص الطبيعية (مثل التعرف على الكلام، والتلخيص، وتصنيف اللغة، وغيرها من المهام)، سنستمر في كشف هذه النماذج عن المطورين وأفرق المنتج من خلال واجهات برمجة تطبيقات بسيطة – متاحة مجانًا.
AssemblyAI هي مكان حيث يمكن للمطورين وأفرق المنتج الحصول على وصول سهل إلى النماذج المتقدمة من الذكاء الاصطناعي التي يحتاجونها لإنشاء منتجات وخدمات وشركات جديدة ومثيرة.
على مدار الأشهر الستة الماضية، قمنا بإطلاق دعم التعرف على الكلام ل 15 لغة جديدة – بما في ذلك الإسبانية والألمانية والفرنسية والإيطالية والهندية واليابانية، وأصدرنا تحسينات كبيرة لنموذج التلخيص، ونموذج التعرف على الكلام في الوقت الفعلي، ونموذج مراقبة المحتوى، و تحديثات المنتج العديدة.
لم نستخدم بعد الأموال التي حصلنا عليها من جولة التمويل السابقة، ولكن هذا التمويل الجديد سيعطينا القدرة على تسريع جهودنا بلا هوادة – دون المساس بمسارنا.
مع هذا التمويل الجديد، سنتمكن من تسريع خارطة طريق منتجاتنا، وإنشاء بنية تحتية أفضل للذكاء الاصطناعي لتسريع محركات البحث وأداء النماذج، وزيادة حجم فريق أبحاث الذكاء الاصطناعي – والذي يتضمن اليوم باحثين من DeepMind، وGoogle Brain، وMeta AI، وBMW، وCisco.
هل هناك أي شيء آخر تود مشاركته حول AssemblyAI؟
مهمتنا هي جعل نماذج الذكاء الاصطناعي المتقدمة متاحة للمطورين وأفرق المنتج بمقياس كبير جدًا من خلال واجهة برمجة تطبيقات بسيطة.
شكرًا على المقابلة الرائعة، القراء الذين يرغبون في معرفة المزيد يجب أن يزوروا AssemblyAI.












