مقابلات

ديلان فوكس ، الرئيس التنفيذي ومؤسس AssemblyAI - سلسلة مقابلات

تم النشر

منذ سنوات 2

14 سبتمبر 2022

ديلان فوكس هو الرئيس التنفيذي ومؤسس التجميع، نظام أساسي يقوم تلقائيًا بتحويل ملفات الصوت والفيديو وتدفق الصوت المباشر إلى نص باستخدام واجهات برمجة تطبيقات تحويل الكلام إلى نص من AssemblyAI.

ما الذي جذبك في البداية إلى التعلم الآلي؟

بدأت بتعلم كيفية البرمجة وحضرت Python Meetups في واشنطن العاصمة ، حيث ذهبت إلى الكلية. من خلال دورات الكلية ، وجدت نفسي أميل أكثر إلى مشكلات البرمجة من نوع الخوارزمية ، والتي قادتني بشكل طبيعي إلى التعلم الآلي ومعالجة اللغات الطبيعية.

قبل تأسيس AssemblyAI ، كنت مهندس برمجيات أول في Cisco ، ما الذي كنت تعمل عليه؟

في Cisco ، كنت مهندس برمجيات أول أركز على التعلم الآلي لمنتجاتهم التعاونية.

كيف ألهمك عملك في Cisco والمشكلة في الحصول على تقنية التعرف على الكلام لإطلاق AssemblyAI؟

في بعض الوظائف السابقة ، أتيحت لي الفرصة للعمل في الكثير من مشاريع الذكاء الاصطناعي ، بما في ذلك العديد من المشاريع التي تتطلب التعرف على الكلام. لكن جميع الشركات التي تقدم التعرف على الكلام كخدمة كانت قديمة بجنون ، ويصعب شراء أي شيء منها ، وكانت تعمل بتقنية الذكاء الاصطناعي التي عفا عليها الزمن.

عندما أصبحت مهتمًا أكثر فأكثر بأبحاث الذكاء الاصطناعي ، لاحظت أن هناك الكثير من العمل الذي يتم إنجازه في مجال التعرف على الكلام ومدى سرعة تحسن البحث. لذلك كان مزيجًا من العوامل التي ألهمتني للتفكير ، "ماذا لو كان بإمكانك بناء شركة API على غرار Twilio باستخدام أحدث أبحاث الذكاء الاصطناعي التي كانت أسهل بكثير للمطورين للوصول إلى أحدث نماذج الذكاء الاصطناعي للتحدث الاعتراف ، مع تجربة مطور أفضل بكثير ".

ومن هناك انطلقت فكرة التجميع نمت.

ما هو التحدي الأكبر وراء بناء تقنية التعرف على الكلام الدقيقة والموثوقة؟

التكلفة والموهبة هي أكبر التحديات التي يجب على أي شركة مواجهتها عند إنشاء تقنية التعرف على الكلام الدقيقة والموثوقة.

يعد الحصول على البيانات مكلفًا ، وتحتاج عادةً إلى مئات الآلاف من الساعات لإنشاء نظام قوي للتعرف على الكلام. ليس ذلك فحسب ، فمتطلبات الحساب هائلة للتدريب. وخدمة هذه النماذج في الإنتاج مكلف أيضًا ، ويتطلب مواهب متخصصة لتحسينها وجعلها اقتصادية.

يتطلب بناء هذه التقنيات أيضًا مجموعة مهارات متخصصة يصعب العثور عليها. هذا سبب كبير يأتى العملاء إلينا للحصول على نماذج ذكاء اصطناعي قوية نقوم بالبحث عنها وتدريبها ونشرها داخل الشركة. يمكنهم الوصول إلى سنوات من البحث في أحدث نماذج الذكاء الاصطناعي لـ ASR و NLP ، وكل ذلك باستخدام واجهة برمجة تطبيقات بسيطة.

خارج النسخ المحض لمحتوى الصوت والفيديو ، تقدم AI نماذج إضافية ، هل يمكنك مناقشة ماهية هذه النماذج؟

تمتد مجموعتنا من نماذج الذكاء الاصطناعي إلى ما هو أبعد من النسخ الفوري وغير المتزامن. نشير إلى هذه النماذج الإضافية باسم نماذج الذكاء الصوتي لأنها تساعد العملاء على تحليل البيانات الصوتية وفهمها بشكل أفضل.

يوفر نموذج التلخيص الخاص بنا ملخصًا شاملاً ، بالإضافة إلى الملخصات المرمزة زمنيًا والتي تقسم وتنتج تلقائيًا ملخصًا لكل "فصل" حيث تتغير الموضوعات في محادثة (على غرار فصول YouTube).

يكتشف نموذج تحليل المشاعر الخاص بنا المشاعر لكل جملة من الكلام المنطوق في الملفات الصوتية. يمكن تمييز كل جملة في النص على أنها موجبة أو سلبية أو محايدة.

يحدد نموذج كشف الكيانات الخاص بنا مجموعة كبيرة من الكيانات التي يتم التحدث بها في ملفات صوتية ، مثل أسماء الأشخاص أو الشركات وعناوين البريد الإلكتروني والتواريخ والمواقع.

يقوم نموذج "اكتشاف الموضوع" الخاص بنا بتسمية الموضوعات التي يتم التحدث بها في ملفات الصوت والفيديو. تتبع تسميات الموضوعات المتوقعة تصنيف IAB القياسي ، مما يجعلها مناسبة لاستهداف المحتوى.

يكتشف نموذج إدارة المحتوى الخاص بنا المحتوى الحساس في ملفات الصوت والفيديو - مثل الكلام الذي يحض على الكراهية والعنف والقضايا الاجتماعية الحساسة والكحول والمخدرات وغير ذلك.

ما هي بعض أكبر حالات الاستخدام للشركات التي تستخدم AssemblyAI؟

تمتد حالات الاستخدام الأكبر التي تمتلكها الشركات لـ AssemblyAI عبر أربع فئات: المهاتفة والفيديو والاجتماعات الافتراضية والوسائط.

CallRail مثال رائع للعميل في مهاتفة space ، الذي يستفيد من نماذج AI الخاصة بـ AssemblyAI - النسخ الأساسي ، وإبراز النسخ التلقائية ، و PII Redaction - لتقديم حل ذكي للمحادثة لعملائها.

بشكل أساسي ، يمكن الآن لـ CallRail الظهور تلقائيًا وتحديد المحتوى الرئيسي في مكالماتهم الهاتفية لعملائهم على نطاق واسع - المحتوى الرئيسي مثل طلبات العملاء المحددة والأسئلة الشائعة والكلمات الرئيسية والعبارات المستخدمة بشكل متكرر. يساعد نموذج PII Redaction الخاص بنا على اكتشاف وإزالة البيانات الحساسة الموجودة في النص (مثل أرقام الضمان الاجتماعي وأرقام بطاقات الائتمان والعناوين الشخصية والمزيد).

فيديو تتراوح حالات الاستخدام من منصات دفق الفيديو إلى محرري الفيديو مثل Veed ، الذين يستخدمون نماذج AssemblyAI's Core Transcription لتبسيط عملية تحرير الفيديو للمستخدمين. يسمح Veed لمستخدميه بنسخ مقاطع الفيديو الخاصة به وتحريرها مباشرة باستخدام التسميات التوضيحية.

In اجتماعات افتراضية، تستخدم شركات برامج النسخ للاجتماعات مثل Fathom AssemblyAI لبناء ميزات ذكية تساعد مستخدميها على نسخ وإبراز اللحظات الرئيسية من مكالمات Zoom الخاصة بهم ، وتعزيز مشاركة أفضل للاجتماعات والقضاء على المهام الشاقة أثناء الاجتماعات وبعدها (مثل تدوين الملاحظات).

In الوسائط، نرى منصات استضافة البودكاست على سبيل المثال ، استخدم نماذج الإشراف على المحتوى واكتشاف الموضوعات الخاصة بنا حتى يتمكنوا من تقديم أدوات إعلانية أفضل لحالات استخدام سلامة العلامة التجارية واستثمار المحتوى الذي ينشئه المستخدمون من خلال الإعلانات الديناميكية.

AssemblyAI مؤخرًا جمعت جولة بقيمة 30 مليون دولار من السلسلة ب. كيف سيؤدي ذلك إلى تسريع مهمة AssemblyAI؟

التقدم المحرز في مجال الذكاء الاصطناعي مثير للغاية. هدفنا هو كشف هذا التقدم لكل مطور وفريق منتج على الإنترنت - عبر مجموعة بسيطة من واجهات برمجة التطبيقات. بينما نواصل البحث عن أحدث نماذج الذكاء الاصطناعي وتدريبها لمهام ASR و NLP (مثل التعرف على الكلام والتلخيص وتحديد اللغة والعديد من المهام الأخرى) ، سنواصل عرض نماذج الذكاء الاصطناعي هذه للمطورين وفرق المنتج عبر واجهات برمجة تطبيقات بسيطة - متاحة مجانًا.

AssemblyAI هو مكان يمكن للمطورين وفرق المنتجات الوصول إليه بسهولة للوصول إلى نماذج الذكاء الاصطناعي المتقدمة التي يحتاجون إليها من أجل بناء منتجات وخدمات وشركات جديدة ومثيرة.

على مدار الأشهر الستة الماضية ، أطلقنا دعم ASR لـ 15 لغات جديدة—بما في ذلك الإسبانية والألمانية والفرنسية والإيطالية والهندية واليابانية ، تم إصدار تحسينات كبيرة على نموذج التلخيص ونماذج ASR في الوقت الفعلي ونماذج الإشراف على المحتوى و عدد لا يحصى من تحديثات المنتجات الأخرى.

بالكاد غطسنا في أموالنا من الفئة أ ، لكن هذا التمويل الجديد سيمنحنا القدرة على زيادة جهودنا بقوة - دون المساومة على مدرجنا.

من خلال هذا التمويل الجديد ، سنكون قادرين على تسريع خارطة طريق منتجاتنا ، وبناء بنية تحتية أفضل للذكاء الاصطناعي لتسريع أبحاث الذكاء الاصطناعي ومحركات الاستدلال ، وتنمية فريق أبحاث الذكاء الاصطناعي لدينا - والذي يضم اليوم باحثين من DeepMind و Google Brain و Meta AI و BMW و Cisco.

هل هناك أي شيء آخر تود مشاركته حول AssemblyAI؟

مهمتنا هي جعل نماذج الذكاء الاصطناعي الحديثة متاحة للمطورين وفرق المنتجات على نطاق واسع للغاية من خلال واجهة برمجة تطبيقات بسيطة.

شكرا لك على المقابلة الرائعة ، القراء الذين يرغبون في معرفة المزيد يجب أن يزوروا التجميع.