رطم مات هوكينج، المؤسس المشارك لـ WellSaid Labs - سلسلة المقابلات - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

مقابلات

مات هوكينج، المؤسس المشارك لـ WellSaid Labs - سلسلة المقابلات

mm
تحديث on

مات هوكينج هو المؤسس المشارك لـ مختبرات ويل سعيد, مولد صوت AI رائد على مستوى المؤسسات. يتمتع بخبرة تزيد عن 15 عامًا في قيادة الفرق وتقديم الحلول التقنية على نطاق واسع.

خلفيتك في مجال ريادة الأعمال إلى حد ما، كيف انخرطت في البداية في مجال الذكاء الاصطناعي؟

أعتقد أنني كنت أعتبر نفسي دائمًا رائد أعمال إلى حد ما. لقد بدأت مشروعي الأول بعد تخرجي من الكلية ولدي خلفية في تصميم المنتجات، ووجدت نفسي منجذبًا نحو مساعدة الأشخاص الذين لديهم أفكار في مرحلة مبكرة. طوال مسيرتي المهنية، كنت محظوظًا بما يكفي للعمل مع عدد من الشركات الناشئة التي حققت نجاحات مذهلة. خلال تلك التجارب، تعرفت بشكل مباشر على الكثير من المؤسسين العظماء، مما ألهمني بدوره لمتابعة أفكاري الخاصة كمؤسس. كان الذكاء الاصطناعي جديدًا نسبيًا بالنسبة لي عندما انضممت إلى AI2؛ ومع ذلك، أتاحت لي هذه التجربة فرصة تطبيق منتجي وعدسة الشركة الناشئة على بعض الأبحاث المذهلة حقًا وتخيل كيف ستكون هذه التطورات الجديدة قادرة على مساعدة الكثير من الأشخاص في السنوات القادمة. كان هدفي منذ البداية هو تطوير أعمال حقيقية لأشخاص حقيقيين، وأعتقد أن الذكاء الاصطناعي لديه القدرة على خلق الكثير من الفرص والكفاءات المثيرة في مستقبلنا إذا تم تطبيقه بشكل مدروس.

هل يمكنك مشاركة قصة كيف تم تصور فكرة WellSaid Labs عندما كنت رائد أعمال مقيمًا في معهد ألين للذكاء الاصطناعي?

انضممت إلى معهد ألين للذكاء الاصطناعي (AI2) كرائد أعمال مقيم في عام 2018. يمكن القول إن AI2 هي الحاضنة الأكثر ابتكارًا في العالم، وهي تضم ألمع العقول في الذكاء الاصطناعي التي تطبق الحلول بدءًا من حافة ما هو ممكن اليوم إلى المنتجات الملموسة التي تحل الحلول. المشاكل في جميع أنحاء العالم. لقد عززت خلفيتي في التصميم والتكنولوجيا اهتمامي طويل الأمد بالمجالات الإبداعية، ومع طفرة الذكاء الاصطناعي التي نشهدها جميعًا اليوم، أردت استكشاف طريقة للربط بين الاثنين. لقد تعرفت على مايكل بيتروتشوك (المؤسس المشارك لشركة WellSaid Labs والرئيس التنفيذي للتكنولوجيا) أثناء تطوير تطبيق رعاية صحية تفاعلي يرشد المريض خلال العديد من السيناريوهات الحساسة. أثناء عملية تطوير محتوى التجربة، عمل فريقي مع المواهب الصوتية للتسجيل المسبق لآلاف أسطر التعليق الصوتي للصورة الرمزية. عندما تعرفت على بعض الإنجازات التي حققها مايكل خلال بحثه، أدركنا بسرعة قيمة كيف يمكن لتحويل النص إلى كلام (TTS) من خلال التكافؤ البشري أن يحول ليس فقط المنتج الذي كنت أعمل عليه ولكن أيضًا التأثير على عدد من الأشخاص. وغيرها من التطبيقات والصناعات. كافحت التكنولوجيا والأدوات لمواكبة احتياجات المنتجين الذين يستخدمون الصوت كوسيلة. لقد رأينا طريقًا لوضع هذه التكنولوجيا في أيدي جميع المبدعين، مما يسمح للصوت بأن يكون جزءًا لا يتجزأ من جميع القصص.

تعد WellSaid Labs واحدة من الشركات القليلة التي توفر للممثلين الصوتيين وسيلة للوصول إلى مجال التعليق الصوتي بالذكاء الاصطناعي. لماذا تعتقد أنه من المهم دمج الأصوات الحقيقية في المنتج؟

إجابتنا على هذا السؤال ذات شقين: أولاً، أردنا إنشاء حلول تكمل قدرات الممثلين الصوتيين المحترفين، مما يزيد من فرص الصوت. وثانيًا، نسعى جاهدين للحصول على أعلى مستوى من الجودة البشرية في منتجاتنا. يعد ممثلو الصوت لدينا شركاء تعاونيين على المدى الطويل ويحصلون على تعويضات وحصة من الإيرادات مقابل بياناتهم الصوتية والمحتوى اللاحق الذي يتم إنتاجه معها. يتم الدفع لكل ممثل صوتي نقوم بتعيينه لإنشاء صورة رمزية صوتية تعمل بالذكاء الاصطناعي بناءً على تشابه صوته بناءً على مقدار استخدام صوته على منصتنا. نحن نشجع المواهب على الشراكة معنا؛ إن التعويض العادل عن مساهماتهم أمر مهم للغاية بالنسبة لنا.

لتقديم أعلى مستوى من المنتجات ذات الجودة البشرية في السوق، يجب أن نكون صارمين بشأن المكان الذي نحصل فيه على بياناتنا. تمنحنا هذه العملية مزيدًا من التحكم في الجودة أثناء تدريبنا التعلم العميق نماذج تتحدث عن التكافؤ البشري وأساليب محددة ذات صلة بالسياق. نحن لا نقوم فقط بإنشاء صوت يقرأ المدخلات المقدمة. تقدم نماذجنا مجموعة متنوعة من أنماط الصوت التي تؤدي ما هو موجود على الصفحة. سواء كان المستخدمون يقومون بإنشاء تعليق صوتي باستخدام صورة رمزية من مكتبتنا أو إنشاء تعليق صوتي بصوت مخصص لعلامتهم التجارية، فإننا نستخدم بيانات صوتية حقيقية لضمان عملية سلسة ومنصة سهلة الاستخدام. إذا اضطر عملاؤنا إلى التلاعب بأصواتنا وتحريرها في مرحلة ما بعد الإنتاج، فستكون عملية الحصول على الإخراج المطلوب شاقة وطويلة. تأخذ أصواتنا سياق المحتوى المكتوب وتوفر قراءة دقيقة للسياق. نحن نقدم أصواتًا لجميع أنواع حالات الاستخدام - سواء كانت قراءة الأخبار، أو إنشاء إعلان صوتي، أو دعم مركز الاتصال الآلي - لذا فإن الشراكة مع المواهب الصوتية الاحترافية المحددة لكل حالة استخدام توفر لنا السياق والبيانات الصوتية عالية الجودة. .

نقوم بانتظام بتحديث وإضافة أنماط ولهجات جديدة إلى مكتبة الصور الرمزية الخاصة بنا للتأكد من أننا نمثل أصوات عملائنا. في استوديو WellSaid Labs، يمكن للعملاء والعلامات التجارية اختبار أصوات مختلفة بناءً على المنطقة والأسلوب وحالة الاستخدام، مما يسمح بإنتاج أكثر سلاسة وتوحيدًا للمحتوى الصوتي المخصص لاحتياجات الشركة المصنعة. بمجرد أخذ عينة من التسجيل الأولي، يمكن للمستخدمين الإشارة إلى كلمات وتهجئات ونطق محددة للتأكد من أن الذكاء الاصطناعي يلبي احتياجاتهم باستمرار.

تطالب WellSaid Labs بأنها أول منصة صوتية أخلاقية تعمل بالذكاء الاصطناعي. لماذا تعتبر أخلاقيات الذكاء الاصطناعي مهمة بالنسبة لك؟

مع تزايد اعتماد الذكاء الاصطناعي وانتشاره بشكل أكبر، أصبحت المخاوف من حالات الاستخدام الضارة والجهات الفاعلة السيئة في قلب كل محادثة - ولسوء الحظ يتم التحقق من صحة هذه المخاوف من خلال الأحداث الواقعية. صوت الذكاء الاصطناعي ليس استثناءً؛ في كل يوم تقريبًا، يتصدر تقرير جديد عن أحد المشاهير أو الشخصيات العامة أو السياسيين الذين تعرضوا للتزييف العميق لأغراض إعلانية أو سياسية عناوين الأخبار. على الرغم من أن التنظيم الفيدرالي الرسمي المتعلق بهذه التكنولوجيا لا يزال في طور التطور، إلا أن اكتشاف ومكافحة الجهات الفاعلة الخبيثة واستخدامات الصوت الاصطناعي سوف يصبح صعبًا بشكل متزايد مع استمرار تقدم التكنولوجيا.

قادمًا من AI2، حيث تعد أخلاقيات الذكاء الاصطناعي مبدأً أساسيًا، أجرينا هذه المحادثات أنا ومايكل في اليوم الأول. يأتي تطوير تقنية الكلام بالذكاء الاصطناعي مصحوبًا بمسؤوليات كبيرة فيما يتعلق بالموافقة والخصوصية والسلامة العامة. نحن نعلم أنه يتعين علينا، كمطورين، أن نبني التكنولوجيا الخاصة بنا بشكل آمن، وأن نتعامل مع المخاوف الأخلاقية، وأن نضع الأساس للتطوير المستقبلي للأصوات الاصطناعية. نحن ندرك إمكانية إساءة استخدام تقنية الكلام المستندة إلى الذكاء الاصطناعي ونتحمل مسؤوليتنا للحد من إساءة الاستخدام المحتملة لمنتجنا. نحن بحاجة إلى وضع هذا الأساس منذ اليوم الأول بدلاً من الجري بسرعة وارتكاب الأخطاء على طول الطريق. لن يكون هذا صحيحًا من قبل عملاء مؤسستنا والممثلين الصوتيين، الذين يعتمدون علينا لبناء منتج عالي الجودة وجدير بالثقة.

ونحن نؤيد بالكامل الدعوة إلى التشريع في هذا المجال؛ ومع ذلك، فإننا لن ننتظر حتى يتم سن اللوائح الفيدرالية. لقد أعطينا الأولوية دائمًا وسنستمر في إعطاء الأولوية للممارسات التي تدعم الخصوصية والأمن والشفافية والمساءلة.

نحن نلتزم التزامًا صارمًا بقواعد النوايا الأخلاقية لشركتنا، والتي تعتمد على الابتكار المسؤول في كل قرار نتخذه. وهذا يصب في مصلحة عملائنا العالميين - العلامات التجارية للمؤسسات.

كيف يمكنك تطوير منصة صوتية أخلاقية للذكاء الاصطناعي؟

تلتزم WellSaid Labs بالابتكار الأخلاقي منذ البداية. نحن نركز الثقة والشفافية من خلال استخدام نماذج البيانات الداخلية، ومتطلبات الموافقة الصريحة، وبرنامج الإشراف على المحتوى الخاص بنا، والتزامنا بحماية العلامة التجارية. في WellSaid، نحن نعتمد على مبادئ منظمة العفو الدولية المسؤولة لتشكيل قراراتنا وتصميماتنا، وتمتد تلك المبادئ إلى استخدام أصواتنا. تمثل مدونة الأخلاقيات الخاصة بنا هذه المبادئ مثل المساءلة والشفافية والخصوصية والأمن والعدالة.

المساءلة: نحن نحافظ على معايير صارمة للمحتوى المناسب، ونحظر استخدام أصواتنا لمحتوى ضار أو يحض على الكراهية أو احتيالي أو يهدف إلى التحريض على العنف. يدعم فريق الثقة والسلامة لدينا هذه المعايير من خلال برنامج صارم للإشراف على المحتوى، حيث يقوم بحظر وإزالة المستخدمين الذين يحاولون انتهاك شروط الخدمة الخاصة بنا.

الشفافية: نحن نطلب موافقة صريحة قبل بناء صوت اصطناعي باستخدام البيانات الصوتية لشخص ما. لا يستطيع المستخدمون تحميل البيانات الصوتية من السياسيين أو المشاهير أو أي شخص آخر لإنشاء نسخة من أصواتهم ما لم نحصل على موافقة كتابية صريحة من ذلك الشخص.

الخصوصية والأمن: نحن نحمي هويات الممثلين الصوتيين لدينا باستخدام الصور المخزنة والأسماء المستعارة لتمثيل الأصوات الاصطناعية. نحن نشجعهم أيضًا على توخي الحذر بشأن كيفية مشاركة ارتباطاتهم مع WellSaid Labs أو غيرها من شركات الصوت الاصطناعي ومع من يشاركون ذلك لتقليل فرصة إساءة استخدام أصواتهم.

عدل: نحن نعوض جميع الممثلين الصوتيين الذين يقدمون البيانات الصوتية لمنصتنا، ونزودهم بحصة مستمرة من الإيرادات مقابل استخدام الصوت الاصطناعي الذي نبنيه ببياناتهم.

وإلى جانب هذه المبادئ، فإننا أيضًا نحترم الملكية الفكرية احترامًا صارمًا. نحن لا ندعي ملكية المحتوى المقدم من قبل المستخدمين أو الممثلين الصوتيين لدينا. نحن نعطي الأولوية للنزاهة والإنصاف والشفافية في كل ما نقوم به، مما يضمن استخدام تقنية الكلام الاصطناعي لدينا بطريقة مسؤولة وأخلاقية. نحن نسعى جاهدين لإقامة شراكات مع أصوات من خلفيات وخبرات متنوعة لضمان توفير صوت للجميع.

إن التزامنا بالابتكار المسؤول وتطوير تكنولوجيا الصوت بالذكاء الاصطناعي مع وضع الأخلاقيات في الاعتبار يميزنا عن الآخرين في هذا المجال الذين يسعون للاستفادة من صناعة جديدة غير منظمة بأي وسيلة. إن استثماراتنا المبكرة في الأخلاق والسلامة والخصوصية تعمل على ترسيخ الثقة والولاء بين الممثلين الصوتيين والعملاء لدينا، الذين يسعون بشكل متزايد إلى الحصول على منتجات وخدمات مصنوعة بشكل أخلاقي من الشركات التي تحتل طليعة الابتكار.

أنشأت WellSaid Labs نموذج الذكاء الاصطناعي الداخلي الخاص بها والذي مكّن أصوات الذكاء الاصطناعي لديها من تحقيق التكافؤ البشري، وقد حققت ذلك من خلال جلب العيوب التي يعاني منها البشر إلى المحادثات. ما الذي يجعل هذه العيوب تجعل الذكاء الاصطناعي أفضل، وكيف يتم تنفيذ هذه العيوب؟

WellSaid Labs ليس مجرد مولد TTS آخر. في حين لم تكن تقنية تحويل النص إلى كلام (TTS) المبكرة قادرة على التعرف على صفات الكلام البشري مثل درجة الصوت والنبرة واللهجة التي تنقل السياق والعاطفة وراء الكلمات، فقد حققت أصوات WellSaid التكافؤ البشري، مما أدى إلى ظهور عيوب بشرية فريدة في الكلام الناتج عن الذكاء الاصطناعي.

إن مقياسنا الأساسي لجودة الصوت كان ولا يزال هو الطبيعة البشرية. وقد شكل هذا الاعتقاد التوجيهي تقنيتنا في كل مرحلة، بدءًا من مكتبات النصوص التي أنشأناها وحتى التعليمات التي نقدمها للمواهب، ومؤخرًا، كيفية تكرارنا لخوارزميات تحويل النص إلى كلام (TTS) الأساسية لدينا.

نحن نتدرب على الألفاظ البشرية الأصيلة. تقرأ موهبتنا الصوتية نصوصهم بشكل أصيل وجذاب عندما يقومون بالتسجيل لنا. ومن ناحية أخرى، فإن إتقان الكلام هو مفهوم ميكانيكي يؤدي إلى إنتاج آلي لا تشوبه شائبة وغير طبيعي. عندما تؤدي المواهب الصوتية الاحترافية، يتقلب معدل الكلام. يتحرك جهارة صوتهم بالتزامن مع المحتوى الذي يقرؤونه. قد ترتفع درجة صوتهم في مقطع يتطلب قراءة متحمسة ثم تنخفض مرة أخرى في سطر أكثر كآبة. تشكل هذه الاختلافات الديناميكية أداءً صوتيًا بشريًا جذابًا.

من خلال بناء عمليات الذكاء الاصطناعي التي تعمل بالتنسيق مع الأداء الديناميكي لمواهبنا المهنية، قمنا ببناء منصة تحويل النص إلى كلام (TTS) طبيعية حقًا. لقد قمنا بتطوير أول نظام TTS طويل الشكل مع عناصر تحكم تنبؤية طوال العملية الإبداعية بأكملها. تحتوي مكتبتنا الصوتية على مجموعة متنوعة من البيانات الصوتية، مما يسمح للمستخدمين بدمج إشارات صوتية محددة، مثل توجيه النطق أو إمكانية التحكم، في النموذج أثناء مرحلة الإنتاج. في منصة واحدة، يمكن لمستخدمي WellSaid تسجيل التعليق الصوتي الخاص بهم وتحريره وتصميمه دون الحاجة إلى استيراد بيانات خارجية.

هل يمكنك مناقشة بعض التحديات التي تواجه إنشاء شركة تعتمد على الذكاء الاصطناعي لتحويل النص إلى كلام (TTS)؟

لقد خلق تطور تكنولوجيا الصوت بالذكاء الاصطناعي مجموعة جديدة تمامًا من العقبات لكل من المنتجين والمستهلكين. أحد التحديات الرئيسية هو عدم الوقوع في الضجيج والضجيج الذي يغمر قطاع الذكاء الاصطناعي. باعتبارها تقنية جديدة ومثيرة، تحاول العديد من المؤسسات الاستفادة من تطورات التعليق الصوتي قصيرة المدى في الذكاء الاصطناعي. نريد أن نوفر صوتًا للجميع، مسترشدين بالمبادئ الأخلاقية المركزية والأصالة. يمكن أن يؤدي هذا الالتزام بالأصالة إلى تأخير تطوير ونشر تقنياتنا ولكنه يعزز سلامة وأمن أصوات WellSaid وبياناتها.

كان التحدي الآخر الذي واجهنا في تطوير منصة تحويل النص إلى كلام (TTS) هو تطوير إرشادات موافقة محددة لضمان عدم إساءة استخدام المؤسسات أو الجهات الفاعلة الفردية لتقنيتنا. ولمواجهة هذا التحدي، نسعى إلى إقامة شراكات تعاونية طويلة الأمد ونشارك بشكل كامل في تطوير التعليق الصوتي لزيادة المساءلة والشفافية وأمان المستخدم. نحن نسعى جاهدين لإقامة شراكات مع المواهب الصوتية من مختلف الخلفيات والمنظمات والخبرات للتأكد من أن مكتبة الأصوات الخاصة بـ WellSaid Labs تعكس المبدعين والجماهير. تم تصميم هذه العمليات لتكون مقصودة وموجهة نحو التفاصيل لضمان استخدام التكنولوجيا الخاصة بنا بأمان وأخلاقية قدر الإمكان، مما قد يؤدي إلى إبطاء التطوير وإطلاق الجدول الزمني.

ما هي رؤيتك لمستقبل أصوات الذكاء الاصطناعي التوليدية؟

لفترة طويلة، لم تصل تقنية الكلام المدعمة بالذكاء الاصطناعي إلى جودة عالية بما يكفي لتمكين الشركات من إنشاء محتوى ذي معنى على نطاق واسع. الآن بعد أن لم تعد تكنولوجيا الصوت تتطلب معدات وأجهزة باهظة الثمن، يمكن إنتاج كل المحتوى المكتوب ونشره بتنسيق صوتي لإنشاء تجارب جذابة ومتعددة الوسائط.

اليوم، يمكن لأصوات الذكاء الاصطناعي إنتاج صوت يشبه صوت الإنسان والتقاط الفروق الدقيقة المطلوبة لجعل رواية القصص الرقمية أكثر سهولة وطبيعية. سيكون مستقبل صوت الذكاء الاصطناعي التوليدي عبارة عن تجارب مسموعة شاملة تمس كل جانب من جوانب حياتنا. مع استمرار تقدم التكنولوجيا، سنرى أصواتًا اصطناعية طبيعية ومعبرة بشكل متزايد تطمس الخط الفاصل بين الكلام البشري والكلام الناتج عن الآلة - مما يفتح أبوابًا جديدة للأعمال والاتصالات وإمكانية الوصول وكيفية تفاعلنا مع العالم من حولنا.

ستجد الشركات تخصيصًا محسّنًا في الواجهات الصوتية للذكاء الاصطناعي وستستخدمها لجعل التفاعلات مع المساعدين الافتراضيين أكثر غامرة وسهلة الاستخدام. هذه التحسينات تحدث بالفعل، بدءًا من وكلاء مركز الاتصال الأذكياء وحتى خدمة توصيل الوجبات السريعة. سيشهد إنشاء المحتوى، بما في ذلك الإعلان وتسويق المنتجات وسرد الأخبار والبودكاست والكتب الصوتية والوسائط المتعددة الأخرى، كفاءة متزايدة من خلال استخدام أدوات لتطوير محتوى جذاب - مما يؤدي في النهاية إلى زيادة الرفع والإيرادات للمؤسسات، خاصة الآن حيث يمكن للنماذج متعددة اللغات توسيع نطاق وصول الشركة من نقطة منشأ واحدة إلى وجود عالمي. ستجد فرق الإنتاج فائدة كبيرة في الأصوات الاصطناعية لإنشاء أصوات مصممة خصيصًا لتلبية احتياجات العلامة التجارية أو مخصصة للمستمع.

قبل تقديم الذكاء الاصطناعي، كانت تقنية تحويل النص إلى كلام (TTS) تفتقر إلى المشاعر الإنسانية الحاسمة، والتنغيم، وقدرات النطق المطلوبة لسرد قصة كاملة على نطاق واسع وبسهولة. الآن، توفر تقنية تحويل النص إلى كلام (TTS) المدعومة بالذكاء الاصطناعي تجارب أكثر غامرة ويمكن الوصول إليها، بما في ذلك إمكانات التحدث في الوقت الفعلي ووكلاء المحادثة التفاعلية.

لقد كان تحقيق قدرات الكلام الشبيهة بالإنسان بمثابة رحلة، ولكن الآن بعد أن أصبح ذلك ممكنًا، نشهد النطاق الكامل لصوت الذكاء الاصطناعي لخلق قيمة تجارية حقيقية للمؤسسات.

شكرا لك على المقابلة الرائعة ، القراء الذين يرغبون في معرفة المزيد يجب أن يزوروا مختبرات WellSaid.