Connect with us

مات هوكينج، المؤسس المشارك لشركة WellSaid Labs – سلسلة المقابلات

مقابلات

مات هوكينج، المؤسس المشارك لشركة WellSaid Labs – سلسلة المقابلات

mm

مات هوكينج هو المؤسس المشارك لشركة WellSaid Labs، وهي شركة رائدة في مجال التكنولوجيا الإدراكية الصوتية للمشاريع التجارية. لديه أكثر من 15 عامًا من الخبرة في قيادة الفرق وتقديم حلول تكنولوجية على نطاق واسع.

خلفيتك مشبعة بالروح المبتكرة، كيف بدأت في الانخراط في مجال الذكاء الاصطناعي؟

أعتقد أنني دائمًا اعتبرت نفسي شخصًا مبدعًا. بدأت أول مشروع لي بعد التخرج، ومع خلفية في تصميم المنتجات، وجدت نفسي أتجه نحو مساعدة الأشخاص الذين لديهم أفكار في مرحلة مبكرة. خلال مسيرتي المهنية، كنت محظوظًا بما يكفي للعمل مع عدد من الشركات الناشئة التي حققت نجاحًا كبيرًا. خلال تلك التجارب، تعرضت لعدد من المؤسسين المتميزين، مما ألهمني لمتابعة أفكاري الخاصة كمسسس. كان الذكاء الاصطناعي جديدًا بالنسبة لي عندما انضممت إلى AI2، ومع ذلك، قدمت لي تلك التجربة فرصة لتطبيق منظوري في المنتجات والشركات الناشئة على بعض الأبحاث الرائعة، وتخيل كيف يمكن أن تساعد تلك التطورات الجديدة الكثير من الناس في السنوات القادمة. كان هدفي منذ البداية هو تطوير أعمال حقيقية للأشخاص الحقيقيين، وأعتقد أن الذكاء الاصطناعي لديه القدرة على خلق فرص وفرصًا مثيرة في مستقبلنا إذا تم تطبيقه بفكر متعمد.

يمكنك أن تشاركنا قصة كيفية تصور فكرة WellSaid Labs عندما كنت رائد أعمال في معهد ألين للذكاء الاصطناعي؟

انضممت إلى معهد ألين للذكاء الاصطناعي (AI2) كرائد أعمال في عام 2018. يمكن القول إنها أكثر الحاضنات ابتكارًا في العالم، حيث يتواجد ألمع العقول في مجال الذكاء الاصطناعي لتطبيق حلول من حافة ما هو ممكن اليوم إلى منتجات ملموسة تحل مشاكل حول العالم. خلفيتي في التصميم والتكنولوجيا غذت اهتمامي الطويل الأمد بالحقول الإبداعية، ومع ازدهار الذكاء الاصطناعي الذي نشهده اليوم، كنت أريد استكشاف طريقة لربط هذين الأمرين. تم تقديمي إلى مايكل بيتروتشوك (المؤسس المشارك والCTO لشركة WellSaid Labs) أثناء تطويري لتطبيق صحي تفاعلي يوجه المريض خلال سيناريوهات حساسة مختلفة. خلال عملية تطوير المحتوى للتجربة، عمل فريقي مع مواهب صوتية لتسجيل آلاف السطور من الصوت لممثلي الأفاتار. عندما تعرضت لبعض الإنجازات التي حققها مايكل خلال أبحاثه، رأينا سريعًا قيمة كيف يمكن أن تحول الصوت الناطق بجودة الإنسان إلى تحويل المنتج الذي كنت أعمل عليه، بالإضافة إلى تأثيره على تطبيقات وصناعات أخرى. عانت التكنولوجيا والأدوات من صعوبة مواكبة احتياجات المنتجين الذين يخلقون بالصوت كوسيلة. رأينا طريقًا لوضع هذه التكنولوجيا في أيدي جميع المبدعين، مما يسمح للصوت أن يكون جزءًا لا يتجزأ من كل القصص.

WellSaid Labs هي واحدة من الشركات القليلة التي توفر للممثلين الصوتيين ممرًا إلى مجال الصوت الاصطناعي. لماذا كنت تعتقد أن دمج الأصوات الحقيقية في المنتج أمر مهم؟

إجابتنا لهذا السؤال هي ثنائية: أولًا، أردنا إنشاء حلول تكمّل قدرات الممثلين الصوتيين، مما يوسع فرص الصوت. ثانيًا، نسعى جاهدين لتحقيق أعلى مستوى من الجودة البشرية في منتجاتنا. الممثلون الصوتيون هم شركاء تعاونيون على المدى الطويل ويتلقون تعويضًا وحدات إيرادات لمساهمتهم في بيانات الصوت والمحتوى الناتج عنه. كل ممثل صوتي نتعاقد معه لإنشاء صورة أفاتار صوتية بناءً على شبه صوته يُدفع على أساس مقدار استخدام صوته على منصتنا. نشجع المواهب على التعاون معنا؛ التعويض العادل لمساهمتهم أمر بالغ الأهمية بالنسبة لنا.

为了 تقديم أعلى مستوى من المنتجات ذات الجودة البشرية في السوق، يجب أن نكون صارمين حول مصدر بياناتنا. هذا الإجراء يعطينا المزيد من التحكم في الجودة، حيث نقوم بتدريب نماذج التعلم العميق لدينا للتحدث إلى جودة الإنسان ونمطين معينين سياقيًا. لا ننشئ صوتًا يقرأ فقط المدخلات المُقدمة. نماذجنا تقدم مجموعة من أنماط الصوت التي تقوم بأداء ما هو مكتوب على الصفحة. سواء كان المستخدمون يخلقون صوتًا باستخدام أفاتار من مكتبتنا أو إنشاء صوت مخصص لعلامتهم التجارية، نستخدم بيانات الصوت الحقيقي لضمان عملية سلسة وسهلة الاستخدام. إذا كان على عملائنا تعديل وتحرير أصواتنا في مرحلة ما بعد الإنتاج، فإن عملية الحصول على الإخراج المطلوب ستكون غير مريحة وطويلة. أصواتنا تأخذ السياق من المحتوى المكتوب وتقدم قراءة دقيقة سياقيًا. نقدم أصواتًا لجميع أنواع الحالات – سواء كان ذلك قراءة الأخبار، أو إنشاء إعلان صوتي، أو دعم مركز الاتصال التلقائي – لذلك التعاون مع مواهب صوتية محترفة ل từng حالة استخدام يوفر لنا السياق وبيانات الصوت عالية الجودة.

نحن نحدث ونضيف باستمرار أنماطًا جديدة وأكцентًا إلى مكتبة أفاتارنا لضمان تمثيل أصوات عملائنا. في استوديو WellSaid Labs، يمكن للعملاء والشركات محاولة أصوات مختلفة بناءً على المنطقة والنمط وحالة الاستخدام، مما يسمح بإنتاج محتوى صوتي أكثر سلاسة ومتحدًا تم تخصيصه لاحتياجات صانع المحتوى. بمجرد تسجيل التسجيل الأولي، يمكن للمستخدمين تشغيل كلمات معينة وتركيبات وحروف معينة لضمان أن يتحدث الذكاء الاصطناعي باستمرار بشكل محدد لاحتياجاتهم.

WellSaid Labs تضع علامتها التجارية كأول منصة صوت اصطناعي أخلاقية. لماذا تعتبر أخلاقيات الذكاء الاصطناعي مهمة بالنسبة لك؟

随着 زيادة اعتماد الذكاء الاصطناعي وأصبحت أكثر شيوعًا، توجد مخاوف من الحالات الاستغلالية والأدوار السيئة في مركز كل محادثة – وهذه المخاوف مؤكدة من خلال الحوادث الواقعية. الصوت الاصطناعي ليس استثناءً؛ تقريبًا كل يوم، هناك تقرير جديد عن شخصية مشهورة أو شخصية عامة أو سياسي يتم تقليد صوته لغرض إعلاني أو سياسي يظهر في العناوين الرئيسية. على الرغم من أن التنظيم الفيدرالي الرسمي بشأن هذه التكنولوجيا لا يزال في طور التطور، فإن كشف ومعاقبة الجهات الفاعلة الخبيثة والاستخدامات الخبيثة للصوت الاصطناعي سيكون من الصعب بشكل متزايد مع تقدم التكنولوجيا.

قادمين من AI2، حيث أن أخلاقيات الذكاء الاصطناعي هي مبدأ أساسي، كان لدينا هذه المناقشات منذ اليوم الأول. إن تطوير تكنولوجيا الكلام الاصطناعي يأتي مع مسؤوليات كبيرة تتعلق بالموافقة والخصوصية والأمان بشكل عام. نحن نعلم أننا، كمطورين، يجب أن نبني تكنولوجيانا بأمان، ونعالج القضايا الأخلاقية، ونضع الأسس للتنمية المستقبلية للأصوات الاصطناعية. ندرك إمكانية تكنولوجيا الكلام الاصطناعي للاستخدام الخبيث ونتبنى مسؤوليتنا لتقليل إمكانية سوء استخدام منتجاتنا. نحن بحاجة إلى وضع هذا الأساس منذ اليوم الأول بدلاً من السير بسرعة وارتكاب الأخطاء على طول الطريق. هذا لن يكون صحيحًا لعملائنا و الممثلين الصوتيين الذين يعتمدون علينا لبناء منتج عالي الجودة وموثوق.

نحن ندعم تمامًا الدعوة إلى التشريع في هذا المجال؛ ومع ذلك، لن ننتظر حتى يتم سن التنظيمات الفيدرالية. لقد أولينا الأولوية دائمًا للممارسات التي تدعم الخصوصية والأمان والشفافية والمساءلة.

نحن نلتزم بشكل صارم بميثاق نوايانا الأخلاقي، الذي يعتمد على بناء الابتكار المسؤول في كل قرار نتخذه. هذا هو في مصلحة عملائنا العالميين – العلامات التجارية للشركات.

كيف تتطور منصة صوت اصطناعي أخلاقية؟

WellSaid Labs ملتزم بالابتكار الأخلاقي منذ البداية. نحن نركز على الثقة والشفافية من خلال استخدام نماذج البيانات الداخلية، ومتطلبات الموافقة الصريحة، وبرنامج تحرير المحتوى، والالتزام بحماية العلامة التجارية. في WellSaid، نعتمد على مبادئ الذكاء الاصطناعي المسؤول لتشكيل قراراتنا وتصميماتنا، وتتوسع هذه المبادئ إلى استخدام أصواتنا. ميثاق أخلاقياتنا يمثل هذه المبادئ كالمساءلة، الشفافية، الخصوصية والأمان، والعدالة.

المساءلة: نحن نحافظ على معايير صارمة للمحتوى المناسب، ونحظر استخدام أصواتنا لمحتوى ضار أو كراهية أو احتيالي أو يهدف إلى التحريض على العنف. فريقنا لثقة وأمان يحافظ على هذه المعايير من خلال برنامج تحرير محتوى صارم، و 阻止 وازالة المستخدمين الذين يحاولون انتهاك شروط الخدمة.

الشفافية: نحن نطلب الموافقة الصريحة قبل بناء صوت اصطناعي باستخدام بيانات صوت شخص ما. لا يمكن للمستخدمين تحميل بيانات صوت من شخصيات عامة أو مشهورة أو أي شخص آخر لإنشاء نسخة من صوتهم إلا إذا كنا قد حصلنا على موافقة ذلك الشخص المكتوبة صراحة.

الخصوصية والأمان: نحن نحمي هويات الممثلين الصوتيين باستخدام الصور المخزنة والأسماء المستعارة لتمثيل الأصوات الاصطناعية. نحن نشجعهم أيضًا على توخي الحذر حول كيفية مشاركة ارتباطهم ب WellSaid Labs أو شركات الصوت الاصطناعي الأخرى لتقليص فرصة سوء استخدام صوتهم.

العدالة: نحن نكافئ جميع الممثلين الصوتيين الذين يقدمون بيانات صوت لمنصتنا، ونقدم لهم حصة إيرادات مستمرة لاستخدام الصوت الاصطناعي الذي نبنيه باستخدام بياناتهم.

بالإضافة إلى هذه المبادئ، نحن نحترم أيضًا بصرامة حقوق الملكية الفكرية. لا نزعم ملكية المحتوى الذي يقدمه مستخدمونا أو الممثلون الصوتيون. نحن نأول أولوية للنزاهة والعدالة والشفافية في كل ما نقوم به، لضمان أن يتم استخدام تكنولوجيا الكلام الاصطناعي لدينا بشكل مسؤول وأخلاقي. نحن نبحث بنشاط عن شراكات مع أصوات من خلفيات وخبرات متنوعة لضمان أن توفر WellSaid Labs صوتًا للجميع.

التزامنا بالابتكار المسؤول و تطوير تكنولوجيا الصوت الاصطناعي مع الأخذ في الاعتبار الأخلاقيات يميزنا عن الآخرين في هذا المجال الذين يسعون إلى الاستفادة من صناعة غير منظمة من خلال أي وسيلة. استثماراتنا المبكرة في الأخلاقيات والسلامة والخصوصية تضع الأساس للثقة والولاء في الممثلين الصوتيين و العملاء، الذين يبحثون بشكل متزايد عن منتجات وخدمات مصنوعة أخلاقيًا من الشركات في طليعة الابتكار.

WellSaid Labs أنشأت نموذجها الخاص بالذكاء الاصطناعي الذي مكّن أصواتها الاصطناعية من تحقيق جودة الإنسان، وقد حقق ذلك من خلال جلب العيوب التي يمتلكها البشر في المحادثات. ما هو السبب في أن هذه العيوب تجعل الذكاء الاصطناعي أفضل، وكيف يتم تطبيق هذه العيوب؟

WellSaid Labs ليست مجرد مولد صوت اصطناعي آخر. حيث كانت التكنولوجيا الصوتية الاصطناعية المبكرة غير قادرة على التعرف على جودة الصوت البشري مثل النبرة والصوت واللهجة التي تنقل السياق والشعور وراء الكلمات، فإن أصوات WellSaid قد حققت جودة الإنسان، وأحضرت عيوبًا فريدة من نوعها إلى الكلام الاصطناعي.

معيارنا الأساسي لجودة الصوت هو دائمًا الطبيعية البشرية. هذا المعتقد التوجيهي قد شكل تكنولوجيتنا في كل مرحلة، من مكتبات النصوص التي بنيناها إلى الإرشادات التي نقدمها للمواهب، وأخيرًا إلى كيفية تكرار خوارزميات التكنولوجيا الصوتية الاصطناعية الأساسية لدينا.

نحن نتدرب على التعبيرات الصوتية البشرية الأصلية. يقرأ مواهبنا الصوتية نصوصهم بشكل حقيقي ومثير عندما يسجلون لنا. الكمال الصوتي، من ناحية أخرى، هو مفهوم ميكانيكي يؤدي إلى خرج آلي مثالي وغير طبيعي. عندما يقوم الممثلون الصوتيون المحترفون بأداءهم، يتغير معدل كلامهم. يتنقل صوتهم العالي مع المحتوى الذي يقرأونه. قد يرتفع صوتهم في مقطع يتطلب قراءة مثيرة، وينخفض مرة أخرى في سطر أكثر حزناً. هذه التغييرات الديناميكية تشكل أداءًا صوتيًا بشريًا مثيرًا.

من خلال بناء عمليات الذكاء الاصطناعي التي تعمل بالتنسيق مع الأداء الديناميكي للمواهب الصوتية المحترفة، بنينا منصة تكنولوجيا صوتية اصطناعية طبيعية حقًا. لقد طوّرنا أول نظام تكنولوجيا صوتية اصطناعية طويلة الأمد مع أدوات تحكم تنبؤية في جميع مراحل العملية الإبداعية. تحتوي مكتبتنا الصوتية على مجموعة متنوعة من البيانات الصوتية، مما يسمح للمستخدمين بدمج توجيهات صوتية محددة، مثل إرشادات النطق أو القابلية للتحكم، في النموذج خلال مرحلة الإنتاج. في منصة واحدة، يمكن لمستخدمي WellSaid تسجيل وتنقيح وتحسين صوتهم بدون الحاجة إلى استيراد بيانات خارجية.

يمكنك مناقشة بعض التحديات وراء بناء شركة تكنولوجيا صوتية اصطناعية؟

تطوير تكنولوجيا الصوت الاصطناعي قد خلق مجموعة جديدة تمامًا من العقبات لكل من منتجيها ومستخدميها. واحدة من التحديات الرئيسية هي عدم الانخداع في الضوضاء والهياج الذي يغمر قطاع الذكاء الاصطناعي. كما شركة تكنولوجيا جديدة ومثيرة، تحاول العديد من المنظمات الاستفادة من تطورات الصوت الاصطناعي على المدى القصير. نحن نريد تقديم صوت للجميع، مدفوعًا بمبادئ أخلاقية وصدق. هذا الالتزام بالصدق يمكن أن يؤخر تطوير وتطوير تكنولوجياتنا، ولكنه يضمن سلامة وأمان أصوات WellSaid وبياناتها.

تحدي آخر لتطوير منصتنا التكنولوجية الصوتية الاصطناعية كان وضع إرشادات موافقة محددة لضمان أن لا تستخدم المنظمات أو الجهات الفاعلة الأفراد تكنولوجيتنا بشكل خبيث. لمواجهة هذا التحدي، نبحث عن شراكات تعاونية طويلة الأمد ونشارك بشكل كامل في تطوير الصوت لزيادة المساءلة والشفافية وأمان المستخدم. نبحث بنشاط عن شراكات مع مواهب صوتية من خلفيات وخبرات متنوعة لضمان أن تعكس مكتبة WellSaid Labs من الأصوات مخترعيها وجمهورهم. هذه العمليات مصممة لتكون متعمدة ومحددة التفاصيل لضمان أن يتم استخدام تكنولوجيتنا بأمان وبالتأكيد بطريقة أخلاقية، مما يمكن أن يبطئ جدول تطوير وطريقة إطلاقها.

ما هو رؤيتك لمستقبل الأصوات الاصطناعية التوليدية؟

لمدة طويلة، لم تصل تكنولوجيا الكلام الاصطناعي إلى جودة عالية بما يكفي لتمكين الشركات من إنشاء محتوى ذي معنى على نطاق واسع. الآن بعد أن لم تعد التكنولوجيا الصوتية تتطلب معدات باهظة الثمن وأجهزة، يمكن إنتاج ونشر جميع المحتوى المكتوب في صيغة صوتية لإنشاء تجارب متعددة الوسائط مثيرة.

اليوم، يمكن للأصوات الاصطناعية إنتاج صوت يشبه الإنسان ويلتقط الدقة المطلوبة لجعل القصص الرقمية أكثر سهولة وطبيعية. مستقبل الأصوات الاصطناعية التوليدية سيكون تجارب صوتية مسموعة شاملة تلمس كل جانب من جوانب حياتنا. مع تقدم التكنولوجيا، سنرى أصواتًا اصطناعية أكثر طبيعية وتعبيرية تبلور الحدود بين الكلام البشري والآلي – مما يفتح أبوابًا جديدة للأعمال والاتصالات والوصول وطريقة تفاعلنا مع العالم من حولنا.

ستجد الشركات تحسينًا في واجهات الذكاء الاصطناعي الصوتية وستستخدمها لجعل التفاعلات مع المساعدين الافتراضيين أكثر غمرة وسهولة في الاستخدام. هذه التحسينات تحدث بالفعل، من وكلاء مركز الاتصال الذكي إلى محطات الطعام السريع في محطات الدفع. ستشهد صناعة إنشاء المحتوى، بما في ذلك الإعلان وتسويق المنتج والقصص الإخبارية والبودكاست والكتب الصوتية والوسائط المتعددة الأخرى، زيادة في الكفاءة باستخدام أدوات لتطوير محتوى مثير – مما يزيد في النهاية من الرفع والإيرادات للشركات، خاصة الآن بعد أن يمكن لنموذج متعدد اللغات توسيع وجود شركة من نقطة واحدة إلى وجود عالمي. ستجد فرق الإنتاجประโยชนًا كبيرًا في الأصوات الاصطناعية لإنشاء أصوات مخصصة لاحتياجات العلامة التجارية أو مخصصة للمستمع.

قبل إدخال الذكاء الاصطناعي، كانت تكنولوجيا الكلام الاصطناعي تفتقر إلى القدرة الحاسمة على التعبير البشري والتنغيم والنطق المطلوبة لرواية قصة كاملة على نطاق واسع وبسهولة. الآن، تقدم تكنولوجيا الكلام الاصطناعي القائمة على الذكاء الاصطناعي تجارب أكثر غمرة وسهولة وصول.

تحقيق قدرات الكلام البشري كان رحلة، ولكن الآن بعد أن أصبح ذلك ممكنًا، نشهد نطاقًا كاملاً لصوت الذكاء الاصطناعي لإنشاء قيمة تجارية حقيقية للشركات.

شكرًا على المقابلة الرائعة، القراء الذين يرغبون في معرفة المزيد يجب أن يزوروا WellSaid Labs.

أنطوان هو قائد رؤى ومؤسس شريك في Unite.AI، مدفوعًا بشغف لا يتزعزع لتشكيل وتعزيز مستقبل الذكاء الاصطناعي والروبوتات. رجل أعمال متسلسل، يعتقد أن الذكاء الاصطناعي سيكون مدمرًا للمجتمع مثل الكهرباء، وغالبًا ما يُقبض عليه وهو يثرثر عن إمكانات التكنولوجيات المدمرة و AGI.

كما أنه مستقبلي، فهو مخصص لاستكشاف كيف سيشكل هذه الابتكارات العالم. بالإضافة إلى ذلك، فهو مؤسس Securities.io، وهي منصة تركز على الاستثمار في التكنولوجيات المتقدمة التي تعيد تعريف المستقبل وتهيئ القطاعات بأكملها.