رطم الدكتورة جوديث بيشوب ، المدير الأول لأخصائيي الذكاء الاصطناعي في Appen - سلسلة مقابلات - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

مقابلات

الدكتورة جوديث بيشوب ، المدير الأول لأخصائيي الذكاء الاصطناعي في Appen - سلسلة مقابلات

mm
تحديث on

الدكتورة جوديث بيشوب ، هي مديرة أول لمتخصصي الذكاء الاصطناعي لمنطقة آسيا والمحيط الهادي / الولايات المتحدة في Appen. إنها تقود وتنمي فريقًا من الدرجة الأولى من اللغويين المؤهلين تأهيلا عاليا وذوي الخبرة ، واللغويين الحسابيين ، والخبراء في جميع أنماط التواصل البشري (الكلام والكتابة والإيماءات) ، لتقديم بيانات تدريب على الذكاء الاصطناعي بمزيج لا مثيل له من الجودة والسرعة.

ما الذي جذبك في البداية إلى علم اللغة؟

سمعت لأول مرة عن اللغويات من مدرس اللغة الإنجليزية المفضل في المدرسة الثانوية. كنت واحداً من هؤلاء الأطفال الذين ينجذبون على قدم المساواة إلى اللغات الأجنبية والعلوم الإنسانية ، والرياضيات والمواد العلمية. علم اللغة هو علم كيفية عمل اللغة ، لذا فقد جمعت هذه الاهتمامات معًا بالنسبة لي. مثل الكثير من الناس ، بمجرد أن علمت بذلك ، كنت مدمن مخدرات تمامًا. ما الذي يمكن أن يكون أكثر روعة من الطريقة التي ننقل بها أفكارنا ومشاعرنا لبعضنا البعض؟ يستكشف علم اللغة الهياكل اللغوية التي ، على الرغم من جميع الاختلافات في الأصوات وأنظمة الكتابة ، غالبًا ما تكون متشابهة تحت السطح ، لأن جميعها في النهاية نتاج لوجودنا البشري المشترك.

هل يمكنك مشاركة قصة نشأة كيف وجدت نفسك تعمل في الذكاء الاصطناعي؟

أعمل في Appen منذ عام 2004 لدعم تطوير منتجات وخدمات تكنولوجيا اللغة. خلال هذا الوقت ، برز الذكاء الاصطناعي كإطار شامل ومهمة ورؤية للتقنية لتقليد وتوسيع القدرات البشرية للتواصل والاستدلال والإدراك. في عام 2019 ، أعاد فريقي تسمية نفسه باسم متخصصي الذكاء الاصطناعي ، مدركًا أن معرفتنا اللغوية واللغوية أمر بالغ الأهمية لمؤسسة الذكاء الاصطناعي. توفر بياناتنا المشروحة دعمًا أساسيًا لنجاح التفاعلات البشرية مع منتجات وخدمات الذكاء الاصطناعي.

كنت تعمل في الذكاء الاصطناعي منذ أكثر من 16 عامًا ، ما هي بعض أكبر التغييرات التي رأيتها؟

وكان التحول الرئيسي هو تنويع التركيز من تطوير التكنولوجيا الأساسية إلى الذيل الطويل لحالات الاستخدام والتطبيقات. خلال معظم مسيرتي المهنية، كان تركيز الذكاء الاصطناعي القائم على اللغة هو تطوير وتحسين مجموعة أساسية من النماذج التي تحاكي إدراك وإنتاج الكلام البشري، وهي على وجه التحديد التعرف على الكلام، وتركيب الكلام، ومعالجة اللغة الطبيعية. تتوافق مجموعات البيانات عادةً مع معايير واتفاقيات التصنيف وأخذ عينات البيانات الشائعة، مثل تلك التي طورها اتحاد Speecon (الواجهات المبنية على الكلام لأجهزة المستهلك). وقد سمحت هذه المعايير لمطوري التكنولوجيا الأساسية بقياس أدائهم على هياكل البيانات المشتركة ودعمت التطور السريع. تطور الذكاء الاصطناعي.

ومع ذلك ، فإن التوسع الواسع لحالات استخدام الذكاء الاصطناعي في السنوات الأخيرة قد جلب معه الاعتراف بأن نماذج الذكاء الاصطناعي الأساسية والعامة المبنية بهذه البيانات لا تعمل بشكل كافٍ على أنواع بيانات أكثر تخصصًا دون مزيد من الضبط. علاوة على ذلك ، بعد أن تم تطويرها بناءً على بيانات كانت نظيفة و "قياسية" عن عمد ، يجب الآن تدريب هذه النماذج أو تحديثها لفهم جميع تنوع المدخلات البشرية والاستجابة لها: جميع اللهجات ، وجميع اللهجات ، وجميع الأعراق ، وجميع الأجناس ، وجميع أبعاد أخرى للاختلاف البشري.

هل يمكنك مناقشة أهمية البيانات غير المتحيزة في التعلم الآلي؟

ستعكس نماذج التعلم الآلي ، سواء كانت نماذج التعلم الخاضع للإشراف أو غير الخاضعة للإشراف أو المعزز ، التحيزات الموجودة في البيانات التي تم تدريبهم عليها. تقدم أليسا سيمبسون روشفيرجر وويلسون بانج عدة أمثلة ممتازة لهذه المشكلة في كتابهما الأخير ، العالم الحقيقي AI. إذا لم تكن هناك بيانات تدريب كافية لشريحة من السكان ، فسيكون نموذج الذكاء الاصطناعي أقل دقة لتلك الشريحة.

في حالة شائعة أخرى ، قد يكون تمثيل السكان كافياً ، ولكن إذا كانت بيانات التدريب تحتوي على ارتباطات بين نقاط البيانات التي تعكس الظروف الفعلية ، ولكن غير المرغوب فيها ، في العالم (مثل انخفاض معدل التوظيف الكامل للنساء ، أو معدل أعلى السجن للأمريكيين الأفارقة ،) يمكن لتطبيقات الذكاء الاصطناعي الناتجة تعزيز هذه الظروف وإدامتها.

يمكن للجمعيات الموجودة في اللغة بشكل عام أن تخلق تحيزات في تطبيقات البرمجة اللغوية العصبية ، والتي تعتمد على العلاقات الإحصائية المعروفة باسم تضمين الكلمة. إذا ارتبطت "هي" و "ممرضة" بشكل متكرر في بيانات التدريب المختارة أكثر من "هم" أو "هو" و "ممرضة" ، فسيستخدم التطبيق الناتج "هي" عندما يُجبر على اختيار ضمير مفرد للإشارة إلى ممرضة. لمعالجة هذه المشكلة المحددة ، طور الباحثون مؤخرًا متغيرًا محايدًا بين الجنسين لخوارزمية تضمين كلمة شائعة الاستخدام ، GN-GloVe.

في التطبيقات الحساسة ، يمكن أن يكون لقضايا التحيز مثل هذه تأثير مدمر على المستخدمين ويمكن أن تقضي على الاستثمار التجاري. الخبر السار هو أنه بالإضافة إلى تطوير مجموعات بيانات جديدة وأكثر شفافية وشمولية ، يتم تطوير عدد متزايد من تطبيقات علوم البيانات للتحقق من وجود تحيز في مجموعات بيانات التدريب الحالية وتطبيقات الذكاء الاصطناعي.

أطلقت Appen مؤخرًا مجموعات بيانات تدريبية جديدة ومتنوعة لمبادرات معالجة اللغة الطبيعية (NLP). هل يمكنك مشاركة بعض التفاصيل حول كيفية تمكين مجموعات البيانات هذه للمستخدمين النهائيين من تلقي نفس التجربة بغض النظر عن تنوع اللغة أو اللهجة أو العِرق أو اللهجة أو العرق أو الجنس؟

للأسباب المذكورة أعلاه ، هناك حاجة إلى مجموعات البيانات لتصحيح التحيزات الموجودة في أنظمة إنتاج الذكاء الاصطناعي ، بالإضافة إلى مجموعات بيانات أكثر شمولاً لتدريب الأنظمة المستقبلية. ستدعم مجموعات بيانات Appen التي ذكرتها تصحيح التحيزات المتعلقة بالانتماء العرقي والاثنيات المرتبطة به ، مثل اللغة الإنجليزية العامية الأمريكية الأفريقية. سيوفرون بيانات تدريب تكميلية لتعزيز تمثيل هذه الفئة من السكان في نماذج لغة الذكاء الاصطناعي.

تظهر الإثنية كبعد ديموغرافي مهم لوضع العلامات الصريحة في بيانات الذكاء الاصطناعي. يشير اللغويون إلى الأنواع اللغوية المرتبطة بأعراق معينة على أنها "أتباع عرقية". يدرك موفرو بيانات الذكاء الاصطناعي مثل Appen الآن أنه ما لم يتم تمثيل المجموعات السكانية الرئيسية المتنوعة والأقليات بشكل صريح في مجموعات بيانات التدريب على الذكاء الاصطناعي ، فلا يمكننا ضمان أداء الأنظمة الناتجة بشكل جيد على قدم المساواة مع هؤلاء السكان.

يعني الأداء المتساوي أن النظام يتعرف بدقة متساوية على كلمات المستخدم ونواياه (معانيها ، أو الإجراءات التي يريد تحقيقها) وفي بعض الحالات ، المشاعر ؛ وأنه يستجيب بطرق تلبي احتياجات المستخدم بشكل متساوٍ ، ولا ينتج عنه تأثير سلبي أكثر على مجموعة معينة من المستخدمين ، سواء من الناحية العملية أو النفسية.

كان نهج جمع البيانات طويل الأمد هو التركيز على أخذ العينات التمثيلي الجغرافي والدينالي في قواعد البيانات - على افتراض أن هذا من شأنه أن يضمن تعميم التكنولوجيا على جميع المتحدثين باللغة. أظهر الأداء الضعيف نسبيًا لتقنيات اللغة التي تم توثيقها مؤخرًا للمتحدثين باللغة الإنجليزية من الأمريكيين من أصل أفريقي أن هذا ليس كذلك. يجب تضمين السكان المتنوعين في العرق والعرق والجنس واللهجة ، من بين أبعاد أخرى ، بشكل استباقي في مجموعات بيانات التدريب لضمان سماع أصواتهم وفهمها من خلال منتجات وخدمات الذكاء الاصطناعي. تلبي مجموعات بيانات تدريب الذكاء الاصطناعي المتنوعة في Appen هذه الحاجة.

خارج الذكاء الاصطناعي ، أنت أيضًا شاعر وحصلت العديد من قصائدك على جوائز صناعية مختلفة. ما هي آرائك حول إظهار الذكاء الاصطناعي في المستقبل لهذا النوع من الإبداع ، بما في ذلك كتابة الشعر؟

هذا سؤال رائع. يعتمد الشعر والأشكال الأخرى للإبداع البشري على جميع مواردنا البشرية من الذاكرة والإدراك والإحساس والعاطفة ، فضلاً عن الهياكل والفروق الدقيقة في اللغة والصورة ، لإنتاج رؤى تتناسب مع الاهتمامات المعاصرة. كتبت إميلي ديكنسون ، "إذا قرأت كتابًا وجعل جسدي كله باردًا لدرجة لا يمكن للنار أن تدفئني ، فأنا أعلم أن هذا هو الشعر. إذا شعرت جسديًا كما لو أن الجزء العلوي من رأسي قد تم خلعه ، فأنا أعلم أن هذا هو الشعر ". يجب أن يكون هناك عنصر من الإدراك الإدراكي أو الحسي أو العاطفي ، ولكن أيضًا مفاجأة حقيقية.

نماذج متقدمة للذكاء الاصطناعي مثل GPT-3 نموذج إحصائيًا لاحتمالية ظهور الكلمات معًا في أنواع مختلفة ، بما في ذلك الشعر. هذا يعني أنهم يستطيعون إنتاج شيء نتعرف عليه كلغة "شعرية" ، مثل استخدام الإملاء العالي والقافية ومجموعات الكلمات غير المتوقعة أو السريالية. لكن هذه النماذج اللغوية التوليدية تفتقر إلى معظم الموارد ، المذكورة أعلاه ، اللازمة لإنتاج عمل فني يوضح معنى أن تكون إنسانًا في الوقت الحاضر.

إن ما أجده مقنعًا بشأن الذكاء الاصطناعي في سياق إبداعي هو قدرته على إنتاج رؤى جديدة تمامًا - رؤى مختلفة في النوع وتتعدى متناول أي عقل بشري واحد ، حتى العقل البشري الأكثر تعددًا أو قراءة وخبرة. بمجرد أن يتمتع الذكاء الاصطناعي بوصول ثابت إلى البيانات الحسية والإدراكية لتحليلها عبر مجموعة واسعة من المجالات البشرية (البصرية واللمسية والسمعية والفسيولوجية والعاطفية) ، لن يكون هناك معرفة بما سنتعلمه عن أنفسنا والعالم. قد تنتج القدرات التحليلية للذكاء الاصطناعي أسسًا جديدة خصبة للاستكشاف البشري الإبداعي.

لقد كان لديك مهنة استثنائية حتى الآن ، في رأيك ما الذي يمنع المزيد من النساء من الانضمام إلى STEM وخاصة الذكاء الاصطناعي؟

يمكن أن يكون الافتقار إلى قدوة عاملاً قوياً (وحلقة مفرغة). هناك صعوبة حقيقية - ثقافيًا واجتماعيًا وعمليًا - في اقتحام المناطق التي لا تتمتع فيها النساء والأشخاص من مختلف الأجناس بحضور راسخ حتى الآن ، وحيث غالبًا ما ينقص الاحترام لما يمكننا المساهمة به. لقد أظهرت لي تجربتي الخاصة كقائد مرارًا وتكرارًا كيف يمكن أن تكون الفرق مرنة ومبدعة وناجحة عندما تكون شاملة للخبرات والتوجهات المتنوعة. يحتاج القادة إلى أن يكونوا مغامرين في توظيفهم وأن يكونوا شجعانًا في ثقتهم في قدرتهم على التعامل مع تحديات طريقة تفكيرهم التي تجلبها وجهات النظر المتنوعة ، مع العلم أن هذه الشجاعة قد ثبت أيضًا أنها مرتبطة ارتباطًا وثيقًا بالنجاح المالي والشركات.

هل هناك أي شيء آخر تود مشاركته حول Appen أو AI بشكل عام؟

يتمتع مقدمو البيانات مثل Appen بإمكانية قوية للتأثير على نتائج الذكاء الاصطناعي للأفضل من خلال توفير بيانات تدريب شاملة.

ومع ذلك ، فإن الوصول إلى هدف الذكاء الاصطناعي الشامل يتطلب مشاركة الجميع. يجب على مشتري البيانات أيضًا الاعتراف بمسؤوليتهم عن السؤال الواضح - والدفع - مقابل البيانات الشاملة التي ستضمن الأداء الأمثل لأنظمتهم لجميع المستخدمين في العالم الحقيقي. وأولئك الذين ينتمون إلى مجتمعات متنوعة والذين يقدمون بياناتهم لتطوير الذكاء الاصطناعي يجب أن يكونوا قادرين على الوثوق في الاستخدامات التي ستوضع من أجلها. سيتطلب بناء هذه الثقة شفافية قوية وممارسات أخلاقية من جانب كل من يتعامل مع البيانات الحساسة.

شكرًا لك على المقابلة الرائعة ، لقد استمتعت بمعرفة المزيد عن آرائك حول الذكاء الاصطناعي واللغويات. القراء الذين يرغبون في معرفة المزيد يجب أن يزوروا Appen.

شريك مؤسس في unite.AI وعضو في مجلس تكنولوجيا فوربس ، أنطوان أ المستقبلي من هو شغوف بمستقبل الذكاء الاصطناعي والروبوتات.

وهو أيضًا مؤسس Securities.io، موقع ويب يركز على الاستثمار في التكنولوجيا الثورية.