مقابلات

الدكتورة جوديث بيشوب، المديرSenior المتميز لخبراء الذكاء الاصطناعي في Appen – سلسلة المقابلات

mm

الدكتورة جوديث بيشوب، هي المديرSenior المتميز لخبراء الذكاء الاصطناعي لمنطقة APAC/US في Appen. وهي تقود وتنمي فريقًا من顶级 من اللغويين واللغويين الحاسوبيين وخبراء جميع أنواع الاتصال البشري (الخطاب والكتابة والايماءات)، لتوفير بيانات تدريب الذكاء الاصطناعي مع مجموعة غير مسبوقة من الجودة والسرعة.

ما الذي جذبك في البداية إلى اللغويات؟

سمعت عن اللغويات لأول مرة من معلمي الإنجليزية المفضل في المدرسة الثانوية. كنت واحدة من الأطفال الذين يتمتعون بنفس القدر من الجذب إلى اللغات الأجنبية والعلوم الإنسانية، والرياضيات والعلوم. اللغويات هي علم كيفية عمل اللغة، لذلك جمعت بين اهتماماتي. مثل العديد من الناس، بمجرد أن تعلمت عنها، كنت متعلقًا بها تمامًا. ما الذي يمكن أن يكون أكثر إثارة للاهتمام من كيفية تواصلنا بأفكارنا ومشاعرنا مع بعضنا البعض؟ اللغويات تستكشف الهياكل اللغوية التي، على الرغم من جميع الاختلافات في الأصوات والأنظمة الكتابية، غالبًا ما تكون متشابهة تحت السطح، منذ أن جميعها هي نتاج وجودنا البشري المشترك.

هل يمكنك مشاركة قصة كيف وجدت نفسك تعمل في الذكاء الاصطناعي؟

لقد عملت في Appen منذ عام 2004 لدعم تطوير منتجات وتحليلات اللغة. خلال هذا الوقت، ظهر الذكاء الاصطناعي كإطار شامل ورسالة ورؤية لتكنولوجيا لمحاكاة وتوسيع قدرات الاتصال والاستدلال والتصور البشري. في عام 2019، أعيد تسمية فريقنا إلى خبراء الذكاء الاصطناعي، معترفين بأن معرفتنا اللغوية ومعرفتنا باللغة هي أساسية لمشروع الذكاء الاصطناعي. توفر بياناتنا المُحَدَّدة الدعم الأساسي لنجاح التفاعلات البشرية مع منتجات وخدمات الذكاء الاصطناعي.

لقد عملت في الذكاء الاصطناعي لمدة 16 عامًا، ما هي بعض التغييرات الكبيرة التي لاحظتها؟

التغيير الرئيسي كان تفرع التركيز من تطوير التكنولوجيا الأساسية إلى استخدامات وتطبيقات الذيل الطويل. خلال معظم مسيرتي المهنية، كان تركيز الذكاء الاصطناعي القائم على اللغة على تطوير ورفinement مجموعة أساسية من النماذج التي تمحاكي إدراك الكلام البشري وإنتاجه، وهي في المقام الأول، التعرف على الكلام والتركيب الصوتي والمعالجة اللغوية الطبيعية. كانت مجموعات البيانات تتوافق مع معايير التسمية وعينات البيانات والمعايير والتقاليد، مثل تلك التي طوّرها اتحاد Speecon (واجهات مدفوعة بالكلام لاجهزة المستهلكين). سمحت هذه المعايير لمطوري التكنولوجيا الأساسية بمقارنة أدائهم على هياكل بيانات مشتركة ودعمت التطور السريع للذكاء الاصطناعي.

然而، فإن التوسع الشامل لاستخدامات الذكاء الاصطناعي في السنوات الأخيرة جلب معه الاعتراف بأن النماذج الأساسية للذكاء الاصطناعي التي تم بناؤها باستخدام هذه البيانات لا تعمل بشكل كافٍ على أنواع بيانات أكثر تخصصًا دون تعديل إضافي. بالإضافة إلى ذلك، بعد أن تم تطويرها على بيانات كانت متعمدة ونظيفة و “معيارية”، يجب على هذه النماذج الآن أن يتم تدريبها أو تحديثها لتفهم و الاستجابة لجميع تنوع المدخلات البشرية: جميع اللهجات، جميع الميزات، جميع الأعراق، جميع الجنسين، وجميع أبعاد الاختلاف البشري الأخرى.

هل يمكنك مناقشة أهمية بيانات غير متحيزة في تعلم الآلة؟

ستعكس نماذج تعلم الآلة، سواء كانت خاضعة للإشراف أو غير خاضعة للإشراف أو تعلم التعزيز، التحيزات الموجودة في البيانات التي يتم تدريبها عليها. يقدم أليسا سيمبسون روتشويرجر وويلسون بانج عدة أمثلة ممتازة لهذه القضية في كتابهم الأخير، الذكاء الاصطناعي في العالم الحقيقي. إذا كان هناك قلة في بيانات التدريب لقطاع من السكان، فإن نموذج الذكاء الاصطناعي سيكون أقل دقة لذلك القطاع.

في حالة أخرى شائعة، قد تكون تمثيل السكان كافياً، ولكن إذا كانت بيانات التدريب تحتوي على علاقات بين نقاط البيانات التي تعكس ظروفًا حقيقية ولكن غير مرغوب فيها في العالم (مثل معدل توظيف منخفض للنساء، أو معدل سجن أعلى للسود)، يمكن للتطبيقات الناتجة عن الذكاء الاصطناعي أن تعزز و تعزز هذه الظروف.

يمكن أن تؤدي العلاقات الموجودة في اللغة بشكل عام إلى تحيزات في تطبيقات معالجة اللغة الطبيعية، التي تعتمد على علاقات إحصائية تسمى تعبئة الكلمات. إذا كانت “هي” و “ممرضة” أكثر تواترًا في بيانات التدريب المحددة من “هم” أو “هو” و “ممرضة”، فإن التطبيق الناتج سوف يستخدم “هي” عند الاضطرار إلى اختيار ضمير مفرد للاشارة إلى ممرضة. لمعالجة هذه القضية المحددة، قام الباحثون مؤخرًا بتطوير نسخة محايدة بين الجنسين من خوارزمية تعبئة الكلمات الشائعة، GN-GloVe.

في التطبيقات الحساسة، يمكن أن يكون للقضايا المتعلقة بالتحيز تأثير مدمر على المستخدمين ويمكن أن يلغي الاستثمار التجاري. الخبر السار هو أن هناك، بالإضافة إلى تطوير مجموعات بيانات جديدة وأكثر شفافية وشمولية، عددًا متزايدًا من تطبيقات العلوم البيانية التي يتم تطويرها للتحقق من وجود التحيز في مجموعات بيانات التدريب والتطبيقات الذكية الحالية.

أطلقت Appen مؤخرًا مجموعات بيانات متنوعة جديدة لمنشآت معالجة اللغة الطبيعية. هل يمكنك مشاركة بعض التفاصيل حول كيفية تمكين هذه المجموعات من بيانات المستخدمين للحصول على نفس الخبرة بغض النظر عن تنوع اللغة أو اللهجة أو العرق أو الجنس؟

نظرًا للأسباب المذكورة أعلاه، هناك حاجة إلى مجموعات بيانات لتصحيح التحيزات الحالية في أنظمة الإنتاج الذكية، بالإضافة إلى مجموعات بيانات أكثر شمولية لتدريب الأنظمة المستقبلية. ستدعم مجموعات بيانات Appen التي提ها تصحيح التحيزات المتعلقة بالعرق واللهجات المرتبطة به (مثل اللهجة الأفроأمريكية). ستوفّر بيانات إضافية لتعزيز تمثيل هذا السكان في نماذج اللغة الذكية.

يتمثل العرق في ظهوره كبُعد ديموغرافي حاسم للتسمية الصريحة في بيانات الذكاء الاصطناعي. يُشير اللغويون إلى أنواع اللغة المرتبطة بالعرق إلى “اللغات العرقية”. يُدرك الآن مزودو بيانات الذكاء الاصطناعي مثل Appen أنهم لا يمكنهم ضمان أداء الأنظمة الناتجة بشكل جيد لهذه السكان إلا إذا تم تمثيلهم صراحة في مجموعات بيانات التدريب للذكاء الاصطناعي.

أداء متساوٍ يعني أن النظام يعترف بدقة متساوية لكلمات المستخدم و نیاته (معناه، أو الإجراءات التي يريد إنجازها) و في بعض الحالات، مشاعره؛ وأنه يستجيب بطرق ت满ي احتياجات المستخدم بشكل متساوٍ، ولا ينتج تأثيرًا سلبيًا أكبر على سكان معين من المستخدمين، إما عمليًا أو نفسيًا.

منذ فترة طويلة، كان النهج الشائع لجمع البيانات يركز على العينات الجغرافية واللهجوية الممثلة في قواعد البيانات – مفترضًا أن هذا سيضمن أن التكنولوجيا سوف تعمم على مجتمع المتحدثين باللغة بأكمله. ومع ذلك، أظهر الأداء الأقل недавنًا لمتكنولوجيا اللغة التي تم توثيقه لمتحدثي اللهجة الأفроأمريكية أن هذا ليس كذلك. يحتاج السكان الذين يتنوعون في العرق والجنس واللهجة، من بين أبعاد أخرى، إلى أن يتم دمجهم بشكل استباقي في مجموعات بيانات التدريب لضمان أن أصواتهم تسمع و تفهمها منتجات وخدمات الذكاء الاصطناعي. مجموعات بيانات Appen المتنوعة تلبي هذه الحاجة.

خارج نطاق الذكاء الاصطناعي، أنت أيضًا شاعرة مع العديد من القصائد الفائزة بالجوائز المختلفة. ما هي وجهات نظرك حول الذكاء الاصطناعي في المستقبل الذي يظهر هذا النوع من الإبداع، بما في ذلك كتابة الشعر؟

هذا سؤال مثير للاهتمام. الشعر والفنون الإبداعية الأخرى تستخدم جميع الموارد البشرية من الذاكرة والتصور والإحساس والعاطفة، بالإضافة إلى هياكل اللغة والصورة، لإنتاج رؤى تتوافق مع القضايا المعاصرة. كتبت إميلي ديكينسون، “إذا قرأت كتابًا و جعله جسدي باردًا لدرجة أن لا نار يمكن أن تدفئه، أعرف أن هذا هو الشعر. إذا شعرت جسديًا كما لو أن الجزء العلوي من رأسي تم أخذه، أعرف أن هذا هو الشعر”. يجب أن يكون هناك عنصر من التعرف الحسي أو العاطفي، ولكن أيضًا مفاجأة حقيقية.

النماذج المتقدمة للذكاء الاصطناعي مثل GPT-3 تُحاكي إحصائيًا احتمال ظهور الكلمات معًا في مختلف الأنواع، بما في ذلك الشعر. هذا يعني أنها يمكن أن تنتج شيئًا نتعرف عليه على أنه “لغة شعرية”، مثل استخدام الكلام المرتفع، والقافية، والتركيبات غير المتوقعة أو السريالية للكلمات. ومع ذلك، تفتقر هذه النماذج التوليدية للغة إلى معظم الموارد المذكورة أعلاه، والتي هي ضرورية لإنتاج عمل فني يُظهر ما يعني أن يكون إنسانًا في الوقت الحالي.

ما أجد قويًا حول الذكاء الاصطناعي في السياق الإبداعي هو إمكانيته لإنتاج رؤى جديدة تمامًا – رؤى تختلف في النوع وتبعد عن متناول أي عقل بشري، حتى أكثر العقول متعددة الجنسيات أو القراءة العميقة والتجارب الإنسانية. بمجرد أن يحصل الذكاء الاصطناعي على وصول مستمر إلى بيانات حسية وتصورية لتحليلها عبر مجموعة واسعة من المجالات البشرية (البصرية واللمسية والسمعية والفسيولوجية والعاطفية)، لا يوجد علم بما سنتعلمه عن أنفسنا وعالمنا. قد تنتج قدرات الذكاء الاصطناعي التحليلية أرضًا غنية جديدة لاستكشاف إبداعي بشري.

لقد قمت بمهنة رائعة حتى الآن، ما هو رأيك في ما يمنع المزيد من النساء من الانضمام إلى مجالات العلوم والتكنولوجيا والهندسة والرياضيات (STEM) و特别 الذكاء الاصطناعي؟

يُعد نقص النماذج إلى الأعلى عاملاً قويًا (ودائرة مفرغة). هناك صعوبة حقيقية – ثقافية وsociale وعمليًا – في اختراق المجالات التي لا تملك فيها النساء ولا أشخاص من أجناس متنوعة وجودًا متجذّرًا، حيث يفتقر الاحترام لما يمكن أن نساهم به غالبًا إلى الوجود. أظهرت لي تجربتي كقائدة مرة بعد مرة كيف يمكن أن تكون الفرق المتينة والمبتكرة والناجحة عندما تكون شاملة لخبرات وتوجهات متنوعة. يحتاج القادة إلى أن يكونوا مغامرين في عمليات التوظيف ويشعرون بالثقة في قدرتهم على التعامل مع التحديات لفكرتهم التي تطرحها المنظورات المتنوعة، مع العلم أن هذه الشجاعة قد أظهرت أيضًا أنها ترتبط بقوة مع النجاح المالي والشركاتي.

هل هناك أي شيء آخر تود مشاركته حول Appen أو الذكاء الاصطناعي بشكل عام؟

تمتلك مزودو البيانات مثل Appen إمكانية قوية للتأثير على نتائج الذكاء الاصطناعي من أجل الأفضل من خلال توفير بيانات التدريب الشاملة.

然而، سوف يتطلب تحقيق هدف الذكاء الاصطناعي الشامل مشاركة الجميع. يجب على مشتري البيانات أيضًا أن يدركوا مسؤوليتهم عن الطلب صراحة – والدفع – للبيانات الشاملة التي ستضمن الأداء الأمثل لأنظمتهم لجميع المستخدمين في العالم الحقيقي. ويجب على أولئك من المجتمعات المتنوعة الذين يقدمون بياناتهم لتطوير الذكاء الاصطناعي أن يتمكنوا من الثقة في الاستخدامات التي سيتم وضعها. سوف يتطلب بناء هذه الثقة ممارسات قوية من الشفافية والأخلاق من قبل جميع من يتعاملون مع البيانات الحساسة.

شكرًا على المقابلة الرائعة، استمتعت بتعلم المزيد عن وجهات نظرك حول الذكاء الاصطناعي واللغويات. يمكن للقارئين الذين يرغبون في تعلم المزيد زيارة Appen.

أنطوان هو قائد رؤى ومؤسس شريك في Unite.AI، مدفوعًا بشغف لا يتزعزع لتشكيل وتعزيز مستقبل الذكاء الاصطناعي والروبوتات. رجل أعمال متسلسل، يعتقد أن الذكاء الاصطناعي سيكون مدمرًا للمجتمع مثل الكهرباء، وغالبًا ما يُقبض عليه وهو يثرثر عن إمكانات التكنولوجيات المدمرة و AGI.

كما أنه مستقبلي، فهو مخصص لاستكشاف كيف سيشكل هذه الابتكارات العالم. بالإضافة إلى ذلك، فهو مؤسس Securities.io، وهي منصة تركز على الاستثمار في التكنولوجيات المتقدمة التي تعيد تعريف المستقبل وتهيئ القطاعات بأكملها.