مقابلات
Amy Steier، عالمة علوم الحاسوب الرئسية في Gretel.ai – سلسلة المقابلات

Amy Steier هي عالمة علوم الحاسوب الرئسية في Gretel.ai، منصة الهندسة الخصوصية الأكثر تقدمًا في العالم. تجعل Gretel من السهل دمج الخصوصية بالتصميم في نسيج التكنولوجيا القائمة على البيانات. مكتباتها المفتوحة المصدر القائمة على الذكاء الاصطناعي مصممة لتحويل وتشفير ومحاكاة المعلومات الحساسة.
Amy هي عالمة علوم الحاسوب والبيانات ذات إنجازات عالية مع أكثر من 20 عامًا من الخبرة. شغفها هو البيانات الكبيرة واكتشاف الذكاء الخفي داخلها باستخدام تقنيات من تعلم الآلة وتنقيب البيانات والذكاء الاصطناعي والإحصاء. وهي ماهرة للغاية في النمذجة التنبؤية والتصنيف والتشكيل وكشف الشذوذ وتصور البيانات وطرق التجميع واسترجاع المعلومات وتناليفات الأمان السيبراني و NLP وطرق التوصية وتحليل سلوك المستخدم.
ما الذي جذبك في البداية لمتابعة مسيرة في علوم الحاسوب وتعلم الآلة؟
حبي الصريح وغير المخفي والدائم للبيانات. القوة والغموض والتشويق والإمكانات التي تتمتع بها البيانات دائمًا ما كانت تحيرني. علوم الحاسوب وتعلم الآلة هما أدوات لاستغلال تلك الإمكانات. كما أنه من الممتع للغاية العمل في مجال يتحرك بسرعة كبيرة. أحب التقاطع بين البحث والمنتج. من المرضي للغاية أخذ أفكار من الحافة المتقدمة، ودفعها قليلًا، ثم تحويلها لتناسب احتياجات المنتج الحالية.
للمقاطعين الذين لا يعرفون، هل يمكنك شرح ما هي البيانات الاصطناعية؟
البيانات الاصطناعية هي بيانات تبدو وتتصرف مثل البيانات الأصلية ولكنها مختلفة بما يكفي لتلبية بعض الحالات. أكثر حالة استخدام شائعة هي الحاجة لحماية خصوصية المعلومات في البيانات الأصلية. حالة استخدام أخرى هي الحاجة إلى إنشاء بيانات إضافية لزيادة حجم مجموعة البيانات الأصلية. حالة استخدام أخرى هي مساعدة في解决 عدم التوازن في الفئات أو ربما الانحياز الديموغرافي في مجموعة البيانات الأصلية.
البيانات الاصطناعية تسمح لنا بمواصلة تطوير منتجات وحلول جديدة ومبتكرة عندما لا تكون البيانات اللازمة لذلك موجودة أو متاحة.
كيف تعمل منصة Gretel على إنشاء بيانات اصطناعية عبر واجهات برمجة التطبيقات؟
واجهات برمجة التطبيقات للهندسة الخصوصية في Gretel تسمح لك باستيراد البيانات إلى Gretel واستكشاف البيانات التي نستطيع استخراجها. هذه هي نفس واجهات برمجة التطبيقات المستخدمة بواسطة Console. من خلال عرض واجهات برمجة التطبيقات، من خلال واجهة سهلة الاستخدام، نأمل في تمكين المطورين وعلماء البيانات من بناء تدفقات العمل الخاصة بهم حول Gretel.
في حين أن Console تجعل من إنشاء بيانات اصطناعية أمرًا سهلًا للغاية، واجهات برمجة التطبيقات تمكنك من دمج إنشاء البيانات الاصطناعية في تدفق العمل الخاص بك. أحب استخدام واجهات برمجة التطبيقات لأنها تمكنني من تخصيص إنشاء البيانات الاصطناعية لحالة استخدام معينة للغاية.
هل يمكنك مناقشة بعض الأدوات التي تقدمها Gretel لمساعدة في تقييم جودة البيانات الاصطناعية؟
بعد إنشاء البيانات الاصطناعية، ستوليد Gretel تقريرًا اصطناعيًا. في هذا التقرير يمكنك رؤية درجة جودة البيانات الاصطناعية (SQS)، بالإضافة إلى تصنيف مستوى حماية الخصوصية (PPL).
درجة SQS هي تقدير لمدى جودة البيانات الاصطناعية التي تم إنشاؤها في الحفاظ على نفس الخصائص الإحصائية لمجموعة البيانات الأصلية. في هذا المعنى، يمكن اعتبار درجة SQS كدرجة فائدة أو درجة ثقة فيما إذا كانت الاستنتاجات العلمية المستخلصة من مجموعة البيانات الاصطناعية ستكون هي نفسها إذا كان أحدًا يستخدم مجموعة البيانات الأصلية بدلاً من ذلك.
تُحسب درجة جودة البيانات الاصطناعية من خلال الجمع بين مقاييس الجودة الفردية: استقرار توزيع الحقول وثبات ارتباط الحقول وثبات البنية العميقة.
استقرار توزيع الحقول هو مقياس لمدى جودة البيانات الاصطناعية في الحفاظ على نفس توزيعات الحقول كما هي في البيانات الأصلية. ثبات ارتباط الحقول هو مقياس لمدى جيدة البيانات الاصطناعية في الحفاظ على علاقات الحقول كما هي في البيانات الأصلية. وأخيرًا، ي đo ثبات البنية العميقة يقيس الصحة الإحصائية للتوزيعات والارتباطات متعددة الحقول. لتقدير ذلك، تقارن Gretel تحليل المكونات الرئيسية (PCA) الذي يتم حسابه أولاً على البيانات الأصلية، ثم مرة أخرى على البيانات الاصطناعية.
كيف تعمل مرشحات الخصوصية في Gretel؟
مرشحات الخصوصية في Gretel كانت نتيجة بحث كبير حول طبيعة الهجمات المعادية على البيانات الاصطناعية. تمنع مرشحات الخصوصية إنشاء بيانات اصطناعية مع نقاط ضعف شائعة تستغلها الهجمات المعادية. لدينا مرشحين للخصوصية، الأول هو مرشح التشابه، والثاني هو مرشح الشذوذ. يمنع مرشح التشابه إنشاء سجلات اصطناعية شديدة الشبه بسجل تدريبي. هذه هي الأهداف الرئيسية للهجمات المعادية التي تسعى إلى الحصول على رؤى حول البيانات الأصلية. المرشح الثاني هو مرشح الشذوذ. هذا يمنع إنشاء سجلات اصطناعية التي سيتم اعتبارها شاذة في الفضاء المحدد بواسطة البيانات التدريبية. يمكن استغلال السجلات الشاذة التي يتم الكشف عنها في مجموعة بيانات اصطناعية بواسطة هجمات الاستدلال بالعضوية والاستدلال السمة وتنوع هجمات معادية أخرى. إنها مخاطر خصوصية خطيرة.
كيف يمكن للبيانات الاصطناعية مساعدة في تقليل انحياز الذكاء الاصطناعي؟
الأسلوب الأكثر شيوعًا هو معالجة الانحياز التمثيلي للبيانات التي تدخل إلى نظام الذكاء الاصطناعي. على سبيل المثال، إذا كان هناك عدم توازن قوي في بياناتك، أو ربما يوجد انحياز ديموغرافي في بياناتك، تقدم Gretel أدوات لمساعدتك في قياس عدم التوازن ثم حله في البيانات الاصطناعية. من خلال إزالة الانحياز في البيانات، غالبًا ما تزيل الانحياز في نظام الذكاء الاصطناعي المبني على البيانات.
من الواضح أنك تستمتع بالتعلم عن تقنيات تعلم الآلة الجديدة، كيف تحافظ على مواكبة جميع التغييرات؟
اقرأ، اقرأ، واقرأ بعض المزيد، هه! أحب بدء يومي بقراءة عن تقنيات تعلم الآلة الجديدة. Medium يعرفني جيدًا. أحب قراءة المقالات في Towards Data Science وAnalytics Vidhya ورسائل إخبارية مثل The Sequence. Facebook AI وGoogle AI وOpenMined جميعها لديها مدونات رائعة. هناك العديد من المؤتمرات الجيدة لمتابعتها مثل NeurIPS وICML وICLR وAISTATS.
أنا أيضًا أحب الأدوات التي تتبع مسارات الاقتباس وتساعدك على العثور على أوراق مشابهة لأولئك الذين تحبهم والتي تتعرف على اهتماماتك الخاصة وتظل دائمًا تراقب في الخلفية لأي ورقة قد تهمك. Zeta Alpha هي أداة واحدة أستخدمها كثيرًا.
أخيرًا، لا يمكنك تقليل الفائدة من وجود زملاء ذوي اهتمامات مماثلة. في Gretel، يتبع فريق تعلم الآلة الأوراق البحثية ذات الصلة بالمجالات التي نستكشفها وغالبًا ما يجتمعون لمناقشة أوراق مثيرة للاهتمام.
ما رؤيتك لمستقبل تعلم الآلة؟
الوصول السهل إلى البيانات سيؤدي إلى حقبة من الابتكار في تعلم الآلة والتي بدورها تعزز الابتكار في مجموعة واسعة من المجالات مثل الرعاية الصحية والتمويل والتصنيع والعلوم البيولوجية. تاريخيًا، يمكن أن يُعزى العديد من التقدمات الهامة في تعلم الآلة إلى حجم كبير من البيانات الغنية. ومع ذلك، تاريخيًا، تم حظر الكثير من الأبحاث بسبب عدم القدرة على الوصول إلى البيانات أو مشاركتها بسبب مخاوف الخصوصية. مع أدوات مثل Gretel التي تزيل هذا الحاجز، سيتم تمكين الوصول إلى البيانات. سيستفيد مجتمع تعلم الآلة بأكمله من الوصول إلى مجموعات بيانات كبيرة وغنية، بدلاً من شركات قليلة من النخبة.
هل هناك أي شيء آخر تود مشاركته حول Gretel؟
إذا كنت تحب البيانات، فستحب Gretel (لذلك أنا أحب Gretel!). كان الوصول إلى البيانات هو الشوكة في جنب كل عالم بيانات أعرفه. في Gretel، نتحلى بفخر كبير بإنشاء واجهة وواجهات برمجة تطبيقات تجعل من إنشاء بيانات خاصة ومشاركتها أمرًا بسيطًا قدر الإمكان. نؤمن بصدق أن البيانات أكثر قيمة عندما يتم مشاركتها.
شكرًا على المقابلة الرائعة ومشاركتك رؤيتك، القراء الذين يرغبون في معرفة المزيد يجب أن يزوروا Gretel.ai.












