مقابلات
Xavier Conort، المؤسس المشارك و Chief Product Officer في FeatureByte – سلسلة المقابلات

Xavier Conort هو عالم بيانات رؤى مع أكثر من 25 سنة من الخبرة في مجال البيانات. بدأ مسيرته المهنية كأكتواري في صناعة التأمين قبل التحول إلى علم البيانات. وهو منافس كاجل رائد وكان رئيس علماء البيانات في DataRobot قبل أن يصبح مؤسسًا مشاركًا لشركة FeatureByte.
FeatureByte تعمل على مهمة لتوسيع نطاق الذكاء الاصطناعي في الشركات، من خلال تبسيط وتصنيع بيانات الذكاء الاصطناعي بشكل جذري. منصة هندسة الميزات وإدارتها تتيح للعلماء البيانات إنشاء ومشاركة الميزات المتقدمة وخطوط أنابيب البيانات الجاهزة للانتاج في دقائق – بدلاً من الأسابيع أو الأشهر.
بدأت مسيرتك المهنية كأكتواري في صناعة التأمين قبل التحول إلى علم البيانات، ما الذي تسبب في هذا التحول؟
كان هناك لحظة حاسمة هي الفوز في GE Flight Quest، وهو مسابقة نظمتها GE مع جائزة تبلغ 250 ألف دولار، حيث كان على المشاركين توقع تأخيرات الرحلات الجوية المحلية في الولايات المتحدة. أدين جزءًا من هذا النجاح إلى ممارسة قيمة في التأمين: نمذجة المرحلتين. هذا النهج يساعد في التحكم في الانحياز في الميزات التي تفتقر إلى التمثيل الكافي في بيانات التدريب المتاحة. إلى جانب الانتصارات الأخرى على Kaggle، أقنعني هذا الإنجاز بأن خلفيتي التأمينية قدمت لي ميزة تنافسية في مجال علم البيانات.
خلال رحلتي على Kaggle، también كان لي شرف الاتصال ب科学اء بيانات آخرين متحمسين، بما في ذلك Jeremy Achin و Tom De Godoy، الذين أصبحوا فيما بعد مؤسسين لشركة DataRobot. كنا نمتلك خلفية مشتركة في التأمين ونجاحات ملحوظة على Kaggle. عندما أطلقوا فيما بعد DataRobot، شركة متخصصة في AutoML، دعوني للانضمام إليهم كchief بيانات علمي. كان رؤيتهم لدمج أفضل الممارسات من صناعة التأمين مع قوة التعلم الآلي مثيرة للاهتمام، وقدمت لي فرصة لإنشاء شيء جديد ومؤثر.
في DataRobot، كنت مسؤولاً عن بناء خارطة طريق العلوم البيانية. ما نوع التحديات البيانية التي واجهتها؟
كان التحدي الأكبر الذي واجهناه هو جودة البيانات المختلفة التي تم توفيرها كمدخلات لحل AutoML. غالبًا ما نتج عن هذه القضية تعاونًا استهلاكًا للوقت بين فريقنا والعملاء أو نتائج مخيبة في الإنتاج إذا لم يتم معالجتها بشكل مناسب. نشأت مشاكل الجودة من مصادر متعددة التي تتطلب انتباهنا.
كان أحد التحديات الرئيسية ينتج عن استخدام أدوات الذكاء التجاري لتحضير وإدارة البيانات. بينما تعتبر هذه الأدوات قيمة لإنشاء رؤى، فإنها تفتقر إلى القدرات اللازمة لضمان صحة البيانات في وقت معين لتحضير بيانات التعلم الآلي. ونتيجة لذلك، يمكن أن يحدث تسرب في بيانات التدريب، مما يؤدي إلى تعلم زائد واداء غير دقيق للنموذج.
كانت سوء الفهم بين علماء البيانات ومهندسي البيانات تحديًا آخر ảnh hưởng على دقة النماذج خلال الإنتاج. يمكن أن تؤثر عدم الاتساق بين مرحلتي التدريب والإنتاج، الناتجة عن عدم التزام بين هذه الفرق، على أداء النموذج في بيئة العالم الحقيقي.
ما هي بعض النتائج الرئيسية من هذه التجربة؟
أبرزت تجربتي في DataRobot أهمية تحضير البيانات في التعلم الآلي. من خلال معالجة تحديات توليد بيانات تدريب النموذج، مثل صحة البيانات في الوقت المناسب، وفجوات الخبرة، والمعرفة بال 领域، وقيود الأدوات، وال قابليّة للتوسع، يمكننا تعزيز دقة وموثوقية نماذج التعلم الآلي. توصلت إلى أن تسهيل عملية تحضير البيانات ودمج التكنولوجيا الجديدة سيكون حاسمًا في解 锁 كامل إمكانات الذكاء الاصطناعي وتحقيق وعده.
سمعنا من مؤسسك المشارك Razi Raziuddin عن قصة ولادة FeatureByte، هل يمكننا الحصول على 版本ك من الأحداث؟
عندما ناقشت ملاحظاتي وآرائي مع مؤسسي المشارك Razi Raziuddin، أدركنا أننا كنا نمتلك فهمًا مشتركًا للتحديات في تحضير البيانات للتعلم الآلي. خلال مناقشاتنا، شاركت مع Razi رؤيتي حول التطورات الحديثة في مجتمع MLOps. يمكنني ملاحظة ظهور مخازن الميزات ومنصات الميزات التي وضعتها شركات التكنولوجيا الأولى لخفض تأخير خدمة الميزات، وتشجيع إعادة استخدام الميزات، أو تبسيط مادة البيانات في بيانات التدريب مع ضمان الاتساق بين التدريب والخدمة. ومع ذلك، كان من الواضح لنا أن هناك masih فجوة في تلبية احتياجات علماء البيانات. شارك Razi معي رؤيته حول كيفية ثورة الحزمة الحديثة للبيانات في تحليلات الأعمال، ولكنها لا يتم استغلالها بالكامل لخدمة الذكاء الاصطناعي.
أصبح من الواضح لكلا من Razi وأنا أننا لدينا فرصة لتحقيق تأثير كبير من خلال تبسيط عملية هندسة الميزات بشكل جذري وتزويد علماء البيانات ومهندسي التعلم الآلي بالأدوات والواجهة المستخدمة المناسبة لاختبار الميزات وتقديمها بسهولة.
ما هي بعض أكبر التحديات التي واجهتها في الانتقال من عالم بيانات إلى رائد أعمال؟
تطلب مني الانتقال من عالم بيانات إلى رائد أعمال تغييرًا من منظور تقني إلى منظور أوسع موجه للأعمال. بينما كنت أمتلك أساسًا قويًا في فهم النقاط العريضة، وإنشاء خارطة طريق، وتنفيذ الخطط، وإنشاء فريق، وإدارة الميزانيات، وجدت أن صياغة الرسالة المناسبة التي تتوافق حقًا مع جمهورنا المستهدف كانت واحدة من أكبر عقباتي.
كعالم بيانات، كان تركيزي الرئيسي دائمًا على تحليل البيانات وتفسيرها لاستخراج رؤى قيمة. ومع ذلك، كرائد أعمال، كنت بحاجة إلى توجيه تفكيري نحو السوق والعملاء والعمل التجاري بشكل عام.
لحسن الحظ، كنت قادرًا على التغلب على هذا التحدي من خلال الاستفادة من خبرة شخص مثل مؤسسي المشارك Razi.
سمعنا من Razi عن سبب صعوبة هندسة الميزات، ما هو رأيك في ما يجعلها صعبة؟
توجد تحديان رئيسيان ل هندسة الميزات:
- تحويل الأعمدة الحالية: يتضمن تحويل البيانات إلى تنسيق مناسب للخوارزميات التعلم الآلي. يتم استخدام تقنيات مثل التشفير الحoti، ومقياس الميزة، والأساليب المتقدمة مثل تحويلات النص والصورة. يمكن أن يزيد إنشاء ميزات جديدة من الميزات الحالية، مثل ميزات التفاعل، من أداء النموذج بشكل كبير. توفر المكتبات الشهيرة مثل scikit-learn و Hugging Face دعمًا واسعًا لهذا النوع من هندسة الميزات. تهدف حلول AutoML إلى تبسيط العملية أيضًا.
- استخراج أعمدة جديدة من البيانات التاريخية: البيانات التاريخية حاسمة في مجالات مثل أنظمة التوصية، التسويق، وكشف الاحتيال، وتحديد الأسعار التأمينية، وتقييم الائتمان، وتحليل الطلب، ومعالجة بيانات الحس. استخراج أعمدة معلوماتية من هذه البيانات يعد تحديًا. تتضمن الأمثلة على ذلك الوقت منذ الحدث الأخير، والتجميع على أحداث最近، والتعيينات من تسلسل الأحداث. يتطلب هذا النوع من هندسة الميزات خبرة في المجال، وتجربة، ومهارات برمجة قوية، ومعرفة عميقة بعلم البيانات. يجب أيضًا مراعاة عوامل مثل تسرب الوقت، ومعالجة مجموعات البيانات الكبيرة، وتنفيذ الكود الفعال.
بشكل عام، تتطلب هندسة الميزات خبرة، وتجربة، وبناء خطوط أنابيب بيانات معقدة ومتخصصة في غياب الأدوات المصممة خصيصًا لها.
يمكنك مشاركة كيف تتيح FeatureByte للعلماء البيانات بتبسيط خطوط أنابيب الميزات؟
تتيح FeatureByte للعلماء البيانات بتبسيط عملية هندسة الميزات بالكامل. مع واجهة برمجة تطبيقات Python البسيطة، تمكن من إنشاء الميزات بسرعة واستخراجها من جداول الأحداث والعناصر الكبيرة. يتم التعامل مع الحسابات بفعالية من خلال الاستفادة من قابليّة توسيع منصات البيانات مثل Snowflake، DataBricks و Spark. تسهل المذكرات التجربة، بينما توفر مشاركة الميزات واعادة استخدامها الوقت. يضمن التدقيق دقة الميزات، في حين يزيل النشر الفوري معالجة خطوط الأنابيب.
بالإضافة إلى القدرات التي تقدمها مكتبتنا المفتوحة المصدر، تقدم حلولنا المؤسسية إطارًا شاملاً لإدارة وتحديد مسار عمليات الذكاء الاصطناعي في النطاق، بما في ذلك تدفقات الحوكمة وواجهة مستخدم للمكتبة الميزات.
ما هو رؤيتك لمستقبل FeatureByte؟
تركز رؤيتنا النهائية لمستقبل FeatureByte على ثورة مجال علم البيانات والتعلم الآلي من خلال تمكين المستخدمين من إطلاق إمكانياتهم الإبداعية الكاملة واستخراج قيمة غير مسبوقة من أصول البيانات الخاصة بهم.
نحن متحمسون بشكل خاص لتقدم سريع في الذكاء الاصطناعي التوليدي والتحويلات، الذي يفتح عالمًا من الإمكانيات لمستخدمينا. بالإضافة إلى ذلك، نحن ملتزمون بتحقيق الديمقراطية في هندسة الميزات. يمكن للذكاء الاصطناعي التوليدي أن يخفض حاجز الدخول إلى هندسة الميزات الإبداعية، مما يجعلها أكثر سهولة للوصول إلى جمهور أوسع.
باختصار، تدور رؤيتنا لمستقبل FeatureByte حول الابتكار المستمر، واستغلال قوة الذكاء الاصطناعي التوليدي، وديمقراطية هندسة الميزات. نهدف إلى أن نصبح المنصة المفضلة التي تمكن المحترفين من البيانات من تحويل البيانات الخام إلى مدخلات قابلة للعمل للتعلم الآلي، مما يدفع التطورات والتقدم في جميع القطاعات.
هل لديك أي نصائح للرواد الأعمال الشباب في مجال الذكاء الاصطناعي؟
حدد مساحة عملك، ابق متocused، وترحيب بالجديد.
من خلال تحديد الفضاء الذي تريد أن تملكه، يمكنك التميز عن نفسك وتأسيس وجود قوي في ذلك المجال. ابحث في السوق، وفهم احتياجات وألم العملاء المحتملين، واسعَ لتقديم حل فريد يعالج تلك التحديات بشكل فعال.
حدد رؤيتك طويلة الأمد، وحدد أهداف قصيرة الأمد واضحة تتوافق مع تلك الرؤية. ركز على بناء أساس قوي وتقديم قيمة في مساحة عملك المحددة.
أخيرًا، بينما من المهم البقاء مركزًا، لا تتردد في تبني الجديد واستكشاف أفكار جديدة داخل مساحة عملك المحددة. يتطور مجال الذكاء الاصطناعي باستمرار، ويمكن أن تفتح المناهج المبتكرة أبوابًا جديدة.
شكرًا على المقابلة الرائعة، القراء الذين يرغبون في معرفة المزيد يجب أن يزوروا FeatureByte.












