مقابلات
ستيفن هيلون، نائب الرئيس الأول لبيانات وذكاء اصطناعي في شركة Astronomer – سلسلة مقابلات

ستيفن هيلون هو نائب الرئيس الأول لبيانات وذكاء اصطناعي في Astronomer، حيث يعتمد على خلفيته الأكاديمية الواسعة في الرياضيات البحثية وخبرته التي تزيد على 15 عامًا في تطوير منصات التعلم الآلي في وادي السيليكون. في شركة Astronomer، يترأس إنشاء ميزات Apache Airflow المصممة خصيصًا للفرق التي تعمل بالتعلم الآلي وذكاء اصطناعي ويشرع في إدارة فريق العلوم البيانية الداخلي. تحت قيادته، قامت شركة Astronomer بتطوير منصة التوجيه البيانية الحديثة بشكل كبير، مما رفع من قدرات خطوط البيانات بشكل كبير لتدعم مجموعة متنوعة من مصادر البيانات والمهام من خلال التعلم الآلي.
يمكنك مشاركة بعض المعلومات حول رحلتك في علوم البيانات وذكاء اصطناعي، وكيف شكلت نهجك لقيادة فرق الهندسة والتحليلات؟
لدي خلفية في الرياضيات البحثية في جامعة كاليفورنيا، بيركلي، قبل أن أنتقل عبر الخليج إلى وادي السيليكون وعملت كمهندس في سلسلة من الشركات الناشئة الناجحة. كنت سعيدًا للتخلي عن السياسة والبيروقراطية في الأكاديمية، لكنني وجدت في غضون بضع سنوات أنني افتقدت الرياضيات. لذلك انتقلت إلى تطوير منصات للتعلم الآلي والتحليلات، وهذا ما فعلته منذ ذلك الحين.
تدريبي في الرياضيات النقية أدى إلى تفضيلي لما يسميه علماء البيانات “الوضوح” — الأداة المناسبة للعمل، ولا شيء أكثر. لأن الرياضيين يفضلون الحلول الأنعم على الآلات المعقدة، لقد حاولت دائمًا التأكيد على البساطة عند تطبيق التعلم الآلي على مشاكل الأعمال. التعلم العميق رائع للتطبيقات某些 التطبيقات — النماذج اللغوية الكبيرة رائعة لتلخيص الوثائق، على سبيل المثال — ولكن في بعض الأحيان يكون نموذج الانحدار البسيط أكثر ملاءمة وأسهل في الشرح.
لقد كان من المثير للاهتمام أن نرى دور علماء البيانات ومهندسي البرمجيات يتغير في هذه السنوات العشرين الماضية منذ أن أصبح التعلم الآلي شائعًا. بعد ارتداء كلا القبعتين، أنا مدرك جيدًا لأهمية دورة حياة تطوير البرمجيات (特别 التutomatisation والاختبار) كما يتم تطبيقها على مشاريع التعلم الآلي.
ما هي أكبر التحديات في نقل ومعالجة وتحليل البيانات غير المنظمة للتعلم الآلي والنماذج اللغوية الكبيرة (LLMs)؟
في عالم التعلم الآلي التوليدي، بياناتك هي أهم أصولك. النماذج تتم توزيعها بشكل متزايد، لذلك تمييزك هو كل المعرفة المؤسسية المكتسبة التي تم تحريرها في مجموعات بياناتك المملوكة والمنظمة.
توفير البيانات الصحيحة في الوقت الصحيح يضع مطالب عالية على خطوط البيانات — وهذا ينطبق على البيانات غير المنظمة مثل البيانات المنظمة، أو ربما أكثر. غالبًا ما تكون تستورد البيانات من العديد من المصادر المختلفة، في العديد من الصيغ المختلفة. تحتاج إلى الوصول إلى مجموعة متنوعة من الطرق لفتح البيانات وتحضيرها للاستخدام في استدلال النموذج أو تدريب النموذج. كما تحتاج إلى فهم أصل البيانات، ومن哪里 تنتهي لكي “تظهر عملك”.
إذا كنت تفعل ذلك مرة واحدة فقط لتدريب نموذج، فهذا لا بأس به. لا تحتاج إلى تشغيله بالضرورة. إذا كنت تستخدم النموذج يوميًا، لفهم مشاعر العملاء من المنتديات عبر الإنترنت، أو تلخيص وتوجيه الفواتير، ثم يبدو الأمر وكأنه أي خط أنابيب بيانات تشغيلية أخرى، مما يعني أنك تحتاج إلى التفكير في الموثوقية والقابلية للتكرار. أو إذا كنت تحسن النموذج بانتظام، ثم تحتاج إلى القلق بشأن مراقبة الدقة والتكلفة.
الخبر السار هو أن مهندسي البيانات طوروا منصة رائعة، Airflow، لإدارة خطوط البيانات، والتي تم تطبيقها بالفعل بنجاح على إدارة نشر النماذج ومراقبتها من قبل بعض فرق التعلم الآلي الأكثر تطورًا في العالم. لذلك قد تكون النماذج جديدة، ولكن التوجيه ليس كذلك.
يمكنك توضيح استخدام البيانات الاصطناعية لتحسين النماذج الصغيرة بدقة؟ وكيف يقارن ذلك بتدريب نماذج أكبر؟
إنه تقنية قوية. يمكنك التفكير في أفضل النماذج اللغوية الكبيرة على أنها تمثل بطريقة ما ما تعلمته عن العالم، ويمكنها نقل ذلك إلى نماذج أصغر من خلال توليد بيانات اصطناعية. النماذج اللغوية الكبيرة تحوي كمية هائلة من المعرفة التي تم تعلمها من تدريب واسع على مجموعات بيانات متنوعة. يمكن لهذه النماذج توليد بيانات اصطناعية تحوي الأنماط والهياكل والمعلومات التي تعلموها. يمكن استخدام هذه البيانات الاصطناعية لتدريب نماذج أصغر، مما يؤدي إلى نقل بعض المعرفة من النماذج الأكبر إلى النماذج الأصغر. هذا Process يسمى غالبًا “استخلاص المعرفة” ويساعد في إنشاء نماذج فعالة وأصغر تعمل جيدًا على مهام محددة. ومع البيانات الاصطناعية، يمكنك تجنب مشاكل الخصوصية، وتعبئة الفجوات في بيانات التدريب الصغيرة أو غير الكاملة.
يمكن أن يكون هذا مفيدًا لتدريب نموذج توليدي ذكاء اصطناعي أكثر تحديدًا للمجال، ويمكن أن يكون أكثر فعالية من تدريب “نموذج أكبر”، مع مستوى أكبر من التحكم.
لقد كان علماء البيانات يولّدون بيانات اصطناعية لفترة طويلة، والاستكمال موجود منذ أن ظهرت مجموعات البيانات القذرة. لكنك كنت دائمًا بحاجة إلى أن تكون حذرًا جدًا لكي لا تقدم تحيزات أو افتراضات خاطئة حول توزيع البيانات. الآن، مع أن توليد البيانات أصبح أكثر سهولة وقوة، عليك أن تكون أكثر حذرًا. يمكن أن تُضخم الأخطاء.
نقص التنوع في البيانات المولدة يمكن أن يؤدي إلى “انهيار النموذج”. يعتقد النموذج أنه يفعل جيدًا، ولكن ذلك لأنها لم ترَ الصورة الكاملة. وعلى وجه التحديد، ينبغي لفريق البيانات دائمًا أن يبحث عن نقص التنوع في بيانات التدريب.
على مستوى أساسي، سواء كنت تستخدم بيانات اصطناعية أو بيانات عضوية، فإن السلالة والجودة هي الأمور الأساسية لتدريب أو تحسين أي نموذج. كما نعرف، النماذج ليست أفضل من البيانات التي تم تدريبها عليها. في حين أن البيانات الاصطناعية يمكن أن تكون أداة رائعة لمساعدتك على تمثيل مجموعة بيانات حساسة دون الكشف عنها أو ملء الفجوات التي قد تترك من مجموعة بيانات ممثلة، عليك أن تكون لديك ورقة مسار تظهر من أين جاءت البيانات وتمكّن من إثبات مستوى جودتها.
ما هي بعض التقنيات المبتكرة التي يطبقها فريقك في شركة Astronomer لتحسين كفاءة وثبات خطوط البيانات؟
كثير منها! البنية التحتية الكاملة لمنصة Airflow وبرنامج Astro Hypervisor يدعمان التوسيع الديناميكي والمراقبة التفاعلية من خلال معايير الصحة المتقدمة. هذا يضمن استخدام الموارد بفعالية وأن الأنظمة موثوقة في أي حجم. توفر منصة Astro تنبيهات قوية مركزية مع إشعارات قابلة للتعديل يمكن إرسالها عبر قنوات مختلفة مثل Slack وPagerDuty. هذا يضمن التدخل في الوقت المناسب قبل تصاعد المشاكل.
اختبارات التحقق من صحة البيانات واختبارات الوحدات واختبارات جودة البيانات تلعب دورًا حيويًا في ضمان موثوقية ودقة وكفاءة خطوط البيانات وأخيرًا البيانات التي تعمل على تشغيل أعمالك. هذه الاختبارات تضمن أنه بينما تبني خطوط البيانات بسرعة لتلبية مواعيدك النهائية، فهي تكتشف الأخطاء بشكل فعال وتحسن أوقات التطوير وتقلل الأخطاء غير المتوقعة في الخلفية. في شركة Astronomer، قمنا ببناء أدوات مثل Astro CLI لمساعدتك على التحقق من وظيفة الكود أو تحديد مشاكل التكامل في خط أنابيب البيانات الخاص بك.
كيف ترى تطور حوكمة التعلم الآلي التوليدي، وما الإجراءات التي يجب اتخاذها لدعم إنشاء أدوات أكثر؟
الحوكمة أمر بالغ الأهمية إذا كانت تطبيقات التعلم الآلي التوليدي ستكون ناجحة. إنه كل شيء حول الشفافية والقابلية للتكرار. هل تعرف كيف حصلت على هذا النتيجة، ومن أين، ومن قبل من؟ يمنحك Airflow بنفسه بالفعل طريقة لمعرفة ما الذي تفعله خطوط البيانات الفردية. واجهة المستخدم كانت واحدة من الأسباب التي أدت إلى تبنيها السريع في البداية، وفي شركة Astronomer، قمنا بتعزيز ذلك بالرؤية عبر الفرق والتنصيب. كما نقدم لزبائننا لوحات تقارير توفر رؤى شاملة حول استخدام المنصة والأداء و 귀ند مخصص التكلفة لمعرفة القرارات. بالإضافة إلى ذلك، يتيح لنا واجهة برمجة التطبيقات Astro للفرق نشر وتنفيذ وادارة خطوط Airflow الخاصة بهم برمجيًا، مما يخفف من المخاطر المرتبطة بالعمليات اليدوية، وضمان العمليات السلسة عند الحجم عند إدارة عدة بيئات Airflow.
هذه هي الخطوات نحو مساعدة إدارة حوكمة البيانات، وأعتقد أن الشركات من جميع الأحجام تدرك أهمية حوكمة البيانات لضمان ثقة التطبيقات التي تعتمد على التعلم الآلي. هذا الإدراك والوعي سيدفعان بشكل كبير إلى الطلب على أدوات حوكمة البيانات، وأتوقع إنشاء المزيد من هذه الأدوات لتسريع مع انتشار التعلم الآلي التوليدي. لكنها تحتاج إلى أن تكون جزءًا من chồng التوجيه الأكبر، وهذا هو السبب في أننا نعتبره أساسيًا للطريقة التي نبني بها منصتنا.
يمكنك تقديم أمثلة عن كيفية تحسين حلول شركة Astronomer لكفاءة التشغيل والإنتاجية للعملاء؟
تتضمن عمليات التعلم الآلي التوليدي مهام معقدة ومكلفة من حيث الموارد التي تحتاج إلى تحسين وتنفيذ دقيق. توفر منصة Astro، وهي منصة Apache Airflow المدارة من قبل شركة Astronomer، إطارًا في مركز chồng التطبيقات التي تعتمد على التعلم الآلي التوليدي لمساعدة تبسيط هذه المهام وتعزيز القدرة على الابتكار بسرعة.
من خلال توجيه مهام التعلم الآلي التوليدي، يمكن للأعمال ضمان استخدام الموارد الحسابية بفعالية وضمان تحسين وتعديل سير العمل في الوقت الفعلي. هذا الأمر مهم بشكل خاص في البيئات التي يجب فيها تحديث أو إعادة تدريب النماذج التوليدية بانتظام بناءً على بيانات جديدة.
باستخدام إدارة سير العمل في Airflow وقدرات التوزيع والتمكين في شركة Astronomer، يمكن للفرق قضاء وقت أقل في إدارة البنية التحتية وتوجيه انتباههم إلى تحويل البيانات وتنمية النماذج، مما يسرع من نشر تطبيقات التعلم الآلي التوليدي ويعزز الأداء.
بهذه الطريقة، ساهمت منصة Astro في شركة Astronomer في تحسين كفاءة تشغيل التعلم الآلي التوليدي للعملاء عبر مجموعة واسعة من الحالات. لذكر بضع حالات، تشمل الحالات استخدام التعلم الآلي التوليدي في اكتشاف المنتجات في التجارة الإلكترونية، وتحليل مخاطر انحراف العملاء، وتحسين الدعم، وتصنيف وتلخيص الوثائق القانونية، واكتساب رؤى حول المنتجات من خلال تقييمات العملاء، وتوفير تخصيص ديناميكي للعناقيد لإنشاء صور المنتجات.
ما الدور الذي تلعبه شركة Astronomer في تعزيز أداء وتوسيع نماذج التعلم الآلي والذكاء الاصطناعي؟
التوسيع هو تحدي كبير للأعمال التي تستخدم التعلم الآلي التوليدي في عام 2024. عند الانتقال من النموذج الأولي إلى الإنتاج، يتوقع المستخدمون أن تكون تطبيقات التعلم الآلي التوليدي موثوقة وذات أداء جيد، وأن النتائج التي تنتجها تكون موثوقة. يجب القيام بذلك بفعالية من حيث التكلفة، ويجب على الشركات من جميع الأحجام أن تكون قادرة على استغلال إمكاناتها. مع هذا في الاعتبار، باستخدام شركة Astronomer، يمكن للمهام أن يتم توسيعها أفقيًا لمعالجة ديناميكية لمصادر بيانات كبيرة. يمكن لمنصة Astro أن توسع النشر والعناقيد التي يتم استضافتها عليها بشكل مرن، وتوفر تنفيذ مهام قائم على الطوابير مع أنواع آلة مخصصة توفر موثوقية أكبر واستخدام أكثر كفاءة للموارد الحسابية. لمساعدة قطعة التكلفة في هذا اللغز، توفر منصة Astro ميزات التوسيع إلى الصفر والسبات، مما يساعد فيควบคل التكاليف المتزايدة وتقليل النفقات السحابية. كما نقدم شفافية كاملة حول تكلفة المنصة. فريق البيانات الخاص بي يولد تقارير عن الاستهلاك التي نجعلها متاحة يوميًا للعملاء.
ما هي بعض الاتجاهات المستقبلية في الذكاء الاصطناعي وعلوم البيانات التي أنت متحمس لها، وكيف تستعد شركة Astronomer لها؟
الذكاء الاصطناعي القابل للشرح هو مجال تطوير هائل وأمور مثيرة. أن تكون قادرًا على النظر إلى أعماق عمل النماذج الكبيرة هو أمر غريب تقريبًا. وأنا أيضًا مهتم بمشاهدة كيفية تعامل المجتمع مع التأثير البيئي لتدريب النماذج وضبطها. في شركة Astronomer، نواصل تحديث سجلنا بجميع أحدث التكاملات، بحيث يمكن لفريق البيانات والتعلم الآلي ربط نفسه بأفضل خدمات النماذج وأكثر منصات الحوسبة كفاءة دون أي جهد كبير.
كيف تتخيل دمج أدوات الذكاء الاصطناعي المتقدمة مثل LLMs مع أنظمة إدارة البيانات التقليدية في التطور على مدى السنوات القليلة القادمة؟
لقد رأينا كلًا من Databricks وSnowflake يعلنان مؤخرًا عن كيفية دمج استخدام وتنمية النماذج اللغوية الكبيرة داخل منصاتهم. سيفعل منصات قواعد البيانات والتعلم الآلي الأخرى الشيء نفسه. من الرائع أن نرى مهندسي البيانات يمتلكون إمكانية الوصول إلى هذه الأساليب القوية بسهولة، مباشرة من سطر الأوامر أو سؤال SQL.
أنا مهتم بشكل خاص بكيفية دمج قواعد البيانات العلائقية مع التعلم الآلي. لقد كنت دائمًا أنتظر أن يتم دمج أساليب التعلم الآلي في معيار SQL، لكن من بعض الشيء أن يتم دمج الانضباطين. ربما هذه المرة ستكون مختلفة.
أنا متحمس جدًا لمستقبل النماذج اللغوية الكبيرة لمساعدة عمل مهندس البيانات. من البداية، كانت النماذج اللغوية الكبيرة ناجحة بشكل خاص في توليد الكود، على الرغم من أن الجهود المبكرة لتزويد علماء البيانات بالاقتراحات التي تعتمد على الذكاء الاصطناعي كانت متباينة: Hex رائعة، على سبيل المثال، بينما Snowflake غير ملهمة حتى الآن. لكن هناك إمكانية هائلة لتغيير طبيعة العمل لفريق البيانات، أكثر من المطورين. لماذا؟ لأن مهندسي البرمجيات لديهم وظيفة اسم أو وثائق، بينما مهندسي البيانات لديهم أيضًا البيانات. هناك سياق كبير يمكن أن تعمل عليه النماذج لتقديم اقتراحات مفيدة ودقيقة.
ما النصيحة التي تقدمها لعلماء البيانات ومهندسي الذكاء الاصطناعي الطموحين الذين يريدون أن يتركوا أثرًا في الصناعة؟
تعلم بالفعل. من السهل جدًا بناء التطبيقات اليوم، وتحسينها بالذكاء الاصطناعي.所以، بناء شيء رائع، وارسله إلى صديق لصديق يعمل في شركة تكنولوجيا تقدرها، أو ارسله لي، وأنا أعدك أن أأخذ نظرة!
الخدعة هي أن تجد شيئًا تهتم به وجد مصدرًا جيدًا لبيانات ذات الصلة. قام صديقي بتحليل رائع للمواسم الغير عادية في لعبة البيسبول التي تعود إلى القرن التاسع عشر واكتشف قصصًا تستحق أن يتم إنتاج فيلم منها. كما قام بعض مهندسي شركة Astronomer بالاجتماع في عطلة نهاية الأسبوع لبناء منصة لخطوط البيانات ذاتية التعافي. لا أستطيع أن أتخيل محاولة القيام بشيء مثل ذلك قبل بضع سنوات، لكن مع مجرد بضعة أيام من الجهد، فازنا مسابقة Cohere وأسسنا أساس ميزة جديدة في منصتنا.
شكرًا على المقابلة الرائعة، القراء الذين يرغبون في معرفة المزيد يجب أن يزوروا Astronomer.












