مقابلات
جيرونيمو دي ليون، مدير المنتج الأقدم للاستخبارات الاصطناعية في Backblaze – سلسلة المقابلات

جيرونيمو دي ليون هو قائد في إدارة المنتجات مع أكثر من 10 سنوات من الخبرة في قيادة الابتكارات التي تعتمد على الذكاء الاصطناعي عبر بيئات الشركات الناشئة. حاليًا، يعمل كمدير المنتج الأقدم للاستخبارات الاصطناعية في Backblaze، حيث يقود تطوير ميزات الذكاء الاصطناعي والتعلم الآلي، ويركز على كيفية تعزيز Backblaze لدورة حياة البيانات لعمليات الموبس المعمول بها، وينفذ أدوات ووكلاء ذكاء اصطناعي لتحسين العمليات الداخلية.
Backblaze هي شركة تخزين سحابي ونسخ احتياطي توفر نسخة احتياطية أوتوماتيكية غير محدودة لأجهزة الكمبيوتر للأفراد والشركات، إلى جانب حلول تخزين كائنات قابلة للتطوير للشركات والوسائط وعمليات التطبيقات. تركز خدماتها على التكلفة، وأمان البيانات، وسهولة الاستعادة، والتوافق السلس مع الأنظمة الحالية.
تجلب أكثر من عقد من الخبرة في إدارة المنتجات التي تعتمد على الذكاء الاصطناعي – من العمل مع LLMs في Intelas و RAG في Welcome.AI إلى إطلاق روبوت المحادثة في Bloomberg والآن قيادة الجهود في Backblaze. كيف شكلت هذه الخبرات وجهة نظرك حول دور تخزين السحابة في توسيع نطاق تدفقات الذكاء الاصطناعي والتعلم الآلي؟
منذ بدئي في مشاريع الذكاء الاصطناعي في IBM Watson، رأيت كيف تسارع темп الابتكار بشكل كبير. ما كان يأخذ سنوات للانتقال من البحث إلى الإنتاج يحدث الآن في أشهر. ومع ذلك، تبقى التحديات الأساسية للبنية التحتية هي نفسها: أين البيانات، وأين نخزنها، وكيف نصل إليها بفعالية؟
في الماضي، كانت القيود هي الحوسبة والنمذجة، ولكن الآن لدينا وفرة من النماذج المسبقة والكثير من مزودي الحوسبة. ومع ذلك، عندما نبدأ مشروعًا في الماضي، كنا نبدأ عادةً بمشروع جمع و처理 البيانات، وهذا لا يزال هو نفسه اليوم. أرى باستمرار أن المنظمات تتعثر بنفس العرقلة في توحيد البيانات من مصادر متفرقة. المنظمات التي تنجح هي تلك التي تحل مشكلة إمكانية الوصول إلى البيانات في وقت مبكر، مما يخلق أساسًا يتناسب مع نضجها في الذكاء الاصطناعي. قراراتك بشأن بنية التخزين تحدد مدى سرعة وصولك إلى تدريب النماذج والابتكار.
أين ترى تخزين السحابة يلعب الأدوار الأكثر أهمية عبر دورة حياة الذكاء الاصطناعي – من استيعاب البيانات ومعالجتها إلى التدريب والتعدين والاستدلال والمراقبة؟
تخزين السحابة هو أمر بالغ الأهمية عبر دورة حياة الذكاء الاصطناعي، مع مراحل رئيسية في تجميع البيانات ومعالجتها وتدريبها والاستدلال. في البداية، يعجل التجميع المنهجي والفهرسة والأرشفة الآمنة من مشاريع جديدة ويسهل اختبار النماذج الناشئة. البيانات النظيفة والمعالجة جيدًا غالبًا ما تفوق مجرد وجود المزيد من البيانات، مما يجعل التخزين مركزيًا للجودة بالإضافة إلى الحجم. أحد أقوال Backblaze المفضلة لدي هو “ليس هذا كتمًا إذا كانت بيانات”. لا تعرف أبدًا ما مدى قيمتها، لذلك يجب على المنظمات جمع أكبر قدر ممكن من البيانات. خلال التدريب، يضمن التخزين القابل للتطوير تدفق مجموعات بيانات ضخمة، وعند الاستدلال، يتيح التقاط مخرجات التنبؤ وآراء المستخدمين الاستمرار المستمر. في النهاية، يحدد التخزين الأساس الذي ي决定 مدى سرعة ابتكارك مع الذكاء الاصطناعي.
ما هي أكبر العوائق التي تواجهها المنظمات عند توسيع نطاق تخزينها للاستخبارات الاصطناعية، وكيف تختلف هذه التحديات بين الشركات الناشئة الصغيرة والشركات الكبيرة؟
أعظم عائق في توسيع نطاق تخزين الذكاء الاصطناعي هو التكلفة وإدارة البيانات وإمكانية الوصول. تخزين كميات كبيرة من البيانات هو جزء فقط من التحدي؛ يجب أيضًا تنظيمها وجعلها قابلة للاسترجاع والتحكم فيها بالضوابط المناسبة. البيانات النظيفة والمنظمة جيدًا غالبًا ما تكون أكثر قيمة من مجرد وجود المزيد منها.
对于 الشركات الناشئة، التحدي الأول هو الحصول على بيانات كافية لتدريب ونعومة نماذجها. بمجرد حصولها عليها، تصبح التكلفة والهيكل الحاجزين التاليين.
对于 الشركات الكبيرة، التحدي هو التعقيد. بياناتها وافرة ولكنها متفرقة عبر السilos والنظم القديمة وأنظمة الامتثال، مما يجعل التوحيد وإمكانية الوصول صعبًا.
المنظمات التي تنجح تعامل التخزين كمنشط استراتيجي يتناسب في التكلفة والأداء وإمكانية الوصول مع نضجها في الذكاء الاصطناعي.
بين التكلفة والاتساق والأمان والامتثال، أيهما ترى بأنه العائق الأكثر إلحاحًا لتوسيع نطاق الذكاء الاصطناعي اليوم، وكيف يجب على المنظمات أن تprioritizesه؟
من بين التكلفة والاتساق والأمان والامتثال، يعتبر الاتساق أحد العوائق الأكثر إلحاحًا. إنه يؤثر بشكل مباشر على تدريب النماذج والاستدلال، والاستدلال على وجه الخصوص يؤثر على تجربة المستخدم. تقوم المنظمات بكل ما في وسعها لتقليل الاتساق في هذه المرحلة، لأن التأخير في تقديم التنبؤات يمكن أن يؤثر على تبنيها.
تبقى التكلفة تحديًا دائمًا مع نمو حجم البيانات، ويتزايد أهمية الامتثال مع توسع المنظمات، خاصة في الصناعات الخاضعة للتنظيم. غالبًا ما تركز الشركات الناشئة أولًا على التكلفة والاتساق، بينما يجب على الشركات الكبيرة موازنة الاتساق مع الحوكمة والطلبات التنظيمية. يجب أن تكون الأولوية هي بناء تخزين يقلل من الاتساق لتدريب والاستدلال، مع الحفاظ على الكفاءة في التكلفة والامتثال مع توسع تبني الذكاء الاصطناعي.
غالبًا ما تؤكد الشركات الكبيرة على الحاجة إلى المرونة والوصول السهل إلى البيانات لتشغيل الابتكار في الذكاء الاصطناعي. من وجهة نظرك، ما هو شكل المرونة الحقيقية في الوصول إلى البيانات، ولماذا هو أمر أساسي؟
في حديث最近 ألقيتُه، شددت على فكرة الأرشفة الذكية. المرونة الحقيقية في الوصول إلى البيانات تبدأ بتوحيد المعلومات في أرشيف منظم وقابل للبحث. هذا يعني توحيد تنسيقات متعددة وتنظيمها ووضع علامات لها من أجل الاتساق وتحقيق الفهرسة للبحث في المستقبل. هذا النهج يضمن أن تكون البيانات لا تُخزن فقط، بل تجعلها قابلة للاستخدام.
هذا أمر بالغ الأهمية لأنه يضع الأساس للتحليلات والنمذجة. عندما تكون البيانات منظمة وقابلة للبحث، يمكن للفرق التحرك بسرعة أكبر، وتجربة المزيد من الحرية، وتقليل الاتساق في التدريب والاستدلال. بدون هذا النوع من المرونة، يصبح التخزين عائقًا بدلاً من كونه مُحفزًا لابتكار الذكاء الاصطناعي.
هل يمكنك مشاركة حالات استخدام حقيقية – مثل العمل مع عملاء مثل Decart AI أو Wynd Labs – تظهر كيف يمكن للنهج الصحيح لتخزين السحابة تمكين الابتكار في الذكاء الاصطناعي بشكل مباشر؟
هذه هي أمثلة رائعة على كيف يمكن للنهج الصحيح لتخزين السحابة تمكين الابتكار في الذكاء الاصطناعي بشكل مباشر. ركز Decart على تدريب النماذج، حيث كان نقل البيانات إلى الحوسبة بفعالية أمرًا بالغ الأهمية. مع Backblaze B2، قاموا بتوسيع نطاقهم إلى 16 پیبی بايت في 90 يومًا، وتم تدريبهم عبر عدة مجموعات من وحدات معالجة الرسومات مع عدم وجود تكاليف إخراج، وتم تحقيق كفاءة عشر مرات أكثر من المنافسين. هذا الموثوقية والكفاءة أتاحت لهم الفرصة للاابتكار بشكل أسرع.
ركز Wynd Labs على وصول العملاء إلى البيانات. يبتلعون بيتابايتات يوميًا ويقدمون عشرات البيتابايتات شهريًا. مع أداء Backblaze العالي وبدون تكاليف إخراج، يمكنهم النمو لتحقيق الطلبات على مستوى الشركات واعادة استثمار الموارد في تطوير المنتج. هذه القدرة على تقديم وصول البيانات على نطاق واسع أتاحت لهم فرصًا جديدة لمنصتهم.
في كلتا الحالتين، حولت استراتيجية التخزين الصحيحة البنية التحتية من عائق إلى محفز، مما مكن الشركات من التركيز على الابتكار في الذكاء الاصطناعي بدلاً من إدارة التكلفة والتعقيد.
مع نمو نماذج الذكاء الاصطناعي و مجموعات البيانات أكثر تعقيدًا، ما هي الإرشادات التي تقدمها للمنظمات التي تحاول موازنة أداء التخزين مع الكفاءة في التكلفة؟
يجب على المنظمات التفكير في استخدام البيانات على المدي الطويل مع منتجها في الاعتبار. سيكون جمع البيانات ومعالجتها ونقلها وتشغيل الاستدلال عليها جميعًا جزءًا أساسيًا من كيفية تطور منتجهم. إذا لم يفعلوا ذلك الآن، فإن التكاليف وتحديات التخزين تتراكم مع مرور الوقت. منذ أن سيكون الذكاء الاصطناعي جزءًا أساسيًا من منتجهم ومنظمتهم، يجب تصميم التخزين في وقت مبكر لتوازن الأداء مع الكفاءة في التكلفة بحيث يمكنه النمو بسلاسة مع نموهم.
الأمان والامتثال هما موضوعان خاصان بالغ الأهمية في الصناعات الخاضعة للتنظيم. كيف ترى تطور تخزين السحابة لدعم احتياجات الحوكمة مع السماح للفرق بالابتكار بسرعة؟
الحوكمة هي جزء أساسي من التخزين. تسهيل الوصول مع أساس قوي لتنظيم البيانات وأمانها ومراقبتها أمر بالغ الأهمية. أرى تطور تخزين السحابة مع ضوابط أقوى مثل التشفير افتراضيًا، وأذونات دقيقة، وسجلات المراقبة، وخيارات إقامة البيانات. لا يقل أهمية عن ذلك هو سلالة البيانات. في الذكاء الاصطناعي، معرفة من أين أتت البيانات، وكيف تمت معالجتها، وكيف تدخل في النماذج أمر أساسي للامتثال والثقة.
في الوقت نفسه، تحسن منصات التخزين من سهولة الاستخدام بحيث يمكن للفرق التحرك بسرعة. عندما تعمل الحوكمة وسلالة البيانات وإمكانية الوصول معًا، يمكن للمنظمات تلبية المتطلبات التنظيمية مع الاستمرار في الابتكار بسرعة مع الذكاء الاصطناعي.
للمنظمات التي تقيم أو تهاجر إلى B2، ما هي النصيحة أو الإرشاد الذي تقدمه فيما يتعلق بالتنفيذ -特别 فيما يتعلق بنقل البيانات، وتكاملها مع الموبس أو مجموعات الحوسبة الحالية، أو تحسينها لتحقيق أقصى استفادة من الإنتاجية والخروج؟
بما أن B2 متوافق مع S3، فإنه يدمج مباشرة في الموبس ومجموعات الحوسبة الحالية دون إعادة هيكلة. غالبًا ما نعمل مع العملاء على概念 إثبات لتحقق من نقل البيانات والأداء والتكامل قبل التوسع. من هناك، يركز على تحسين الإنتاجية ونقل البيانات وتنسيقها بحيث يمكن للفرق تدريب عبر المجموعات، و chạy الاستدلال، والتحديث بسرعة دون أن يُبطئها البنية التحتية.
مع استمرار تحملات الذكاء الاصطناعي في النمو – خاصة مع الاتجاهات حول LLMs و مجموعات البيانات بترابايت و استراتيجيات السحابة الهجينة أو متعددة – كيف يتطور عرض تخزين Backblaze لتلبية هذه الاحتياجات الناشئة؟
في Backblaze، نحن مركزون على كيفية استخدام البيانات اليوم وكيف سيتم تنسيقها في المستقبل. التخزين لم يعد مجرد أرشيف، بل أصبح أداة تمكن من الوصول السريع ونقل البيانات بفعالية وتنسيقها الموثوق به عبر البيئات. مع LLMs و مجموعات البيانات بترابايت، سيكون هذا الأساس من الوصول السهل والإنتاجية العالية أمرًا بالغ الأهمية لا فقط لتدريب والاستدلال ولكن أيضًا لفئة جديدة من وكلاء الذكاء الاصطناعي الذين يعتمدون على البيانات لجعل العمليات أكثر استقلالية. النتيجة هي أساس تخزين يسمح بالابتكار الآن ويحضر المنظمات لما سيأتي بعد ذلك.
شكرًا على المقابلة الرائعة، القراء الذين يرغبون في معرفة المزيد يجب أن يزوروا Backblaze.












