مقابلات
تشارلز شي، المؤسس والرئيس التنفيذي لشركة Zilliz – سلسلة المقابلات

تشارلز شي هو المؤسس والرئيس التنفيذي لشركة Zilliz، ويركز على بناء قواعد بيانات الجيل التالي وتقنيات البحث لتنطبق على تطبيقات الذكاء الاصطناعي واللغة. في Zilliz، اخترع أيضًا Milvus، وهو أكثر قاعدة بيانات متجهة مفتوحة المصدر شعبية للاستخدام الإنتاجي للذكاء الاصطناعي. وهو حاليًا عضو مجلس إدارة مؤسسة LF AI & Data وخدم في منصب رئيس المجلس في عامي 2020 و 2021. عمل تشارلز سابقًا في Oracle كمهندس مؤسس لمشروع قاعدة بيانات Oracle 12c السحابية. يحمل تشارلز درجة الماجستير في علوم الحاسوب من جامعة ويسكونسن-ماديسون.
Zilliz هي الفريق وراء LF AI Milvus، وهو قاعدة بيانات متجهة مفتوحة المصدر تستخدم على نطاق واسع. تركز الشركة على تبسيط إدارة بنية تحتية للبيانات، بهدف جعل الذكاء الاصطناعي أكثر سهولة للشركات والمنظمات والأفراد على حد سواء.
يمكنك مشاركة القصة وراء تأسيس Zilliz وما الذي ألهمك لتطوير Milvus والتركيز على قواعد بيانات المتجهات؟
مسيرتي في مجال قواعد البيانات تبلغ أكثر من 15 عامًا، بما في ذلك ست سنوات كمهندس برمجيات في Oracle، حيث كنت عضوًا مؤسسًا في فريق قاعدة بيانات Oracle 12c Multitenant. خلال هذا الوقت، لاحظت 한 制限ًا رئيسيًا: في حين كانت البيانات المهيكلة مدارة جيدًا، ظلت البيانات غير المهيكلة – التي تمثل 90٪ من جميع البيانات – غير مستغلة إلى حد كبير، مع تحليل فقط 1٪ منها بطريقة معنوية.
في عام 2017، أدى التطور المتزايد للذكاء الاصطناعي في معالجة البيانات غير المهيكلة إلى تحول حاسم. أظهرت التقدم في معالجة اللغة الطبيعية كيف يمكن تحويل البيانات غير المهيكلة إلى متجهات متضمنة، مما يفتح معنى семантиكي لها. هذا ألهمني لتأسيس Zilliz، مع رؤية لإدارة “ملايين البيانات”. أصبحت متجهات المتجهات حجر الزاوية للجسر بين البيانات غير المهيكلة والاستكشافات القابلة للتنفيذ. قمنا بتطوير Milvus كقاعدة بيانات متجهة مصممة لغرض معين لجعل هذه الرؤية حقيقة.
على مدار السنوات القليلة الماضية، أقر المجال بهذا النهج، معترفًا بقواعد بيانات المتجهات كأساس لتنظيم البيانات غير المهيكلة. بالنسبة لنا، لا يتعلق الأمر فقط بالتكنولوجيا – بل يتعلق بتمكين البشرية من استغلال إمكانات البيانات غير المهيكلة في عصر الذكاء الاصطناعي.
كيف تطورت رحلة Zilliz منذ تأسيسها قبل ست سنوات، وما هي التحديات الرئيسية التي واجهتها أثناء رائد قواعد بيانات المتجهات؟
كانت الرحلة تحولية. عندما بدأنا Zilliz قبل سبع سنوات، لم يكن التحدي الحقيقي هو جمع التمويل أو التوظيف – بل كان بناء منتج في منطقة غير مكتشفة تمامًا. مع عدم وجود خريطة طريق موجودة أو ممارسات أفضل أو توقع مستخدمي متعارف عليه، كان علينا رسم مسارنا الخاص.
كان اختراقنا مع открыاء Milvus. من خلال خفض الحواجز أمام الاستخدام وتعزيز المشاركة المجتمعية، حصلنا على ملاحظات قيمة من المستخدمين لتحديث وتحسين المنتج. عندما تم إطلاق Milvus في عام 2019، كنا لدينا حوالي 30 مستخدمًا بنهاية العام. نمت هذه إلى أكثر من 200 في عام 2020 وقريباً 1000 بعد ذلك.
اليوم، تحولت قواعد بيانات المتجهات من مفهوم جديد إلى بنية تحتية أساسية في عصر الذكاء الاصطناعي، مما يؤكد الرؤية التي بدأنا بها.
كشركة لقواعد بيانات المتجهات، ما هي القدرات الفنية الفريدة التي تقدمها Zilliz لدعم البحث المتجه متعدد الوسائط في تطبيقات الذكاء الاصطناعي الحديثة؟
قدمت Zilliz قدرات فنية متقدمة لدعم البحث المتجه متعدد الوسائط:
- البحث الهجين: نتمكن من عمليات البحث المتزامنة عبر وسائط مختلفة، مثل الجمع بين الميزات البصرية لصورة مع وصفها النصي.
- الخوارزميات المُحسّنة: تقنيات الكمية المملوكة توازن بين دقة الاسترجاع وفعاليّة الذاكرة للبحوث متعددة الوسائط.
- المعالجة في الوقت الفعلي وخط المعالجة غير الفعلي: نظامنا المزدوج يدعم كتابة في الوقت الفعلي منخفضة الزمن والاستيراد غير الفعلي عالي الإنتاجية، مما يضمن свежة البيانات.
- الكفاءة التكلفة: مستويات السعة الممتدة الخاصة بنا ت tận dụng التخزين المتدرج الذكي لتقليل تكاليف التخزين بشكل كبير مع الحفاظ على الأداء العالي.
- النماذج المضمنة للذكاء الاصطناعي: من خلال دمج نماذج التضمين والترتيب متعددة الوسائط، خفضنا حاجز تنفيذ تطبيقات البحث المعقدة.
تسمح هذه القدرات للمطورين بمعالجة أنواع بيانات متنوعة بفعالية، مما يجعل تطبيقات الذكاء الاصطناعي الحديثة أكثر متانة وتنوعًا.
كيف ترى تطور Multimodal RAG في تعزيز قدرة الذكاء الاصطناعي على التعامل مع بيانات العالم الحقيقي المعقدة مثل الصور والصوت والفيديو إلى جانب النص؟
يمثل Multimodal RAG (التنبؤ المُحسّن بالاسترجاع) تطورًا حاسمًا في الذكاء الاصطناعي. في حين كانت RAG القائمة على النص بارزة، فإن معظم بيانات الشركات تتراوح بين الصور والفيديو والصوت. القدرة على دمج هذه التنسيقات المتنوعة في تدفقات العمل للذكاء الاصطناعي أمر بالغ الأهمية.
يأتي هذا التحول في الوقت المناسب، حيث يُجرى نقاش داخل مجتمع الذكاء الاصطناعي حول حدود البيانات النصية المتاحة للتدريب. في حين أن البيانات النصية محدودة، تظل البيانات متعددة الوسائط غير مستغلة إلى حد كبير – تتراوح من مقاطع الفيديو الشركية إلى أفلام هوليوود والتسجيلات الصوتية.
Multimodal RAG يفتح هذا الخزان غير المستغل، مما يسمح لأنظمة الذكاء الاصطناعي بمعالجة واستغلال هذه أنواع البيانات الغنية. لا يتعلق الأمر فقط بتلبية ندرة البيانات – بل يتعلق بتوسيع حدود قدرات الذكاء الاصطناعي لفهم العالم الحقيقي وتفاعله بشكل أفضل.
كيف تتميز Zilliz عن منافسيها في سوق قواعد بيانات المتجهات الذي ينمو بسرعة؟
تتميز Zilliz من خلال عدة جوانب فريدة:
- الهوية المزدوجة: نحن شركة ذكاء اصطناعي وشركة قواعد بيانات، دفعًا للحدود في إدارة البيانات وتكامل الذكاء الاصطناعي.
- التصميم الأصلي السحابي: كان Milvus 2.0 أول قاعدة بيانات متجهة موزعة اعتمدت هيكل تخزين ومعالجة منفصل، مما يسمح بالتكامل والكفاءة التكلفية لما يزيد عن 100 مليار متجه.
- التحسينات المملوكة: محرك Cardinal يحقق أداء ثلاث مرات أفضل من Milvus مفتوح المصدر و 10 مرات أفضل من المنافسين. كما نقدم فهرسة على القرص والتخزين المتدرج الذكي لتوسيع نطاق التكلفة.
- الابتكار المستمر: من قدرات البحث الهجين إلى أدوات النقل مثل VTS، نحن دائمًا ما نتطور تكنولوجيا قواعد بيانات المتجهات.
التزامنا بالمصدر المفتوح يضمن المرونة، في حين يوفر خدمتنا المُدارة، Zilliz Cloud، أداءً على مستوى المؤسسات مع تعقيد تشغيلي ضئيل.
يمكنك أن تُشرح أهمية Zilliz Cloud ودورها في ديمقراطية الذكاء الاصطناعي وجعل خدمات البحث المتجهة متاحة للمطورين الصغيرين والشركات على حد سواء؟
لقد استخدمت قواعد بيانات المتجهات من قبل العمالقة التكنولوجية منذ عام 2015، ولكن التنفيذات المملوكة حددت انتشارها الأوسع. في Zilliz، نحن نُديمقرطة هذه التكنولوجيا من خلال نهجين مکملين:
- مفتوح المصدر: يسمح Milvus للمطورين ببناء وامتلاك بنية تحتية للبحث المتجه، مما يخفض الحواجز الفنية.
- خدمة مُدارة: يُزيل Zilliz Cloud العبء التشغيلي، ويوفر حلًا بسيطًا واقتصاديًا للأعمال لتبني البحث المتجه دون الحاجة إلى مهندسين متخصصين.
يسمح هذا النهج المزدوج للمطورين والشركات على حد سواء بالوصول إلى خدمات البحث المتجه، مما يسمح لهم بالتركيز على بناء تطبيقات الذكاء الاصطناعي المبتكرة.
مع التطورات في LLMs والطرازات الأساسية، ما الذي تعتقد أنه سيكون التغيير الكبير التالي في بنية تحتية بيانات الذكاء الاصطناعي؟
سيكون التغيير الكبير التالي هو التحول الكامل لبنية تحتية بيانات الذكاء الاصطناعي لمعالجة البيانات غير المهيكلة، التي تشكل 90٪ من بيانات العالم. الأنظمة الحالية، المصممة للبيانات المهيكلة، غير مجهزة لهذا التحول.
سيتأثر هذا التحول بكل طبقة من طبقات chồng البيانات، من الأنظمة الأساسية لقواعد البيانات إلى بروتوكولات الأمان ونظم المراقبة. لا يتعلق الأمر بالتحديثات المتزايدة – بل يتعلق بإنشاء أنماط جديدة مخصصة لتعقيدات البيانات غير المهيكلة.
سيتأثر هذا التحول بكل جانب من جوانب chồng البيانات:
- أنظمة قواعد البيانات الأساسية
- أنابيب البيانات وعمليات ETL
- آليات تنظيف وتحويل البيانات
- بروتوكولات الأمان والتشفير
- إطارات الحوكمة والامتثال
- نظم مراقبة البيانات
لا نتحدث فقط عن تحديث الأنظمة الحالية – بل نتحدث عن بناء أنماط جديدة تمامًا. إنه مثل الانتقال من عالم مُحسّن لتنظيم الكتب في المكتبة إلى عالم يحتاج إلى إدارة وفهم ومعالجة كل الإنترنت. هذا التحول يمثل عالمًا جديدًا تمامًا، حيث قد يتعين إعادة تصور كل مكون من مكونات بنية تحتية البيانات من البداية.
سيحدد هذا الثورة كيف نخزن ونمالج ونمالج البيانات، مفتوحًا فرصًا هائلة لابتكارات الذكاء الاصطناعي.
كيف أثرت دمج وحدات معالجة الرسومات من NVIDIA على أداء ومدى قاعدة بيانات المتجهات؟
أثرت دمج وحدات معالجة الرسومات من NVIDIA بشكل كبير على أداء البحث المتجه في两个 مجالات رئيسيين.
أولاً، في بناء الفهرسة، وهو أحد أكثر العمليات حوسبة في قواعد بيانات المتجهات. بالمقارنة مع فهرسة قواعد البيانات التقليدية، يتطلب بناء فهرسة المتجهات عدة أوامر من القوة الحاسوبية. من خلال استغلال تسريع GPU، قللنا بشكل كبير من وقت بناء الفهرسة، مما سمح بالاستيعاب السريع للبيانات وتحسين رؤية البيانات.
ثانيًا، كانت وحدات معالجة الرسومات حاسمة لعمليات الاستعلام عالية الإنتاجية. في التطبيقات مثل التجارة الإلكترونية، حيث يحتاج النظام إلى التعامل مع آلاف أو حتى عشرات الآلاف من الاستعلامات في الثانية (QPS)، أثبتت قدرات المعالجة الموازية لوحدات معالجة الرسومات قيمتها. من خلال استخدام تسريع GPU، يمكننا معالجة عمليات البحث المتجهة للتشابه عالية الحجم مع الحفاظ على انخفاض الزمن.
منذ عام 2021، كنا نتعاون مع NVIDIA لتحسين خوارزمياتنا لمعمارية GPU، بالإضافة إلى تطوير نظامنا لدعم الحوسبة الهجينة عبر معماريات المعالج المختلفة. هذا يمنح عملائنا مرونة في اختيار البنية التحتية لأجهزة الكمبيوتر المناسبة لاحتياجاتهم المحددة.
كما تلعب قواعد بيانات المتجهات دورًا حاسمًا في الذكاء الاصطناعي، هل ترى تطبيقها يتجاوز الحالات التقليدية مثل أنظمة التوصية والبحث إلى صناعات مثل الرعاية الصحية؟
تتوسع قواعد بيانات المتجهات بسرعة خارج التطبيقات التقليدية مثل أنظمة التوصية والبحث، وتنفذ في صناعات لم نتوقعها من قبل. دعني أشارك بعض الأمثلة.
في مجال الرعاية الصحية وأبحاث الدواء، تحول قواعد بيانات المتجهات اكتشاف الأدوية. يمكن تمثيل الجزيئات كمتجهات بناءً على خصائصها الوظيفية، ويمكن باستخدام ميزات متقدمة مثل البحث في النطاق، أن يكتشف الباحثون جميع المرشحين المحتملين للدواء الذين قد يعالجون أمراضًا أو أعراضًا محددة. على عكس عمليات البحث الأعلى من ك، يحدد البحث في النطاق جميع الجزيئات في نطاق معين من الهدف، مما يوفر نظرة شاملة على المرشحين المحتملين.
في مجال السيارات ذاتية القيادة، تحسن قواعد بيانات المتجهات من سلامة وأداء المركبات. أحد التطبيقات المثيرة للاهتمام هو التعامل مع الحالات الحدية – عندما تواجه المركبة سيناريوهات غير عادية، يمكن للنظام البحث بسرعة في قواعد بيانات كبيرة من السيناريوهات المماثلة لتحديد بيانات التدريب ذات الصلة لتعديل نماذج القيادة ذاتية القيادة.
نرى أيضًا تطبيقات مبتكرة في الخدمات المالية للكشف عن الاحتيال، والأمن السيبراني للكشف عن التهديدات، والإعلان المستهدف لتحسين تفاعل العملاء. على سبيل المثال، في البنوك، يمكن تمثيل المعاملات كمتجهات ومقارنتها بالأنماط التاريخية لتحديد الأنشطة المحتملة المخادعة.
القوة الكامنة في قواعد بيانات المتجهات تكمن في khảيته لفهم ومعالجة التشابه في أي مجال – سواء كانت هياكل جزيئية أو سيناريوهات قيادة أو أنماط مالية أو تهديدات أمنية. مع استمرار تطور الذكاء الاصطناعي، نحن نكشط فقط سطح ما هو ممكن. القدرة على معالجة واكتشاف الأنماط في كميات هائلة من البيانات غير المهيكلة تفتح إمكانيات نحن نبدأ فقط في استكشافها.
كيف يمكن للمطورين والشركات المُحترفة التفاعل مع Zilliz وMilvus للاستفادة من تكنولوجيا قواعد بيانات المتجهات في مشاريع الذكاء الاصطناعي؟
هناك مساران رئيسيان للاستفادة من تكنولوجيا قواعد بيانات المتجهات مع Zilliz وMilvus، كل منها مناسب لاحتياجات ومواقف مختلفة. إذا كنت تقدر المرونة والتعديل، فإن Milvus، حلنا مفتوح المصدر، هو الخيار الأمثل. مع Milvus، يمكنك:
- التجربة بحرية وتعلم التكنولوجيا في自己的 إيقاع
- تخصيص الحل لاحتياجاتك المحددة
- المساهمة في التطوير وعدل قاعدة الشفرة
- الحفاظ على السيطرة الكاملة على البنية التحتية
ومع ذلك، إذا كنت ترغب في التركيز على بناء التطبيق دون إدارة البنية التحتية، فإن Zilliz Cloud هو الخيار الأمثل. يوفر:
- حلاً جاهزًا مع تثبيت النقرة الواحدة
- أمانًا وامتثالًا على مستوى المؤسسات
- توافرًا عاليًا وثباتًا
- أداءً محسّنًا بدون تعقيد تشغيلي
فكر بهذه الطريقة: إذا كنت تستمتع “بتحسين” وترغب في الحصول على المرونة القصوى، اذهب مع Milvus. إذا كنت ترغب في تقليل التعقيد التشغيلي وصولًا سريعًا إلى بناء التطبيق، اختر Zilliz Cloud.
كلا المساران سيصلانك إلى وجهتك – إنه فقط مسألة مقدار المسار الذي تريد التحكم فيه مقابل 얼마 سريعًا تحتاج إلى الوصول
شكرًا على المقابلة الرائعة، القراء الذين يرغبون في معرفة المزيد يجب أن يزوروا Zilliz أو Milvus.












