مقابلات
د. رام سريهارشا، نائب الرئيس للهندسة في Pinecone – سلسلة المقابلات

د. رام سريهارشا، هو نائب الرئيس للهندسة والبحث والتطوير في Pinecone.
قبل انضمامه إلى Pinecone، شغل رام مناصب نائب الرئيس في Yahoo وDatabricks وSplunk. في Yahoo، كان مهندس برمجيات رئيسي ثم باحث علمي؛ في Databricks، كان قائد المنتج والهندسة لمشروع منصة التحليلات الموحدة للجينوميات؛ وفي Splunk، شغل أدوارًا متعددة بما في ذلك عالم أول ورئيس هندسة ومهندس متميز.
Pinecone هو قاعدة بيانات متجهة完全 تم إدارتها، تجعل من السهل إضافة بحث المتجهات إلى التطبيقات الإنتاجية. يجمع بين مكتبات بحث المتجهات والقدرات مثل الترشيح والبنية التحتية الموزعة لتوفير أداء عالي وموثوقية عند أي مقياس.
ما الذي جذبك في البداية إلى تعلم الآلة؟
الإحصاءات عالية الأبعاد ونظرية التعلم والمواضيع مثل ذلك ما جذبني إلى تعلم الآلة. فهي محددة رياضياً، يمكن استنتاجها وиме بعض الاكتشافات الأساسية لما يعني التعلم وكيفية تصميم الخوارزميات التي يمكنها التعلم بكفاءة.
في السابق كنت نائب الرئيس للهندسة في Splunk، منصة بيانات تساعد على تحويل البيانات إلى إجراءات لمراقبة النظام، وتكنولوجيا المعلومات، والأمن وغيرها. ما هي بعض النتائج الرئيسية التي استنطقتها من هذا الخبرة؟
لم أدرك حتى وصلت إلى Splunk مدى تنوع الحالات في بحث المؤسسات: يستخدم الناس Splunk لتحليل السجلات ومراقبة النظام وتحليل الأمن من بين العديد من الحالات الأخرى. وما هو مشترك بين العديد من هذه الحالات هو فكرة الكشف عن الأحداث المتشابهة أو الأحداث غير المتشابهة (أو الشاذة) في البيانات غير المنظمة. وهذا يturned يعتبر مشكلة صعبة والوسائل التقليدية للبحث من خلال هذه البيانات ليست قابلة للتوسيع. خلال فترتي في Splunk، بدأت البحث حول هذه المجالات عن كيفية استخدام تعلم الآلة (والتعلم العميق) لتعدين السجلات وتحليل الأمن وغيرها. من خلال هذا العمل، أدركت أن تعبئة المتجهات وبحث المتجهات سيكونان بدائية أساسية لمناهج جديدة لهذه المجالات.
يمكنك وصف لنا ما هو بحث المتجهات؟
في البحث التقليدي (المعروف أيضًا باسم بحث الكلمات الرئيسية)، تبحث عن مطابقات الكلمات الرئيسية بين استفسار ووثائق (هذا يمكن أن يكون تغريدات أو وثائق ويب أو وثائق قانونية وما إلى ذلك). لفعل ذلك، تقسم استفسارك إلى رموزه، واسترجاع الوثائق التي تحتوي على الرمز المعطى ودمجها وترتيبها لتحديد الوثائق الأكثر صلة لاستفسار معين.
المشكلة الرئيسية، بالطبع، هي أنه لتحصل على نتائج صحيحة، يجب أن يكون استفسارك يحتوي على مطابقات كلمات رئيسية في الوثيقة. مشكلة كلاسيكية مع البحث التقليدي هي: إذا بحثت عن “pop”، سوف تتطابق مع “pop music”، ولكن لن تتطابق مع “soda”، وما إلى ذلك، لأن هناك لا توجد مطابقة كلمات رئيسية بين “pop” ووثائق تحتوي على “soda”، على الرغم من أننا نعرف أن “pop” يعني نفس الشيء مثل “soda” في العديد من المناطق في الولايات المتحدة.
في بحث المتجهات، تبدأ بتحويل كل من الاستفسارات والوثائق إلى متجه في بعض الفضاءات عالية الأبعاد. هذا يتم عادةً bằng تمرير النص من خلال نموذج تعلم عميق مثل LLMs من OpenAI أو نماذج لغة أخرى. ما تحصل عليه نتيجة لذلك هو مصفوفة من الأرقام العائمة التي يمكن اعتبارها متجهًا في بعض الفضاءات عالية الأبعاد.
الفكرة الرئيسية هي أن المتجهات القريبة في هذا الفضاء عالي الأبعاد هي أيضًا متشابهة семantically. العودة إلى مثال “soda” و “pop”، إذا تم تدريب النموذج على المجموعة الصحيحة، فمن المحتمل أن يعتبر “pop” و “soda” متشابهين семantically وبالتالي ستكون التعبئة الناتجة قريبة من بعضها البعض في فضاء التعبئة. إذا كان ذلك هو الحال، ثم استرجاع الوثائق القريبة لاستفسار معين يصبح مشكلة البحث عن أقرب جيران لمتجه الاستفسار في هذا الفضاء عالي الأبعاد.
يمكنك وصف ما هو قاعدة بيانات المتجهات وكيف تمكن من بناء تطبيقات بحث المتجهات عالية الأداء؟
قاعدة بيانات المتجهات تخزن وتنظم وتهيئ هذه التعبئة (أو المتجهات). التحديات الرئيسية التي تحلها قاعدة بيانات المتجهات هي:
- بناء فهرس بحث كفء على المتجهات ل回答 استفسارات أقرب جار
- بناء فهارس مساعدة وكواكب كفء لدعم ترشيح الاستفسار. على سبيل المثال، إذا كنت تريد البحث على جزء معين من المجموعة، يجب أن تكون قادرًا على الاستفادة من فهرس البحث الحالي دون الحاجة إلى إعادة بنائه
دعم تحديثات كفء والحفاظ على البيانات وفهرس البحث طازجة ومستدامة وما إلى ذلك.
ما هي أنواع الخوارزميات المختلفة لتعلم الآلة التي يتم استخدامها في Pinecone؟
نحن عمومًا نعمل على خوارزميات البحث عن أقرب جار التقريبي وتطوير خوارزميات جديدة لتحديث وكتابه واسترجاع كميات كبيرة من البيانات بطريقة فعالة من حيث التكلفة.
نحن أيضًا نعمل على خوارزميات تجمع بين الاسترجاع الكثيف والاسترجاع النادر لتحسين صلة البحث.
ما هي بعض التحديات وراء بناء بحث قابل للتوسيع؟
في حين أن بحث أقرب جار التقريبي قد تم بحثه لعدة عقود، نعتقد أن هناك الكثير المتبقي ليكون مكتشفًا.
على وجه الخصوص، عندما يتعلق الأمر بتصميم بحث أقرب جار كبير النطاق الذي هو فعال من حيث التكلفة، أو أداء الترشيح على نطاق واسع، أو تصميم خوارزميات تدعم تحديثات عالية الحجم وفهارس طازجة ومستدامة، كل هذه هي مشاكل صعبة اليوم.
ما هي بعض الحالات المختلفة لاستخدام هذه التكنولوجيا؟
طيف الحالات لاستخدام قواعد بيانات المتجهات يتوسع يومًا بعد يوم. بالإضافة إلى استخدامها في بحث دلالي، نرى أيضًا أنها تستخدم في بحث الصور، واسترجاع الصور، والذكاء الاصطناعي التوليدي، وتحليل الأمن، وما إلى ذلك.
ما هو رؤيتك لمستقبل البحث؟
أعتقد أن مستقبل البحث سيكون مدفوعًا بالذكاء الاصطناعي، وأنا لا أعتقد أن هذا بعيد المنال. في ذلك المستقبل، أتوقع أن تكون قواعد بيانات المتجهات بدائية أساسية. نحن نعتبر قواعد بيانات المتجهات كذاكرة طويلة الأمد (أو قاعدة المعرفة الخارجية) للذكاء الاصطناعي.
شكرًا على المقابلة الرائعة، القراء الذين يرغبون في معرفة المزيد يجب أن يزوروا Pinecone.












