الذكاء الاصطناعي العام

دور قواعد البيانات المتجهة في تطبيقات الذكاء الاصطناعي التوليدية الحديثة

mm
Vector Database embedding space

لتطبيقات الذكاء الاصطناعي التوليدية على نطاق واسع للعمل بشكل فعال، تحتاج إلى نظام جيد لتعامل مع كمية كبيرة من البيانات. أحد هذه الأنظمة المهمة هو قاعدة البيانات المتجهة. ما يميز هذه القاعدة هو khảيتها للتعامل مع أنواع مختلفة من البيانات مثل النصوص والصوت والصور والفيديوهات في شكل متجهات/أرقام.

ما هي قواعد البيانات المتجهة؟

قاعدة البيانات المتجهة هي نظام تخزين متخصص مصمم للتعامل بكفاءة مع المتجهات عالية الأبعاد. هذه المتجهات، التي يمكن اعتبارها نقاط في فضاء متعدد الأبعاد، غالباً ما تمثل تمثيلات مضغوطة لبيانات أكثر تعقيداً مثل الصور أو النصوص أو الصوت.

تسمح قواعد البيانات المتجهة بالبحث السريع عن الأشبه في هذه المتجهات، مما يتيح استرجاع الأشياء الأكثر تشابهاً من مجموعة بيانات ضخمة بسرعة.

قواعد البيانات التقليدية مقابل قواعد البيانات المتجهة

قواعد البيانات المتجهة:

  • تتعامل مع البيانات عالية الأبعاد: تم تصميم قواعد البيانات المتجهة لإدارة وتخزين البيانات في فضاءات عالية الأبعاد. هذا مفيد بشكل خاص للتطبيقات مثل تعلم الآلة، حيث يمكن تمثيل النقاط البيانية (مثل الصور أو النصوص) على أنها متجهات في فضاءات متعددة الأبعاد.
  • مُحسّنة للبحث عن الأشبه: واحدة من الميزات البارزة لقواعد البيانات المتجهة هي khảيتها للبحث عن الأشبه. بدلاً من استعلام البيانات بناءً على المطابقات الدقيقة، تسمح هذه القواعد للمستخدمين باسترجاع البيانات التي “تتشابه” مع استعلام معين، مما يجعلها لا تقدر بثمن لمهام مثل استرجاع الصور أو النصوص.
  • مُوسّعة لتحمل مجموعات البيانات الكبيرة: مع استمرار نمو تطبيقات الذكاء الاصطناعي وتعلم الآلة، так يزيد حجم البيانات التي يتم معالجتها. تم تصميم قواعد البيانات المتجهة لتكون قابلة للتوسيع، مما يضمن أنها يمكن أن تتعامل مع كميات هائلة من البيانات دون المساس بأدائها.

قواعد البيانات التقليدية:

  • تخزين البيانات المنظمة: قواعد البيانات التقليدية، مثل قواعد البيانات العلائقية، مصممة لتخزين البيانات المنظمة. هذا يعني أن البيانات منظمة في جداول محددة وصفوف وأعمدة، مما يضمن سلامة البيانات وثباتها.
  • مُحسّنة للعمليات CRUD: قواعد البيانات التقليدية مُحسّنة في المقام الأول للعمليات CRUD. هذا يعني أنها مصممة لإنشاء وقراءة وتحديث وحذف إدخالات البيانات بكفاءة، مما يجعلها مناسبة لمجموعة واسعة من التطبيقات، من خدمات الويب إلى البرمجيات المؤسسية.
  • هيكل ثابت: واحدة من السمات التعريفية لقواعد البيانات التقليدية هي هيكلها الثابت. بمجرد تحديد هيكل القاعدة، يمكن أن يكون تغييره معقداً ومستهلكاً للوقت. هذه الصلابة تضمن سلامة البيانات ولكن يمكن أن تكون أقل مرونة من طبيعة الهيكل الديناميكي أو بدون هيكل لبعض قواعد البيانات الحديثة.

غالبًا ما تعاني قواعد البيانات التقليدية من تعقيدات التضمين، وهو تحدي يمكن أن تتعامل معه قواعد البيانات المتجهة بسهولة.

تمثيلات المتجهات

الأساس في عمل قواعد البيانات المتجهة هو مفهوم تمثيل أشكال البيانات المختلفة باستخدام متجهات رقمية. لنأخذ صورة كمثال. عندما ترى صورة لقط، قد تكون مجرد صورة قط لطيف بالنسبة لنا، ولكن بالنسبة لألة، يمكن تحويلها إلى متجه فريد ذي 512 بعد مثل:

[0.23، 0.54، 0.32، …، 0.12، 0.45، 0.90]

باستخدام قواعد البيانات المتجهة، يمكن لتطبيقات الذكاء الاصطناعي التوليدية القيام بأكثر من ذلك. يمكنها العثور على المعلومات بناءً على المعنى وتذكر الأشياء لفترة طويلة. وبشكل interessant، هذه الطريقة ليست مقتصرة على الصور فقط. يمكن وضع البيانات النصية المليئة بالمعنى السياقي والsemantic في أشكال متجهة أيضاً.

الذكاء الاصطناعي التوليدي وحاجة قواعد البيانات المتجهة

الذكاء الاصطناعي التوليدي غالباً ما يتضمن التضمين. khod، على سبيل المثال، التضمين الكلماتي في معالجة اللغة الطبيعية (NLP). يتم تحويل الكلمات أو الجمل إلى متجهات تقبض على المعنى السياقي. عند توليد نص شبيه بالإنسان، يحتاج النموذج إلى مقارنة سريعة واسترجاع التضمينات ذات الصلة، مما يضمن أن النص المولَّد يحافظ على المعاني السياقية.

بشكل مماثل، في توليد الصور أو الصوت، يلعب التضمين دوراً حاسماً في ترميز الأنماط والميزات. من أجل عمل هذه النماذج بشكل مثالي، تحتاج إلى قاعدة بيانات تسمح بالاسترجاع الفوري للمتجهات الشبيهة، مما يجعل قواعد البيانات المتجهة مكوناً أساسياً في لغز الذكاء الاصطناعي التوليدي.

خلق التضمين للغة الطبيعية عادةً ما يتضمن استخدام نماذج مسبقة التدريب مثل:

  • GPT-3 و GPT-4: GPT-3 من OpenAI (الترانسفورمر التوليدي المسبق التدريب 3) كان نموذجاً هاماً في مجتمع معالجة اللغة الطبيعية مع 175 مليار معامل. بعد ذلك، GPT-4، مع عدد أكبر من المعاملات، يستمر في دفع الحدود في توليد تضمينات عالية الجودة. يتم تدريب هذه النماذج على مجموعات بيانات متنوعة، مما يتيح لها إنشاء تضمينات تقبض على مجموعة واسعة من الدقة اللغوية.
  • BERT ومتغيراته: BERT (تمثيلات الترانسفورمر ثنائية الاتجاه) من جوجل هو نموذج آخر مهم رأى تحديثات ونسخ متعددة مثل RoBERTa و DistillBERT. التدريب الثنائي الاتجاه ل BERT، الذي يقرأ النص في كلا الاتجاهين، هو خاصية بارزة لفهم السياق المحيط بكلمة.
  • ELECTRA: نموذج أكثر حداثة يعتبر فعالاً ويعمل بمستوى نموذج أكبر مثل GPT-3 و BERT، مع الحاجة إلى موارد حاسوبية أقل. ELECTRA يفرق بين البيانات الحقيقية والوهمية أثناء التدريب المسبق، مما يساعد في توليد تضمينات أكثر دقة.

فهم العملية المذكورة أعلاه:

في البداية، يتم استخدام نموذج تضمين لتحويل المحتوى المطلوب إلى تضمينات متجهة. بعد توليدها، يتم تخزين هذه التضمينات داخل قاعدة بيانات متجهة. من أجل سهولة التتبع والصلة، تحتفظ هذه التضمينات المخزنة بصلات أو مراجع إلى المحتوى الأصلي الذي تم اشتقاقها منه.

في وقت لاحق، عندما يقدم مستخدم أو نظام سؤالاً للتطبيق، يقفز نموذج التضمين إلى العمل. يتحول هذا السؤال إلى تضمينات متطابقة. ثم يتم البحث عن هذه التضمينات الجديدة في قاعدة البيانات المتجهة، بحثاً عن تمثيلات متجهة شبيهة. التضمينات التي تم تحديدها كمتطابقات لها صلة مباشرة بمحتوىها الأصلي، مما يضمن أن سؤال المستخدم يتم استجابته بنتائج ذات صلة ودقة.

زيادة التمويل لقواعد البيانات المتجهة الجديدة

مع زيادة شعبية الذكاء الاصطناعي، تقوم العديد من الشركات بزيادة استثماراتها في قواعد البيانات المتجهة لتحسين خوارزمياتها وجعلها أسرع. يمكن رؤية ذلك من الاستثمارات الأخيرة في شركات قواعد البيانات المتجهة الناشئة مثل Pinecone و Chroma DB و Weviate.

الشركات الكبيرة مثل مايكروسوفت لديها أدواتها الخاصة أيضاً. على سبيل المثال، Azure Cognitive Search يسمح للأعمال بإنشاء أدوات ذكاء اصطناعي باستخدام قواعد البيانات المتجهة.

Oracle أعلنت مؤخراً عن ميزات جديدة لقاعدة بياناتها Database 23c، مع تقديم قاعدة بيانات متجهة متكاملة. سميت “بحث المتجهات الذكية”، ستكون لها نوع بيانات جديد وفهرس وأدوات بحث للبحث في البيانات مثل المستندات والصور باستخدام المتجهات. تدعم توليد معزز بالاسترجاع، الذي يدمج نماذج اللغة الكبيرة مع بيانات الأعمال لتقديم أجوبة أكثر دقة لأسئلة اللغة دون مشاركة البيانات الخاصة.

الاعتبارات الأساسية لقواعد البيانات المتجهة

مetrics المسافة

فعالية البحث عن الأشبه يعتمد على معيار المسافة المُختار. من المعايير الشائعة مسافة يوكليديان و تشابه الكوزينوس، كل منها يلبي أنواع مختلفة من توزيعات المتجهات.

التحديث

نظراً لارتفاع الأبعاد للمتجهات، لا تصلح طرق التحديث التقليدية. تستخدم قواعد البيانات المتجهة تقنيات مثل الرسومات القابلة للتنقل الصغيرة الهيئرارشية أو أشجار Annoy، مما يسمح بتقسيم كفء لفضاء المتجهات والبحث السريع عن أقرب جيران.

Annoy tree

Annoy tree (Source)

Annoy هو طريقة تستخدم ما يسمى بأشجار البحث الثنائي. يقسم فضاء البيانات عدة مرات وينظر فقط إلى جزء منه للعثور على جيران قريبين.

Hierarchical Navigable Small World (HNSW) graphs

Hierarchical Navigable Small World (HNSW) graphs (Source)

الرسومات القابلة للتنقل الصغيرة الهيئرارشية هي مثل الشبكات. ترتبط النقاط البيانية بطريقة خاصة لتسريع البحث. تساعد هذه الرسومات في العثور بسرعة على النقاط القريبة في البيانات.

التوسع

مع نمو مجموعات البيانات، يزداد تحدي الحفاظ على أوقات استرجاع سريعة. النظم الموزعة وتسريع GPU وإدارة الذاكرة المُحسّنة هي بعض الطرق التي تتعامل بها قواعد البيانات المتجهة مع التوسع.

دور قواعد البيانات المتجهة: الآثار والفرص

1. بيانات التدريب لنماذج الذكاء الاصطناعي التوليدية المتقدمة: نماذج الذكاء الاصطناعي التوليدية، مثل DALL-E و GPT-3، يتم تدريبها باستخدام كميات هائلة من البيانات. تتكون هذه البيانات غالباً من متجهات مستخرجة من مجموعة متنوعة من المصادر، بما في ذلك الصور والنصوص والرمز البرمجي ومجالات أخرى. تقوم قواعد البيانات المتجهة بتحضير وتشغيل هذه المجموعات البيانية، مما يسمح للنماذج بالاستيعاب وتحليل معرفة العالم من خلال تحديد الأنماط والعلاقات داخل هذه المتجهات.

2. تعزيز التعلم من القليل: التعلم من القليل هو تقنية تدريب تعلم الآلة حيث يتم تدريب النماذج باستخدام بيانات محدودة. تقوم قواعد البيانات المتجهة بتعزيز هذا النهج من خلال الحفاظ على فهرس متجه قوي. عندما يتم تعرض النموذج لمتجهات قليلة – على سبيل المثال، بعض الصور للطيور – يمكنه بسرعة استخلاص مفهوم أوسع للطيور من خلال التعرف على الأشبه والعلاقات بين هذه المتجهات.

3. تحسين أنظمة التوصية: تستخدم أنظمة التوصية قواعد البيانات المتجهة لاقتراح المحتوى المتوافق بشكل وثيق مع تفضيلات المستخدم. من خلال تحليل سلوك المستخدم وملفه وسؤاله، يتم استخراج متجهات تشير إلى اهتماماته. ثم تقوم النظام بفحص قاعدة البيانات المتجهة للعثور على متجهات المحتوى التي تشبه هذه متجهات الاهتمام، مما يضمن توصيات دقيقة.

4. استرجاع المعلومات الدلالي: الأساليب التقليدية للبحث تعتمد على مطابقات الكلمات الدقيقة. ومع ذلك، قواعد البيانات المتجهة تمكن الأنظمة من فهم واسترجاع المحتوى بناءً على الأشبه الدلالي. هذا يعني أن عمليات البحث تصبح أكثر直لاً وتعتمد على المعنى الكامن في الاستعلام، وليس فقط على صياغته. على سبيل المثال، عندما يقوم المستخدم بإدخال سؤال، يتم مقارنة المتجه المقابل بهذا السؤال مع متجهات في قاعدة البيانات، مما يتيح العثور على محتوى يتوافق مع نية السؤال، وليس فقط كلماته.

5. البحث المتعدد الوسائط: البحث المتعدد الوسائط هو تقنية ناشئة تدمج بيانات من مصادر متعددة مثل النص والصورة والصوت والفيديو. تقوم قواعد البيانات المتجهة بدور الحجر الزاوي في هذا النهج من خلال السماح بالتحليل المشترك لمتجهات من وسائط مختلفة. هذا يؤدي إلى تجربة بحث شاملة، حيث يمكن للمستخدمين استرجاع المعلومات من مجموعة متنوعة من المصادر بناءً على استعلام واحد، مما يؤدي إلى رؤى أكثر غنى ونتائج أكثر شمولاً.

الخاتمة

عالم الذكاء الاصطناعي يتغير بسرعة. إنه يلمس العديد من الصناعات، ويجلب أموراً جيدة ومشاكل جديدة. التطورات السريعة في الذكاء الاصطناعي التوليدي تؤكد على الدور الحاسم لقواعد البيانات المتجهة في إدارة وتحليل البيانات متعددة الأبعاد.

لقد قمت بإنفاق الخمس سنوات الماضية في غمرة العالم المثير للاهتمام من التعلم الآلي والتعلم العميق. وقد أدت شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا متنوعًا في هندسة البرمجيات، مع التركيز بشكل خاص على الذكاء الاصطناعي والتعلم الآلي. كما أدت فضولي المستمر إلى جذبي نحو معالجة اللغة الطبيعية، وهو مجال أنا متحمس لاستكشافه بشكل أكبر.