رطم نماذج اللغات الكبيرة باستخدام Scikit-Learn: دليل شامل لـ Scikit-LLM - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء العام الاصطناعي

نماذج اللغات الكبيرة باستخدام Scikit-Learn: دليل شامل لـ Scikit-LLM

mm

تم النشر

 on

سيكيت إل إل إم

من خلال دمج إمكانات معالجة اللغة المتطورة لنماذج مثل ChatGPT مع إطار عمل Scikit-learn متعدد الاستخدامات والمستخدم على نطاق واسع، تقدم Scikit-LLM ترسانة لا مثيل لها للتعمق في تعقيدات البيانات النصية.

Scikit-LLM، متاح على موقعه الرسمي مستودع جيثبيمثل مزيجًا من - الذكاء الاصطناعي المتقدم لنماذج اللغات الكبيرة (LLMs) مثل OpenAI's GPT-3.5 وبيئة Scikit-learn سهلة الاستخدام. إن حزمة Python هذه، المصممة خصيصًا لتحليل النصوص، تجعل المعالجة المتقدمة للغة الطبيعية متاحة وفعالة.

لماذا Scikit-LLM؟

بالنسبة لأولئك الذين لديهم خبرة جيدة في مشهد Scikit-Learn، فإن Scikit-LLM يبدو وكأنه تقدم طبيعي. فهو يحافظ على واجهة برمجة التطبيقات (API) المألوفة، مما يسمح للمستخدمين بالاستفادة من وظائف مثل .fit(), .fit_transform()و .predict(). إن قدرته على دمج المقدرين في مسار Sklearn تجسد مرونته، مما يجعله نعمة لأولئك الذين يتطلعون إلى تحسين مشاريع التعلم الآلي الخاصة بهم من خلال فهم اللغة المتطور.

في هذه المقالة، نستكشف Scikit-LLM، بدءًا من تثبيته وحتى تطبيقه العملي في مهام تحليل النصوص المختلفة. ستتعلم كيفية إنشاء مصنفات نصية خاضعة للإشراف ومصنفات صفرية والتعمق في الميزات المتقدمة مثل توجيه النص وتصنيفه.

Scikit-Learn: حجر الزاوية في التعلم الآلي

قبل الغوص في Scikit-LLM، دعونا نتطرق إلى أساسها – Scikit-learn. يعد Scikit-learn اسمًا مألوفًا في مجال التعلم الآلي، ويشتهر بمجموعته الخوارزمية الشاملة وبساطته وسهولة استخدامه. يغطي Scikit-Learn مجموعة واسعة من المهام بدءًا من الانحدار وحتى التجميع، وهو الأداة التي يستخدمها العديد من علماء البيانات.

تم بناء Scikit-learn على أساس مكتبات Python العلمية (NumPy وSciPy وMatplotlib)، ويتميز بتكامله مع مجموعة Python العلمية وكفاءته مع مصفوفات NumPy ومصفوفات SciPy المتفرقة.

في جوهره، Scikit-learn يدور حول التوحيد وسهولة الاستخدام. بغض النظر عن الخوارزمية التي تختارها، تظل الخطوات متسقة - قم باستيراد الفصل، واستخدم طريقة "الملاءمة" مع بياناتك، وقم بتطبيق "التنبؤ" أو "التحويل" للاستفادة من النموذج. تعمل هذه البساطة على تقليل منحنى التعلم، مما يجعلها نقطة انطلاق مثالية لأولئك الجدد في مجال التعلم الآلي.

تهيئة البيئة

قبل الغوص في التفاصيل، من الضروري تهيئة بيئة العمل. بالنسبة لهذه المقالة، سيكون Google Colab هو النظام الأساسي المفضل، حيث يوفر بيئة قوية ويمكن الوصول إليها لتشغيل كود Python.

التنزيل

%%capture
!pip install scikit-llm watermark
%load_ext watermark
%watermark -a "your-username" -vmp scikit-llm

الحصول على مفاتيح API وتكوينها

يتطلب Scikit-LLM مفتاح OpenAI API للوصول إلى نماذج اللغة الأساسية.

from skllm.config import SKLLMConfig
OPENAI_API_KEY = "sk-****"
OPENAI_ORG_ID = "org-****"
SKLLMConfig.set_openai_key(OPENAI_API_KEY)
SKLLMConfig.set_openai_org(OPENAI_ORG_ID)

تصنيف Zero-Shot GPT

ZeroShotGPTClassifier هي ميزة رائعة في Scikit-LLM تعمل على تعزيز قدرة ChatGPT على تصنيف النص بناءً على تسميات وصفية، دون الحاجة إلى التدريب على النماذج التقليدية.

استيراد المكتبات ومجموعة البيانات

from skllm import ZeroShotGPTClassifier
from skllm.datasets import get_classification_dataset
X, y = get_classification_dataset()

تجهيز البيانات

تقسيم البيانات إلى مجموعات فرعية للتدريب والاختبار:

def training_data(data):
    return data[:8] + data[10:18] + data[20:28]
def testing_data(data):
    return data[8:10] + data[18:20] + data[28:30]
X_train, y_train = training_data(X), training_data(y)
X_test, y_test = testing_data(X), testing_data(y)

نموذج التدريب والتنبؤ

تعريف وتدريب برنامج ZeroShotGPTClassifier:

clf = ZeroShotGPTClassifier(openai_model="gpt-3.5-turbo")
clf.fit(X_train, y_train)
predicted_labels = clf.predict(X_test)

التقييم

تقييم أداء النموذج:

from sklearn.metrics import accuracy_score
print(f"Accuracy: {accuracy_score(y_test, predicted_labels):.2f}")

تلخيص النص باستخدام Scikit-LLM

يعد تلخيص النص ميزة مهمة في عالم البرمجة اللغوية العصبية، وتستفيد Scikit-LLM من براعة GPT في هذا المجال من خلال GPTSummarizer وحدة. تتميز هذه الميزة بقدرتها على التكيف، مما يسمح باستخدامها كأداة مستقلة لإنشاء الملخصات وكخطوة معالجة مسبقة في سير العمل الأوسع.

تطبيقات GTSummarizer:

  1. تلخيص مستقل:GPTSummarizer يمكن إنشاء ملخصات موجزة بشكل مستقل من المستندات الطويلة، وهو أمر لا يقدر بثمن لتحليل المحتوى السريع أو استخراج المعلومات الأساسية من كميات كبيرة من النص.
  2. المعالجة المسبقة للعمليات الأخرى: في سير العمل الذي يتضمن مراحل متعددة لتحليل النص، فإن GPTSummarizer يمكن استخدامها لتكثيف البيانات النصية. وهذا يقلل من العبء الحسابي ويبسط خطوات التحليل اللاحقة دون فقدان المعلومات الأساسية.

تنفيذ تلخيص النص:

تتضمن عملية تنفيذ تلخيص النص في Scikit-LLM ما يلي:

  1. استيراد GPTSummarizer ومجموعة البيانات ذات الصلة.
  2. إنشاء مثيل ل GPTSummarizer مع المعلمات المحددة مثل max_words للتحكم في طول الملخص.
  3. تطبيق fit_transform طريقة توليد ملخصات.

من المهم ملاحظة أن ملف max_words تعمل المعلمة كمبدأ توجيهي وليس حدًا صارمًا، مما يضمن الحفاظ على الملخصات متماسكة وملاءمتها، حتى لو تجاوزت عدد الكلمات المحدد قليلاً.

الآثار الأوسع لـ Scikit-LLM

مجموعة ميزات Scikit-LLM، بما في ذلك تصنيف النص، والتلخيص، والتوجيه، والترجمة، وقدرتها على التكيف في التعامل مع البيانات غير المسماة، تجعلها أداة شاملة لمهام تحليل النص المتنوعة. تلبي هذه المرونة وسهولة الاستخدام كلا من المبتدئين والممارسين ذوي الخبرة في مجال الذكاء الاصطناعي والتعلم الآلي.

التطبيقات المحتملة:

  • تحليل آراء العملاء: تصنيف تعليقات العملاء إلى فئات مثل إيجابية أو سلبية أو محايدة، والتي يمكن أن تفيد تحسينات خدمة العملاء أو استراتيجيات تطوير المنتج.
  • تصنيف المقالات الإخبارية: فرز المقالات الإخبارية في مواضيع مختلفة لخلاصات الأخبار المخصصة أو تحليل الاتجاهات.
  • ترجمة اللغة: ترجمة المستندات للعمليات المتعددة الجنسيات أو الاستخدام الشخصي.
  • تلخيص الوثيقة: فهم سريع لجوهر المستندات الطويلة أو إنشاء نسخ أقصر للنشر.

مزايا Scikit-LLM:

  • دقة: فعالية مثبتة في مهام مثل تصنيف النص وتلخيصه.
  • سرعة: مناسبة لمهام المعالجة في الوقت الحقيقي بسبب كفاءتها.
  • التدرجية: قادر على التعامل مع كميات كبيرة من النصوص، مما يجعله مثاليًا لتطبيقات البيانات الضخمة.

الخلاصة: تبني Scikit-LLM لتحليل النص المتقدم

باختصار، يعتبر Scikit-LLM أداة قوية ومتعددة الاستخدامات وسهلة الاستخدام في مجال تحليل النصوص. إن قدرتها على الجمع بين نماذج اللغات الكبيرة وسير عمل التعلم الآلي التقليدي، إلى جانب طبيعتها مفتوحة المصدر، تجعلها رصيدًا قيمًا للباحثين والمطورين والشركات على حدٍ سواء. سواء كان الأمر يتعلق بتحسين خدمة العملاء، أو تحليل اتجاهات الأخبار، أو تسهيل الاتصال متعدد اللغات، أو استخلاص المعلومات الأساسية من المستندات الشاملة، فإن Scikit-LLM تقدم حلاً قويًا.

لقد أمضيت السنوات الخمس الماضية منغمسًا في عالم رائع من التعلم الآلي والتعلم العميق. قادني شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا متنوعًا لهندسة البرمجيات ، مع التركيز بشكل خاص على الذكاء الاصطناعي / التعلم الآلي. جذبني فضولي المستمر أيضًا نحو معالجة اللغة الطبيعية ، وهو مجال أتوق لاستكشافه بشكل أكبر.