בינה כללית מלאכותית

מודלים של שפה גדולה עם Scikit-learn: מדריך מקיף ל-Scikit-LLM

יצא לאור ינואר 10, 2024

איוש מיטל מיטאל

על ידי שילוב יכולות עיבוד השפה המתוחכמות של מודלים כמו ChatGPT עם מסגרת Scikit-learn הרב-תכליתית והנפוצה, Scikit-LLM מציעה ארסנל חסר תקדים להתעמקות במורכבויות של נתונים טקסטואליים.

Scikit-LLM, נגיש באתר הרשמי שלו מאגר GitHub, מייצג שילוב של – הבינה המלאכותית המתקדמת של מודלים לשפה גדולה (LLMs) כמו GPT-3.5 של OpenAI והסביבה הידידותית למשתמש של Scikit-learn. חבילת Python זו, שתוכננה במיוחד לניתוח טקסט, הופכת עיבוד שפה טבעית מתקדם לנגיש ויעיל.

למה Scikit-LLM?

עבור אלו המכירים היטב את הנוף של Scikit-learn, Scikit-LLM מרגיש כמו התקדמות טבעית. הוא שומר על ה-API המוכר, ומאפשר למשתמשים להשתמש בפונקציות כמו .fit(), .fit_transform(), ו .predict()היכולת שלה לשלב מעריכים בתוך צינור Sklearn מדגימה את הגמישות שלה, מה שהופך אותה ליתרון עבור אלו המעוניינים לשפר את פרויקטי למידת המכונה שלהם עם הבנת שפה מתקדמת.

במאמר זה נחקור את Scikit-LLM, החל מהתקנתו ועד ליישום המעשי שלו במשימות ניתוח טקסט שונות. תלמדו כיצד ליצור מסווגי טקסט מבוקרים וסווגי טקסט עם ירי אפס, ותעמיקו בתכונות מתקדמות כמו וקטוריזציה וסיווג טקסט.

Scikit-learn: אבן הפינה של למידת מכונה

לפני שנצלול לתוך Scikit-LLM, בואו ניגע ביסודות שלו - Scikit-learn. Scikit-learn, שם מוכר בעולם הלמידה החישובית, ידוע בזכות חבילת האלגוריתמים המקיפה שלו, הפשטות שלו וידידותיות למשתמש. Scikit-learn, המכסה מגוון רחב של משימות, החל מרגרסיה ועד אשכולות, הוא הכלי המועדף על מדעני נתונים רבים.

Scikit-learn, שנבנתה על בסיס הספריות המדעיות של פייתון (NumPy, SciPy ו-Matplotlib), בולטת בזכות האינטגרציה שלה עם המחסנית המדעית של פייתון וביעילותה עם מערכי NumPy ומטריצות דלילות של SciPy.

בבסיסו, Scikit-learn עוסקת באחידות וקלות שימוש. ללא קשר לאלגוריתם שתבחרו, השלבים נשארים עקביים - ייבא את המחלקה, השתמשו בשיטת 'התאמה' עם הנתונים שלכם, והחילו 'ניבוי' או 'טרנספורמציה' כדי לנצל את המודל. פשטות זו מצמצמת את עקומת הלמידה, מה שהופך אותה לנקודת התחלה אידיאלית עבור אלו שחדשים בלמידת מכונה.

הגדרת הסביבה

לפני שנצלול לפרטים, חשוב להגדיר את סביבת העבודה. עבור מאמר זה, Google Colab תהיה הפלטפורמה המועדפת, המספקת סביבה נגישה וחזקה להרצת קוד Python.

הַתקָנָה

%%capture
!pip install scikit-llm watermark

%load_ext watermark
%watermark -a "your-username" -vmp scikit-llm

השגה והגדרה של מפתחות API

Scikit-LLM דורש מפתח API של OpenAI כדי לגשת למודלי השפה הבסיסיים.

from skllm.config import SKLLMConfig

OPENAI_API_KEY = "sk-****"
OPENAI_ORG_ID = "org-****"

SKLLMConfig.set_openai_key(OPENAI_API_KEY)
SKLLMConfig.set_openai_org(OPENAI_ORG_ID)

מסווג GPT עם אפס ירי

השמיים ZeroShotGPTClassifier היא תכונה יוצאת דופן של Scikit-LLM שממנפת את יכולתו של ChatGPT לסווג טקסט על סמך תוויות תיאוריות, ללא צורך באימון מודל מסורתי.

ייבוא ספריות ומערכי נתונים

from skllm import ZeroShotGPTClassifier
from skllm.datasets import get_classification_dataset

X, y = get_classification_dataset()

הכנת הנתונים

פיצול הנתונים לתת-קבוצות אימון ובדיקה:

def training_data(data):
    return data[:8] + data[10:18] + data[20:28]

def testing_data(data):
    return data[8:10] + data[18:20] + data[28:30]

X_train, y_train = training_data(X), training_data(y)
X_test, y_test = testing_data(X), testing_data(y)

הדרכה וחיזוי מודלים

הגדרה ואימון של ה-ZeroShotGPTClassifier:

clf = ZeroShotGPTClassifier(openai_model="gpt-3.5-turbo")
clf.fit(X_train, y_train)

predicted_labels = clf.predict(X_test)

הערכה

הערכת ביצועי המודל:

from sklearn.metrics import accuracy_score

print(f"Accuracy: {accuracy_score(y_test, predicted_labels):.2f}")

סיכום טקסט עם Scikit-LLM

סיכום טקסט הוא מאפיין קריטי בתחום ה-NLP, ו-Scikit-LLM רותם את יכולותיה של GPT בתחום זה באמצעות... GPTSummarizer מודול. תכונה זו בולטת בזכות יכולת ההסתגלות שלה, ומאפשרת שימוש בה הן ככלי עצמאי ליצירת סיכומים והן כשלב עיבוד מקדים בזרימות עבודה רחבות יותר.

יישומים של GPTSummarizer:

סיכום עצמאי: השמיים GPTSummarizer יכול ליצור באופן עצמאי סיכומים תמציתיים ממסמכים ארוכים, דבר בעל ערך רב לניתוח תוכן מהיר או לחילוץ מידע מפתח מכמויות גדולות של טקסט.
עיבוד מקדים לפעולות אחרות: בזרימות עבודה הכוללות שלבים מרובים של ניתוח טקסט, ה- GPTSummarizer ניתן להשתמש בו כדי לצמצם נתוני טקסט. זה מפחית את עומס החישוב ומפשט את שלבי הניתוח הבאים מבלי לאבד מידע חיוני.

יישום סיכום טקסט:

תהליך היישום של סיכום טקסט ב-Scikit-LLM כולל:

יבוא GPTSummarizer ומערך הנתונים הרלוונטי.
יצירת מופע של GPTSummarizer עם פרמטרים מוגדרים כמו max_words כדי לשלוט באורך הסיכום.
החלת fit_transform שיטה ליצירת סיכומים.

חשוב לציין כי ה max_words הפרמטר משמש כקו מנחה ולא כמגבלה נוקשה, ומבטיח שסיכומים ישמרו על קוהרנטיות ורלוונטיות, גם אם הם חורגים במעט מספירת המילים שצוינה.

השלכות רחבות יותר של Scikit-LLM

מגוון התכונות של Scikit-LLM, כולל סיווג טקסט, סיכום, וקטוריזציה, תרגום ויכולת ההסתגלות שלו בטיפול בנתונים לא מתויגים, הופכים אותו לכלי מקיף למשימות ניתוח טקסט מגוונות. גמישות וקלות שימוש זו מתאימות הן למתחילים והן למנוסים בתחום הבינה המלאכותית ולמידת מכונה.

יישומים פוטנציאליים:

ניתוח משוב לקוחות: סיווג משוב לקוחות לקטגוריות כמו חיובי, שלילי או ניטרלי, שיכול להוביל לשיפורי שירות לקוחות או אסטרטגיות פיתוח מוצרים.
סיווג מאמרי חדשות: מיון מאמרי חדשות לנושאים שונים לצורך הזנות חדשות מותאמות אישית או ניתוח מגמות.
תרגום שפה: תרגום מסמכים עבור פעולות רב-לאומיות או לשימוש אישי.
תקציר המסמך: תפיסה מהירה של מהותם של מסמכים ארוכים או יצירת גרסאות קצרות יותר לפרסום.

יתרונות של Scikit-LLM:

דיוק: יעילות מוכחת במשימות כמו סיווג וסיכום טקסט ברמת אפס תוצאה.
מהירות: מתאים למשימות עיבוד בזמן אמת בשל יעילותו.
מדרגיות: מסוגל להתמודד עם כמויות גדולות של טקסט, מה שהופך אותו אידיאלי עבור יישומי ביג דאטה.

סיכום: אימוץ Scikit-LLM לניתוח טקסט מתקדם

לסיכום, Scikit-LLM מהווה כלי רב עוצמה, רב-תכליתי וידידותי למשתמש בתחום ניתוח הטקסט. יכולתו לשלב מודלים של שפה גדולה עם זרימות עבודה מסורתיות של למידת מכונה, בשילוב עם אופיו כקוד פתוח, הופכים אותו לנכס בעל ערך עבור חוקרים, מפתחים ועסקים כאחד. בין אם מדובר בשיפור שירות הלקוחות, ניתוח מגמות חדשות, הקלת תקשורת רב-לשונית או זיקוק מידע חיוני ממסמכים נרחבים, Scikit-LLM מציע פתרון חזק.

איוש מיטל

ביליתי את חמש השנים האחרונות בהתעמקות בעולם המרתק של למידת מכונה ולמידה עמוקה. התשוקה והמומחיות שלי הובילו אותי לתרום ליותר מ-50 פרויקטים מגוונים של הנדסת תוכנה, עם דגש מיוחד על בינה מלאכותית/למידה מבוססת מכונה. סקרנותי המתמשכת משכה אותי גם לכיוון עיבוד שפה טבעית, תחום שאני להוט לחקור לעומק.