AGI

Великі мовні моделі з Scikit-learn: Комплексний посібник з Scikit-LLM

Опубліковано 10 січня 2024

Оновлено 22 травня 2026

Aayush Mittal Міттал

Інтегруючи складні можливості обробки мови моделей, таких як ChatGPT, з універсальною та широко використовуваною базою Scikit-learn, Scikit-LLM пропонує неперевершений арсенал для дослідження складностей текстових даних.

Scikit-LLM, доступний на своєму офіційному GitHub-репозиторії, представляє собою синтез – просунутого штучного інтелекту великих мовних моделей (LLM) типу OpenAI’s GPT-3.5 та зручної середовища Scikit-learn. Цей пакет Python, спеціально розроблений для текстового аналізу, робить доступними та ефективними просунуті методи обробки природної мови.

Чому Scikit-LLM?

Для тих, хто добре знайомий із ландшафтом Scikit-learn, Scikit-LLM здається природним кроком вперед. Він зберігає знайому API, дозволяючи користувачам використовувати функції типу .fit(), .fit_transform() та .predict(). Його здатність інтегрувати оцінювачі в трубопровід Sklearn демонструє його гнучкість, роблячи його благом для тих, хто хоче покращити свої проекти машинного навчання за допомогою сучасних мовних розумінь.

У цій статті ми досліджуємо Scikit-LLM, від його установки до практичного застосування в різних завданнях текстового аналізу. Ви дізнаєтеся, як створити як наглядові, так і безнаглядові текстові класифікатори, та заглибитеся в просунуті можливості, такі як векторизація тексту та класифікація.

Scikit-learn: Кутова точка машинного навчання

Перед тим, як зануритися в Scikit-LLM, давайте торкнемось його основи – Scikit-learn. Відомий у машинному навчанні, Scikit-learn славиться своєю комплексною суїтою алгоритмів, простотою та зручністю використання. Покриваючи спектр завдань від регресії до кластеризації, Scikit-learn є основним інструментом для багатьох вчених-даних.

Збудований на основі наукових бібліотек Python (NumPy, SciPy та Matplotlib), Scikit-learn виділяється своєю інтеграцією з науковим стеком Python та ефективністю при роботі з масивами NumPy та розрідженими матрицями SciPy.

У своєму ядрі Scikit-learn полягає у єдності та легкості використання. Незалежно від алгоритму, який ви виберете, кроки залишаються постійними – імпортуєте клас, використовуєте метод ‘fit’ з вашими даними, та застосовуєте ‘predict’ або ‘transform’, щоб використати модель. Ця простота знижує криву навчання, роблячи його ідеальною точкою початку для тих, хто новий у машинному навчанні.

Налаштування середовища

Перед тим, як зануритися в подробиці, важливо налаштувати робоче середовище. Для цієї статті Google Colab буде платформою вибору, забезпечуючи доступне та потужне середовище для виконання коду Python.

Інсталяція

%%capture
!pip install scikit-llm watermark

<p>%load_ext watermark
%watermark -a &quot;your-username&quot; -vmp scikit-llm

Отримання та конфігурація ключів API

Scikit-LLM вимагає ключ API OpenAI для доступу до основних мовних моделей.

from skllm.config import SKLLMConfig

<p>OPENAI_API_KEY = &quot;sk-****&quot;
OPENAI_ORG_ID = &quot;org-****&quot;</p>

<p>SKLLMConfig.set_openai_key(OPENAI_API_KEY)
SKLLMConfig.set_openai_org(OPENAI_ORG_ID)</p>

Безнаглядова класифікація GPT

ZeroShotGPTClassifier – це видатна особливість Scikit-LLM, яка використовує можливість ChatGPT класифікувати текст на основі описових міток без потреби традиційної підготовки моделі.

Імпорт бібліотек та набору даних

from skllm import ZeroShotGPTClassifier
from skllm.datasets import get_classification_dataset

<p>X, y = get_classification_dataset()

Підготовка даних

Розподіл даних на навчальні та тестові підмножини:

def training_data(data):
return data[:8] + data[10:18] + data[20:28]

<p>def testing_data(data):
return data[8:10] + data[18:20] + data[28:30]</p>

<p>X_train, y_train = training_data(X), training_data(y)
X_test, y_test = testing_data(X), testing_data(y)</p>

Навчання моделі та передбачення

Визначення та навчання ZeroShotGPTClassifier:

clf = ZeroShotGPTClassifier(openai_model=&quot;gpt-3.5-turbo&quot;)
clf.fit(X_train, y_train)

predicted_labels = clf.predict(X_test)

Оцінка

Оцінка продуктивності моделі:

from sklearn.metrics import accuracy_score

<p>print(f&quot;Точність: {accuracy_score(y_test, predicted_labels):.2f}&quot;)</p>

Резюмування тексту з Scikit-LLM

Резюмування тексту – це критична особливість у сфері обробки природної мови, і Scikit-LLM використовує можливості GPT у цій сфері через свій модуль GPTSummarizer. Ця особливість виділяється своєю адаптивністю, дозволяючи використовувати її як самостійний інструмент для генерації резюмів, так і як попередній крок у більш широких потоках обробки.

Застосування GPTSummarizer :

Самостійне резюмування: GPTSummarizer може незалежно створювати лаконічні резюми з довгих документів, що є невід’ємним для швидкого аналізу змісту або виділення ключової інформації з великих об’ємів тексту.
Передбачення для інших операцій: У потоках обробки, які включають декілька етапів текстового аналізу, GPTSummarizer можна використовувати для звуження текстових даних. Це знижує обчислювальне навантаження та спрощує подальші етапи аналізу без втрати суттєвої інформації.

Реалізація текстового резюмування:

Процес реалізації текстового резюмування в Scikit-LLM включає:

Імпорт GPTSummarizer та відповідного набору даних.
Створення екземпляра GPTSummarizer з вказаними параметрами, такими як max_words, для контролю довжини резюму.
Застосування методу fit_transform для генерації резюмів.

Важливо відзначити, що параметр max_words служить орієнтовним показником, а не суворим обмеженням, забезпечуючи, щоб резюми зберігали свою цілісність та актуальність, навіть якщо вони трохи перевищують вказану кількість слів.

Ширші наслідки Scikit-LLM

Діапазон особливостей Scikit-LLM, включаючи текстову класифікацію, резюмування, векторизацію, переклад та його адаптивність у роботі з необробленими даними, робить його комплексним інструментом для різноманітних завдань текстового аналізу. Ця гнучкість та зручність використання відповідають як початківцям, так і досвідченим фахівцям у сфері штучного інтелекту та машинного навчання.

Потенційні застосування:

Аналіз клієнтської зворотної зв’язки: Класифікація клієнтської зворотної зв’язки на категорії, такі як позитивна, негативна чи нейтральна, які можуть інформувати покращення клієнтського сервісу або стратегії розробки продукції.
Класифікація статей: Розсортовування статей на різні теми для персоналізованих новинних стрічок або аналізу тенденцій.
Переклад мови: Переклад документів для багатонаціональних операцій або особистого використання.
Резюмування документів: Швидке розуміння суті довгих документів або створення коротших версій для публікації.

Переваги Scikit-LLM:

Точність: Доведена ефективність у завданнях, таких як безнаглядова текстова класифікація та резюмування.
Швидкість: Підходить для завдань реального часу завдяки своїй ефективності.
Масштабованість: Спроможний обробляти великі об’єми тексту, роблячи його ідеальним для застосувань великих даних.

Висновок: Приняття Scikit-LLM для просунутого текстового аналізу

У підсумку, Scikit-LLM стоїть як потужний, універсальний та зручний інструмент у сфері текстового аналізу. Його здатність поєднувати великі мовні моделі з традиційними машинними навчальними потоками, разом з його відкритим характером, робить його цінним активом для дослідників, розробників та бізнесу. Чи то вдосконалення клієнтського сервісу, аналіз новинних тенденцій, сприяння багатомовній комунікації чи виділення суттєвої інформації з великих документів, Scikit-LLM пропонує потужне рішення.

Aayush Mittal, Міттал

Я провів останні п'ять років, занурючись у захопливий світ машинного навчання та глибокого навчання. Моя пристрасть та експертиза привели мене до внеску у понад 50 різних проектів програмної інженерії, з особливим акцентом на AI/ML. Моя тривала цікавість також привела мене до природної обробки мови, галузі, яку я бажаю дослідити далі.