人工智能

Scikit-learn 的大型语言模型：Scikit-LLM 综合指南

发布时间

4个月前

2024 年 1 月 10 日

通过将 ChatGPT 等模型的复杂语言处理功能与通用且广泛使用的 Scikit-learn 框架相集成，Scikit-LLM 提供了无与伦比的工具库，可用于深入研究文本数据的复杂性。

Scikit-LLM，可在其官方网站上访问 GitHub存储库，代表了大型语言模型 (LLM) 的高级 AI（如 OpenAI 的 GPT-3.5）和 Scikit-learn 的用户友好环境的融合。这个 Python 包专为文本分析而设计，使高级自然语言处理变得易于访问且高效。

为什么选择 Scikit-LLM？

对于那些熟悉 Scikit-learn 领域的人来说，Scikit-LLM 感觉像是一个自然的进步。它维护了熟悉的 API，允许用户使用诸如 .fit(), .fit_transform()及 .predict()。它能够将估计器集成到 Sklearn 管道中，这体现了它的灵活性，对于那些希望通过最先进的语言理解来增强机器学习项目的人来说是一个福音。

在本文中，我们将探讨 Scikit-LLM，从其安装到其在各种文本分析任务中的实际应用。您将学习如何创建监督和零样本文本分类器，并深入研究文本矢量化和分类等高级功能。

Scikit-learn：机器学习的基石

在深入研究 Scikit-LLM 之前，让我们先了解一下它的基础——Scikit-learn。 Scikit-learn 是机器学习领域家喻户晓的名字，以其全面的算法套件、简单性和用户友好性而闻名。 Scikit-learn 涵盖从回归到聚类的一系列任务，是许多数据科学家的首选工具。

Scikit-learn 建立在 Python 科学库（NumPy、SciPy 和 Matplotlib）的基础上，因其与 Python 科学堆栈的集成以及 NumPy 数组和 SciPy 稀疏矩阵的效率而脱颖而出。

Scikit-learn 的核心是一致性和易用性。无论您选择哪种算法，步骤都保持一致 - 导入类，对数据使用“拟合”方法，然后应用“预测”或“转换”来利用模型。这种简单性缩短了学习曲线，使其成为机器学习新手的理想起点。

设置环境

在深入了解具体细节之前，设置工作环境至关重要。对于本文，Google Colab 将成为首选平台，它为运行 Python 代码提供了一个可访问且功能强大的环境。

装置

%%capture
!pip install scikit-llm watermark
%load_ext watermark
%watermark -a "your-username" -vmp scikit-llm

获取和配置API密钥

Scikit-LLM 需要 OpenAI API 密钥来访问底层语言模型。

from skllm.config import SKLLMConfig
OPENAI_API_KEY = "sk-****"
OPENAI_ORG_ID = "org-****"
SKLLMConfig.set_openai_key(OPENAI_API_KEY)
SKLLMConfig.set_openai_org(OPENAI_ORG_ID)

零样本 GPT 分类器

ZeroShotGPTClassifier 是 Scikit-LLM 的一个显着特征，它利用 ChatGPT 的能力根据描述性标签对文本进行分类，而不需要传统的模型训练。

导入库和数据集

from skllm import ZeroShotGPTClassifier
from skllm.datasets import get_classification_dataset
X, y = get_classification_dataset()

准备数据

将数据分为训练和测试子集：

def training_data(data):
    return data[:8] + data[10:18] + data[20:28]
def testing_data(data):
    return data[8:10] + data[18:20] + data[28:30]
X_train, y_train = training_data(X), training_data(y)
X_test, y_test = testing_data(X), testing_data(y)

模型训练与预测

定义和训练 ZeroShotGPTClassifier：

clf = ZeroShotGPTClassifier(openai_model="gpt-3.5-turbo")
clf.fit(X_train, y_train)
predicted_labels = clf.predict(X_test)

评价

评估模型的性能：

from sklearn.metrics import accuracy_score
print(f"Accuracy: {accuracy_score(y_test, predicted_labels):.2f}")

使用 Scikit-LLM 进行文本摘要

文本摘要是 NLP 领域的一个关键功能，Scikit-LLM 通过其 GPTSummarizer 模块。此功能因其适应性而脱颖而出，使其既可以用作生成摘要的独立工具，也可以用作更广泛的工作流程中的预处理步骤。

GPTSummaryizer 的应用：

独立总结： GPTSummarizer 可以独立地从冗长的文档中创建简洁的摘要，这对于快速内容分析或从大量文本中提取关键信息非常有价值。
其他操作的预处理： 在涉及文本分析多个阶段的工作流程中， GPTSummarizer 可用于压缩文本数据。这减少了计算负载并简化了后续分析步骤，而不会丢失重要信息。

实现文本摘要：

Scikit-LLM 中文本摘要的实现过程包括：

输入 GPTSummarizer 以及相关数据集。
创建一个实例 GPTSummarizer 具有指定参数，例如 max_words 控制摘要长度。
应用 fit_transform 生成摘要的方法。

重要的是要注意， max_words 参数作为指导方针而不是严格限制，确保摘要保持连贯性和相关性，即使它们稍微超出指定的字数。

Scikit-LLM 的更广泛影响

Scikit-LLM 的一系列功能，包括文本分类、摘要、矢量化、翻译及其在处理未标记数据方面的适应性，使其成为各种文本分析任务的综合工具。这种灵活性和易用性适合人工智能和机器学习领域的新手和经验丰富的从业者。

潜在应用：

客户反馈分析： 将客户反馈分为积极、消极或中性等类别，这可以为客户服务改进或产品开发策略提供信息。
新闻文章分类： 将新闻文章分类为不同主题，以进行个性化新闻提要或趋势分析。
语言翻译： 翻译跨国经营或个人使用的文件。
文档摘要： 快速掌握冗长文档的本质或创建较短的版本以供发布。

Scikit-LLM的优势：

精度： 在零样本文本分类和摘要等任务中经过验证的有效性。
速度： 由于其效率，适合实时处理任务。
可扩展性： 能够处理大量文本，非常适合大数据应用。

结论：采用 Scikit-LLM 进行高级文本分析

总之，Scikit-LLM 在文本分析领域是一个强大、多功能且用户友好的工具。其将大型语言模型与传统机器学习工作流程相结合的能力，加上其开源特性，使其成为研究人员、开发人员和企业的宝贵资产。无论是改善客户服务、分析新闻趋势、促进多语言沟通，还是从大量文档中提取重要信息，Scikit-LLM 都能提供强大的解决方案。