Intel·ligència general artificial

Grans models lingüístics amb Scikit-learn: una guia completa de Scikit-LLM

publicat

Fa mesos 4

Gener 10, 2024

Mitjançant la integració de les sofisticades capacitats de processament del llenguatge de models com ChatGPT amb el versàtil i àmpliament utilitzat marc Scikit-learn, Scikit-LLM ofereix un arsenal inigualable per aprofundir en la complexitat de les dades textuals.

Scikit-LLM, accessible al seu oficial Dipòsit de GitHub, representa una fusió de: l'IA avançada de grans models de llenguatge (LLM) com el GPT-3.5 d'OpenAI i l'entorn fàcil d'utilitzar de Scikit-learn. Aquest paquet Python, especialment dissenyat per a l'anàlisi de text, fa que el processament avançat del llenguatge natural sigui accessible i eficient.

Per què Scikit-LLM?

Per a aquells que coneixen el paisatge de Scikit-learn, Scikit-LLM se sent com una progressió natural. Manté l'API familiar, permetent als usuaris utilitzar funcions com .fit(), .fit_transform()i .predict(). La seva capacitat d'integrar estimadors en un pipeline de Sklearn exemplifica la seva flexibilitat, cosa que la converteix en un benefici per a aquells que busquen millorar els seus projectes d'aprenentatge automàtic amb una comprensió lingüística d'última generació.

En aquest article, explorem Scikit-LLM, des de la seva instal·lació fins a la seva aplicació pràctica en diverses tasques d'anàlisi de textos. Aprendràs a crear classificadors de text supervisats i de tir zero i aprofundeixes en funcions avançades com la vectorització i la classificació de text.

Scikit-learn: la pedra angular de l'aprenentatge automàtic

Abans de submergir-nos en Scikit-LLM, toquem el seu fonament: Scikit-learn. Scikit-learn, un nom familiar en l'aprenentatge automàtic, és conegut per la seva completa suite algorítmica, la seva senzillesa i la seva facilitat d'ús. Cobrint un espectre de tasques des de la regressió fins a l'agrupació, Scikit-learn és l'eina de referència per a molts científics de dades.

Construït sobre la base de les biblioteques científiques de Python (NumPy, SciPy i Matplotlib), Scikit-learn destaca per la seva integració amb la pila científica de Python i la seva eficiència amb matrius NumPy i matrius escasses de SciPy.

En el seu nucli, Scikit-learn tracta sobre la uniformitat i la facilitat d'ús. Independentment de l'algorisme que trieu, els passos segueixen sent coherents: importeu la classe, utilitzeu el mètode "ajust" amb les vostres dades i apliqueu "predir" o "transformar" per utilitzar el model. Aquesta senzillesa redueix la corba d'aprenentatge, la qual cosa la converteix en un punt de partida ideal per a aquells que inicien l'aprenentatge automàtic.

Configuració del medi ambient

Abans d'aprofundir en els detalls, és crucial configurar l'entorn de treball. Per a aquest article, Google Colab serà la plataforma escollida, proporcionant un entorn accessible i potent per executar codi Python.

instal·lació

%%capture
!pip install scikit-llm watermark
%load_ext watermark
%watermark -a "your-username" -vmp scikit-llm

Obtenció i configuració de claus API

Scikit-LLM requereix una clau API OpenAI per accedir als models de llenguatge subjacents.

from skllm.config import SKLLMConfig
OPENAI_API_KEY = "sk-****"
OPENAI_ORG_ID = "org-****"
SKLLMConfig.set_openai_key(OPENAI_API_KEY)
SKLLMConfig.set_openai_org(OPENAI_ORG_ID)

Zero-Shot GPTClassifier

El ZeroShotGPTClassifier és una característica notable de Scikit-LLM que aprofita la capacitat de ChatGPT per classificar el text basant-se en etiquetes descriptives, sense necessitat de l'entrenament tradicional del model.

Importació de biblioteques i conjunt de dades

from skllm import ZeroShotGPTClassifier
from skllm.datasets import get_classification_dataset
X, y = get_classification_dataset()

Preparació de les dades

Divisió de les dades en subconjunts d'entrenament i de prova:

def training_data(data):
    return data[:8] + data[10:18] + data[20:28]
def testing_data(data):
    return data[8:10] + data[18:20] + data[28:30]
X_train, y_train = training_data(X), training_data(y)
X_test, y_test = testing_data(X), testing_data(y)

Model Training i Predicció

Definició i formació del ZeroShotGPTClassifier:

clf = ZeroShotGPTClassifier(openai_model="gpt-3.5-turbo")
clf.fit(X_train, y_train)
predicted_labels = clf.predict(X_test)

Avaluació

Avaluació del rendiment del model:

from sklearn.metrics import accuracy_score
print(f"Accuracy: {accuracy_score(y_test, predicted_labels):.2f}")

Resum de textos amb Scikit-LLM

El resum del text és una característica crítica en l'àmbit de la PNL, i Scikit-LLM aprofita les habilitats de GPT en aquest domini a través del seu GPTSummarizer mòdul. Aquesta característica destaca per la seva adaptabilitat, permetent-la utilitzar tant com a eina autònoma per generar resums com com a pas de preprocessament en fluxos de treball més amplis.

Aplicacions de GPTSummarizer:

Resum autònom: El GPTSummarizer pot crear de manera independent resums concisos a partir de documents extensos, la qual cosa és inestimable per a una ràpida anàlisi de contingut o per extreure informació clau de grans volums de text.
Preprocessament per a altres operacions: En els fluxos de treball que impliquen múltiples etapes d'anàlisi de text, el GPTSummarizer es pot utilitzar per condensar dades de text. Això redueix la càrrega computacional i simplifica els passos posteriors d'anàlisi sense perdre la informació essencial.

Implementació del resum de text:

El procés d'implementació per al resum de text a Scikit-LLM implica:

Importador GPTSummarizer i el conjunt de dades corresponent.
Creació d'una instància de GPTSummarizer amb paràmetres especificats com max_words per controlar la longitud del resum.
Aplicant el fit_transform mètode per generar resums.

És important tenir en compte que el max_words El paràmetre serveix com a guia més que com a límit estricte, assegurant que els resums mantenen la coherència i la rellevància, fins i tot si superen lleugerament el nombre de paraules especificat.

Implicacions més àmplies de Scikit-LLM

La gamma de funcions de Scikit-LLM, com ara la classificació de text, resum, vectorització, traducció i la seva adaptabilitat en el maneig de dades sense etiqueta, la converteixen en una eina completa per a diverses tasques d'anàlisi de text. Aquesta flexibilitat i facilitat d'ús s'adapten tant als principiants com als professionals experimentats en el camp de l'IA i l'aprenentatge automàtic.

Aplicacions potencials:

Anàlisi de comentaris dels clients: Classificar els comentaris dels clients en categories com ara positius, negatius o neutrals, que poden informar millores del servei al client o estratègies de desenvolupament de productes.
Classificació d'articles de notícies: Ordenar articles de notícies en diversos temes per a canals de notícies personalitzats o anàlisi de tendències.
Traducció d'idiomes: Traducció de documents per a operacions multinacionals o ús personal.
Resum del document: Captar ràpidament l'essència de documents extensos o crear versions més curtes per a la seva publicació.

Avantatges de Scikit-LLM:

Precisió: Eficàcia demostrada en tasques com la classificació i el resum de text de tir zero.
Velocitat: Adequat per a tasques de processament en temps real per la seva eficiència.
Escalabilitat: Capaç de gestionar grans volums de text, el que el fa ideal per a aplicacions de big data.

Conclusió: Adoptant Scikit-LLM per a l'anàlisi avançada de text

En resum, Scikit-LLM és una eina potent, versàtil i fàcil d'utilitzar en l'àmbit de l'anàlisi de textos. La seva capacitat de combinar grans models de llenguatge amb fluxos de treball tradicionals d'aprenentatge automàtic, juntament amb la seva naturalesa de codi obert, el converteixen en un actiu valuós per a investigadors, desenvolupadors i empreses. Ja sigui per millorar el servei al client, analitzar les tendències de notícies, facilitar la comunicació multilingüe o destil·lar informació essencial a partir de documents extensos, Scikit-LLM ofereix una solució sòlida.

Temes relacionats:LLMs Scikit Scikit-aprendre Scikit-LLM

Fins a la propera

El paisatge en evolució de la IA generativa: una enquesta de la barreja d'experts, la multimodalitat i la recerca de l'AGI

No et perdis

Explorant el nou Gemini de Google DeepMind: de què tracta el buzz?

Aayush Mittal

He passat els últims cinc anys submergint-me en el fascinant món de l'aprenentatge automàtic i l'aprenentatge profund. La meva passió i experiència m'han portat a contribuir a més de 50 projectes diversos d'enginyeria de programari, amb un enfocament particular en IA/ML. La meva curiositat contínua també m'ha atret cap al processament del llenguatge natural, un camp que tinc ganes d'explorar més.

Unite.AI

Grans models lingüístics amb Scikit-learn: una guia completa de Scikit-LLM

Intel·ligència general artificial

Grans models lingüístics amb Scikit-learn: una guia completa de Scikit-LLM

Taula de continguts

Per què Scikit-LLM?

Scikit-learn: la pedra angular de l'aprenentatge automàtic

Configuració del medi ambient

instal·lació

Obtenció i configuració de claus API

Zero-Shot GPTClassifier

Importació de biblioteques i conjunt de dades

Preparació de les dades

Avaluació

Unite.AI

Grans models lingüístics amb Scikit-learn: una guia completa de Scikit-LLM

Taula de continguts

Per què Scikit-LLM?

Scikit-learn: la pedra angular de l'aprenentatge automàtic

Configuració del medi ambient

instal·lació

Obtenció i configuració de claus API

Zero-Shot GPTClassifier

Importació de biblioteques i conjunt de dades

Preparació de les dades

Avaluació

Potser t'agradi