stub Modalan Cànain Mòra le Scikit-learn: Iùl coileanta air Scikit-LLM - Unite.AI
Ceangal leinn

Artificial Intelligence

Modalan Cànain Mòra le Ionnsaich Scikit: Iùl coileanta air Scikit-LLM

mm

Published

 on

SCIKIT LLM

Le bhith ag amalachadh comasan giullachd cànain sòlaimte mhodalan leithid ChatGPT leis an fhrèam ionnsachaidh Scikit-ionnsachaidh a tha ioma-ghnìomhach agus air a chleachdadh gu farsaing, tha Scikit-LLM a’ tabhann arsenal gun choimeas airson a bhith a’ sgrùdadh iom-fhillteachd dàta teacsa.

Scikit-LLM, ruigsinneach air an oifigeil aige Stòras GitHub, a’ riochdachadh measgachadh de - an AI adhartach de mhodalan cànain mòra (LLMn) leithid GPT-3.5 aig OpenAI agus àrainneachd Scikit-learn a tha furasta a chleachdadh. Tha am pasgan Python seo, a chaidh a dhealbhadh gu sònraichte airson mion-sgrùdadh teacsa, a’ dèanamh giollachd cànain nàdarra adhartach ruigsinneach agus èifeachdach.

Carson a tha Scikit-LLM?

Dhaibhsan a tha eòlach air cruth-tìre Scikit-learn, tha Scikit-LLM a’ faireachdainn mar adhartas nàdarrach. Bidh e a’ cumail suas an API eòlach, a’ leigeil le luchd-cleachdaidh gnìomhan mar .fit(), .fit_transform(), agus .predict(). Tha a chomas air luchd-measaidh fhilleadh a-steach do loidhne-phìoban Sklearn na eisimpleir de a sùbailteachd, ga fhàgail na bhrosnachadh dhaibhsan a tha airson na pròiseactan ionnsachadh innealan aca a leasachadh le tuigse cànain ùr-nodha.

San artaigil seo, bidh sinn a’ sgrùdadh Scikit-LLM, bhon stàladh gu a chleachdadh practaigeach ann an grunn ghnìomhan mion-sgrùdadh teacsa. Ionnsaichidh tu mar a chruthaicheas tu an dà chuid seòrsachadh teacsa fo stiùir agus gun losgadh agus rannsaichidh tu a-steach do fheartan adhartach leithid vectorization teacsa agus seòrsachadh.

Scikit-lean: Clach-oisinn Ionnsachadh Inneal

Mus dàibheadh ​​​​a-steach do Scikit-LLM, leig dhuinn suathadh air a bhunait - Scikit-learn. Mar ainm taighe ann an ionnsachadh innealan, tha Scikit-learn air a chomharrachadh airson an t-sreath algorithmic coileanta, sìmplidheachd agus furasta a chleachdadh. A’ còmhdach speactram de ghnìomhan bho ais-tharraing gu cruinneachadh, tha Scikit-learn na inneal airson mòran de luchd-saidheans dàta.

Air a thogail air bun-stèidh leabharlannan saidheansail Python (NumPy, SciPy, agus Matplotlib), tha Scikit-learn a’ seasamh a-mach airson a bhith ag amalachadh le stac saidheansail Python agus cho èifeachdach sa tha e le arrays NumPy agus matrices gann SciPy.

Aig a chridhe, tha Scikit-learn mu dheidhinn èideadh agus furasta a chleachdadh. Ge bith dè an algairim a thaghas tu, tha na ceumannan fhathast cunbhalach - cuir a-steach a’ chlas, cleachd an dòigh ‘fit’ leis an dàta agad, agus cuir an sàs ‘predict’ no ‘transform’ gus am modail a chleachdadh. Tha an sìmplidheachd seo a’ lughdachadh an lùb ionnsachaidh, ga fhàgail na dheagh àite tòiseachaidh dhaibhsan a tha air ùr ionnsachadh innealan.

A ’stèidheachadh na h-àrainneachd

Mus tèid thu a-steach do na mion-fhiosrachadh, tha e deatamach an àrainneachd obrach a stèidheachadh. Airson an artaigil seo, bidh Google Colab mar an àrd-ùrlar as fheàrr leat, a’ toirt seachad àrainneachd ruigsinneach is cumhachdach airson còd Python a ruith.

stàladh

%%capture
!pip install scikit-llm watermark
%load_ext watermark
%watermark -a "your-username" -vmp scikit-llm

A 'faighinn agus a' rèiteachadh iuchraichean API

Feumaidh Scikit-LLM iuchair OpenAI API airson faighinn gu na modalan cànain bunaiteach.

from skllm.config import SKLLMConfig
OPENAI_API_KEY = "sk-****"
OPENAI_ORG_ID = "org-****"
SKLLMConfig.set_openai_key(OPENAI_API_KEY)
SKLLMConfig.set_openai_org(OPENAI_ORG_ID)

Clasair GPTC Zero-Shot

Tha ZeroShotGPTClassifier na fheart iongantach de Scikit-LLM a tha a’ cleachdadh comas ChatGPT teacsa a sheòrsachadh stèidhichte air bileagan tuairisgeulach, gun fheum air trèanadh modail traidiseanta.

A’ toirt a-steach leabharlannan agus seata dàta

from skllm import ZeroShotGPTClassifier
from skllm.datasets import get_classification_dataset
X, y = get_classification_dataset()

Ag ullachadh an dàta

A’ roinneadh an dàta gu fo-bhuidhnean trèanaidh is deuchainn:

def training_data(data):
    return data[:8] + data[10:18] + data[20:28]
def testing_data(data):
    return data[8:10] + data[18:20] + data[28:30]
X_train, y_train = training_data(X), training_data(y)
X_test, y_test = testing_data(X), testing_data(y)

Trèanadh modail agus ro-innse

A’ mìneachadh agus a’ trèanadh an ZeroShotGPTClassifier:

clf = ZeroShotGPTClassifier(openai_model="gpt-3.5-turbo")
clf.fit(X_train, y_train)
predicted_labels = clf.predict(X_test)

Luachadh

A’ measadh coileanadh a’ mhodail:

from sklearn.metrics import accuracy_score
print(f"Accuracy: {accuracy_score(y_test, predicted_labels):.2f}")

Geàrr-chunntas teacsa le Scikit-LLM

Tha geàrr-chunntas teacsa na fheart riatanach ann an raon NLP, agus tha Scikit-LLM a’ cleachdadh comas GPT san raon seo tro a GPTSummarizer modal. Tha am feart seo a’ seasamh a-mach airson cho freagarrach ‘s a tha e, a’ leigeil leis a bhith air a chleachdadh an dà chuid mar inneal leis fhèin airson geàrr-chunntasan a ghineadh agus mar cheum ro-ghiollachd ann an sruthan obrach nas fharsainge.

Cleachdaidhean GPTSummarizer:

  1. Geàrr-chunntas air leth: Tha GPTSummarizer is urrainn dhaibh geàrr-chunntasan pongail a chruthachadh gu neo-eisimeileach bho sgrìobhainnean fada, a tha air leth luachmhor airson mion-sgrùdadh susbaint luath no airson prìomh fhiosrachadh a tharraing à meudan mòra de theacsa.
  2. Ro-phròiseas airson gnìomhan eile: Ann an sruthan-obrach a tha a’ toirt a-steach grunn ìrean de mhion-sgrùdadh teacsa, tha an GPTSummarizer faodar a chleachdadh gus dàta teacsa a dhlùthadh. Bidh seo a’ lughdachadh an luchd àireamhachd agus a’ sìmpleachadh ceumannan sgrùdaidh às deidh sin gun a bhith a’ call fiosrachadh riatanach.

A’ cur an gnìomh Geàrr-chunntas Teacs:

Tha am pròiseas buileachaidh airson geàrr-chunntas teacsa ann an Scikit-LLM a’ toirt a-steach:

  1. Iomradh GPTSummarizer agus an dàta iomchaidh.
  2. A 'cruthachadh eisimpleir de GPTSummarizer le paramadairean sònraichte mar max_words gus smachd a chumail air fad geàrr-chunntas.
  3. A ’tagradh an fit_transform dòigh-obrach airson geàrr-chunntasan a chruthachadh.

Tha e cudromach cuimhneachadh gu bheil an max_words Tha paramadair a’ frithealadh mar stiùireadh seach crìoch teann, a’ dèanamh cinnteach gu bheil geàrr-chunntasan a’ cumail co-leanailteachd agus buntainneachd, eadhon ged a tha iad beagan nas àirde na an àireamh fhaclan ainmichte.

Buaidh nas fharsainge de Scikit-LLM

Tha an raon de fheartan aig Scikit-LLM, a’ gabhail a-steach seòrsachadh teacsa, geàrr-chunntas, vectorization, eadar-theangachadh, agus cho freagarrach sa tha e ann a bhith a’ làimhseachadh dàta gun ainm, ga fhàgail na inneal coileanta airson gnìomhan mion-sgrùdadh teacsa eadar-mheasgte. Bidh an sùbailteachd agus an cleachdadh furasta seo a’ frithealadh an dà chuid do luchd-tòiseachaidh agus cleachdaichean eòlach ann an raon AI agus ionnsachadh innealan.

Iarrtasan a dh’fhaodadh a bhith ann:

  • Mion-sgrùdadh air fios air ais bho luchd-cleachdaidh: A’ seòrsachadh fios air ais bho luchd-cleachdaidh gu roinnean mar adhartach, àicheil no neo-phàirteach, a bheir fiosrachadh do leasachaidhean seirbheis teachdaiche no ro-innleachdan leasachadh toraidh.
  • Seòrsachadh artaigil naidheachdan: Ag òrdachadh artaigilean naidheachdan gu diofar chuspairean airson biadhan naidheachdan pearsanaichte no mion-sgrùdadh gluasadan.
  • Eadar-theangachadh Cànain: Ag eadar-theangachadh sgrìobhainnean airson gnìomhachd ioma-nàiseanta no cleachdadh pearsanta.
  • Geàrr-chunntas na sgrìobhainn: A’ greimeachadh gu sgiobalta air brìgh sgrìobhainnean fada no a’ cruthachadh dreachan nas giorra airson am foillseachadh.

Buannachdan Scikit-LLM:

  • cinnteachd: Èifeachdas dearbhte ann an gnìomhan leithid seòrsachadh teacsa gun dealbh agus geàrr-chunntas.
  • Speed: Freagarrach airson gnìomhan giullachd fìor-ùine air sgàth cho èifeachdach sa tha e.
  • Comas do-dhèanta: Comasach air meudan mòra de theacsa a làimhseachadh, ga dhèanamh air leth freagarrach airson tagraidhean dàta mòr.

Co-dhùnadh: Gabhail a-steach Scikit-LLM airson Mion-sgrùdadh Teacsa Adhartach

Ann an geàrr-chunntas, tha Scikit-LLM na sheasamh mar inneal cumhachdach, ioma-ghnìomhach agus furasta a chleachdadh ann an raon mion-sgrùdadh teacsa. Tha an comas aige Modalan Cànain Mòr a chur còmhla ri sruthan-obrach ionnsachadh innealan traidiseanta, an cois a nàdar fosgailte, ga fhàgail na mhaoin luachmhor dha luchd-rannsachaidh, luchd-leasachaidh agus gnìomhachasan le chèile. Ge bith an e seirbheis teachdaiche ùrachadh, mion-sgrùdadh gluasadan naidheachdan, a’ comasachadh conaltradh ioma-chànanach, no a’ tarraing fiosrachadh riatanach bho sgrìobhainnean farsaing, tha Scikit-LLM a’ tabhann fuasgladh làidir.

Tha mi air na còig bliadhna a dh’ fhalbh a’ bogadh fhèin ann an saoghal inntinneach Ionnsachadh Inneal agus Ionnsachadh domhainn. Tha an dìoghras agus an t-eòlas agam air toirt orm cur ri còrr air 50 pròiseact innleadaireachd bathar-bog eadar-mheasgte, le fòcas sònraichte air AI/ML. Tha mo fheòrachas leantainneach cuideachd air mo tharraing a dh’ ionnsaigh Natural Language Processing, raon air a bheil mi airson tuilleadh sgrùdaidh a dhèanamh.