Artificial Intelligence
Modalan Cànain Mòra le Ionnsaich Scikit: Iùl coileanta air Scikit-LLM
Le bhith ag amalachadh comasan giullachd cànain sòlaimte mhodalan leithid ChatGPT leis an fhrèam ionnsachaidh Scikit-ionnsachaidh a tha ioma-ghnìomhach agus air a chleachdadh gu farsaing, tha Scikit-LLM a’ tabhann arsenal gun choimeas airson a bhith a’ sgrùdadh iom-fhillteachd dàta teacsa.
Scikit-LLM, ruigsinneach air an oifigeil aige Stòras GitHub, a’ riochdachadh measgachadh de - an AI adhartach de mhodalan cànain mòra (LLMn) leithid GPT-3.5 aig OpenAI agus àrainneachd Scikit-learn a tha furasta a chleachdadh. Tha am pasgan Python seo, a chaidh a dhealbhadh gu sònraichte airson mion-sgrùdadh teacsa, a’ dèanamh giollachd cànain nàdarra adhartach ruigsinneach agus èifeachdach.
Carson a tha Scikit-LLM?
Dhaibhsan a tha eòlach air cruth-tìre Scikit-learn, tha Scikit-LLM a’ faireachdainn mar adhartas nàdarrach. Bidh e a’ cumail suas an API eòlach, a’ leigeil le luchd-cleachdaidh gnìomhan mar .fit()
, .fit_transform()
, agus .predict()
. Tha a chomas air luchd-measaidh fhilleadh a-steach do loidhne-phìoban Sklearn na eisimpleir de a sùbailteachd, ga fhàgail na bhrosnachadh dhaibhsan a tha airson na pròiseactan ionnsachadh innealan aca a leasachadh le tuigse cànain ùr-nodha.
San artaigil seo, bidh sinn a’ sgrùdadh Scikit-LLM, bhon stàladh gu a chleachdadh practaigeach ann an grunn ghnìomhan mion-sgrùdadh teacsa. Ionnsaichidh tu mar a chruthaicheas tu an dà chuid seòrsachadh teacsa fo stiùir agus gun losgadh agus rannsaichidh tu a-steach do fheartan adhartach leithid vectorization teacsa agus seòrsachadh.
Scikit-lean: Clach-oisinn Ionnsachadh Inneal
Mus dàibheadh a-steach do Scikit-LLM, leig dhuinn suathadh air a bhunait - Scikit-learn. Mar ainm taighe ann an ionnsachadh innealan, tha Scikit-learn air a chomharrachadh airson an t-sreath algorithmic coileanta, sìmplidheachd agus furasta a chleachdadh. A’ còmhdach speactram de ghnìomhan bho ais-tharraing gu cruinneachadh, tha Scikit-learn na inneal airson mòran de luchd-saidheans dàta.
Air a thogail air bun-stèidh leabharlannan saidheansail Python (NumPy, SciPy, agus Matplotlib), tha Scikit-learn a’ seasamh a-mach airson a bhith ag amalachadh le stac saidheansail Python agus cho èifeachdach sa tha e le arrays NumPy agus matrices gann SciPy.
Aig a chridhe, tha Scikit-learn mu dheidhinn èideadh agus furasta a chleachdadh. Ge bith dè an algairim a thaghas tu, tha na ceumannan fhathast cunbhalach - cuir a-steach a’ chlas, cleachd an dòigh ‘fit’ leis an dàta agad, agus cuir an sàs ‘predict’ no ‘transform’ gus am modail a chleachdadh. Tha an sìmplidheachd seo a’ lughdachadh an lùb ionnsachaidh, ga fhàgail na dheagh àite tòiseachaidh dhaibhsan a tha air ùr ionnsachadh innealan.
A ’stèidheachadh na h-àrainneachd
Mus tèid thu a-steach do na mion-fhiosrachadh, tha e deatamach an àrainneachd obrach a stèidheachadh. Airson an artaigil seo, bidh Google Colab mar an àrd-ùrlar as fheàrr leat, a’ toirt seachad àrainneachd ruigsinneach is cumhachdach airson còd Python a ruith.
stàladh
%%capture !pip install scikit-llm watermark %load_ext watermark %watermark -a "your-username" -vmp scikit-llm
A 'faighinn agus a' rèiteachadh iuchraichean API
Feumaidh Scikit-LLM iuchair OpenAI API airson faighinn gu na modalan cànain bunaiteach.
from skllm.config import SKLLMConfig OPENAI_API_KEY = "sk-****" OPENAI_ORG_ID = "org-****" SKLLMConfig.set_openai_key(OPENAI_API_KEY) SKLLMConfig.set_openai_org(OPENAI_ORG_ID)
Clasair GPTC Zero-Shot
Tha ZeroShotGPTClassifier
na fheart iongantach de Scikit-LLM a tha a’ cleachdadh comas ChatGPT teacsa a sheòrsachadh stèidhichte air bileagan tuairisgeulach, gun fheum air trèanadh modail traidiseanta.
A’ toirt a-steach leabharlannan agus seata dàta
from skllm import ZeroShotGPTClassifier from skllm.datasets import get_classification_dataset X, y = get_classification_dataset()
Ag ullachadh an dàta
A’ roinneadh an dàta gu fo-bhuidhnean trèanaidh is deuchainn:
def training_data(data): return data[:8] + data[10:18] + data[20:28] def testing_data(data): return data[8:10] + data[18:20] + data[28:30] X_train, y_train = training_data(X), training_data(y) X_test, y_test = testing_data(X), testing_data(y)
Trèanadh modail agus ro-innse
A’ mìneachadh agus a’ trèanadh an ZeroShotGPTClassifier:
clf = ZeroShotGPTClassifier(openai_model="gpt-3.5-turbo") clf.fit(X_train, y_train) predicted_labels = clf.predict(X_test)
Luachadh
A’ measadh coileanadh a’ mhodail:
from sklearn.metrics import accuracy_score print(f"Accuracy: {accuracy_score(y_test, predicted_labels):.2f}")
Geàrr-chunntas teacsa le Scikit-LLM
Tha geàrr-chunntas teacsa na fheart riatanach ann an raon NLP, agus tha Scikit-LLM a’ cleachdadh comas GPT san raon seo tro a GPTSummarizer
modal. Tha am feart seo a’ seasamh a-mach airson cho freagarrach ‘s a tha e, a’ leigeil leis a bhith air a chleachdadh an dà chuid mar inneal leis fhèin airson geàrr-chunntasan a ghineadh agus mar cheum ro-ghiollachd ann an sruthan obrach nas fharsainge.
Cleachdaidhean GPTSummarizer:
- Geàrr-chunntas air leth: Tha
GPTSummarizer
is urrainn dhaibh geàrr-chunntasan pongail a chruthachadh gu neo-eisimeileach bho sgrìobhainnean fada, a tha air leth luachmhor airson mion-sgrùdadh susbaint luath no airson prìomh fhiosrachadh a tharraing à meudan mòra de theacsa. - Ro-phròiseas airson gnìomhan eile: Ann an sruthan-obrach a tha a’ toirt a-steach grunn ìrean de mhion-sgrùdadh teacsa, tha an
GPTSummarizer
faodar a chleachdadh gus dàta teacsa a dhlùthadh. Bidh seo a’ lughdachadh an luchd àireamhachd agus a’ sìmpleachadh ceumannan sgrùdaidh às deidh sin gun a bhith a’ call fiosrachadh riatanach.
A’ cur an gnìomh Geàrr-chunntas Teacs:
Tha am pròiseas buileachaidh airson geàrr-chunntas teacsa ann an Scikit-LLM a’ toirt a-steach:
- Iomradh
GPTSummarizer
agus an dàta iomchaidh. - A 'cruthachadh eisimpleir de
GPTSummarizer
le paramadairean sònraichte marmax_words
gus smachd a chumail air fad geàrr-chunntas. - A ’tagradh an
fit_transform
dòigh-obrach airson geàrr-chunntasan a chruthachadh.
Tha e cudromach cuimhneachadh gu bheil an max_words
Tha paramadair a’ frithealadh mar stiùireadh seach crìoch teann, a’ dèanamh cinnteach gu bheil geàrr-chunntasan a’ cumail co-leanailteachd agus buntainneachd, eadhon ged a tha iad beagan nas àirde na an àireamh fhaclan ainmichte.
Buaidh nas fharsainge de Scikit-LLM
Tha an raon de fheartan aig Scikit-LLM, a’ gabhail a-steach seòrsachadh teacsa, geàrr-chunntas, vectorization, eadar-theangachadh, agus cho freagarrach sa tha e ann a bhith a’ làimhseachadh dàta gun ainm, ga fhàgail na inneal coileanta airson gnìomhan mion-sgrùdadh teacsa eadar-mheasgte. Bidh an sùbailteachd agus an cleachdadh furasta seo a’ frithealadh an dà chuid do luchd-tòiseachaidh agus cleachdaichean eòlach ann an raon AI agus ionnsachadh innealan.
Iarrtasan a dh’fhaodadh a bhith ann:
- Mion-sgrùdadh air fios air ais bho luchd-cleachdaidh: A’ seòrsachadh fios air ais bho luchd-cleachdaidh gu roinnean mar adhartach, àicheil no neo-phàirteach, a bheir fiosrachadh do leasachaidhean seirbheis teachdaiche no ro-innleachdan leasachadh toraidh.
- Seòrsachadh artaigil naidheachdan: Ag òrdachadh artaigilean naidheachdan gu diofar chuspairean airson biadhan naidheachdan pearsanaichte no mion-sgrùdadh gluasadan.
- Eadar-theangachadh Cànain: Ag eadar-theangachadh sgrìobhainnean airson gnìomhachd ioma-nàiseanta no cleachdadh pearsanta.
- Geàrr-chunntas na sgrìobhainn: A’ greimeachadh gu sgiobalta air brìgh sgrìobhainnean fada no a’ cruthachadh dreachan nas giorra airson am foillseachadh.
Buannachdan Scikit-LLM:
- cinnteachd: Èifeachdas dearbhte ann an gnìomhan leithid seòrsachadh teacsa gun dealbh agus geàrr-chunntas.
- Speed: Freagarrach airson gnìomhan giullachd fìor-ùine air sgàth cho èifeachdach sa tha e.
- Comas do-dhèanta: Comasach air meudan mòra de theacsa a làimhseachadh, ga dhèanamh air leth freagarrach airson tagraidhean dàta mòr.
Co-dhùnadh: Gabhail a-steach Scikit-LLM airson Mion-sgrùdadh Teacsa Adhartach
Ann an geàrr-chunntas, tha Scikit-LLM na sheasamh mar inneal cumhachdach, ioma-ghnìomhach agus furasta a chleachdadh ann an raon mion-sgrùdadh teacsa. Tha an comas aige Modalan Cànain Mòr a chur còmhla ri sruthan-obrach ionnsachadh innealan traidiseanta, an cois a nàdar fosgailte, ga fhàgail na mhaoin luachmhor dha luchd-rannsachaidh, luchd-leasachaidh agus gnìomhachasan le chèile. Ge bith an e seirbheis teachdaiche ùrachadh, mion-sgrùdadh gluasadan naidheachdan, a’ comasachadh conaltradh ioma-chànanach, no a’ tarraing fiosrachadh riatanach bho sgrìobhainnean farsaing, tha Scikit-LLM a’ tabhann fuasgladh làidir.