სტუბი დიდი ენის მოდელები Scikit-learn-ით: ყოვლისმომცველი გზამკვლევი Scikit-LLM - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური გენერალური ინტელექტი

დიდი ენის მოდელები Scikit-learn-ით: ყოვლისმომცველი გზამკვლევი Scikit-LLM-ისთვის

mm

გამოქვეყნებულია

 on

SCIKIT LLM

ისეთი მოდელების დახვეწილი ენის დამუშავების შესაძლებლობების ინტეგრირებით, როგორიცაა ChatGPT, მრავალმხრივ და ფართოდ გამოყენებულ Scikit-learn ჩარჩოსთან, Scikit-LLM გთავაზობთ შეუდარებელ არსენალს ტექსტური მონაცემების სირთულეებში ჩასატარებლად.

Scikit-LLM, ხელმისაწვდომი მის ოფიციალურზე GitHub საცავი, წარმოადგენს გაერთიანებას – დიდი ენობრივი მოდელების (LLMs) მოწინავე AI-ს, როგორიცაა OpenAI-ს GPT-3.5 და Scikit-learn-ის მოსახერხებელი გარემო. პითონის ეს პაკეტი, რომელიც სპეციალურად შექმნილია ტექსტის ანალიზისთვის, ხდის ბუნებრივ ენების გაფართოებულ დამუშავებას ხელმისაწვდომ და ეფექტურს.

რატომ Scikit-LLM?

მათთვის, ვინც კარგად ერკვევა Scikit-learn-ის ლანდშაფტში, Scikit-LLM იგრძნობა ბუნებრივ პროგრესირებად. ის ინარჩუნებს ნაცნობ API-ს, რაც მომხმარებლებს საშუალებას აძლევს გამოიყენონ ფუნქციები, როგორიცაა .fit(), .fit_transform()და .predict(). Sklearn-ის მილსადენში შემფასებლების ინტეგრირების უნარი ასახავს მის მოქნილობას, რაც მას სიკეთეს აქცევს მათთვის, ვინც ცდილობს გააუმჯობესოს მანქანათმცოდნეობის პროექტები უახლესი ენების გაგებით.

ამ სტატიაში ჩვენ ვიკვლევთ Scikit-LLM-ს, მისი ინსტალაციამდე მის პრაქტიკულ გამოყენებამდე ტექსტის ანალიზის სხვადასხვა ამოცანებში. თქვენ შეისწავლით როგორ შექმნათ როგორც ზედამხედველობით, ისე ნულოვანი კადრების ტექსტის კლასიფიკატორები და ჩაუღრმავდებით გაფართოებულ ფუნქციებს, როგორიცაა ტექსტის ვექტორიზაცია და კლასიფიკაცია.

Scikit-learn: მანქანური სწავლის ქვაკუთხედი

Scikit-LLM-ში ჩასვლამდე, მოდით შევეხოთ მის საფუძველს - Scikit-learn. Scikit-learn ცნობილი სახელია მანქანათმცოდნეობაში, ცნობილია თავისი ყოვლისმომცველი ალგორითმული კომპლექტით, სიმარტივით და მომხმარებლისადმი კეთილგანწყობით. Scikit-learn, რომელიც მოიცავს ამოცანების სპექტრს რეგრესიიდან კლასტერებამდე, არის გამოსაყენებელი ინსტრუმენტი მრავალი მონაცემთა მეცნიერისთვის.

პითონის სამეცნიერო ბიბლიოთეკების (NumPy, SciPy და Matplotlib) ბაზაზე აგებული Scikit-learn გამოირჩევა Python-ის სამეცნიერო სტეკთან ინტეგრირებით და NumPy მასივებითა და SciPy მწირი მატრიცებით.

თავის არსში, Scikit-learn არის ერთგვაროვნება და გამოყენების სიმარტივე. არჩეული ალგორითმის მიუხედავად, ნაბიჯები თანმიმდევრული რჩება - კლასის იმპორტი, თქვენი მონაცემებით "შესაბამის" მეთოდი და გამოიყენეთ "პროგნოზირება" ან "ტრანსფორმაცია" მოდელის გამოსაყენებლად. ეს სიმარტივე ამცირებს სწავლის მრუდს, რაც მას იდეალურ საწყის წერტილად აქცევს მათთვის, ვინც ახალი მანქანით სწავლობს.

გარემოს შექმნა

სანამ ჩავუღრმავდებით სპეციფიკას, გადამწყვეტია სამუშაო გარემოს შექმნა. ამ სტატიისთვის Google Colab იქნება არჩევანის პლატფორმა, რომელიც უზრუნველყოფს ხელმისაწვდომ და მძლავრ გარემოს Python კოდის გასაშვებად.

მონტაჟი

%%capture
!pip install scikit-llm watermark
%load_ext watermark
%watermark -a "your-username" -vmp scikit-llm

API კლავიშების მიღება და კონფიგურაცია

Scikit-LLM მოითხოვს OpenAI API კლავიშს ძირითადი ენის მოდელებზე წვდომისთვის.

from skllm.config import SKLLMConfig
OPENAI_API_KEY = "sk-****"
OPENAI_ORG_ID = "org-****"
SKLLMConfig.set_openai_key(OPENAI_API_KEY)
SKLLMConfig.set_openai_org(OPENAI_ORG_ID)

ნულოვანი გასროლის GPT კლასიფიკატორი

ის ZeroShotGPTClassifier არის Scikit-LLM-ის შესანიშნავი თვისება, რომელიც იყენებს ChatGPT-ის უნარს, მოახდინოს ტექსტის კლასიფიკაცია აღწერილ ეტიკეტებზე დაყრდნობით, ტრადიციული მოდელის ტრენინგის საჭიროების გარეშე.

ბიბლიოთეკებისა და მონაცემთა ნაკრების იმპორტი

from skllm import ZeroShotGPTClassifier
from skllm.datasets import get_classification_dataset
X, y = get_classification_dataset()

მონაცემების მომზადება

მონაცემების დაყოფა სასწავლო და ტესტირების ქვეჯგუფებად:

def training_data(data):
    return data[:8] + data[10:18] + data[20:28]
def testing_data(data):
    return data[8:10] + data[18:20] + data[28:30]
X_train, y_train = training_data(X), training_data(y)
X_test, y_test = testing_data(X), testing_data(y)

მოდელის ტრენინგი და პროგნოზირება

ZeroShotGPTClassifier-ის განსაზღვრა და სწავლება:

clf = ZeroShotGPTClassifier(openai_model="gpt-3.5-turbo")
clf.fit(X_train, y_train)
predicted_labels = clf.predict(X_test)

შეფასება

მოდელის მუშაობის შეფასება:

from sklearn.metrics import accuracy_score
print(f"Accuracy: {accuracy_score(y_test, predicted_labels):.2f}")

ტექსტის შეჯამება Scikit-LLM-ით

ტექსტის შეჯამება მნიშვნელოვანი ფუნქციაა NLP-ის სფეროში და Scikit-LLM იყენებს GPT-ის ოსტატობას ამ დომენში მისი მეშვეობით. GPTSummarizer მოდული. ეს ფუნქცია გამოირჩევა თავისი ადაპტირებით, რაც საშუალებას აძლევს მას გამოიყენოს როგორც დამოუკიდებელი ინსტრუმენტი შეჯამების გენერირებისთვის და როგორც წინასწარი დამუშავების ეტაპი უფრო ფართო სამუშაო პროცესებში.

GPTSsummarizer-ის აპლიკაციები:

  1. დამოუკიდებელი შეჯამება: ის GPTSummarizer შეუძლია დამოუკიდებლად შექმნას მოკლე რეზიუმეები გრძელი დოკუმენტებიდან, რაც ფასდაუდებელია შინაარსის სწრაფი ანალიზისთვის ან დიდი მოცულობის ტექსტიდან ძირითადი ინფორმაციის ამოღებისთვის.
  2. წინასწარი დამუშავება სხვა ოპერაციებისთვის: სამუშაო პროცესებში, რომლებიც მოიცავს ტექსტის ანალიზის მრავალ ეტაპს, GPTSummarizer შეიძლება გამოყენებულ იქნას ტექსტური მონაცემების კონდენსაციისთვის. ეს ამცირებს გამოთვლით დატვირთვას და ამარტივებს ანალიზის შემდგომ ნაბიჯებს ძირითადი ინფორმაციის დაკარგვის გარეშე.

ტექსტის შეჯამების განხორციელება:

Scikit-LLM-ში ტექსტის შეჯამების განხორციელების პროცესი მოიცავს:

  1. იმპორტი GPTSummarizer და შესაბამისი მონაცემთა ბაზა.
  2. ინსტანციის შექმნა GPTSummarizer მითითებული პარამეტრებით, როგორიცაა max_words შემაჯამებელი სიგრძის გასაკონტროლებლად.
  3. გამოყენება fit_transform შეჯამების გენერირების მეთოდი.

მნიშვნელოვანია აღინიშნოს, რომ max_words პარამეტრი ემსახურება როგორც სახელმძღვანელო და არა მკაცრი ლიმიტი, რაც უზრუნველყოფს შეჯამების შენარჩუნებას თანმიმდევრულობასა და შესაბამისობაში, თუნდაც ისინი ოდნავ აღემატებოდეს მითითებულ სიტყვათა რაოდენობას.

Scikit-LLM-ის უფრო ფართო გავლენა

Scikit-LLM-ის ფუნქციების დიაპაზონი, მათ შორის ტექსტის კლასიფიკაცია, შეჯამება, ვექტორიზაცია, თარგმანი და მისი ადაპტირება არალეგირებული მონაცემების დამუშავებისას, აქცევს მას ყოვლისმომცველ ინსტრუმენტად სხვადასხვა ტექსტის ანალიზის ამოცანებისთვის. ეს მოქნილობა და გამოყენების სიმარტივე ემსახურება როგორც ახალბედებს, ასევე გამოცდილ პრაქტიკოსებს ხელოვნური ინტელექტისა და მანქანათმცოდნეობის სფეროში.

პოტენციური აპლიკაციები:

  • მომხმარებელთა უკუკავშირის ანალიზი: მომხმარებელთა გამოხმაურების კლასიფიკაცია კატეგორიებად, როგორიცაა პოზიტიური, უარყოფითი ან ნეიტრალური, რაც შეიძლება აცნობოს მომხმარებელთა მომსახურების გაუმჯობესებას ან პროდუქტის განვითარების სტრატეგიებს.
  • ახალი ამბების სტატიების კლასიფიკაცია: ახალი ამბების სტატიების დახარისხება სხვადასხვა თემებად პერსონალიზებული ახალი ამბების არხების ან ტენდენციების ანალიზისთვის.
  • ენის თარგმანი: დოკუმენტების თარგმნა მრავალეროვნული ოპერაციებისთვის ან პირადი სარგებლობისთვის.
  • დოკუმენტის შეჯამება: სწრაფად გაითავისეთ გრძელი დოკუმენტების არსი ან შექმენით უფრო მოკლე ვერსიები გამოსაქვეყნებლად.

Scikit-LLM-ის უპირატესობები:

  • სიზუსტე: დადასტურებული ეფექტურობა ისეთ ამოცანებში, როგორიცაა ნულოვანი ტექსტის კლასიფიკაცია და შეჯამება.
  • სიჩქარე: გამოსადეგია რეალურ დროში დამუშავების ამოცანებისთვის მისი ეფექტურობის გამო.
  • Scalability: შეუძლია დიდი მოცულობის ტექსტის დამუშავება, რაც მას იდეალურს ხდის დიდი მონაცემთა აპლიკაციებისთვის.

დასკვნა: Scikit-LLM-ის გამოყენება გაფართოებული ტექსტის ანალიზისთვის

მოკლედ, Scikit-LLM არის ძლიერი, მრავალმხრივი და მოსახერხებელი ინსტრუმენტი ტექსტის ანალიზის სფეროში. მისი უნარი დააკავშიროს დიდი ენების მოდელები ტრადიციულ მანქანათმცოდნეობის სამუშაო პროცესებთან, ღია წყაროსთან ერთად, მას ღირებულ აქტივად აქცევს მკვლევარებისთვის, დეველოპერებისთვის და ბიზნესისთვის. იქნება ეს მომხმარებელთა მომსახურების დახვეწა, ახალი ამბების ტენდენციების ანალიზი, მრავალენოვანი კომუნიკაციის ხელშეწყობა თუ არსებითი ინფორმაციის ვრცელი დოკუმენტების გამოხდა, Scikit-LLM გთავაზობთ მყარ გადაწყვეტას.

გასული ხუთი წელი გავატარე მანქანათმცოდნეობის და ღრმა სწავლის მომხიბლავ სამყაროში ჩაძირვაში. ჩემმა გატაცებამ და გამოცდილებამ მიბიძგა, რომ წვლილი შემეტანა 50-ზე მეტ მრავალფეროვან პროგრამულ საინჟინრო პროექტში, განსაკუთრებული აქცენტით AI/ML-ზე. ჩემმა მუდმივმა ცნობისმოყვარეობამ ასევე მიმიზიდა ბუნებრივი ენის დამუშავებისკენ, სფერო, რომლის შემდგომი შესწავლა მსურს.