სტუბი 3 გზა ძველი ფაქტების განახლების შესანარჩუნებლად დიდ ენობრივ მოდელებში - Unite.AI
დაკავშირება ჩვენთან ერთად

აზროვნების ლიდერები

3 გზა ძველი ფაქტების განახლების შესანარჩუნებლად დიდ ენობრივ მოდელებში

mm

გამოქვეყნებულია

 on

დიდი ენების მოდელები (LLM), როგორიცაა GPT3, ChatGPT და BARD, დღეს პოპულარულია. ყველას აქვს აზრი იმის შესახებ, თუ რამდენად კარგი ან ცუდია ეს ხელსაწყოები საზოგადოებისთვის და რას ნიშნავს ისინი ხელოვნური ინტელექტის მომავლისთვის. გუგლმა მიიღო ბევრი შენიშვნა, რომ მისმა ახალმა მოდელმა BARD-მა მიიღო რთული შეკითხვა (ოდნავ). კითხვაზე: "რა ახალი აღმოჩენების შესახებ შემიძლია ვუთხრა ჯეიმს უების კოსმოსური ტელესკოპიდან ჩემს 9 წლის ბავშვს?" – ჩატბოტმა სამი პასუხი გასცა, საიდანაც 2 იყო სწორი და 1 არასწორი. არასწორი იყო ის, რომ პირველი "ეგზოპლანეტის" სურათი გადაიღო JWST-მა, რაც არასწორი იყო. ასე რომ, ძირითადად, მოდელს ჰქონდა არასწორი ფაქტი შენახული მის ცოდნის ბაზაში. იმისთვის, რომ დიდი ენობრივი მოდელები იყოს ეფექტური, ჩვენ გვჭირდება გზა ამ ფაქტების განახლების ან ახალი ცოდნის გაზრდის მიზნით.

მოდით, ჯერ ვნახოთ, როგორ ინახება ფაქტები დიდი ენის მოდელის შიგნით (LLM). დიდი ენობრივი მოდელები არ ინახავს ინფორმაციას და ფაქტებს ტრადიციული გაგებით, როგორიცაა მონაცემთა ბაზები ან ფაილები. სამაგიეროდ, მათ გაიარეს ტრენინგი ტექსტური მონაცემების დიდი რაოდენობით და ისწავლეს ამ მონაცემებში არსებული შაბლონები და ურთიერთობები. ეს მათ საშუალებას აძლევს შექმნან ადამიანის მსგავსი პასუხები კითხვებზე, მაგრამ მათ არ აქვთ შესწავლილი ინფორმაციის შესანახი ადგილი. კითხვაზე პასუხის გაცემისას მოდელი იყენებს ტრენინგს მის მიერ მიღებული შეყვანის საფუძველზე პასუხის შესაქმნელად. ინფორმაცია და ცოდნა, რაც აქვს ენობრივ მოდელს, არის შედეგი იმ შაბლონებისა, რომლებიც მან ისწავლა იმ მონაცემებში, რომლებზეც ისწავლა და არა მოდელის მეხსიერებაში აშკარად შენახული. ტრანსფორმერების არქიტექტურას, რომელზედაც დაფუძნებულია თანამედროვე LLM-ების უმეტესობა, აქვს ფაქტების შიდა კოდირება, რომელიც გამოიყენება მოთხოვნაში დასმულ კითხვაზე პასუხის გასაცემად.

ასე რომ, თუ LLM-ის შიდა მეხსიერების შიგნით არსებული ფაქტები არასწორია ან შემორჩენილია, ახალი ინფორმაცია უნდა იყოს მოწოდებული მოწოდების საშუალებით. სწრაფი არის LLM-ისთვის გაგზავნილი ტექსტი მოთხოვნით და დამადასტურებელი მტკიცებულებით, რომელიც შეიძლება იყოს ახალი ან შესწორებული ფაქტი. აქ არის 3 გზა ამის მიახლოებისთვის.

1. LLM-ის დაშიფრული ფაქტების გამოსწორების ერთ-ერთი გზა არის კონტექსტთან დაკავშირებული ახალი ფაქტების მიწოდება გარე ცოდნის ბაზის გამოყენებით. ეს ცოდნის ბაზა შეიძლება იყოს API ზარები შესაბამისი ინფორმაციის მისაღებად ან ძიება SQL, No-SQL ან ვექტორული მონაცემთა ბაზაზე. უფრო მოწინავე ცოდნა შეიძლება ამოღებული იყოს ცოდნის გრაფიკიდან, რომელიც ინახავს მონაცემთა ერთეულებს და მათ შორის ურთიერთობებს. მომხმარებლის მიერ მოთხოვნილი ინფორმაციის მიხედვით, შესაბამისი კონტექსტური ინფორმაცია შეიძლება მოიძებნოს და მიეცეს დამატებითი ფაქტების სახით LLM-ს. ეს ფაქტები ასევე შეიძლება იყოს ფორმატირებული, რათა გამოიყურებოდეს ტრენინგის მაგალითები სასწავლო პროცესის გასაუმჯობესებლად. მაგალითად, თქვენ შეგიძლიათ გადასცეთ რამდენიმე კითხვა-პასუხის წყვილი მოდელისთვის, რათა ისწავლოთ პასუხების გაცემა.

2. LLM-ის გაზრდის უფრო ინოვაციური (და უფრო ძვირი) გზაა ტრენინგის მონაცემების გამოყენებით რეალურად დაზუსტება. ასე რომ, იმის ნაცვლად, რომ მოვითხოვოთ ცოდნის ბაზა კონკრეტული ფაქტების დასამატებლად, ჩვენ ვაშენებთ სასწავლო მონაცემთა ბაზას ცოდნის ბაზის შერჩევით. ზედამხედველობის ქვეშ მყოფი სწავლის ტექნიკის გამოყენებით, როგორიცაა დახვეწილი რეგულირება, ჩვენ შეგვიძლია შევქმნათ LLM-ის ახალი ვერსია, რომელიც მომზადებულია ამ დამატებით ცოდნაზე. ეს პროცესი, როგორც წესი, ძვირია და შეიძლება რამდენიმე ათასი დოლარი დაჯდეს OpenAI-ში კარგად მორგებული მოდელის აშენება და შენარჩუნება. რა თქმა უნდა, მოსალოდნელია, რომ ღირებულება დროთა განმავლობაში გაიაფდება.

3. კიდევ ერთი ვარიანტია ისეთი მეთოდების გამოყენება, როგორიცაა განმტკიცების სწავლება (RL), რათა მოამზადოს აგენტი ადამიანის გამოხმაურებით და ისწავლოს პოლიტიკა, თუ როგორ უნდა უპასუხოს კითხვებს. ეს მეთოდი ძალზე ეფექტური იყო მცირე ზომის მოდელების შესაქმნელად, რომლებიც კარგად ასრულებენ კონკრეტულ ამოცანებს. მაგალითად, OpenAI-ის მიერ გამოშვებული ცნობილი ChatGPT ტრენინგი ჩატარდა ზედამხედველობის ქვეშ მყოფი სწავლისა და RL-ის კომბინაციაზე ადამიანის გამოხმაურებით.

მოკლედ, ეს არის ძალიან განვითარებადი სივრცე, სადაც ყველა მსხვილ კომპანიას სურს შევიდეს და აჩვენოს თავისი დიფერენციაცია. ჩვენ მალე ვიხილავთ ძირითად LLM ინსტრუმენტებს უმეტეს სფეროებში, როგორიცაა საცალო ვაჭრობა, ჯანდაცვა და საბანკო საქმე, რომლებსაც შეუძლიათ ადამიანის მსგავსი პასუხის გაცემა ენის ნიუანსების გაგებით. საწარმოს მონაცემებთან ინტეგრირებულ LLM-ზე მომუშავე ამ ინსტრუმენტებს შეუძლიათ გაამარტივონ წვდომა და სწორი მონაცემები ხელმისაწვდომი გახადონ შესაფერისი ადამიანებისთვის საჭირო დროს.

დატარაჯ რაო, მონაცემთა მთავარი მეცნიერი მუდმივი სისტემები, ავტორია წიგნისა „Keras to Kubernetes: The Journey of a Machine Learning Model to Production“. Persistent Systems-ში Dattaraj ხელმძღვანელობს AI კვლევით ლაბორატორიას, რომელიც იკვლევს თანამედროვე ალგორითმებს კომპიუტერული ხედვის, ბუნებრივი ენის გაგების, ალბათური პროგრამირების, განმტკიცების სწავლის, ახსნადი ხელოვნური ინტელექტის და ა.შ. და აჩვენებს გამოყენებადობას ჯანდაცვის, საბანკო და სამრეწველო დომენებში. Dattaraj-ს აქვს 11 პატენტი Machine Learning-სა და Computer Vision-ში.