სტუბი რა არის გრადიენტის გაძლიერება? - გაერთიანდი.აი
დაკავშირება ჩვენთან ერთად
AI მასტერკლასი:

AI 101

რა არის გრადიენტის გაძლიერება?

mm
განახლებულია on

მანქანათმცოდნეობის მოდელის ჩვეულებრივი ტიპი, რომელმაც შეძლო ძალზე სასარგებლო იყოს მონაცემთა მეცნიერების კონკურსებში, არის გრადიენტის გამაძლიერებელი მოდელი. გრადიენტის გაძლიერება ძირითადად არის სუსტი სწავლის მოდელების ძლიერ სასწავლო მოდელებად გადაქცევის პროცესი. და მაინც, კონკრეტულად როგორ ხდება ეს? მოდით უფრო ახლოს მივხედოთ გრადიენტის გაძლიერების ალგორითმებს და უკეთესი გააცნობიეროს გრადიენტის გამაძლიერებელი მოდელი აქცევს სუსტ მოსწავლეებს ძლიერ მოსწავლეებად.

გრადიენტის გაძლიერების განსაზღვრა

ეს სტატია მიზნად ისახავს მოგაწოდოთ კარგი ინტუიცია, თუ რა არის გრადიენტის გაძლიერება, მათემატიკის მრავალი დარღვევის გარეშე, რომელიც საფუძვლად უდევს ალგორითმებს. მას შემდეგ რაც შეაფასებთ, თუ როგორ მუშაობს გრადიენტის გაძლიერება მაღალ დონეზე, თქვენ მოგიწოდებთ უფრო ღრმად შეხვიდეთ და შეისწავლოთ მათემატიკა, რაც შესაძლებელს ხდის.

დავიწყოთ იმით, თუ რას ნიშნავს მოსწავლის „გაძლიერება“. სუსტი მოსწავლეები გარდაიქმნებიან ძლიერ მოსწავლეებად სასწავლო მოდელის თვისებების კორექტირებით. ზუსტად რომელ სასწავლო ალგორითმს აძლიერებს?

გამაძლიერებელი მოდელები მუშაობს მანქანური სწავლების სხვა ჩვეულებრივი მოდელის გაზრდით, გადაწყვეტილების ხე.

A გადაწყვეტილების ხე მოდელი ფუნქციონირებს მონაცემთა ნაკრების უფრო და უფრო მცირე ნაწილებად დაყოფით და მას შემდეგ, რაც ქვესიმრავლეები აღარ გაიყოფა, შედეგი არის ხე კვანძებით და ფოთლებით. გადაწყვეტილების ხის კვანძები არის სადაც გადაწყვეტილებები მონაცემთა წერტილების შესახებ მიიღება სხვადასხვა ფილტრაციის კრიტერიუმების გამოყენებით. გადაწყვეტილების ხის ფოთლები არის მონაცემთა წერტილები, რომლებიც კლასიფიცირებულია. გადაწყვეტილების ხის ალგორითმებს შეუძლიათ გაუმკლავდნენ როგორც ციფრულ, ისე კატეგორიულ მონაცემებს, ხოლო ხეში გაყოფა ეფუძნება კონკრეტულ ცვლადებს/მახასიათებლებს.

გამაძლიერებელი მოდელების მომზადების ილუსტრაცია.
ფოტო: SeattleDataBuy via Wikimedia Commons, CC 4.0 (https://commons.wikimedia.org/wiki/File:Boosting.png)

გამაძლიერებელი ალგორითმის ერთ-ერთი ტიპია AdaBoost ალგორითმი. AdaBoost ალგორითმები იწყება გადაწყვეტილების ხის მოდელის მომზადებით და ყველა დაკვირვებისთვის თანაბარი წონის მინიჭებით. პირველი ხის სიზუსტის შეფასების შემდეგ, სხვადასხვა დაკვირვების წონები რეგულირდება. დაკვირვებები, რომელთა კლასიფიკაცია ადვილი იყო, მათი წონა შემცირდა, ხოლო დაკვირვებები, რომელთა კლასიფიკაცია რთული იყო, მათი წონა გაიზარდა. მეორე ხე იქმნება ამ მორგებული წონის გამოყენებით, იმ მიზნით, რომ მეორე ხის პროგნოზები უფრო ზუსტი იყოს, ვიდრე პირველი ხის პროგნოზები.

მოდელი ახლა შედგება ორიგინალური ხისა და ახალი ხის პროგნოზებისგან (ან ხე 1 + ხე 2). კლასიფიკაციის სიზუსტე კიდევ ერთხელ ფასდება ახალი მოდელის საფუძველზე. მესამე ხე იქმნება მოდელისთვის გამოთვლილი შეცდომის საფუძველზე და წონები კიდევ ერთხელ რეგულირდება. ეს პროცესი გრძელდება გამეორებების მოცემული რაოდენობისთვის და საბოლოო მოდელი არის ანსამბლის მოდელი, რომელიც იყენებს ყველა ადრე აშენებული ხის მიერ გაკეთებული პროგნოზების შეწონილ ჯამს.

ზემოთ აღწერილი პროცესი იყენებს გადაწყვეტილების ხეებს და საბაზისო პროგნოზირებს/მოდელებს, თუმცა გამაძლიერებელი მიდგომა შეიძლება განხორციელდეს მოდელების ფართო სპექტრით, როგორიცაა მრავალი სტანდარტული კლასიფიკატორი და რეგრესორის მოდელები. გასაგებად მთავარი ცნებები არის ის, რომ შემდგომი პროგნოზები სწავლობენ წინა შეცდომების შეცდომებზე და რომ წინასწარმეტყველები იქმნება თანმიმდევრობით.

გამაძლიერებელი ალგორითმების მთავარი უპირატესობა არის ის, რომ მათ ნაკლები დრო სჭირდებათ მიმდინარე პროგნოზების მოსაძებნად, სხვა მანქანური სწავლების მოდელებთან შედარებით. ამასთან, სიფრთხილეა საჭირო გამაძლიერებელი ალგორითმების გამოყენებისას, რადგან ისინი მიდრეკილნი არიან გადაჭარბებისკენ.

გრადიენტის გაძლიერება

ახლა ჩვენ განვიხილავთ გამაძლიერებელ ერთ-ერთ ყველაზე გავრცელებულ ალგორითმს. Gradient Boosting Models (GBM) ცნობილია მათი მაღალი სიზუსტით და ისინი აძლიერებენ AdaBoost-ში გამოყენებულ ზოგად პრინციპებს.

გრადიენტის გამაძლიერებელ მოდელსა და AdaBoost-ს შორის მთავარი განსხვავება ისაა, რომ GBM-ები იყენებენ გამოთვლის განსხვავებულ მეთოდს, თუ რომელი მოსწავლეები არასწორად იდენტიფიცირებენ მონაცემთა წერტილებს. AdaBoost ითვლის, თუ სად არის მოდელი არასაკმარისი ფუნქციონირებით, ძლიერად შეწონილი მონაცემთა წერტილების შემოწმებით. იმავდროულად, GBM-ები იყენებენ გრადიენტებს შემსწავლელთა სიზუსტის დასადგენად, მოდელზე დაკარგვის ფუნქციის გამოყენებით. დაკარგვის ფუნქციები არის მოდელის მონაცემთა ბაზაზე მორგების სიზუსტის გაზომვის საშუალება, შეცდომის გამოთვლა და მოდელის ოპტიმიზაცია ამ შეცდომის შესამცირებლად. GBM-ები მომხმარებელს საშუალებას აძლევს ოპტიმიზაცია მოახდინოს დაკარგვის განსაზღვრული ფუნქციის სასურველ მიზანზე დაყრდნობით.

დაკარგვის ყველაზე გავრცელებული ფუნქციის მიღება - საშუალო კვადრატული შეცდომა (MSE) - როგორც მაგალითი, გრადიენტური დაღმართი გამოიყენება წინასწარ განსაზღვრული სწავლის სიჩქარის საფუძველზე პროგნოზების განახლებისთვის, მიზნად ისახავს იპოვოთ მნიშვნელობები, სადაც დანაკარგი მინიმალურია.

უფრო გასაგები რომ იყოს:

ახალი მოდელის პროგნოზები = გამომავალი ცვლადები - ძველი არასრულყოფილი პროგნოზები.

უფრო სტატისტიკური გაგებით, GBM-ები მიზნად ისახავს მოდელის ნარჩენებში შესაბამისი შაბლონების პოვნას, მოდელის მორგებას, რათა მოერგოს შაბლონს და რაც შეიძლება ახლოს მიიყვანოს ნარჩენები ნულთან. თუ თქვენ განახორციელებთ რეგრესიას მოდელის პროგნოზებზე, ნარჩენები განაწილდება 0-ის გარშემო (სრულყოფილად მორგება), ხოლო GBM-ები პოულობენ ნიმუშებს ნარჩენებში და აახლებს მოდელს ამ შაბლონების გარშემო.

სხვა სიტყვებით რომ ვთქვათ, პროგნოზები განახლებულია ისე, რომ ყველა ნარჩენების ჯამი მაქსიმალურად მიუახლოვდეს 0-ს, რაც იმას ნიშნავს, რომ პროგნოზირებული მნიშვნელობები ძალიან ახლოს იქნება რეალურ მნიშვნელობებთან.

გაითვალისწინეთ, რომ GBM-ის მიერ შეიძლება გამოყენებულ იქნას ზარალის სხვა ფუნქციების ფართო არჩევანი (როგორიცაა ლოგარითმული დანაკარგი). MSE შეირჩა ზემოთ სიმარტივის მიზნით.

ვარიაციები გრადიენტის გამაძლიერებელ მოდელებზე

გრადიენტის გამაძლიერებელი მოდელები არის გაუმაძღარი ალგორითმები, რომლებიც მიდრეკილია მონაცემთა ნაკრებში გადაჭარბებისკენ. ამის დაცვა შესაძლებელია ამით რამდენიმე განსხვავებული მეთოდი რომელსაც შეუძლია გააუმჯობესოს GBM-ის მუშაობა.

GBMs შეიძლება დარეგულირდეს ოთხი განსხვავებული მეთოდით: შეკუმშვა, ხეების შეზღუდვები, სტოქასტური გრადიენტის გაძლიერება და დაჯარიმებული სწავლება.

Shrinkage

როგორც უკვე აღვნიშნეთ, GBM-ებში პროგნოზები ჯამდება თანმიმდევრობით. "Shrinkage"-ში, ყველა ხის დამატებები მთლიან თანხაზე მორგებულია. გამოიყენება წონები, რომლებიც ანელებს ალგორითმის სწავლის სიჩქარეს, რაც მოითხოვს მოდელს მეტი ხეების დამატებას, რაც ჩვეულებრივ აუმჯობესებს მოდელის სიმტკიცეს და შესრულებას. შეღავათი არის ის, რომ მოდელის მომზადებას უფრო მეტი დრო სჭირდება.

ხეების შეზღუდვები

ხის შეზღუდვა სხვადასხვა შესწორებებით, როგორიცაა ხეზე მეტი სიღრმის დამატება ან ხეში კვანძების ან ფოთლების რაოდენობის გაზრდა, შეიძლება გაართულოს მოდელის გადაჭარბება. მსგავსი ეფექტი აქვს დაკვირვებების მინიმალურ რაოდენობაზე შეზღუდვის დაწესებას თითო გაყოფაზე. კიდევ ერთხელ, ვაჭრობა ის არის, რომ მოდელს უფრო მეტი დრო დასჭირდება ვარჯიშისთვის.

შემთხვევითი შერჩევა

ცალკეული მოსწავლეები შეიძლება შეიქმნას სტოქასტური პროცესის მეშვეობით, სასწავლო მონაცემთა ნაკრების შემთხვევით შერჩეულ ქვეშტამბებზე დაყრდნობით. ეს იწვევს ხეებს შორის კორელაციის შემცირებას, რაც იცავს ზედმეტი მორგებისგან. მონაცემთა ნაკრები შეიძლება ქვეშტამპლირებული იყოს ხეების შექმნამდე ან ხეში გაყოფის განხილვამდე.

დაჯარიმებული სწავლა

მოდელის შეზღუდვის გარდა ხის სტრუქტურის შეზღუდვის გზით, შესაძლებელია რეგრესიის ხის გამოყენება. რეგრესიის ხეებს აქვთ რიცხვითი მნიშვნელობები მიმაგრებული თითოეულ ფოთოლზე და ისინი ფუნქციონირებენ როგორც წონა და შეიძლება დარეგულირდეს ჩვეულებრივი რეგულარიზაციის ფუნქციებით, როგორიცაა L1 და L2 რეგულაცია.

ბლოგერი და პროგრამისტი სპეციალობით მანქანა სწავლა მდე ღრმა სწავლება თემები. დანიელი იმედოვნებს, რომ დაეხმარება სხვებს გამოიყენონ ხელოვნური ინტელექტის ძალა სოციალური სიკეთისთვის.