Refresh

This website www.unite.ai/ka/making-a-machine-learning-model-forget-about-you-forsaken-forgetting/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

მანქანათმცოდნეობის მოდელის შექმნა დაივიწყე შენ შესახებ

mm
განახლებულია on

კონკრეტული ნაწილის ამოღება, რომელმაც ხელი შეუწყო მანქანათმცოდნეობის მოდელს, ჰგავს მეორე კოვზი შაქრის ამოღების მცდელობას ფინჯანი ყავიდან. მონაცემები, ამ დროისთვის, უკვე არსებითად გახდა დაკავშირებული ბევრ სხვა ნეირონთან მოდელის შიგნით. თუ მონაცემთა წერტილი წარმოადგენს „განმსაზღვრელ“ მონაცემებს, რომლებიც ჩართული იყო ტრენინგის ადრეულ, მაღალგანზომილებიან ნაწილში, მაშინ მისი წაშლა შეიძლება რადიკალურად განასხვავოს მოდელის ფუნქციონირების კუთხით, ან თუნდაც მოითხოვოს მისი ხელახალი ტრენინგი გარკვეული დროის დახარჯვისას და ფული.

მიუხედავად ამისა, ევროპაში მაინც, მონაცემთა დაცვის ზოგადი რეგულირების აქტის (GDPR) მე-17 მუხლი. მოითხოვს რომ კომპანიებმა მოთხოვნისთანავე ამოიღონ მომხმარებლის ასეთი მონაცემები. ვინაიდან აქტი ჩამოყალიბდა იმის გაგებით, რომ ეს წაშლა იქნება სხვა არაფერი, თუ არა მონაცემთა ბაზის „ჩაგდება“ მოთხოვნა, კანონმდებლობა, რომელიც განკუთვნილია ევროკავშირის პროექტიდან. ხელოვნური ინტელექტის აქტი ეფექტურად ასლი და პასტა GDPR-ის სულისკვეთება შევიდა კანონებში, რომლებიც ვრცელდება გაწვრთნილ AI სისტემებზე და არა ცხრილის მონაცემებზე.

განიხილება შემდგომი კანონმდებლობა მთელს მსოფლიოში, რომელიც უფლებას მისცემს პირებს მოითხოვონ თავიანთი მონაცემების წაშლა მანქანური სწავლების სისტემებიდან, ხოლო კალიფორნიის მომხმარებელთა კონფიდენციალურობის აქტი (CCPA) 2018 წ. უკვე იძლევა ამ უფლებას სახელმწიფოს მაცხოვრებლებს.

რატომ აქვს მნიშვნელობა

როდესაც მონაცემთა ნაკრები სწავლობს ქმედითუნარიან მანქანათმცოდნეობის მოდელს, ამ მონაცემების მახასიათებლები ხდება განზოგადებული და აბსტრაქტული, რადგან მოდელი შექმნილია პრინციპების დასკვნისთვის. ფართო ტენდენციები მონაცემებიდან, საბოლოოდ წარმოიქმნება ალგორითმი, რომელიც სასარგებლო იქნება კონკრეტული და არაგანზოგადებული მონაცემების ანალიზში.

თუმცა, ტექნიკა, როგორიცაა მოდელის ინვერსია გამოავლინეს ხელახალი იდენტიფიკაციის შესაძლებლობა, რომელიც ეფუძნება საბოლოო, აბსტრაქტულ ალგორითმს, ხოლო წევრობის დასკვნის შეტევები ასევე შეუძლიათ წყაროს მონაცემების გამოაშკარავება, მათ შორის სენსიტიურ მონაცემებს, რომლებიც შესაძლოა მხოლოდ ანონიმურობის გაგების მიზნით ნებადართული იყოს მონაცემთა ბაზაში ჩართვისთვის.

ამ მისწრაფებისადმი ინტერესის გაზრდა არ საჭიროებს კონფიდენციალურობის აქტივიზმზე დაყრდნობას: რადგან მანქანათმცოდნეობის სექტორი კომერციალიზაციას განიცდის მომდევნო ათი წლის განმავლობაში და ერები ექცევიან ზეწოლას, დაასრულონ მიმდინარე laissez faire კულტურა მონაცემთა გენერირებისთვის ეკრანის სკრეპინგის გამოყენებასთან დაკავშირებით, იქნება მზარდი კომერციული სტიმული IP-ის დამფუძნებელი ორგანიზაციებისთვის (და IP ტროლები), რათა გაშიფრონ და გადახედონ იმ მონაცემებს, რომლებმაც ხელი შეუწყო საკუთრების და მაღალშემოსავლიან კლასიფიკაციას, დასკვნას და გენერაციულ AI ჩარჩოებს.

ამნეზიის გამოწვევა მანქანათმცოდნეობის მოდელებში

ამიტომ, ჩვენ დაგვრჩენია ყავიდან შაქრის ამოღების გამოწვევა. ეს პრობლემა იყო შემაშფოთებელი მკვლევარები ბოლო წლებში: 2021 წელს ევროკავშირის მხარდაჭერილი ნაშრომი სახის ამოცნობის ბიბლიოთეკების კონფიდენციალურობის რისკების შედარებითი კვლევა აღმოაჩინა, რომ სახის ამოცნობის რამდენიმე პოპულარულ ალგორითმს შეეძლო შეეძლება სქესის ან რასის საფუძველზე დისკრიმინაცია ხელახალი იდენტიფიკაციის შეტევებში; 2015 წელს კოლუმბიის უნივერსიტეტის კვლევაში შემოთავაზებული „მანქანის გაუქმების“ მეთოდი, რომელიც დაფუძნებულია მონაცემთა რამდენიმე შეჯამების განახლებაზე; და 2019 წელს სტენფორდის მკვლევარები შესთავაზა ახალი წაშლის ალგორითმები K- ნიშნავს კლასტერული განხორციელებისთვის.

ახლა კვლევითმა კონსორციუმმა ჩინეთიდან და აშშ-დან გამოაქვეყნა ახალი ნაშრომი, რომელიც ასახავს მონაცემთა წაშლის მიდგომების წარმატების შეფასების ერთგვაროვან მეტრიკას, ახალ „გაუსწავლის“ მეთოდთან ერთად სახელწოდებით Forsaken, რომელსაც მკვლევარები ამტკიცებენ, რომ შეუძლია 90-ზე მეტის მიღწევა. % დავიწყების სიხშირე, მოდელის მთლიან შესრულებაში მხოლოდ 5% სიზუსტის დაკარგვით.

ის ქაღალდი ეწოდება ისწავლეთ დავიწყება: მანქანური გაუქმება ნეირონ მასკინის საშუალებითგ, და წარმოდგენილია მკვლევარები ჩინეთიდან და ბერკლიდან.

ნეირონების ნიღაბი, Forsaken-ის პრინციპი, იყენებს ა ნიღაბი გრადიენტი გენერატორი, როგორც მოდელიდან კონკრეტული მონაცემების ამოღების ფილტრი, რომელიც ეფექტურად აახლებს მათ, ვიდრე აიძულებს მის გადამზადებას ნულიდან ან სნეპშოტიდან, რომელიც მოხდა მონაცემთა ჩართვამდე (სტრიმინგზე დაფუძნებული მოდელების შემთხვევაში, რომლებიც მუდმივად განახლდება).

ნიღბის გრადიენტის გენერატორის არქიტექტურა. წყარო: https://arxiv.org/pdf/2003.10933.pdf

ნიღბის გრადიენტის გენერატორის არქიტექტურა. წყარო: https://arxiv.org/pdf/2003.10933.pdf

ბიოლოგიური წარმოშობა

მკვლევარები აცხადებენ, რომ ეს მიდგომა იყო შთაგონებული ბიოლოგიური პროცესი "აქტიური დავიწყება", სადაც მომხმარებელი იღებს მკაცრ მოქმედებებს კონკრეტული მეხსიერებისთვის ყველა ენგრამის უჯრედის წასაშლელად სპეციალური ტიპის დოფამინის მანიპულირების გზით.

Forsaken მუდმივად იწვევს ნიღბის გრადიენტს, რომელიც იმეორებს ამ მოქმედებას, ამ პროცესის შენელების ან შეჩერების გარანტიებით, რათა თავიდან იქნას აცილებული არამიზნობრივი მონაცემების კატასტროფული დავიწყება.

სისტემის უპირატესობები ისაა, რომ იგი გამოიყენება მრავალი სახის არსებული ნერვული ქსელისთვის, მაშინ როცა ბოლო მსგავსმა ნამუშევრებმა დიდი წარმატება ხვდა წილად კომპიუტერული ხედვის ქსელებში; და რომ ის არ ერევა მოდელის ტრენინგის პროცედურებში, არამედ მოქმედებს როგორც დამხმარე საშუალება, ძირითადი არქიტექტურის შეცვლის ან მონაცემების გადამზადების მოთხოვნის გარეშე.

ეფექტის შეზღუდვა

შეტანილი მონაცემების წაშლას შეუძლია პოტენციურად მავნე გავლენა მოახდინოს მანქანათმცოდნეობის ალგორითმის ფუნქციონირებაზე. ამის თავიდან ასაცილებლად მკვლევარებმა გამოიყენეს ნორმის რეგულაცია, ნორმალური ნერვული ქსელის ვარჯიშის მახასიათებელი, რომელიც ჩვეულებრივ გამოიყენება ზედმეტი ვარჯიშის თავიდან ასაცილებლად. არჩეული კონკრეტული იმპლემენტაცია შექმნილია იმის უზრუნველსაყოფად, რომ Forsaken-ი არ შეაგროვოს ტრენინგში.

მონაცემთა გამოსაყენებელი დისპერსიის დასადგენად, მკვლევარებმა გამოიყენეს განაწილების გარეშე (OOD) მონაცემები (ანუ მონაცემები, რომლებიც არ შედის მონაცემთა ფაქტობრივ მონაცემთა ბაზაში, „სენსიტიური“ მონაცემების მიბაძვა რეალურ მონაცემთა ბაზაში) ალგორითმის ქცევის დაკალიბრებისთვის. .

ტესტირება მონაცემთა ნაკრებებზე

მეთოდი ტესტირება მოხდა რვა სტანდარტულ მონაცემთა ნაკრებზე და ზოგადად მიღწეულია დავიწყების სიხშირე, ვიდრე სრული გადამზადება, რაც ძალიან მცირე გავლენას ახდენს მოდელის სიზუსტეზე.

შეუძლებელი ჩანს, რომ რედაქტირებულ მონაცემთა ბაზაზე სრულმა გადამზადებამ სხვა მეთოდებზე უარესი შედეგი გამოიღოს, რადგან სამიზნე მონაცემები მთლიანად არ არის. თუმცა, მოდელმა ამ დროისთვის ამოიღო წაშლილი მონაცემების სხვადასხვა მახასიათებელი „ჰოლოგრაფიული“ გზით, ისე (ანალოგიით), რომ მელნის წვეთი ხელახლა განსაზღვრავს ჭიქა წყლის სარგებლობას.

ფაქტობრივად, მოდელის წონებზე უკვე განიცადა გავლენა ამოკვეთილმა მონაცემებმა და მისი გავლენის სრულად მოხსნის ერთადერთი გზა არის მოდელის გადამზადება აბსოლუტური ნულიდან, ვიდრე შეწონილი მოდელის გადამზადების ბევრად უფრო სწრაფი მიდგომა რედაქტირებულ მონაცემთა ბაზაზე. .