სტუბი სამი კონფიდენციალურობის შენარჩუნების მანქანათმცოდნეობის ტექნიკა ამ ათწლეულის ყველაზე მნიშვნელოვანი საკითხის გადაჭრა - Unite.AI
დაკავშირება ჩვენთან ერთად

აზროვნების ლიდერები

კონფიდენციალურობის შენარჩუნების სამი მანქანური სწავლის ტექნიკა ამ ათწლეულის ყველაზე მნიშვნელოვანი საკითხის გადაჭრაში

mm

გამოქვეყნებულია

 on

ამოგ ტარკარის მიერ, მანქანათმცოდნეობის და ხელოვნური ინტელექტის მკვლევარი, მუდმივი სისტემები.

მონაცემთა კონფიდენციალურობა, ექსპერტების აზრით, დომენების ფართო სპექტრში იქნება ამ ათწლეულის ყველაზე მნიშვნელოვანი საკითხი. ეს განსაკუთრებით ეხება მანქანურ სწავლებას (ML), სადაც ალგორითმები იკვებება მონაცემთა ნაკრებებით.

ტრადიციულად, ML მოდელირების ტექნიკა ეყრდნობოდა მონაცემთა ცენტრალიზებას მრავალი წყაროდან ერთ მონაცემთა ცენტრში. ყოველივე ამის შემდეგ, ML მოდელები ყველაზე ძლიერია, როდესაც მათ აქვთ წვდომა უზარმაზარი რაოდენობის მონაცემებზე. თუმცა, არსებობს კონფიდენციალურობის მრავალი გამოწვევა, რომელიც მოდის ამ ტექნიკასთან. მრავალი წყაროდან მრავალფეროვანი მონაცემების გაერთიანება დღეს ნაკლებად შესაძლებელია მარეგულირებელი პრობლემების გამო, როგორიცაა HIPAA, GDPR და CCPA. გარდა ამისა, მონაცემთა ცენტრალიზაცია ზრდის მონაცემთა ბოროტად გამოყენების ფარგლებს და მასშტაბებს და უსაფრთხოების საფრთხეებს მონაცემთა გაჟონვის სახით.

ამ გამოწვევების დასაძლევად, კონფიდენციალურობის შენარჩუნების მანქანათმცოდნეობის (PPML) რამდენიმე საყრდენი შემუშავდა სპეციფიკური ტექნიკით, რომლებიც ამცირებს კონფიდენციალურობის რისკს და უზრუნველყოფს მონაცემების გონივრულად დაცულობას. აქ არის რამდენიმე ყველაზე მნიშვნელოვანი:

1. ფედერირებული სწავლება

ფედერაციული სწავლება არის ML სასწავლო ტექნიკა, რომელიც აბრუნებს მონაცემთა აგრეგაციის პრობლემას თავის თავზე. ერთი ML მოდელის შესაქმნელად მონაცემების გაერთიანების ნაცვლად, ფედერაციული სწავლება აერთიანებს თავად ML მოდელებს. ეს უზრუნველყოფს, რომ მონაცემები არასოდეს ტოვებს წყაროს მდებარეობას და ის საშუალებას აძლევს მრავალ მხარეს ითანამშრომლონ და შექმნან საერთო ML მოდელი, უშუალოდ მგრძნობიარე მონაცემების გაზიარების გარეშე.

მუშაობს ასე. თქვენ იწყებთ საბაზისო ML მოდელით, რომელიც შემდეგ იზიარებს თითოეულ კლიენტის კვანძს. შემდეგ ეს კვანძები აწარმოებენ ადგილობრივ ტრენინგს ამ მოდელზე საკუთარი მონაცემების გამოყენებით. მოდელის განახლებები პერიოდულად იზიარებს კოორდინატორ კვანძს, რომელიც ამუშავებს ამ განახლებებს და აერთიანებს მათ ახალი გლობალური მოდელის მისაღებად. ამ გზით, თქვენ მიიღებთ ინფორმაციას სხვადასხვა მონაცემთა ნაკრებიდან ამ მონაცემთა ნაკრების გაზიარების გარეშე.

წყარო: Persistent Systems

ჯანდაცვის კონტექსტში, ეს არის წარმოუდგენლად ძლიერი და კონფიდენციალურობის შესახებ ინფორმირებული ინსტრუმენტი პაციენტის მონაცემების უსაფრთხოდ შესანარჩუნებლად, ხოლო მკვლევარებს ბრბოს სიბრძნეს აძლევს. მონაცემების არ გაერთიანებით, ფედერაციული სწავლება ქმნის უსაფრთხოების დამატებით ფენას. თუმცა, თავად მოდელები და მოდელების განახლებები კვლავ წარმოადგენს უსაფრთხოების რისკს, თუ დაუცველი დარჩება.

2. დიფერენციალური კონფიდენციალურობა

ML მოდელები ხშირად არიან წევრობის დასკვნის შეტევების სამიზნე. თქვით, რომ თქვენ უნდა გაუზიაროთ თქვენი ჯანდაცვის მონაცემები საავადმყოფოს, რათა დაგეხმაროთ კიბოს ვაქცინის შემუშავებაში. საავადმყოფო ინახავს თქვენს მონაცემებს უსაფრთხოდ, მაგრამ იყენებს ფედერაციულ სწავლებას საჯაროდ ხელმისაწვდომი ML მოდელის მოსამზადებლად. რამდენიმე თვის შემდეგ, ჰაკერები იყენებენ წევრობის დასკვნის შეტევას იმის დასადგენად, გამოიყენეს თუ არა თქვენი მონაცემები მოდელის ტრენინგში. შემდეგ ისინი გადასცემენ ინფორმაციას სადაზღვევო კომპანიას, რომელიც, კიბოს რისკის გათვალისწინებით, შეიძლება გაზარდოს თქვენი პრემიები.

დიფერენციალური კონფიდენციალურობა უზრუნველყოფს ML მოდელებზე მოწინააღმდეგის თავდასხმებს ვერ შეძლებენ ტრენინგის დროს გამოყენებული კონკრეტული მონაცემების წერტილების იდენტიფიცირებას, რაც ამცირებს მანქანურ სწავლაში ტრენინგის მგრძნობიარე მონაცემების გამოვლენის რისკს. ეს კეთდება „სტატისტიკური ხმაურის“ გამოყენებით, რათა დაარღვიოს მონაცემები ან მანქანათმცოდნეობის მოდელის პარამეტრები, ტრენინგის მოდელების დროს, რაც ართულებს შეტევების განხორციელებას და განსაზღვრავს, გამოიყენებოდა თუ არა კონკრეტული ინდივიდის მონაცემები მოდელის მოსამზადებლად.

მაგალითად, Facebook-მა ცოტა ხნის წინ გამოუშვა ოპაკუსი, მაღალსიჩქარიანი ბიბლიოთეკა PyTorch-ის მოდელების სწავლებისთვის, დიფერენციალურ კონფიდენციალურობაზე დაფუძნებული მანქანათმცოდნეობის სასწავლო ალგორითმის გამოყენებით, სახელწოდებით Differentially Private Stochastic Gradient Descent (DP-SGD). ქვემოთ მოცემული gif ხაზს უსვამს, თუ როგორ იყენებს ხმაურს მონაცემების დასაფარად.

 

ეს ხმაური რეგულირდება პარამეტრით, რომელსაც ეწოდება Epsilon. თუ Epsilon-ის მნიშვნელობა დაბალია, მოდელს აქვს მონაცემთა სრულყოფილი კონფიდენციალურობა, მაგრამ ცუდი სარგებლობა და სიზუსტე. პირიქით, თუ თქვენ გაქვთ მაღალი Epsilon მნიშვნელობა, თქვენი მონაცემების კონფიდენციალურობა შემცირდება, ხოლო თქვენი სიზუსტე იზრდება. ხრიკი არის ბალანსის მიღწევა ორივესთვის ოპტიმიზაციისთვის.

3. ჰომორფული დაშიფვრა

სტანდარტული დაშიფვრა ტრადიციულად შეუთავსებელია მანქანათმცოდნეობასთან, რადგან მონაცემების დაშიფვრის შემდეგ, ML ალგორითმის მიერ მისი გაგება ვეღარ ხერხდება. თუმცა, ჰომორფული დაშიფვრა არის სპეციალური დაშიფვრის სქემა, რომელიც საშუალებას გვაძლევს გავაგრძელოთ გარკვეული ტიპის გამოთვლები.

წყარო: OpenMined

ამის ძალა ის არის, რომ სწავლება შეიძლება მოხდეს მთლიანად დაშიფრულ სივრცეში. ის არა მხოლოდ იცავს მონაცემთა მფლობელებს, არამედ იცავს მოდელის მფლობელებსაც. მოდელის მფლობელს შეუძლია დაშიფრულ მონაცემებზე დასკვნების გაშვება მისი ნახვის ან ბოროტად გამოყენების გარეშე.

როდესაც გამოიყენება ფედერაციულ სწავლებაზე, მოდელის განახლებების შერწყმა შეიძლება უსაფრთხოდ მოხდეს, რადგან ისინი ხდება მთლიანად დაშიფრულ გარემოში, რაც მკვეთრად ამცირებს წევრობის დასკვნის შეტევების რისკს.

კონფიდენციალურობის ათწლეული

როგორც ჩვენ შევდივართ 2021 წელს, კონფიდენციალურობის დაცვა მანქანათმცოდნეობა არის განვითარებადი სფერო საოცრად აქტიური კვლევებით. თუ გასული ათწლეული ეხებოდა მონაცემთა გაცლას, ეს ათწლეული იქნება ML მოდელების გაუთვალისწინებლობის შესახებ, ხოლო ფუძემდებლური მონაცემების კონფიდენციალურობის შენარჩუნებით ფედერაციული სწავლის, დიფერენციალური კონფიდენციალურობისა და ჰომორფული დაშიფვრის საშუალებით. ეს არის პერსპექტიული ახალი გზა მანქანური სწავლების გადაწყვეტილებების გასაუმჯობესებლად კონფიდენციალურობის გათვალისწინებით.

ამოგი არის მანქანათმცოდნეობის მკვლევარი და AI კვლევის ლაბორატორიის ნაწილი მუდმივი სისტემები. მისი ამჟამინდელი კვლევა ფოკუსირებულია ფედერალური სწავლების აპლიკაციებზე და ცოდნის მოპოვებისთვის NLP ინსტრუმენტების შექმნაზე.