სტუბი ახსნადი AI შეიძლება უფრო ადვილად გადასცეს კონფიდენციალურ მონაცემებს - Unite.AI
დაკავშირება ჩვენთან ერთად

კიბერ უსაფრთხოება

ახსნადი AI შეიძლება უფრო ადვილად გადასცეს კონფიდენციალურ მონაცემებს

mm

გამოქვეყნებულია

 on

სინგაპურის ეროვნული უნივერსიტეტის მკვლევარებმა დაასკვნეს, რომ რაც უფრო ახსნილი გახდება AI, მით უფრო ადვილი იქნება მანქანური სწავლების სისტემებში კონფიდენციალურობის მნიშვნელოვანი მახასიათებლების გვერდის ავლა. მათ ასევე დაადგინეს, რომ მაშინაც კი, როდესაც მოდელი არ არის ახსნილი, შესაძლებელია მსგავსი მოდელების ახსნა-განმარტებების გამოყენება აუხსნელ მოდელში მგრძნობიარე მონაცემების „გაშიფვრისთვის“.

ის კვლევის, სახელწოდებით მოდელის ინვერსიული თავდასხმების ახსნა-განმარტებების გამოყენებახაზს უსვამს ნერვული ქსელების ფუნქციონირების „შემთხვევითი“ გაუმჭვირვალობის გამოყენების რისკებს, თითქოს ეს იყო დიზაინის უსაფრთხოების მახასიათებელი - განსაკუთრებით იმის გამო, რომ ახალი გლობალური ინიციატივების ტალღა, მათ შორის ევროკავშირის ხელოვნური ინტელექტის რეგულაციების პროექტიარიან დახასიათება ახსნადი AI (XAI), როგორც საზოგადოებაში მანქანათმცოდნეობის საბოლოო ნორმალიზების წინაპირობა.

კვლევაში, ფაქტობრივი იდენტურობა წარმატებით აღდგენილია სავარაუდო ანონიმური მონაცემებისგან, რომლებიც დაკავშირებულია სახის გამონათქვამებთან, მანქანური სწავლების სისტემის მრავალი ახსნა-განმარტების გამოყენების გზით. წყარო: https://arxiv.org/pdf/2108.10800.pdf

კვლევაში, ფაქტობრივი იდენტურობა წარმატებით აღდგენილია სავარაუდო ანონიმური მონაცემებიდან, რომლებიც დაკავშირებულია სახის გამონათქვამებთან, მანქანური სწავლების სისტემის მრავალი ახსნა-განმარტების გამოყენების გზით. წყარო: https://arxiv.org/pdf/2108.10800.pdf

მკვლევარები კომენტარს აკეთებენ:

„ახსნადი ხელოვნური ინტელექტი (XAI) გვაწვდის მეტ ინფორმაციას, რათა დაეხმაროს მომხმარებლებს მოდელის გადაწყვეტილებების გაგებაში, თუმცა ეს დამატებითი ცოდნა ავლენს დამატებით რისკებს კონფიდენციალურობის შეტევებისთვის. მაშასადამე, განმარტების მიწოდება ზიანს აყენებს კონფიდენციალურობას.'

პირადი მონაცემების ხელახალი იდენტიფიკაცია

მანქანური სწავლების მონაცემთა ნაკრებების მონაწილეებმა შესაძლოა თანხმობა დათანხმდნენ ჩართულობას ანონიმურობის დაშვებით; პერსონალური იდენტიფიცირებადი ინფორმაციის (PII) შემთხვევაში, რომელიც სრულდება ხელოვნური ინტელექტის სისტემებში მონაცემთა ad hoc შეგროვების გზით (მაგალითად, სოციალური ქსელების საშუალებით), მონაწილეობა შეიძლება იყოს ტექნიკურად ლეგალური, მაგრამ ამძიმებს „თანხმობის“ ცნებას.

ბოლო წლებში გაჩნდა რამდენიმე მეთოდი, რომლებმაც დაადასტურეს PII-ის დეანონიმიზაციის უნარი, აშკარად გაუმჭვირვალე მანქანური სწავლების მონაცემთა ნაკადებიდან. მოდელის მოპოვება იყენებს API წვდომას (ანუ „შავ ყუთში“ წვდომას, წყაროს კოდის ან მონაცემების განსაკუთრებული ხელმისაწვდომობის გარეშე) PII-ის ამოსაღებად, თუნდაც მაღალი მასშტაბის MLaaS პროვაიდერებისგან, ამაზონის ვებ სერვისების ჩათვლით, ხოლო წევრობის დასკვნის შეტევები (შსს), რომელიც მუშაობს მსგავსი შეზღუდვების ქვეშ, შეუძლია პოტენციურად მიიღოს კონფიდენციალური სამედიცინო ინფორმაცია; დამატებით Attribution Inference Attacks (AIAs) შეიძლება მგრძნობიარე მონაცემების აღდგენა API გამოსვლიდან.

სახეების გამოვლენა

ახალი ნაშრომისთვის მკვლევარებმა კონცენტრირება მოახდინეს მოდელის ინვერსიულ შეტევაზე, რომელიც შექმნილია სახის ემოციური მონაცემების ქვეჯგუფიდან იდენტურობის მისაღებად, რომელსაც არ უნდა შეეძლოს ამ ინფორმაციის გამოვლენა.

სისტემის მიზანი იყო ველურ ბუნებაში აღმოჩენილი სურათების (ან შემთხვევით გამოქვეყნებული ინტერნეტში ან პოტენციური მონაცემების დარღვევის შემთხვევაში) დაკავშირება მათ მონაცემთა ნაკრებებში, რომლებიც ემყარება მანქანათმცოდნეობის ალგორითმს.

მკვლევარებმა გაწვრთნეს ინვერსიული შეტევის მოდელი, რომელსაც შეუძლია ანონიმური API გამომავალი გამოსახულების რეკონსტრუქცია, ორიგინალურ არქიტექტურაზე სპეციალური წვდომის გარეშე. წინა სამუშაო ამ სფეროში კონცენტრირებული იყო სისტემებზე, სადაც იდენტიფიკაცია (დაცვა ან გამოვლენა) იყო როგორც სამიზნე სისტემის, ასევე თავდასხმის სისტემის მიზანი; ამ შემთხვევაში, ჩარჩო შექმნილია ერთი დომენის გამოსავლის გამოსაყენებლად და სხვა დომენზე გამოსაყენებლად.

A გადატანილი კონვოლუციური ნერვული ქსელი (CNN) გამოიყენებოდა ემოციების ამოცნობის სისტემისთვის სამიზნე პროგნოზირების ვექტორზე დაფუძნებული „ორიგინალური“ წყაროს სახის პროგნოზირებისთვის. U-Net არქიტექტურა სახის რეკონსტრუქციის მუშაობის გასაუმჯობესებლად.

ხელახალი იდენტიფიკაციის სისტემა იკვებება და ინფორმირებულია ახსნადი ხელოვნური ინტელექტის საშუალებით (XAI), სადაც ნეირონების აქტივაციის ცოდნა, მრავალი ხელშემწყობი საჯარო XAI ასპექტიდან, გამოიყენება არქიტექტურის შიდა მაქინაციების რეკონსტრუქციისთვის მხოლოდ მისი გამომავალიდან, რაც საშუალებას იძლევა ხელახლა იდენტიფიცირება წვლილისგან. მონაცემთა ნაკრების სურათები.

ხელახალი იდენტიფიკაციის სისტემა იკვებება და ინფორმირებულია ახსნადი ხელოვნური ინტელექტის საშუალებით (XAI), სადაც ნეირონების აქტივაციის ცოდნა, მრავალი ხელშემწყობი საჯარო XAI ასპექტიდან, გამოიყენება არქიტექტურის შიდა მაქინაციების რეკონსტრუქციისთვის მხოლოდ მისი გამომავალიდან, რაც საშუალებას იძლევა ხელახლა იდენტიფიცირება წვლილისგან. მონაცემთა ნაკრების სურათები.

ტესტირება

სისტემის ტესტირებისას მკვლევარებმა ის გამოიყენეს სამი მონაცემთა ნაკრების წინააღმდეგ:  iCV-MEFED სახის გამონათქვამები; CelebAდა MNIST ხელნაწერი ციფრები. მკვლევარების მიერ გამოყენებული მოდელის ზომის დასაკმაყოფილებლად, მონაცემთა სამი ნაკრების ზომა შეიცვალა შესაბამისად 128×128, 265×256 და 32×32 პიქსელამდე. თითოეული ნაკრების 50% გამოიყენებოდა როგორც სასწავლო მონაცემი, ხოლო მეორე ნახევარი გამოიყენებოდა როგორც თავდასხმის მონაცემთა ბაზა ანტაგონისტის მოდელების მოსამზადებლად.

თითოეულ მონაცემთა ბაზას ჰქონდა სხვადასხვა სამიზნე მოდელები და თითოეული თავდასხმის ქსელი მასშტაბირებული იყო პროცესის საფუძვლიანი ახსნა-განმარტების შეზღუდვამდე, ვიდრე უფრო ღრმა ნერვული მოდელების გამოყენება, რომელთა სირთულე აღემატებოდა განმარტებების განზოგადებას.

XAI ახსნის ტიპები გამოიყენება მცდელობების გასაძლიერებლად გრადიენტური ახსნა, გრადიენტის შეყვანა, Grad-CAM და ფენების რელევანტურობის გავრცელება (LRP). მკვლევარებმა ასევე შეაფასეს მრავალი ახსნა ექსპერიმენტებში.

გამოსახულების რეკონსტრუქციას ხელი შეუწყო XAI-შემეცნებითი ინვერსიული შეტევით სამ მონაცემთა ნაკრებში, რომელიც შეიცავს სამიზნე და თავდასხმის იდენტურ ამოცანებს.

გამოსახულების რეკონსტრუქციას ხელი შეუწყო XAI-შემეცნებითი ინვერსიული შეტევით სამ მონაცემთა ნაკრებში, რომელიც შეიცავს სამიზნე და თავდასხმის იდენტურ ამოცანებს.

ტესტის მეტრიკა იყო პიქსელური მსგავსება შეფასებული მიერ საშუალო კვადრატული შეცდომა (MSE); გამოსახულების მსგავსება (SSIM), აღქმაზე დაფუძნებული მსგავსების ინდექსი; თავდასხმის სიზუსტე, განისაზღვრება იმის მიხედვით, შეუძლია თუ არა კლასიფიკატორს წარმატებით ხელახლა დაასახელოს რეკონსტრუირებული სურათი; და თავდასხმის ჩაშენების მსგავსება, რომელიც ადარებს ცნობილი წყაროს მონაცემების ფუნქციების ჩაშენებას რეკონსტრუქციულ მონაცემებთან.

ხელახალი იდენტიფიკაცია მიღწეული იყო, სხვადასხვა დონეებით ამოცანისა და მონაცემთა ნაკრების მიხედვით, ყველა კომპლექტში. გარდა ამისა, მკვლევარებმა დაადგინეს, რომ სუროგატი სამიზნე მოდელის შექმნით (რომელზეც მათ ბუნებრივია სრული კონტროლი ჰქონდათ), ჯერ კიდევ შესაძლებელი იყო მონაცემთა ხელახალი იდენტიფიკაცია გარე, „დახურული“ მოდელებიდან, ცნობილ XAI პრინციპებზე დაყრდნობით.

მკვლევარებმა დაადგინეს, რომ ყველაზე ზუსტი შედეგები მიიღეს აქტივაციაზე დაფუძნებული (განსხვავებულობის რუკა) ახსნა-განმარტებით, რომლებმაც უფრო მეტი PII გაჟონა, ვიდრე მგრძნობელობაზე დაფუძნებული (გრადიენტული) მიდგომები.

მომავალ მუშაობაში, გუნდი აპირებს სხვადასხვა ტიპის XAI ახსნა-განმარტების ჩართვას ახალ თავდასხმებში, როგორიცაა ვიზუალიზაციის მახასიათებლები მდე კონცეფციის გააქტიურების ვექტორები.