Кібербезпека
Викрадення моделей машинного навчання за допомогою вихідних даних API

Нове дослідження з Канади пропонує можливий метод, за допомогою якого зловмисники можуть викрасти плоди дорогих фреймворків машинного навчання, навіть якщо єдиний доступ до пропрієтарної системи здійснюється через добре дезінфікований і, очевидно, добре захищений API (інтерфейс або протокол, який обробляє запити користувачів). на стороні сервера та повертає лише вихідну відповідь).
Оскільки науково-дослідний сектор все більше звертається до монетизації дорогого навчання моделям через впровадження машинного навчання як послуги (MLaaS), нова робота припускає, що Навчання з самоконтролем Моделі (SSL) є більш вразливими до такого виду ексфільтрації моделі, оскільки вони навчені без міток користувача, що спрощує вилучення, і зазвичай надають результати, які містять багато корисної інформації для тих, хто хоче відтворити (приховану) вихідну модель.
У тестових симуляціях «чорної скриньки» (де дослідники не надавали собі більше доступу до локальної моделі «жертви», ніж типовий кінцевий користувач мав би через веб-API), дослідники змогли відтворити цільові системи з відносно невеликими ресурсами:
«[Наші] атаки можуть викрасти копію моделі жертви, яка досягає значної продуктивності нижче за менш ніж 1/5 запитів, які використовуються для навчання жертви. Проти моделі жертви, навченої на 1.2 млн. немаркованих зразків із ImageNet, із точністю 91.9% у подальшому класифікаційному завданні Fashion-MNIST, наша атака прямого вилучення із втратою InfoNCE викрала копію кодувальника, який досягає 90.5% точності у 200 тис. запитів.
«Аналогічно, проти жертви, навченої на 50 тис. немаркованих зразків з CIFAR10, з точністю 79.0% у наступному завданні класифікації CIFAR10, наша атака прямого вилучення з втратою SoftNN викрала копію, яка досягла точності 76.9% у 9,000 запитах».

Дослідники використали три методи атаки, виявивши, що «пряме вилучення» є найефективнішим. Ці моделі були викрадені з локально відтвореного кодувальника жертви CIFAR10 за допомогою 9,000 запитів з тестового набору CIFAR10. Джерело: https://arxiv.org/pdf/2205.07890.pdf
Дослідники також відзначають, що методи, які підходять для захисту контрольованих моделей від атак, погано адаптуються до моделей, навчених без нагляду, навіть якщо такі моделі представляють одні з найбільш очікуваних і знаменитих плодів сектору синтезу зображень.
Новий папір має титул Про складність захисту самоконтрольованого навчання від вилучення моделі, і походить від Університету Торонто та Векторного інституту штучного інтелекту.
Самосвідомість
У самоконтрольованому навчанні модель навчається на немаркованих даних. Без міток модель SSL повинна вивчати асоціації та групи з неявної структури даних, шукаючи схожі аспекти даних і поступово об’єднуючи ці аспекти у вузли або представлення.
Там, де підхід SSL є життєздатним, він неймовірно продуктивний, оскільки дозволяє уникнути необхідності використання дорогих (часто аутсорсингових) послуг. спірний) категоризація краудворкерами та, по суті, автономно раціоналізує дані.
Автори нової статті розглядають три підходи SSL: SimCLR, то Сіамська мережа; СімСіам, інша сіамська мережа, зосереджена на навчанні репрезентації; і Близнюки Барлоу, підхід SSL, який досяг найсучаснішого рівня IMAGEnet продуктивність класифікатора після випуску в 2021 році.
Вилучення моделі для мічених даних (тобто моделі, навченої за допомогою контрольованого навчання) є відносним добре задокументований область дослідження. Від нього також легше захищатися, оскільки зловмисник повинен отримати мітки з моделі жертви, щоб відтворити його.

З попередньої статті, модель атаки «класифікатора-пандайзера» проти архітектури навчання з учителем. Джерело: https://arxiv.org/pdf/1812.02766.pdf
Без доступу до білої скриньки це не є тривіальним завданням, оскільки типовий вихід запиту API до такої моделі містить менше інформації, ніж типовий API SSL.
З паперу*:
«Попередня робота над вилученням моделі була зосереджена на налаштуванні навчання під керівництвом (SL), де модель жертви зазвичай повертає мітку або інші низькорозмірні результати, як-от показники впевненості or логіти.
На відміну від цього кодери SSL повертають багатовимірні представлення; в де-факто вихід для моделі ResNet-50 Sim-CLR, популярної архітектури у Vision, є 2048-вимірним вектором.
«Ми висуваємо гіпотезу, що цей значно більший витік інформації з кодерів робить їх більш вразливими до атак на вилучення, ніж моделі SL».
Архітектура та дані
Дослідники перевірили три підходи до виведення/вилучення моделі SSL: Пряме вилучення, у якому вихідний сигнал API порівнюється з вихідним сигналом відтвореного кодера за допомогою відповідної функції втрат, такої як середньоквадратична помилка (MSE); відтворення проекційної головки, де найважливіша аналітична функція моделі, яка зазвичай відкидається перед розгортанням, повторно збирається та використовується в моделі-копії; і доступ до проекційної головки, що можливо лише у випадках, коли початкові розробники зробили доступною архітектуру.

У методі №1, прямого вилучення, вихід моделі жертви порівнюється з результатом локальної моделі; Метод №2 передбачає відтворення проекційної головки, яка використовується в оригінальній навчальній архітектурі (і зазвичай не включається в розгорнуту модель).
Дослідники виявили, що пряме вилучення було найефективнішим методом отримання функціональної репліки цільової моделі, і має додаткову перевагу в тому, що його найважче охарактеризувати як «атаку» (оскільки він по суті поводиться мало чим відрізняється від типового та дійсного кінцевого користувача).
Автори тренували моделі жертв на трьох наборах даних зображень: CIFAR10, IMAGEnet, та номери будинків у Стенфордській службі Street View (СВХН). ImageNet було навчено на ResNet50, тоді як CIFAR10 і SVHN було навчено на ResNet18 і ResNet24 за допомогою вільно доступної реалізації PyTorch SimCLR.
Продуктивність моделей для подальшого використання (тобто розгорнутої) була протестована відповідно до CIFAR100, STL10, SVHN і Мода-МНІСТДослідники також експериментували з більш «білими» методами привласнення моделей, хоча виявилося, що пряме вилучення, найменш привілейований підхід, дало найкращі результати.
Щоб оцінити представлення, що виводяться та реплікуються під час атак, автори додали до моделі шар лінійного прогнозування, який був точно налаштований на повному розміченому навчальному наборі з наступного (нижчого) завдання, а решта шарів мережі були заморожені. Таким чином, точність тестування на шарі прогнозування може служити метрикою продуктивності. Оскільки вона ніяк не впливає на процес виведення, це не являє собою функціональність «білого ящика».

Результати тестових прогонів, які стали можливими завдяки рівню лінійної оцінки (без участі). Оцінки точності виділені жирним шрифтом.
Коментуючи результати, дослідники зазначають:
«Ми виявили, що пряма мета імітації представлень жертви забезпечує високу продуктивність у завданнях, що виконуються далі, незважаючи на те, що атака вимагає лише частки (менше 15% у деяких випадках) кількості запитів, необхідних для навчання викраденого кодера.»
І продовжуйте:
«[Складно] захистити кодери, навчені за допомогою SSL, оскільки вихідні представлення витікають значну кількість інформації. Найбільш перспективними засобами захисту є реактивні методи, такі як водяні знаки, які можуть вбудовувати певні доповнення у високопродуктивні кодери».
* Моє перетворення вбудованих цитат статті на гіперпосилання.
Вперше опубліковано 18 травня 2022 р.










