Штучний Інтелект

Атака на системи обробки природної мови за допомогою змагальних прикладів

оновлений on 9 Грудня, 2022

Дослідники з Великої Британії та Канади розробили серію змагальних атак чорної скриньки проти систем обробки природної мови (NLP), які ефективні проти широкого спектру популярних фреймворків обробки мови, включаючи широко розгорнуті системи від Google, Facebook, IBM і Microsoft.

Атака потенційно може бути використана для руйнування систем перекладу машинного навчання, змушуючи їх створювати нісенітницю або фактично змінювати природу перекладу; навчання вузьким місцям моделей НЛП; неправильно класифікувати токсичний вміст; отруювати результати пошукової системи, викликаючи неправильне індексування; змусити пошукові системи виявити зловмисний або негативний вміст, який цілком зрозумілий людині; і навіть викликати атаки типу «Відмова в обслуговуванні» (DoS) на фреймворки NLP.

Незважаючи на те, що автори розкрили пропоновані вразливості статті різним неназваним сторонам, чиї продукти представлені в дослідженні, вони вважають, що індустрія НЛП відстає у захисті від агресивних атак. У документі зазначено:

«Ці атаки використовують особливості кодування мови, такі як невидимі символи та гомогліфи. Незважаючи на те, що в минулому їх час від часу можна було помітити під час шахрайства зі спамом і фішингом, розробники багатьох систем NLP, які зараз розгортаються в масштабах, здається, повністю їх проігнорували».

Кілька атак було здійснено в середовищі «чорної скриньки», як це можливо – через виклики API до систем MLaaS, а не локально встановлених версій FOSS фреймворків NLP. Про сукупну ефективність систем автори пишуть:

«Усі експерименти проводилися в умовах чорної скриньки, в якій дозволено необмежену кількість оцінок моделі, але доступ до вагових показників або стану оцінюваної моделі заборонено. Це одна з найсильніших моделей загроз, для якої можливі атаки майже в усіх налаштуваннях, у тому числі проти комерційних пропозицій машинного навчання як послуги (MLaaS). Кожна розглянута модель була вразливою до непомітних атак збурень.

«Ми вважаємо, що застосовність цих атак теоретично повинна поширюватися на будь-яку текстову модель НЛП без належного захисту».

Команда папір має титул Погані персонажі: непомітні атаки НЛП, і походить від трьох дослідників із трьох факультетів Кембриджського та Единбурзького університетів, а також дослідника з Університету Торонто.

Назва статті є зразковою: вона наповнена «непомітними» символами Unicode, які складають основу одного з чотирьох основних методів атаки, прийнятих дослідниками.

Навіть назва газети приховує таємниці.

Метод/и

У статті запропоновано три основні ефективні методи атаки: невидимі персонажі; гомогліфиІ перезамовлення. Це «універсальні» методи, які, як виявили дослідники, мають широкий вплив на фреймворки НЛП у сценаріях «чорних ящиків». Додатковий метод, що передбачає використання a видаляти Дослідники виявили, що він підходить лише для незвичайних конвеєрів NLP, які використовують буфер обміну операційної системи.

1: Невидимі персонажі

Ця атака використовує закодовані символи у шрифті, які не відповідають гліфам у системі Юнікод. Система Юнікод була розроблена для стандартизації електронного тексту, і тепер охоплює 143,859 XNUMX символів різними мовами та групами символів. Багато з цих відображень не міститиме видимих символів у шрифті (який, природно, не може включати символи для кожного можливого запису в Unicode).

У статті наведено гіпотетичний приклад атаки з використанням невидимих символів, які розбивають слова на сегменти, які або нічого не означають для системи обробки природної мови, або, якщо вони ретельно розроблені, можуть означати щось інше для точного перекладу. Для випадкового читача оригінальний текст правильний.

Зі статті — гіпотетичний приклад атаки з використанням невидимих символів, яка розбиває введені слова на сегменти, які або нічого не означають для системи обробки природної мови, або, якщо вони ретельно розроблені, можуть перешкодити точному перекладу. Для випадкового читача оригінальний текст в обох випадках правильний. Джерело: https://arxiv.org/pdf/2106.09898.pdf

Як правило, ви не можете просто використати один із цих несимволів, щоб створити пробіл нульової ширини, оскільки більшість систем візуалізують символ «заповнювача» (наприклад, квадрат або знак питання у кутовій рамці), щоб представляти невпізнаний персонаж.

Однак, як зазначає газета, лише невелика кількість шрифтів домінує на поточній комп’ютерній сцені, і, що не дивно, вони, як правило, дотримуються стандарту Unicode.

Тому дослідники обрали гліфи Unifont GNU для своїх експериментів, частково через його «надійне покриття» Unicode, а також тому, що він схожий на багато інших «стандартних» шрифтів, які, ймовірно, будуть подаватися в системи NLP. Хоча невидимі символи, створені за допомогою Unifont, не рендеряться, вони все ж зараховуються як видимі символи тестованими системами NLP.

додатків
Повертаючись до «створеної» назви самої статті, ми бачимо, що виконання пошуку в Google із виділеного тексту не досягає очікуваного результату:

Це ефект на стороні клієнта, але наслідки на стороні сервера є трохи серйознішими. Газета зауважує:

«Навіть якщо сканер пошукової системи може просканувати спотворений документ, на терміни, які використовуються для його індексування, впливатимуть збурення, зменшуючи ймовірність того, що він з’явиться під час пошуку за незміненими термінами. Таким чином, можна приховати документи від пошукових систем «на виду».

«Як приклад програми, нечесна компанія може замаскувати негативну інформацію у своїх фінансових документах, щоб спеціалізовані пошукові системи, якими користуються фондові аналітики, не змогли її знайти».

Єдині сценарії, у яких атака «невидимих персонажів» виявилася менш ефективною, стосувалися токсичного вмісту, розпізнавання іменованих об’єктів (NER) і моделей аналізу настроїв. Автори припускають, що це або тому, що моделі були навчені на даних, які також містили невидимі символи, або токенізатор моделі (який розбиває необроблений мовний вхід на модульні компоненти) уже налаштований на їх ігнорування.

2: Омогліфи

Омогліф — це символ, схожий на інший символ — семантична слабкість, яка була використана в 2000 році для створення шахрайська репліка домену обробки платежів PayPal.

У цьому гіпотетичному прикладі з статті атака на гомогліфи змінює значення перекладу, замінюючи візуально нерозрізнені гомогліфи (обведені червоним) замість звичайних латинських символів.

Коментар авторів*:

«Ми виявили, що моделі машинного навчання обробляють наданий користувачем текст, як-от системи нейронного машинного перекладу, особливо вразливий до цього типу атак. Розглянемо, наприклад, лідируючу послугу на ринку Google Translate. На момент написання статті введення рядка "paypal» англійською мовою на російську модель правильно виводить “PayPaл», але замінюючи латинський символ a у вхідних даних із символом кирилиці а неправильно виводить «папа» («батько» англійською).'

Дослідники помічають, що хоча багато конвеєрів НЛП замінюють символи, які знаходяться за межами їх мовного словника, на ('unknown') токен, програмні процеси, які викликають отруєний текст у конвеєр, можуть поширювати невідомі слова для оцінки, перш ніж цей захід безпеки почне діяти. Автори стверджують, що це "відкриває напрочуд велику поверхню атаки".

3: Перевпорядкування

Юнікод дозволяє використовувати мови, які записуються зліва направо, а впорядкування обробляється двонаправленим Юнікодом (БІДІ) алгоритм. Тому змішування символів справа наліво та зліва направо в одному рядку викликає плутанину, і Юнікод врахував це, дозволивши замінити BIDI спеціальними контрольними символами. Вони дозволяють майже довільне відтворення для фіксованого порядку кодування.

В іншому теоретичному прикладі зі статті механізм перекладу розміщує всі літери перекладеного тексту в неправильному порядку, оскільки він підкоряється неправильному кодуванню справа наліво/зліва направо через частину суперечливого вихідного тексту (обведеного кружечком), що наказує це зробити.

Автори стверджують, що на момент написання статті метод був ефективним проти реалізації Unicode у веб-браузері Chromium, вихідному джерелі для браузера Chrome від Google, браузера Edge від Microsoft і багатьох інших розгалужень.

А також: Видалення

Включено сюди, щоб подальші графіки результатів були зрозумілими видалення атака передбачає включення символу, який представляє пробіл або інший елемент керування/команди, що впливає на текст, який ефективно реалізується системою читання мови у стилі, подібному до текстового макросу.

Автори зауважують:

«Невелика кількість контрольних символів у кодуванні Unicode може спричинити сусідній текст, який потрібно видалити. Найпростішими прикладами є символи повернення (BS) і видалення (DEL). Також існує функція повернення каретки (CR), яка змушує алгоритм відтворення тексту повертатися на початок рядка та перезаписувати його вміст.

'За наприклад, закодований текст, який представляє «Hello CRДо побачення Світ» буде відтворено як «До побачення Світ».

Як зазначалося раніше, ця атака фактично вимагає неймовірного рівня доступу для роботи, і буде повністю ефективною лише за умови копіювання та вставлення тексту через буфер обміну, систематично чи ні – незвичайний конвеєр NLP.

Дослідники все одно протестували його, і він працює порівнянно зі своїми стабільними партнерами. Однак атаки з використанням перших трьох методів можна здійснити просто шляхом завантаження документів або веб-сторінок (у разі атаки на пошукові системи та/або веб-збирання конвеєрів NLP).

Під час атаки видалення створені символи фактично стирають те, що їм передує, або ж змушують однорядковий текст переміщувати у другий абзац, в обох випадках, не роблячи цього очевидним для звичайного читача.

Ефективність проти сучасних систем НЛП

Дослідники здійснили ряд нецільових і цілеспрямованих атак на п’ять популярних закритих моделей від Facebook, IBM, Microsoft, Google і HuggingFace, а також на три моделі з відкритим кодом.

Теж тестували напади «губки». проти моделей. Губкова атака фактично є DoS-атакою для систем NLP, де вхідний текст «не обчислюється» та спричиняє критичне сповільнення навчання – процес, який зазвичай має бути унеможливлений попередньою обробкою даних.

П’ять завдань НЛП, які оцінювалися, були машинний переклад, виявлення токсичного вмісту, класифікація текстового втягнення, розпізнавання іменованих сутностей і аналіз настроїв.

Тести проводилися на невизначеній кількості графічних процесорів Tesla P100, кожен з яких працював із процесором Intel Xeon Silver 4110 через Ubuntu. Щоб не порушувати умови обслуговування під час викликів API, експерименти рівномірно повторювалися з бюджетом збурень від нуля (вихідний текст без змін) до п’яти (максимальне порушення). Дослідники стверджують, що отримані ними результати можна було б перевершити, якби було дозволено більшу кількість ітерацій.

Результати застосування змагальних прикладів проти моделі Facebook Fairseq EN-FR.

Результати застосування змагальних прикладів проти Facebook Fairseq Модель EN-FR.

Результати атак на класифікатор токсичного вмісту IBM і Google Perspective API.

Результати атак на IBM класифікатор токсичного вмісту і Google, Перспективний API.

Дві атаки на Fairseq від Facebook: «нецільова» має на меті порушити роботу, а «цільова» — змінити значення мови перекладу.

Дослідники також перевірили свою систему на попередніх фреймворках, які не могли таким же чином генерувати «людиночитаний» тривожний текст, і виявили, що система значною мірою відповідає цим, а часто й значно краща, зберігаючи величезну перевагу скритності.

Середня ефективність усіх методів, векторів атак і цілей коливається на рівні близько 80 % із дуже малою кількістю ітерацій.

Коментуючи результати, дослідники кажуть:

«Мабуть, найбільш тривожним аспектом наших непомітних пертурбаційних атак є їхня широка застосовність: усі тестовані нами текстові системи НЛП сприйнятливі. Дійсно, будь-яка модель машинного навчання, яка приймає текст, наданий користувачем, теоретично вразлива до цієї атаки.

«Змагальні наслідки можуть відрізнятися від однієї програми до іншої та від однієї моделі до іншої, але всі текстові моделі базуються на закодованому тексті, і весь текст підлягає змагальному кодуванню, якщо кодування не обмежено належним чином».

Універсальне оптичне розпізнавання символів?

Ці атаки залежать від того, що фактично є «вразливими місцями» в Unicode, і їх можна було б уникнути в конвеєрі NLP, який растеризував би весь вхідний текст і використовував оптичне розпізнавання символів як засіб очищення. У цьому випадку той самий нешкідливий семантичний сенс, який бачать люди, які читають ці обурені атаки, буде передано системі НЛП.

Однак, коли дослідники запровадили конвеєр OCR, щоб перевірити цю теорію, вони виявили, що BLEU (Двомовне оцінювання) оцінки знизили базову точність на 6.2%, і це припускає, що для виправлення цього, ймовірно, знадобляться вдосконалені технології OCR.

Крім того, вони пропонують, щоб контрольні символи BIDI за замовчуванням були видалені з введення, незвичайні гомогліфи були відображені та індексовані (що вони характеризують як «важке завдання»), а токенізери та інші механізми прийому озброїлися проти невидимих символів.

На завершення дослідницька група закликає НЛП-сектор бути більш уважним до можливостей змагальної атаки, яка наразі викликає великий інтерес у дослідженнях комп’ютерного зору.

«[Ми] рекомендуємо, щоб усі фірми, які створюють і розгортають текстові системи NLP, запроваджували такі засоби захисту, якщо вони хочуть, щоб їхні програми були надійними проти зловмисників».

* Моє перетворення вбудованих цитат на гіперпосилання

18:08, 14 грудня 2021 р. – видалено повторну згадку про IBM, переміщено автоматичне внутрішнє посилання з цитати – MA

Вгору Далі

Алгоритм неймовірно швидко прогнозує енергоспоживання процесора

Не пропустіть

«Невидима», часто незадоволена робоча сила, яка вирішує майбутнє ШІ

Мартін Андерсон

Письменник про машинне навчання, штучний інтелект і великі дані.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai