заглушки Алгоритм TextFooler дурить NLP AI - Unite.AI
Зв'язатися з нами

Штучний Інтелект

Алгоритм TextFooler обдурює НЛП ШІ

mm
оновлений on

Якими б вражаючими не стали алгоритми та системи обробки природної мови за останні роки, вони все ще вразливі до експлойтів, відомих як «змагальний приклад». Змагальні приклади ретельно розроблених фраз, які можуть змусити систему НЛП поводитися несподівано та небажано. Ці дивні приклади можуть змусити програми штучного інтелекту поводитися неправильно, і в результаті дослідники штучного інтелекту намагаються розробити способи захисту від наслідків суперечливих прикладів.

Нещодавно команда дослідників з Університету Гонконгу та Агентства науки, технологій і досліджень Сінгапуру співпрацювала, щоб створити алгоритм, який демонструє небезпеку змагальних прикладів. Як повідомляє Wired, алгоритм був дубльований TextFooler дослідницькою групою, і він функціонує, непомітно змінюючи частини речення, впливаючи на те, як класифікатор НЛП може інтерпретувати речення. Як приклад, алгоритм перетворив одне речення в інше схоже речення, і речення було подано в класифікатор, призначений для визначення того, чи був відгук негативним чи позитивним. Оригінальне речення було:

«Персонажі, створені неймовірно надуманий ситуації, є повністю відчужений від реальності».

Його було перетворено на таке речення:

«Персонажі, створені неймовірно інженерії обставини, є повністю відчужений від реальності».

Ці тонкі зміни спонукали класифікатор тексту класифікувати відгук як позитивний, а не як негативний. Дослідницька група перевірила той самий підхід (заміна певних слів синонімами) на кількох різних наборах даних і алгоритмах класифікації тексту. Дослідницька група повідомляє, що їм вдалося знизити точність класифікації алгоритму лише до 10% з 90%. Це незважаючи на те, що люди, які читають ці речення, тлумачать їх як однакові.

Ці результати викликають занепокоєння в епоху, коли алгоритми НЛП і штучний інтелект використовуються все частіше і частіше для таких важливих завдань, як оцінка медичних заяв або аналіз юридичних документів. Невідомо, наскільки небезпечними є конкурентні приклади для алгоритмів, які зараз використовуються. Дослідницькі групи в усьому світі все ще намагаються визначити, який вплив вони можуть мати. Нещодавно у звіті, опублікованому Стенфордською людино-орієнтованою групою штучного інтелекту, припущено, що змагальні приклади можуть ввести в оману алгоритми штучного інтелекту та використовуватися для вчинення податкового шахрайства.

Нещодавнє дослідження має деякі обмеження. Наприклад, хоча Самір Сінгх, доцент кафедри інформатики Каліфорнійського університету в Ірвайні, зазначає, що використаний змагальний метод був ефективним, він покладається на певні знання архітектури ШІ. ШІ потрібно неодноразово перевіряти, доки не буде знайдена ефективна група слів, і такі повторювані атаки можуть бути помічені програмами безпеки. Сінгх і його колеги провели власні дослідження на цю тему та виявили, що просунуті системи, такі як алгоритми OpenAI, можуть доставляти расистський, шкідливий текст, коли запитують певні тригерні фрази.

Змагальні приклади також є потенційною проблемою при роботі з візуальними даними, такими як фотографії чи відео. Одним із відомих прикладів є застосування певних тонких цифрових перетворень до зображення кошеня, підказуючи класифікатору зображень інтерпретувати його як монітор або настільний ПК. В іншому прикладі дослідження, проведене професором Каліфорнійського університету в Береклі Доуном Сонгом, виявило, що змагальні приклади можна використовувати, щоб змінити те, як дорожні знаки сприймаються системами комп’ютерного зору, що потенційно може бути небезпечним для автономних транспортних засобів.

Дослідження, подібні до тих, які провела команда Гонконгу та Сінгапуру, можуть допомогти інженерам штучного інтелекту краще зрозуміти, які типи вразливостей мають алгоритми штучного інтелекту, і потенційно розробити способи захисту від цих вразливостей. Як приклад, ансамблеві класифікатори можна використовувати для зменшення ймовірності того, що змагальний приклад зможе ввести в оману систему комп’ютерного зору. У цій техніці використовується низка класифікаторів і невеликі трансформації вхідного зображення. Більшість класифікаторів зазвичай розрізняють аспекти справжнього вмісту зображення, які потім об’єднуються разом. Результатом є те, що навіть якщо кілька класифікаторів обдурять, більшість із них не обдурять, і зображення буде класифіковано належним чином.