Künstliche Intelligenz

Angriff auf Systeme zur Verarbeitung natürlicher Sprache mit kontradiktorischen Beispielen

Veröffentlicht December 14, 2021

Aktualisiert December 9, 2022

Martin Anderson

Forscher in Großbritannien und Kanada haben eine Reihe gegnerischer Black-Box-Angriffe gegen NLP-Systeme (Natural Language Processing) entwickelt, die gegen eine Vielzahl beliebter Sprachverarbeitungs-Frameworks wirksam sind, darunter weit verbreitete Systeme von Google, Facebook, IBM und Microsoft.

Der Angriff kann möglicherweise dazu genutzt werden, Übersetzungssysteme für maschinelles Lernen lahmzulegen, indem er sie dazu zwingt, entweder Unsinn zu produzieren oder tatsächlich die Art der Übersetzung zu ändern; zu Engpässen beim Training von NLP-Modellen; giftige Inhalte falsch einzustufen; Suchmaschinenergebnisse durch fehlerhafte Indizierung vergiften; dazu führen, dass Suchmaschinen bösartige oder negative Inhalte nicht erkennen, die für eine Person einwandfrei lesbar sind; und sogar Denial-of-Service (DoS)-Angriffe auf NLP-Frameworks verursachen.

Obwohl die Autoren die in der Studie genannten Schwachstellen gegenüber verschiedenen anonymen Parteien offengelegt haben, deren Produkte Gegenstand der Studie sind, sind sie der Ansicht, dass die NLP-Branche beim Schutz vor feindlichen Angriffen hinterherhinkt. In der Studie heißt es:

„Diese Angriffe nutzen Funktionen der Sprachcodierung aus, wie etwa unsichtbare Zeichen und Homoglyphen. Obwohl sie in der Vergangenheit gelegentlich bei Spam- und Phishing-Betrugsversuchen auftraten, scheinen die Entwickler der vielen NLP-Systeme, die jetzt in großem Maßstab eingesetzt werden, sie völlig ignoriert zu haben.“

Mehrere der Angriffe wurden in einer „Blackbox“-Umgebung durchgeführt – über API-Aufrufe an MLaaS-Systeme statt über lokal installierte FOSS-Versionen der NLP-Frameworks. Über die kombinierte Wirksamkeit der Systeme schreiben die Autoren:

„Alle Experimente wurden in einer Black-Box-Umgebung durchgeführt, in der unbegrenzte Modellbewertungen zulässig sind, der Zugriff auf die Gewichte oder den Status des bewerteten Modells jedoch nicht zulässig ist.“ Dies stellt eines der stärksten Bedrohungsmodelle dar, bei dem Angriffe in nahezu allen Umgebungen möglich sind, auch gegen kommerzielle Machine-Learning-as-a-Service (MLaaS)-Angebote. Jedes untersuchte Modell war anfällig für unmerkliche Störungsangriffe.

„Wir glauben, dass die Anwendbarkeit dieser Angriffe theoretisch auf jedes textbasierte NLP-Modell verallgemeinert werden sollte, ohne dass entsprechende Abwehrmaßnahmen vorhanden sind.“

Die Krepppapier ist betitelt Schlechte Charaktere: Unmerkliche NLP-Angriffe, und stammt von drei Forschern aus drei Abteilungen der University of Cambridge und der University of Edinburgh sowie einem Forscher der University of Toronto.

Der Titel des Papiers ist beispielhaft: Er ist voller „nicht wahrnehmbarer“ Unicode-Zeichen, die die Grundlage einer der vier von den Forschern angewandten Hauptangriffsmethoden bilden.

Sogar der Titel des Papiers birgt Geheimnisse.

Sogar der Titel der Zeitung birgt Geheimnisse.

Methode/n

Das Papier schlägt drei primär wirksame Angriffsmethoden vor: unsichtbare Zeichen; Homoglypheneschriebenen Art und Weise; und Nachbestellungen. Dies sind die „universellen“ Methoden, die laut den Forschern eine große Reichweite gegenüber NLP-Frameworks in Black-Box-Szenarien besitzen. Eine zusätzliche Methode, die die Verwendung eines löschen Charakter, wurde von den Forschern als nur für ungewöhnliche NLP-Pipelines geeignet, die die Zwischenablage des Betriebssystems nutzen.

1: Unsichtbare Charaktere

Bei diesem Angriff werden codierte Zeichen in einer Schriftart verwendet, die keiner Glyphe im Unicode-System zugeordnet werden können. Das Unicode-System wurde zur Standardisierung elektronischer Texte entwickelt und deckt mittlerweile 143,859 Zeichen in mehreren Sprachen und Symbolgruppen ab. Viele dieser Zuordnungen enthalten keine sichtbaren Zeichen in einer Schriftart (die natürlich nicht Zeichen für jeden möglichen Eintrag in Unicode enthalten kann).

Aus dem Papier geht ein hypothetisches Beispiel eines Angriffs mit unsichtbaren Zeichen hervor, der die Wörter in Segmente aufteilt, die entweder für ein System zur Verarbeitung natürlicher Sprache keine Bedeutung haben oder, wenn sie sorgfältig ausgearbeitet werden, etwas anderes bedeuten können als eine genaue Übersetzung. Für den Gelegenheitsleser ist der Originaltext korrekt.

Aus dem Papier geht ein hypothetisches Beispiel eines Angriffs mit unsichtbaren Zeichen hervor, der die eingegebenen Wörter in Segmente aufteilt, die entweder für ein System zur Verarbeitung natürlicher Sprache keine Bedeutung haben oder, wenn sie sorgfältig ausgearbeitet werden, eine genaue Übersetzung verhindern können. Für den Gelegenheitsleser ist der Originaltext in beiden Fällen korrekt. Quelle: https://arxiv.org/pdf/2106.09898.pdf

Normalerweise können Sie nicht einfach eines dieser Nicht-Zeichen verwenden, um ein Leerzeichen mit der Breite Null zu erstellen, da die meisten Systeme ein Platzhaltersymbol (z. B. ein Quadrat oder ein Fragezeichen in einem abgewinkelten Kästchen) rendern, um das nicht erkannte Zeichen darzustellen.

Allerdings dominieren, wie das Papier feststellt, nur eine kleine Handvoll Schriftarten die aktuelle Computerszene, und es überrascht nicht, dass sie sich tendenziell an den Unicode-Standard halten.

Daher wählten die Forscher für ihre Experimente die GNU-Unifont-Glyphen, zum Teil aufgrund ihrer „robusten Abdeckung“ von Unicode, aber auch, weil sie vielen anderen Standardschriften ähneln, die wahrscheinlich in NLP-Systeme eingespeist werden. Obwohl die von Unifont erzeugten unsichtbaren Zeichen nicht gerendert werden, werden sie von den getesteten NLP-Systemen dennoch als sichtbare Zeichen gezählt.

Anwendungen
Wenn wir auf den „gestalteten“ Titel des Dokuments selbst zurückkommen, können wir sehen, dass eine Google-Suche im ausgewählten Text nicht das erwartete Ergebnis liefert:

Dies ist ein clientseitiger Effekt, die serverseitigen Auswirkungen sind jedoch etwas gravierender. Das Papier stellt fest:

„Auch wenn ein gestörtes Dokument möglicherweise vom Crawler einer Suchmaschine gecrawlt wird, sind die zu seiner Indexierung verwendeten Begriffe von den Störungen betroffen, sodass es weniger wahrscheinlich ist, dass es bei einer Suche nach unbeeinträchtigten Begriffen auftaucht.“ Dadurch ist es möglich, Dokumente „unsichtbar“ vor Suchmaschinen zu verbergen.

„Ein unehrliches Unternehmen könnte beispielsweise negative Informationen in seinen Finanzunterlagen verbergen, sodass sie von den spezialisierten Suchmaschinen der Börsenanalysten nicht erkannt werden.“

Die einzigen Szenarien, in denen sich der Angriff mit „unsichtbaren Zeichen“ als weniger effektiv erwies, betrafen toxische Inhalte, Named Entity Recognition (NER) und Sentimentanalysemodelle. Die Autoren vermuten, dass dies entweder daran liegt, dass die Modelle mit Daten trainiert wurden, die auch unsichtbare Zeichen enthielten, oder dass der Tokenizer des Modells (der die Rohsprache in modulare Komponenten zerlegt) bereits so konfiguriert war, dass er diese ignorierte.

2: Homoglyphen

Eine Homoglyphe ist ein Zeichen, das wie ein anderes Zeichen aussieht – eine semantische Schwäche, die im Jahr 2000 ausgenutzt wurde, um ein zu erstellen Betrugsreplik der PayPal-Zahlungsabwicklungsdomäne.

In diesem hypothetischen Beispiel aus der Arbeit verändert ein Homoglyphenangriff die Bedeutung einer Übersetzung, indem er gängige lateinische Zeichen durch optisch nicht unterscheidbare Homoglyphen (rot umrandet) ersetzt.

Der Kommentar des Autors*:

„Wir haben herausgefunden, dass maschinelles Lernen diesen Prozess modelliert Vom Benutzer bereitgestellter Text, beispielsweise neuronale maschinelle Übersetzungssysteme, ist für diese Art von Angriff besonders anfällig. Denken Sie zum Beispiel an den marktführenden Service Google Translate. Zum Zeitpunkt des Schreibens war die Eingabe der Zeichenfolge „paypal“ im Englischen nach russischem Modell korrekt ausgegeben „PayPall“, aber ersetzend das lateinische Zeichen a in der Eingabe mit dem kyrillischen Zeichen а gibt fälschlicherweise „папа“ („Vater“ auf Englisch) aus.‘

Die Forscher beobachten, dass viele NLP-Pipelines zwar Zeichen, die außerhalb ihres sprachspezifischen Wörterbuchs liegen, durch ein ersetzen ('unbekannt') Token, können die Softwareprozesse, die den vergifteten Text in die Pipeline rufen, unbekannte Wörter zur Auswertung weitergeben, bevor diese Sicherheitsmaßnahme greifen kann. Die Autoren geben an, dass dies „öffnet eine überraschend große Angriffsfläche“.

3: Nachbestellungen

Unicode ermöglicht Sprachen, die von links nach rechts geschrieben werden, wobei die Reihenfolge durch die bidirektionale Unicode-Funktion (BIDI) Algorithmus. Das Mischen von Rechts-nach-Links- und Links-nach-Rechts-Zeichen in einer einzigen Zeichenfolge ist daher verwirrend, und Unicode hat dies berücksichtigt, indem es erlaubt, dass BIDI durch spezielle Steuerzeichen überschrieben wird. Diese ermöglichen ein nahezu beliebiges Rendering für eine feste Kodierungsreihenfolge.

In einem anderen theoretischen Beispiel aus der Arbeit wird ein Übersetzungsmechanismus dazu veranlasst, alle Buchstaben des übersetzten Textes in die falsche Reihenfolge zu bringen, weil er aufgrund eines Teils der falschen Rechts-nach-Links-/Links-nach-Rechts-Codierung folgt des gegnerischen Quelltextes (eingekreist), der ihn dazu auffordert.

Die Autoren geben an, dass die Methode zum Zeitpunkt der Erstellung des Dokuments gegen die Unicode-Implementierung im Chromium-Webbrowser, der Upstream-Quelle für den Chrome-Browser von Google, den Edge-Browser von Microsoft und eine ganze Reihe anderer Forks wirksam war.

Außerdem: Streichungen

Damit die nachfolgenden Ergebnisgrafiken übersichtlicher werden, sind hier die enthaltenen Diagramme enthalten Löschungen Bei diesem Angriff wird ein Zeichen eingefügt, das eine Rücktaste oder einen anderen textbeeinflussenden Steuer-/Befehl darstellt, der vom Sprachlesesystem in einem Stil ähnlich einem Textmakro implementiert wird.

Die Autoren stellen fest:

„Eine kleine Anzahl von Steuerzeichen in Unicode kann dazu führen benachbarter Text, der entfernt werden soll. Die einfachsten Beispiele sind die Rückschritt- (BS) und Löschzeichen (DEL). Es gibt auch den Wagenrücklauf (CR), der bewirkt, dass der Textwiedergabealgorithmus zum Zeilenanfang zurückkehrt und deren Inhalt überschreibt.

'Für Beispiel: codierter Text, der „Hallo CRAuf Wiedersehen World“ wird als „Goodbye“ wiedergegeben Welt".'

Wie bereits erwähnt, erfordert dieser Angriff tatsächlich ein unwahrscheinliches Maß an Zugriff, um zu funktionieren, und wäre nur dann vollständig wirksam, wenn Text systematisch oder nicht systematisch über eine Zwischenablage kopiert und eingefügt würde – eine ungewöhnliche NLP-Ingestion-Pipeline.

Die Forscher haben es trotzdem getestet und seine Leistung ist mit seinen Stallkameraden vergleichbar. Angriffe mit den ersten drei Methoden können jedoch einfach durch das Hochladen von Dokumenten oder Webseiten durchgeführt werden (im Falle eines Angriffs gegen Suchmaschinen und/oder Web-Scraping-NLP-Pipelines).

Bei einem Löschangriff löschen die manipulierten Zeichen effektiv das, was ihnen vorausgeht, oder erzwingen einzeiligen Text in einen zweiten Absatz, in beiden Fällen, ohne dass dies für den Gelegenheitsleser offensichtlich wird.

Wirksamkeit gegenüber aktuellen NLP-Systemen

Die Forscher führten eine Reihe ungezielter und gezielter Angriffe auf fünf beliebte Closed-Source-Modelle von Facebook, IBM, Microsoft, Google und HuggingFace sowie drei Open-Source-Modelle durch.

Sie haben auch getestet „Schwamm“-Angriffe gegen die Modelle. Ein Sponge-Angriff ist praktisch ein DoS-Angriff auf NLP-Systeme, bei dem der Eingabetext „nicht berechnet“ wird und das Training dadurch erheblich verlangsamt wird – ein Prozess, der normalerweise durch die Vorverarbeitung der Daten unmöglich gemacht werden sollte.

Die fünf bewerteten NLP-Aufgaben waren maschinelle Übersetzung, Erkennung toxischer Inhalte, Klassifizierung textueller Entailments, Erkennung benannter Entitäten und Stimmungsanalyse.

Die Tests wurden auf einer nicht näher bezeichneten Anzahl von Tesla P100-GPUs durchgeführt, auf denen jeweils eine Intel Xeon Silver 4110-CPU über Ubuntu läuft. Um bei API-Aufrufen nicht gegen die Nutzungsbedingungen zu verstoßen, wurden die Experimente einheitlich mit einem Störungsbudget von null (unbetroffener Quelltext) bis fünf (maximale Störung) wiederholt. Die Forscher behaupten, dass die erzielten Ergebnisse übertroffen werden könnten, wenn eine größere Anzahl von Iterationen zugelassen würde.

Ergebnisse aus der Anwendung kontradiktorischer Beispiele gegen das Fairseq EN-FR-Modell von Facebook.

Ergebnisse aus der Anwendung kontroverser Beispiele gegen Facebooks Fairseq EN-FR-Modell.

Ergebnisse von Angriffen auf den Toxic Content Classifier von IBM und die Perspective API von Google.

Ergebnisse der Angriffe auf IBM Klassifikator für giftige Inhalte und Google Perspektive-API.

Zwei Angriffe gegen Facebooks Fairseq: „Untargeted“ zielt darauf ab, zu stören, während „Targeted“ darauf abzielt, die Bedeutung der übersetzten Sprache zu ändern.

Zwei Angriffe gegen Facebooks Fairseq: „Untargeted“ zielt auf Störung ab, während „targeted“ darauf abzielt, die Bedeutung der übersetzten Sprache zu ändern.

Die Forscher testeten ihr System außerdem mit früheren Frameworks, die nicht in der Lage waren, auf dieselbe Weise „menschenlesbaren“ Störtext zu generieren. Dabei stellten sie fest, dass das System diesen weitgehend ebenbürtig und oft sogar deutlich überlegen war, während es gleichzeitig den großen Vorteil der Tarnung beibehielt.

Die durchschnittliche Wirksamkeit aller Methoden, Angriffsvektoren und Ziele liegt bei etwa 80 %, wobei nur sehr wenige Iterationen durchgeführt werden.

Zu den Ergebnissen sagen die Forscher:

„Der vielleicht beunruhigendste Aspekt unserer unmerklichen Störungsangriffe ist ihre breite Anwendbarkeit: Alle von uns getesteten textbasierten NLP-Systeme sind anfällig.“ Tatsächlich ist jedes maschinelle Lernmodell, das vom Benutzer bereitgestellten Text als Eingabe aufnimmt, theoretisch anfällig für diesen Angriff.

„Die kontroversen Auswirkungen können von Anwendung zu Anwendung und von Modell zu Modell unterschiedlich sein, aber alle textbasierten Modelle basieren auf codiertem Text, und jeder Text unterliegt kontroverser Codierung, sofern die Codierung nicht entsprechend eingeschränkt ist.“

Universelle optische Zeichenerkennung?

Diese Angriffe basieren auf „Schwachstellen“ in Unicode und könnten durch eine NLP-Pipeline verhindert werden, die alle eingehenden Texte rastert und optische Zeichenerkennung (OCR) als Bereinigungsmaßnahme nutzt. In diesem Fall würde dieselbe nicht-bösartige semantische Bedeutung, die für die Leser dieser Angriffe sichtbar ist, an das NLP-System weitergegeben.

Als die Forscher jedoch eine OCR-Pipeline implementierten, um diese Theorie zu testen, stellten sie fest, dass die BLEU (Zweisprachiges Bewertungs-Zweitstudium) sanken die Basisgenauigkeit um 6.2 % und lassen vermuten, dass verbesserte OCR-Technologien wahrscheinlich erforderlich wären, um dieses Problem zu beheben.

Sie schlagen außerdem vor, BIDI-Steuerzeichen standardmäßig aus der Eingabe zu entfernen, ungewöhnliche Homoglyphen zuzuordnen und zu indizieren (was sie als „eine gewaltige Aufgabe“ bezeichnen) und Tokenisierer und andere Aufnahmemechanismen gegen unsichtbare Zeichen zu wappnen.

Abschließend fordert die Forschungsgruppe den NLP-Sektor dringend auf, sich der Möglichkeiten gegnerischer Angriffe bewusster zu werden, einem Bereich, der derzeit in der Computer-Vision-Forschung von großem Interesse ist.

„[Wir] empfehlen allen Unternehmen, die textbasierte NLP-Systeme entwickeln und einsetzen, solche Abwehrmaßnahmen zu implementieren, wenn sie möchten, dass ihre Anwendungen robust gegenüber böswilligen Akteuren sind.“

* Meine Umwandlung von Inline-Zitaten in Hyperlinks

18:08 14. Dezember 2021 – Doppelte Erwähnung von IBM entfernt, automatischer interner Link aus Zitat verschoben – MA