Stummel TextFooler-Algorithmus täuscht NLP-KI – Unite.AI
Vernetzen Sie sich mit uns

Künstliche Intelligenz

TextFooler-Algorithmus täuscht NLP-KI

mm
Aktualisiert on

So beeindruckend Algorithmen und Systeme zur Verarbeitung natürlicher Sprache in den letzten Jahren auch geworden sind, sie sind immer noch anfällig für eine Art Exploit, das als „adversarial example“ bekannt ist. Kontroverse Beispiele für sorgfältig konstruierte Phrasen, die dazu führen können, dass sich ein NLP-System auf unerwartete und unerwünschte Weise verhält. KI-Programme können dazu gebracht werden, sich bei diesen seltsamen Beispielen schlecht zu verhalten, und daher versuchen KI-Forscher, Möglichkeiten zu entwickeln, um sich vor den Auswirkungen gegnerischer Beispiele zu schützen.

Kürzlich hat ein Forscherteam der Universität Hongkong und der Agentur für Wissenschaft, Technologie und Forschung in Singapur zusammengearbeitet, um einen Algorithmus zu entwickeln, der die Gefahr kontroverser Beispiele aufzeigt. Wie Wired berichtete, der Algorithmus wurde synchronisiert TextFooler vom Forschungsteam entwickelt und funktioniert durch subtile Änderung von Teilen eines Satzes, was sich darauf auswirkt, wie ein NLP-Klassifikator den Satz interpretieren könnte. Beispielsweise wandelte der Algorithmus einen Satz in einen anderen ähnlichen Satz um und der Satz wurde in einen Klassifikator eingespeist, der bestimmen soll, ob eine Bewertung negativ oder positiv war. Der ursprüngliche Satz war:

„Die Charaktere, unmöglich eingegossen gekünstelt Situationen sind total entfremdet von der Realität. "

Es wurde in diesen Satz umgewandelt:

„Die Charaktere, unmöglich eingegossen entwickelt Umstände sind voll entfremdet von der Realität. "

Diese subtilen Änderungen veranlassten den Textklassifizierer, die Rezension als positiv statt negativ zu klassifizieren. Das Forschungsteam testete denselben Ansatz (Austausch bestimmter Wörter durch Synonyme) an mehreren unterschiedlichen Datensätzen und Textklassifizierungsalgorithmen. Das Forschungsteam berichtet, dass es die Klassifizierungsgenauigkeit eines Algorithmus von 10 % auf nur 90 % senken konnte. Dies trotz der Tatsache, dass Menschen, die diese Sätze lesen, sie so interpretieren würden, dass sie dieselbe Bedeutung haben.

Diese Ergebnisse sind besorgniserregend in einer Zeit, in der NLP-Algorithmen und KI immer häufiger und für wichtige Aufgaben wie die Beurteilung medizinischer Ansprüche oder die Analyse juristischer Dokumente eingesetzt werden. Es ist nicht bekannt, wie groß die Gefahr für derzeit verwendete Algorithmen durch gegnerische Beispiele ist. Forschungsteams auf der ganzen Welt versuchen immer noch herauszufinden, welchen Einfluss sie haben können. Kürzlich deutete ein von der Stanford Human-Centered AI Group veröffentlichter Bericht darauf hin, dass kontroverse Beispiele KI-Algorithmen täuschen und zur Begehung von Steuerbetrug genutzt werden könnten.

Die aktuelle Studie weist einige Einschränkungen auf. Sameer Singh, Assistenzprofessor für Informatik an der UC Irvine, stellt beispielsweise fest, dass die verwendete kontradiktorische Methode effektiv war, sie jedoch auf einem gewissen Wissen über die Architektur der KI beruht. Die KI muss wiederholt untersucht werden, bis eine wirksame Wortgruppe gefunden werden kann, und solche wiederholten Angriffe könnten von Sicherheitsprogrammen bemerkt werden. Singh und Kollegen haben eigene Untersuchungen zu diesem Thema durchgeführt und herausgefunden, dass fortschrittliche Systeme wie OpenAI-Algorithmen rassistische, schädliche Texte liefern können, wenn sie mit bestimmten Auslösephrasen dazu aufgefordert werden.

Kontroverse Beispiele sind auch ein potenzielles Problem beim Umgang mit visuellen Daten wie Fotos oder Videos. Ein berühmtes Beispiel ist die Anwendung bestimmter subtiler digitaler Transformationen auf das Bild eines Kätzchens, die den Bildklassifikator auslösen um es als Monitor oder Desktop-PC zu interpretieren. In einem anderen Beispiel ergab eine von UC Berekely-Professorin Dawn Song durchgeführte Untersuchung, dass kontroverse Beispiele verwendet werden können, um die Wahrnehmung von Verkehrszeichen durch Computer-Vision-Systeme zu verändern, was für autonome Fahrzeuge möglicherweise gefährlich sein könnte.

Untersuchungen wie die des Hongkong-Singapur-Teams könnten KI-Ingenieuren dabei helfen, besser zu verstehen, welche Arten von Schwachstellen KI-Algorithmen aufweisen, und möglicherweise Möglichkeiten zum Schutz vor diesen Schwachstellen zu entwickeln. Beispielsweise können Ensemble-Klassifikatoren verwendet werden, um die Wahrscheinlichkeit zu verringern, dass ein gegnerisches Beispiel das Computer-Vision-System täuschen kann. Bei dieser Technik werden eine Reihe von Klassifikatoren verwendet und geringfügige Transformationen am Eingabebild vorgenommen. Die meisten Klassifikatoren erkennen typischerweise Aspekte des wahren Bildinhalts, die dann zusammengefasst werden. Das Ergebnis ist, dass, selbst wenn einige der Klassifikatoren getäuscht werden, die meisten nicht getäuscht werden und das Bild ordnungsgemäß klassifiziert wird.