talón El algoritmo TextFooler engaña a la IA de la PNL - Unite.AI
Contáctanos

Inteligencia artificial

El algoritmo TextFooler engaña a la IA de PNL

mm
Actualizado on

Por muy impresionantes que se hayan vuelto los sistemas y algoritmos de procesamiento del lenguaje natural en los últimos años, todavía son vulnerables a un tipo de exploit conocido como “ejemplo adversario”. Ejemplos contradictorios de frases cuidadosamente diseñadas que pueden hacer que un sistema de PNL se comporte de maneras inesperadas e indeseables. Se puede hacer que los programas de IA se comporten mal con estos extraños ejemplos y, como resultado, los investigadores de IA están tratando de diseñar formas de protegerse contra los efectos de ejemplos contradictorios.

Recientemente, un equipo de investigadores de la Universidad de Hong Kong y la Agencia de Ciencia, Tecnología e Investigación de Singapur colaboraron para crear un algoritmo que demuestra el peligro de los ejemplos contradictorios. Como informó Wired, el algoritmo fue apodado TextoFooler por el equipo de investigación y funciona cambiando sutilmente partes de una oración, lo que afecta la forma en que un clasificador de PNL podría interpretar la oración. Como ejemplo, el algoritmo convirtió una oración en otra oración similar y la oración se introdujo en un clasificador diseñado para determinar si una reseña era negativa o positiva. La frase original era:

"Los personajes, interpretados de manera increíble artificial situaciones, son totalmente alejado de la realidad ".

Se convirtió en esta frase:

"Los personajes, interpretados de manera increíble ingeniería circunstancias, son completamente alejado de la realidad ".

Estos cambios sutiles llevaron al clasificador de texto a clasificar la reseña como positiva en lugar de negativa. El equipo de investigación probó el mismo enfoque (intercambiar ciertas palabras con sinónimos) en varios conjuntos de datos y algoritmos de clasificación de texto diferentes. El equipo de investigación informa que pudieron reducir la precisión de clasificación de un algoritmo a solo un 10%, frente al 90%. Esto es a pesar del hecho de que las personas que leen estas oraciones las interpretarían con el mismo significado.

Estos resultados son preocupantes en una era en la que los algoritmos de PNL y la IA se utilizan cada vez con más frecuencia y para tareas importantes como evaluar reclamaciones médicas o analizar documentos legales. Se desconoce el peligro que representan los ejemplos contradictorios de los algoritmos actualmente utilizados. Los equipos de investigación de todo el mundo todavía están tratando de determinar cuánto impacto pueden tener. Recientemente, un informe publicado por el grupo de IA centrado en el ser humano de Stanford sugirió que los ejemplos contradictorios podrían engañar a los algoritmos de IA y usarse para cometer fraude fiscal.

Hay algunas limitaciones en el estudio reciente. Por ejemplo, aunque Sameer Singh, profesor asistente de ciencias de la computación en UC Irvine, señala que el método contradictorio utilizado fue efectivo, se basa en cierto conocimiento de la arquitectura de la IA. La IA debe probarse repetidamente hasta que se pueda encontrar un grupo efectivo de palabras, y los programas de seguridad pueden detectar tales ataques repetidos. Singh y sus colegas realizaron su propia investigación sobre el tema y descubrieron que los sistemas avanzados como los algoritmos de OpenAI pueden generar texto racista y dañino cuando se les solicitan ciertas frases desencadenantes.

Los ejemplos adversarios también son un problema potencial cuando se trata de datos visuales como fotos o videos. Un ejemplo famoso consiste en aplicar ciertas transformaciones digitales sutiles a la imagen de un gatito, lo que provoca que el clasificador de imágenes para interpretarlo como un monitor o PC de escritorio. En otro ejemplo, una investigación realizada por Dawn Song, profesora de UC Berekely, descubrió que se pueden utilizar ejemplos contradictorios para cambiar la forma en que los sistemas de visión por computadora perciben las señales de tráfico, lo que podría ser potencialmente peligroso para los vehículos autónomos.

Una investigación como la realizada por el equipo de Hong Kong-Singapur podría ayudar a los ingenieros de IA a comprender mejor qué tipos de vulnerabilidades tienen los algoritmos de IA y, potencialmente, a diseñar formas de protegerse contra estas vulnerabilidades. Como ejemplo, los clasificadores de conjunto se pueden usar para reducir la posibilidad de que un ejemplo contradictorio pueda engañar al sistema de visión por computadora. Con esta técnica, se utilizan varios clasificadores y se realizan ligeras transformaciones en la imagen de entrada. La mayoría de los clasificadores normalmente discernirán aspectos del verdadero contenido de la imagen, que luego se agregan. El resultado es que incluso si algunos de los clasificadores son engañados, la mayoría no lo será y la imagen se clasificará correctamente.