Connect with us

Inteligencia artificial

La lucha para evitar que la IA haga trampa en las pruebas

mm

Los nuevos hallazgos de investigación de una universidad china ofrecen una visión sobre por qué los modelos de procesamiento de lenguaje natural generativo, como GPT-3, tienden a ‘hacer trampa’ cuando se les hace una pregunta difícil, produciendo respuestas que pueden ser técnicamente correctas, pero sin una comprensión real de por qué la respuesta es correcta; y por qué demuestran poca o ninguna capacidad para explicar la lógica detrás de sus respuestas ‘fáciles’. Los investigadores también proponen algunos nuevos métodos para hacer que los sistemas ‘estudien más duro’ durante la fase de entrenamiento.

El problema es doble: primero, diseñamos sistemas que intentan lograr resultados rápidamente y con un uso óptimo de recursos. Incluso donde, como con GPT-3, los recursos pueden ser considerablemente mayores que los que un proyecto de investigación de PLN promedio puede reunir, esta cultura de optimización orientada a resultados todavía prevalece en la metodología, porque ha llegado a dominar la convención académica.

En consecuencia, nuestras arquitecturas de entrenamiento recompensan a los modelos que convergen rápidamente y producen respuestas aparentemente apropiadas a las preguntas, incluso si el modelo de PLN no puede justificar su respuesta posteriormente, o demostrar cómo llegó a sus conclusiones.

Una disposición temprana a hacer trampa

Esto ocurre porque el modelo aprende ‘respuestas de atajo’ mucho antes en el entrenamiento de lo que aprende tipos de adquisición de conocimiento más complicados. Dado que la precisión aumentada a menudo se recompensa de manera bastante indiscriminada en todo el entrenamiento, el modelo luego prioriza cualquier enfoque que le permita responder a una pregunta ‘con facilidad’, y sin una visión real.

Dado que el aprendizaje de atajos inevitablemente representará los primeros éxitos durante el entrenamiento, la sesión naturalmente tenderá a alejarse de la tarea más difícil de ganar una perspectiva epistemológica útil y más completa, que puede contener capas más profundas y más reveladoras de atribución y lógica.

Alimentar a la IA con respuestas ‘fáciles’

El segundo problema es que, aunque las iniciativas de investigación recientes han estudiado la tendencia de la IA a ‘hacer trampa’ de esta manera, y han identificado el fenómeno de los ‘atajos’, no ha habido hasta ahora ningún esfuerzo por clasificar el material ‘habilitador de atajos’ en un conjunto de datos contribuyente, lo que sería el paso lógico primero para abordar lo que puede ser un defecto arquitectónico fundamental en los sistemas de comprensión de lectura de máquina (MRC).

El nuevo documento, una colaboración entre el Instituto Wangxuan de Tecnología Informática y el Laboratorio Clave MOE de Lingüística Computacional de la Universidad de Pekín, prueba varios modelos de lenguaje contra un conjunto de datos recién anotado que incluye clasificaciones para soluciones ‘fáciles’ y ‘difíciles’ a una pregunta posible.

Fuente: https://arxiv.org/pdf/2106.01024.pdf

Fuente: https://arxiv.org/pdf/2106.01024.pdf

El conjunto de datos utiliza la paráfrasis como criterio para las respuestas más complicadas y profundas, ya que se requiere una comprensión semántica para reformular el conocimiento obtenido. Por el contrario, las respuestas ‘de atajo’ pueden utilizar tokens como fechas y otras palabras clave encapsuladoras para producir una respuesta que es factualmente precisa, pero sin contexto ni razonamiento.

El componente de atajo de las anotaciones presenta la coincidencia de palabras de pregunta (QWM) y la coincidencia simple (SpM). Para QWM, el modelo utiliza entidades extraídas de los datos de texto suministrados y descarta el contexto; para SpM, el modelo identifica la superposición entre las oraciones de respuesta y las preguntas, ambas suministradas en los datos de entrenamiento.

Datos de atajo casi ‘virales’ en influencia en un conjunto de datos

Los investigadores sostienen que los conjuntos de datos tienden a contener una gran proporción de preguntas de atajo, lo que hace que los modelos entrenados confíen en trucos de atajo.

Los dos modelos utilizados en los experimentos fueron BiDAF y Google’s BERT-base. Los investigadores observan que, incluso cuando se entrenan en variaciones del conjunto de datos con una mayor proporción de preguntas ‘difíciles’, ambos modelos todavía funcionan mejor en preguntas de atajo que en preguntas paráfraseadas más difíciles, a pesar del pequeño número de ejemplos en los conjuntos de datos.

Esto presenta los ‘datos de atajo’ casi en el contexto de un virus – que no necesita haber mucho de él presente en un conjunto de datos para que se adopte y priorice en el entrenamiento, bajo estándares y prácticas convencionales en PLN.

Probar el fraude

Un método que utiliza la investigación para probar la fragilidad de una respuesta de atajo es sustituir una palabra de entidad ‘fácil’ por una palabra anómala. Donde se ha utilizado un método de atajo, la lógica de la respuesta ‘fraudulenta’ no se puede proporcionar; pero donde la respuesta se proporcionó a partir de un contexto más profundo y una evaluación semántica de una gama más amplia de texto contribuyente, es posible para el sistema descomponer el error y reconstruir una respuesta correcta.

Sustituir 'Beyoncé' (una persona) por 'América' (un lugar), revela si el modelo tiene alguna lógica de fondo para su respuesta.

Sustituir ‘Beyoncé’ (una persona) por ‘América’ (un lugar), revela si el modelo tiene alguna lógica de fondo para su respuesta.

Atajos debido a una imperativa económica

En cuanto a algunas de las razones arquitectónicas por las que los atajos son tan priorizados en los flujos de trabajo de entrenamiento de PLN, los autores comentan ‘Los modelos de MRC pueden aprender los trucos de atajo, como QWM, con menos recursos computacionales que los desafíos de comprensión, como identificar paráfrasis’.

Esto, entonces, podría ser un resultado no intencionado de las filosofías de optimización y conservación de recursos estándar en los enfoques de comprensión de lectura de máquina, y la presión para obtener resultados con recursos limitados en plazos ajustados.

Los investigadores también señalan:

‘[Dado que] el truco de atajo se puede utilizar para responder correctamente a la mayoría de las preguntas de entrenamiento, las preguntas no resueltas limitadas que quedan pueden no motivar a los modelos a explorar soluciones sofisticadas que requieren habilidades desafiantes.’

Si los resultados del documento se confirman posteriormente, parecería que el vasto y cada vez más grande campo del preprocesamiento de datos puede necesitar considerar ‘ayudas ocultas’ en los datos como un problema a abordar a largo plazo, o revisar las arquitecturas de PLN para priorizar rutinas más desafiantes para la ingesta de datos.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.