Contáctenos

La lucha para evitar que la IA haga trampa en los exámenes

Inteligencia Artificial

La lucha para evitar que la IA haga trampa en los exámenes

mm

Los nuevos hallazgos de una investigación de una universidad china ofrecen una idea de por qué los modelos de procesamiento generativo del lenguaje natural como GPT-3 tienden a "hacer trampa" cuando se les hace una pregunta difícil, produciendo respuestas que pueden ser técnicamente correctas, pero sin ninguna comprensión real de por qué La respuesta es correcta; y por qué demuestran poca o ninguna capacidad para explicar la lógica de sus respuestas "fáciles". Los investigadores también proponen nuevos métodos para que los sistemas "estudien con más intensidad" durante la fase de entrenamiento.

El problema es doble: por un lado, diseñamos sistemas que intentan conseguir resultados de forma rápida y con un uso óptimo de los recursos. Incluso donde, como con GPT-3, los recursos pueden ser considerablemente mayores de lo que el proyecto de investigación de PNL promedio puede reunir, esta cultura de optimización basada en resultados todavía impregna la metodología, porque ha llegado a dominar la convención académica.

En consecuencia, nuestras arquitecturas de entrenamiento recompensan los modelos que convergen rápidamente y producen respuestas aparentemente adecuadas a las preguntas, incluso si el modelo de PNL no puede justificar su respuesta o demostrar cómo llegó a sus conclusiones.

Una disposición temprana a hacer trampa

Esto se debe a que el modelo aprende respuestas rápidas mucho antes en el entrenamiento que tipos más complejos de adquisición de conocimiento. Dado que una mayor precisión suele recompensarse de forma bastante indiscriminada durante el entrenamiento, el modelo prioriza cualquier enfoque que le permita responder una pregunta con soltura y sin una comprensión profunda.

Dado que el aprendizaje abreviado inevitablemente representará la first éxitos durante el entrenamiento, la sesión tenderá naturalmente a alejarse de la tarea más difícil de obtener una perspectiva epistemológica útil y más completa, que puede contener capas más profundas y perspicaces de atribución y lógica.

Alimentando a la IA: Las respuestas "fáciles"

El segundo problema es que, aunque las iniciativas de investigación recientes han estudiado La tendencia de la IA a "hacer trampa" de esta manera, y se ha identificado el fenómeno de los "atajos", hasta ahora no ha habido ningún esfuerzo para clasificar el material que permite "atajos" en un conjunto de datos contribuyente, lo que sería el primer paso lógico para abordar lo que puede resultar ser una falla arquitectónica fundamental en los sistemas de comprensión de lectura de máquinas (MRC).

El nuevo edificio corporativo de , una colaboración entre el Instituto Wangxuan de Tecnología Informática y el Laboratorio Clave de Lingüística Computacional del MOE en la Universidad de Pekín, prueba varios modelos de lenguaje contra un conjunto de datos recién anotado que incluye clasificaciones para soluciones 'fáciles' y 'difíciles' a una posible pregunta.

Fuente: https://arxiv.org/pdf/2106.01024.pdf

Fuente: https://arxiv.org/pdf/2106.01024.pdf

El conjunto de datos utiliza la paráfrasis como criterio para las respuestas más complejas y profundas, ya que la comprensión semántica es necesaria para reformular el conocimiento adquirido. Por el contrario, las respuestas rápidas pueden usar elementos como fechas y otras palabras clave para generar una respuesta objetivamente precisa, pero sin contexto ni razonamiento.

El componente de acceso directo de las anotaciones presenta coincidencia de palabras interrogativas (QWM) y coincidencia simple (SpM). Para QWM, el modelo utiliza entidades extraídas de los datos de texto suministrados y desecha el contexto; para SpM, el modelo identifica la superposición entre las oraciones de respuesta y las preguntas, las cuales se proporcionan en los datos de entrenamiento.

Los datos de acceso directo tienen una influencia casi viral en un conjunto de datos

Los investigadores sostienen que los conjuntos de datos tienden a contener una alta proporción de preguntas abreviadas, lo que hace que los modelos entrenados se basen en trucos abreviados.

Los dos modelos utilizados en los experimentos fueron BiDAF y de Google BERTILos investigadores observan que, incluso entrenados con variaciones del conjunto de datos con una mayor proporción de preguntas difíciles, ambos modelos siguen teniendo un mejor rendimiento en preguntas abreviadas que en preguntas parafraseadas más complejas, a pesar del reducido número de ejemplos en los conjuntos de datos.

Esto presenta "datos de atajo" casi en el contexto de un virus: es necesario que haya muy poca cantidad de ellos presentes en un conjunto de datos para que se los adopte y priorice en el entrenamiento, según los estándares y prácticas convencionales en PNL.

Demostrando el truco

Un método que la investigación utiliza para demostrar la fragilidad de una respuesta rápida consiste en sustituir una palabra anómala por una palabra de entidad "fácil". Cuando se ha utilizado un método rápido, no se puede proporcionar la lógica de la respuesta "tramposa"; sin embargo, cuando la respuesta se obtuvo a partir de un contexto más profundo y una evaluación semántica de un conjunto más amplio de textos contribuyentes, el sistema puede deconstruir el error y reconstruir una respuesta correcta.

Sustituir 'Beyoncé' (una persona) por 'América' (una ubicación), revela si el modelo tiene alguna lógica de fondo para su respuesta.

Sustituir 'Beyoncé' (una persona) por 'América' (un lugar) revela si el modelo tiene alguna lógica de fondo para su respuesta.

Atajos debido a un imperativo económico

Con respecto a algunas de las razones arquitectónicas por las que los atajos son tan prioritarios en los flujos de trabajo de entrenamiento de PNL, los autores comentan 'Los modelos MRC pueden aprender los trucos de atajo, como QWM, con menos recursos computacionales que los desafíos de comprensión, como identificar paráfrasis'.

Esto, entonces, podría ser un resultado no deseado de la optimización estándar y las filosofías de conservación de recursos en los enfoques de comprensión de lectura automática, y la presión para obtener resultados con recursos limitados en plazos ajustados.

Los investigadores también señalan:

'[Dado que] el truco del atajo puede usarse para responder correctamente la mayoría de las preguntas de entrenamiento, las preguntas limitadas sin resolver que quedan pueden no motivar a los modelos a explorar soluciones sofisticadas que requieren habilidades desafiantes.'

Si los resultados del artículo se confirman posteriormente, parecería que el vasto y cada vez mayor campo del preprocesamiento de datos podría necesitar considerar las "cunas ocultas" en los datos como un problema que debe abordarse a largo plazo, o bien revisar las arquitecturas de PNL para priorizar rutinas más desafiantes para la ingesta de datos.

 

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai