talón La lucha para evitar que la IA haga trampa en los exámenes - Unite.AI
Contáctanos

Inteligencia artificial

La lucha para evitar que la IA haga trampa en los exámenes

mm
Actualizado on

Nuevos hallazgos de una investigación de una universidad china ofrecen una idea de por qué los modelos generativos de procesamiento del lenguaje natural, como GPT-3, tienden a "hacer trampa" cuando se les formula una pregunta difícil, produciendo respuestas que pueden ser técnicamente correctas, pero sin una comprensión real de porque la respuesta es correcta; y por qué demuestran poca o ninguna habilidad para explicar la lógica detrás de sus respuestas 'fáciles'. Los investigadores también proponen algunos métodos nuevos para hacer que los sistemas "estudien más" durante la fase de entrenamiento.

El problema es doble: por un lado, diseñamos sistemas que intentan conseguir resultados de forma rápida y con un uso óptimo de los recursos. Incluso donde, como con GPT-3, los recursos pueden ser considerablemente mayores de lo que el proyecto de investigación de PNL promedio puede reunir, esta cultura de optimización basada en resultados todavía impregna la metodología, porque ha llegado a dominar la convención académica.

En consecuencia, nuestras arquitecturas de entrenamiento recompensan los modelos que convergen rápidamente y producen respuestas aparentemente adecuadas a las preguntas, incluso si el modelo de PNL no puede justificar su respuesta o demostrar cómo llegó a sus conclusiones.

Una disposición temprana a hacer trampa

Esto ocurre porque el modelo aprende 'respuestas abreviadas' mucho antes en el entrenamiento de lo que aprende tipos más complicados de adquisición de conocimiento. Dado que una mayor precisión a menudo se recompensa de manera bastante indiscriminada a lo largo del entrenamiento, el modelo prioriza cualquier enfoque que le permita responder una pregunta "con soltura" y sin una visión real.

Dado que el aprendizaje abreviado inevitablemente representará la la primera éxitos durante el entrenamiento, la sesión tenderá naturalmente a alejarse de la tarea más difícil de obtener una perspectiva epistemológica útil y más completa, que puede contener capas más profundas y perspicaces de atribución y lógica.

Alimentar a la IA Las respuestas 'fáciles'

El segundo problema es que, aunque las iniciativas de investigación recientes han estudiado Debido a la tendencia de AI a 'hacer trampa' de esta manera, y han identificado el fenómeno de los 'atajos', hasta ahora no ha habido ningún esfuerzo por clasificar el material habilitador de 'atajos' en un conjunto de datos contribuyentes, que sería el primer paso lógico para abordar lo que puede resultar ser una falla arquitectónica fundamental en los sistemas de comprensión de lectura automática (MRC).

El nuevo , una colaboración entre el Instituto Wangxuan de Tecnología Informática y el Laboratorio Clave de Lingüística Computacional del MOE en la Universidad de Pekín, prueba varios modelos de lenguaje contra un conjunto de datos recién anotado que incluye clasificaciones para soluciones 'fáciles' y 'difíciles' a una posible pregunta.

Fuente: https://arxiv.org/pdf/2106.01024.pdf

Fuente: https://arxiv.org/pdf/2106.01024.pdf

El conjunto de datos utiliza la paráfrasis como criterio para las respuestas más complicadas y profundas, ya que es necesaria una comprensión semántica para reformular el conocimiento obtenido. Por el contrario, las respuestas de 'atajo' pueden usar tokens como fechas y otras palabras clave de encapsulamiento para producir una respuesta que sea objetivamente precisa, pero sin ningún contexto o razonamiento.

El componente de acceso directo de las anotaciones presenta coincidencia de palabras interrogativas (QWM) y coincidencia simple (SpM). Para QWM, el modelo utiliza entidades extraídas de los datos de texto suministrados y desecha el contexto; para SpM, el modelo identifica la superposición entre las oraciones de respuesta y las preguntas, las cuales se proporcionan en los datos de entrenamiento.

Datos de acceso directo casi 'virales' en influencia en un conjunto de datos

Los investigadores sostienen que los conjuntos de datos tienden a contener una alta proporción de preguntas abreviadas, lo que hace que los modelos entrenados se basen en trucos abreviados.

Los dos modelos utilizados en los experimentos fueron BiDAF y Google BERTI-base. Los investigadores observan que incluso cuando se entrenan en variaciones de conjuntos de datos con una mayor proporción de preguntas "difíciles", ambos modelos aún funcionan mejor en preguntas abreviadas que en preguntas parafraseadas más difíciles, a pesar de la pequeña cantidad de ejemplos en los conjuntos de datos.

Esto presenta 'datos de acceso directo' casi en el contexto de un virus: es necesario que haya muy poco presente en un conjunto de datos para que se adopte y priorice en el entrenamiento, según los estándares y prácticas convencionales en NLP.

Demostrando el truco

Un método que utiliza la investigación para demostrar cómo la fragilidad de una respuesta abreviada es sustituir una palabra de entidad 'fácil' por una palabra anómala. Cuando se ha utilizado un método abreviado, no se puede proporcionar la lógica de la respuesta 'engañada'; pero cuando la respuesta se proporcionó a partir de un contexto más profundo y una evaluación semántica de una gama más amplia de texto contribuyente, es posible que el sistema deconstruya el error y reconstruya una respuesta correcta.

Sustituir 'Beyoncé' (una persona) por 'América' (una ubicación), revela si el modelo tiene alguna lógica de fondo para su respuesta.

Sustituir 'Beyoncé' (una persona) por 'América' (una ubicación), revela si el modelo tiene alguna lógica de fondo para su respuesta.

Atajos debido a un imperativo económico

Con respecto a algunas de las razones arquitectónicas por las que los atajos son tan prioritarios en los flujos de trabajo de entrenamiento de PNL, los autores comentan "Los modelos MRC pueden aprender los trucos de atajos, como QWM, con menos recursos computacionales que los desafíos de comprensión, como identificar la paráfrasis"..

Esto, entonces, podría ser un resultado no deseado de la optimización estándar y las filosofías de conservación de recursos en los enfoques de comprensión de lectura automática, y la presión para obtener resultados con recursos limitados en plazos ajustados.

Los investigadores también señalan:

"[Dado que] el truco del atajo se puede utilizar para responder correctamente a la mayoría de las preguntas de capacitación, es posible que las pocas preguntas sin resolver que quedan no motiven a los modelos a explorar soluciones sofisticadas que requieren habilidades desafiantes".

Si los resultados del documento se confirman posteriormente, parecería que el vasto y cada vez mayor campo del preprocesamiento de datos puede necesitar considerar las "cunas ocultas" en los datos como un problema que debe abordarse a largo plazo, o bien revisar las arquitecturas de NLP. para priorizar rutinas más desafiantes para la ingesta de datos.