Connect with us

Inteligencia artificial

Por qué el lenguaje histórico es un desafío para la inteligencia artificial

mm

Uno de los desafíos centrales de los sistemas de Procesamiento de Lenguaje Natural (NLP) es derivar ideas esenciales de una amplia variedad de materiales escritos. Las fuentes contribuyentes para un conjunto de datos de entrenamiento para un nuevo algoritmo de NLP podrían ser tan diversas lingüísticamente como Twitter, periódicos de gran formato y revistas científicas, con todas las excentricidades apelativas únicas de cada una de esas tres fuentes.

En la mayoría de los casos, eso es solo para inglés; y eso es solo para fuentes de texto actuales o recientes. Cuando un algoritmo de NLP tiene que considerar material que proviene de múltiples épocas, generalmente lucha por reconciliar las formas muy diferentes en que las personas hablan o escriben a través de comunidades nacionales y subnacionales, y especialmente a través de diferentes períodos en la historia.

Sin embargo, utilizar datos de texto (como tratados históricos y obras científicas venerables) que abarcan épocas es un método potencialmente útil para generar una visión general histórica de un tema, y para formular reconstrucciones estadísticas de líneas de tiempo que preceden a la adopción y mantenimiento de métricas para un dominio.

Por ejemplo, la información sobre el clima que contribuye a los modelos de inteligencia artificial predictivos del cambio climático no se registró adecuadamente en todo el mundo hasta 1880, mientras que la minería de textos clásicos ofrece registros más antiguos de eventos meteorológicos importantes que pueden ser útiles para proporcionar datos climáticos pre-victoriano.

Mala alineación temporal

Un nuevo artículo de la Universidad de Washington y el Instituto Allen para la IA ha encontrado que incluso un intervalo tan corto como cinco años puede causar mala alineación temporal que puede descarrilar la utilidad de un modelo de NLP preentrenado.

En todos los casos, las puntuaciones más altas son mejores. Aquí vemos un mapa de calor de degradación temporal a través de cuatro corpus de material de texto que abarcan un período de cinco años. Estas discrepancias entre los datos de entrenamiento y evaluación, según los autores del nuevo artículo, pueden causar una 'caída masiva del rendimiento'. Fuente: https://arxiv.org/pdf/2111.07408.pdf

En todos los casos, las puntuaciones más altas son mejores. Aquí vemos un mapa de calor de degradación temporal a través de cuatro corpus de material de texto que abarcan un período de cinco años. Estas discrepancias entre los datos de entrenamiento y evaluación, según los autores del nuevo artículo, pueden causar una ‘caída masiva del rendimiento’. Fuente: https://arxiv.org/pdf/2111.07408.pdf

El artículo establece:

‘Encontramos que la mala alineación temporal afecta tanto la generalización del modelo de lenguaje como el rendimiento de la tarea. Encontramos una variación considerable en la degradación a través de dominios de texto y tareas. En 5 años, la puntuación F1 de los clasificadores puede deteriorarse tanto como 40 puntos (afiliación política en Twitter) o tan poco como 1 punto (calificaciones de reseñas de Yelp). Dos tareas distintas definidas en el mismo dominio pueden mostrar diferentes niveles de degradación con el tiempo.’

Divisiones desiguales

El problema central es que los conjuntos de datos de entrenamiento generalmente se dividen en dos grupos, a veces en una proporción bastante desequilibrada de 80/20, debido a la disponibilidad limitada de datos. El grupo más grande de datos se entrena en una red neuronal, mientras que los datos restantes se utilizan como grupo de control para probar la precisión del algoritmo resultante.

En conjuntos de datos mixtos que contienen material que abarca varios años, una distribución desigual de datos de varios períodos podría significar que los datos de evaluación están compuestos de manera desproporcionada por material de una época en particular.

Esto hará que sea un mal terreno de prueba para un modelo entrenado en una mezcla más diversa de épocas (es decir, en más de los datos disponibles). En efecto, dependiendo de si los datos de evaluación minoritarios sobre-representan material más nuevo o más antiguo, es como pedirle a su abuelo que califique a los últimos ídolos del K-Pop.

La solución a largo plazo sería entrenar múltiples modelos en conjuntos de datos más restringidos en el tiempo y tratar de recopilar características compatibles de los resultados de cada modelo. Sin embargo, las prácticas de inicialización aleatoria de modelos significan que este enfoque enfrenta su propio conjunto de problemas para lograr la paridad y la equidad entre modelos, incluso antes de considerar si los conjuntos de datos contribuyentes fueron lo suficientemente similares entre sí para que el experimento sea significativo.

Datos y entrenamiento

Para evaluar la mala alineación temporal, los autores entrenaron cuatro corpus de texto en cuatro dominios:

Twitter
…donde recopilaron datos no etiquetados extrayendo una selección aleatoria de 12 millones de tweets uniformemente distribuidos entre 2015-2020, donde los autores estudiaron entidades con nombre (es decir, personas y organizaciones) y afiliaciones políticas.

Artículos científicos
…donde los autores obtuvieron datos no etiquetados del corpus de Semantic Scholar, que consta de 650,000 documentos que abarcan un período de 30 años, y en el que estudiaron la clasificación de tipo de mención (SciERC) y la clasificación de lugar de publicación de AI (AIC, que distingue si un artículo se publicó en AAAI o ICML).

Artículos de noticias
…donde los autores utilizaron nueve millones de artículos del conjunto de datos de Newsroom que abarcan un período de 2009-2016, en el que realizaron tres tareas: resumen de sala de noticias, clasificación de editor y clasificación de marcos de medios (MFC), que examina la priorización percibida de varios temas a través de la producción de noticias.

Reseñas de comida
…donde los investigadores utilizaron el conjunto de datos abierto de Yelp en una sola tarea: clasificación de calificaciones de reseñas (YELPCLS), un desafío de análisis de sentimiento típico de mucha investigación de NLP en este sector.

Resultados

Los modelos se evaluaron en GPT-2, con una gama de puntuaciones F1 resultantes F1. Los autores encontraron que la pérdida de rendimiento debido a la mala alineación temporal es bidireccional, lo que significa que los modelos entrenados en datos recientes pueden verse adversamente afectados por la influencia de datos más antiguos, y viceversa (ver imagen al comienzo del artículo para gráficos). Los autores señalan que esto tiene implicaciones particulares para aplicaciones de ciencias sociales.

En general, los resultados muestran que la mala alineación temporal degrada la pérdida de rendimiento ‘sustancialmente’, y tiene un efecto amplio en la mayoría de las tareas. Los conjuntos de datos que cubren períodos muy largos, como décadas, exacerbaban naturalmente el problema.

Los autores también observan que la mala alineación temporal afecta tanto los datos de preentrenamiento etiquetados como no etiquetados. Además, sus intentos de mitigar los efectos a través de la adaptación de dominio (ver a continuación) no mejoraron sustancialmente la situación, aunque afirman que afinar la información de datos en el conjunto de datos puede ayudar hasta cierto punto.

Conclusión

Los investigadores confirman los hallazgos anteriores de que los remedios sugeridos anteriormente que involucran adaptación de dominio (DAPT, donde se permite la disparidad de datos) y adaptación temporal (donde los datos se seleccionan por período de tiempo) no alivian mucho el problema.

El artículo concluye*:

‘Nuestros experimentos revelaron una variación considerable en la degradación temporal a través de tareas, más que lo encontrado en estudios anteriores. Estos hallazgos motivan el estudio continuo de la mala alineación temporal en aplicaciones de NLP, su consideración en evaluaciones de referencia y la vigilancia por parte de los practicantes que pueden monitorear el rendimiento del sistema en vivo con el tiempo.

‘Notablemente, observamos que el entrenamiento continuo de los LM en datos temporalmente alineados no tiene mucho efecto, lo que motiva una mayor investigación para encontrar métodos de adaptación temporal efectivos que sean menos costosos que la recopilación continua de conjuntos de datos etiquetados/etiquetados con el tiempo.’

Los autores sugieren que una mayor investigación sobre el aprendizaje continuo, donde los datos se actualizan constantemente, puede ser útil en este respecto, y que la deriva de conceptos y otros métodos de detección de cambios en tareas podrían ser una ayuda útil para actualizar los conjuntos de datos.

 

* Mi conversión de citas en línea a enlaces.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.