talón Por qué el lenguaje histórico es un desafío para la inteligencia artificial - Unite.AI
Contáctanos

Inteligencia artificial

Por qué el lenguaje histórico es un desafío para la inteligencia artificial

mm
Actualizado on

Uno de los desafíos centrales de los sistemas de procesamiento del lenguaje natural (PNL) es obtener conocimientos esenciales de una amplia variedad de materiales escritos. Las fuentes contribuyentes para un conjunto de datos de entrenamiento para un nuevo algoritmo de PNL podrían ser tan lingüísticamente diversas como Twitter, periódicos de gran formato y revistas científicas, con todas las excentricidades recurrentes únicas de cada una de esas tres fuentes.

In mayoria de los casos, eso es solo para inglés; y eso es solo para fuentes de texto actuales o recientes. Cuando un algoritmo de PNL tiene que considerar material que proviene de múltiples épocas, normalmente tiene dificultades para reconciliar los formas muy diferentes que las personas hablan o escriben en comunidades nacionales y subnacionales, y especialmente en diferentes períodos de la historia.

Sin embargo, el uso de datos de texto (como tratados históricos y obras científicas venerables) que abarcan épocas es un método potencialmente útil para generar una descripción histórica de un tema y formular reconstrucciones estadísticas de la línea de tiempo que preceden a la adopción y el mantenimiento de métricas para un dominio.

Por ejemplo, la información meteorológica que contribuye a los modelos de IA predictivos del cambio climático no se registró adecuadamente en todo el mundo. hasta 1880, mientras que la minería de datos de textos clásicos ofrece registros más antiguos de los principales eventos meteorológicos que pueden ser útiles para proporcionar datos meteorológicos anteriores a la época victoriana.

Desalineación temporal

A nuevo documento de la Universidad de Washington y el Instituto Allen para IA ha descubierto que incluso un intervalo tan corto como cinco años puede causar desalineación temporal lo que puede descarrilar la utilidad de un modelo de PNL previamente entrenado.

En todos los casos, las puntuaciones más altas son mejores. Aquí vemos un mapa de calor de la degradación temporal en cuatro corpus de material de texto que abarca un período de cinco años. Tales desajustes entre los datos de capacitación y evaluación, según los autores del nuevo artículo, pueden causar una "caída masiva del rendimiento". Fuente: https://arxiv.org/pdf/2111.07408.pdf

En todos los casos, las puntuaciones más altas son mejores. Aquí vemos un mapa de calor de la degradación temporal en cuatro corpus de material de texto que abarcan un período de cinco años. Tales desajustes entre los datos de capacitación y evaluación, según los autores del nuevo artículo, pueden causar una "caída masiva del rendimiento". Fuente: https://arxiv.org/pdf/2111.07408.pdf

El documento dice:

'Encontramos que la desalineación temporal afecta tanto la generalización del modelo de lenguaje como el desempeño de la tarea. Encontramos una variación considerable en la degradación entre dominios de texto y tareas. Durante 5 años, la puntuación F1 de los clasificadores puede deteriorarse tanto como 40 puntos (afiliación política en Twitter) o tan solo 1 punto (calificaciones de revisión de Yelp). Dos tareas distintas definidas en el mismo dominio pueden mostrar diferentes niveles de degradación a lo largo del tiempo.'

Divisiones desiguales

El problema central es que los conjuntos de datos de entrenamiento generalmente se dividen en dos grupos, a veces en una proporción bastante desequilibrada de 80/20, debido a la disponibilidad limitada de datos. El grupo más grande de datos se entrena en una red neuronal, mientras que los datos restantes se utilizan como grupo de control para probar la precisión del algoritmo resultante.

En conjuntos de datos mixtos que contienen material que abarca varios años, una distribución desigual de datos de varios períodos podría significar que los datos de evaluación están compuestos de manera excesiva de material de una era en particular.

Esto hará que sea un campo de pruebas deficiente para un modelo entrenado en una combinación más diversa de épocas (es decir, en más de todos los datos disponibles). En efecto, dependiendo de si los datos de evaluación de las minorías sobrerepresentan el material más nuevo o más antiguo, es como pedirle a tu abuelo que califique a los últimos ídolos del K-Pop.

La solución alternativa larga sería entrenar varios modelos en conjuntos de datos mucho más restringidos en el tiempo e intentar recopilar características compatibles a partir de los resultados de cada modelo. Sin embargo, inicialización aleatoria del modelo Las prácticas por sí solas significan que este enfoque enfrenta su propio conjunto de problemas para lograr la paridad y la equidad entre modelos, incluso antes de considerar si los múltiples conjuntos de datos contribuyentes eran suficientemente similares entre sí para que el experimento fuera significativo.

Datos y Entrenamiento

Para evaluar la desalineación temporal, los autores entrenaron cuatro corpus de texto en cuatro dominios:

Twitter
…donde recopilaron datos sin etiquetar mediante la extracción de una selección aleatoria de 12 millones de tuits repartidos uniformemente entre 2015 y 2020, donde los autores estudiaron entidades nombradas (es decir, personas y organizaciones) y afiliaciones políticas.

Artículos Científicos
…donde los autores obtuvieron datos no etiquetados del Corpus académico semántico, que constituyen 650,000 documentos que abarcan un período de 30 años, y sobre los que estudiaron la clasificación de tipo de mención (cienciaERC) y la clasificación de lugares AI (AIC, que distingue si un artículo se publicó en AAAI or ICML).

Artículos de noticias
…donde los autores utilizaron nueve millones de artículos del Conjunto de datos de la sala de redacción que abarca un período 2009-2016, en el que realizaron tres tareas: resumen de la sala de redacción, clasificación de editores y clasificación de marcos de medios (MFC), cuya última tarea examina la priorización percibida de varios temas en la producción de noticias.

Reseñas de comida
…donde los investigadores usaron el Conjunto de datos abierto de Yelp en una sola tarea: revisar la clasificación de calificación (YELPCLS), un desafío de análisis de sentimiento tradicional típico de gran parte de la investigación de PNL en este sector.

Resultados

Los modelos fueron evaluados en GPT-2, con un rango de resultados Puntuaciones F1. Los autores descubrieron que la pérdida de rendimiento debido a la desalineación temporal es bidireccional, lo que significa que los modelos entrenados con datos recientes pueden verse afectados negativamente por la influencia de datos más antiguos y viceversa (consulte la imagen al comienzo del artículo para ver los gráficos). Los autores señalan que esto tiene implicaciones particulares para las aplicaciones de las ciencias sociales.

En general, los resultados muestran que la desalineación temporal degrada la pérdida de rendimiento "sustancialmente" y tiene un efecto amplio en la mayoría de las tareas. Los conjuntos de datos que cubren períodos muy largos, como décadas, naturalmente exacerban el problema.

Los autores observan además que la desalineación temporal también afecta los datos de preentrenamiento etiquetados y no etiquetados. Además, sus intentos de mitigar los efectos a través de la adaptación del dominio (ver más abajo) no mejoraron sustancialmente la situación, aunque afirman que ajustar la información de los datos en el conjunto de datos puede ayudar hasta cierto punto.

Conclusión

Los investigadores confirman hallazgos previos de que los remedios sugeridos anteriormente que involucran adaptación de dominio (DAPT, donde se crea un margen para la disparidad de datos) y adaptación temporal (donde los datos se seleccionan por período de tiempo) hacen poco para aliviar el problema.

El documento concluye*:

"Nuestros experimentos revelaron una variación considerable en la degradación temporal entre tareas, más de lo que se encuentra en estudios previos. Estos hallazgos motivan el estudio continuo de la desalineación temporal en las aplicaciones de NLP, su consideración en las evaluaciones comparativas y la vigilancia por parte de los profesionales capaces de monitorear el rendimiento del sistema en vivo a lo largo del tiempo.

"En particular, observamos que la capacitación continua de los LM en datos alineados temporalmente no tiene mucho efecto, lo que motiva más investigaciones para encontrar métodos de adaptación temporal efectivos que sean menos costosos que la recopilación continua de conjuntos de datos anotados/etiquetados a lo largo del tiempo".

Los autores sugieren que una mayor investigación sobre el aprendizaje continuo, donde los datos se actualizan constantemente, puede ser útil a este respecto, y que la deriva de conceptos y otros métodos para detectar cambios en las tareas podrían ser una ayuda útil para actualizar los conjuntos de datos.

 

* Mi conversión de citas en línea a hipervínculos.