Inteligencia artificial
Hacia la escritura automática de la ciencia

Esta mañana, revisando las secciones de Ciencias de la Computación de Arxiv, como hago la mayoría de las mañanas, me encontré con un reciente artículo de la Universidad Federal de Ceará en Brasil, que ofrece un nuevo marco de Procesamiento de Lenguaje Natural para automatizar la resumen y extracción de datos básicos de los artículos científicos.
Dado que esto es más o menos lo que hago todos los días, el artículo me recordó un comentario en un hilo de escritores de Reddit a principios de este año – una predicción en el sentido de que la escritura científica será uno de los primeros trabajos periodísticos en ser tomados por el aprendizaje automático.
Quiero dejar claro – absolutamente creo que el escritor científico automatizado está llegando, y que todos los desafíos que describo en este artículo son solubles ahora, o eventualmente lo serán. Donde sea posible, doy ejemplos para esto. Además, no estoy abordando si los actuales o futuros escritores de ciencia AIs podrán escribir coherentemente; basado en el actual nivel de interés en este sector de NLP, estoy asumiendo que este desafío eventualmente será resuelto.
En lugar de eso, estoy preguntando si un escritor de ciencia AI podrá identificar historias científicas relevantes de acuerdo con los resultados deseables (altamente variados) de los editores.
No creo que sea inminente; basado en revisar los titulares y/o copias de alrededor de 2000 nuevos artículos científicos sobre aprendizaje automático cada semana, tengo una visión más cínica sobre la medida en que las presentaciones académicas pueden ser desglosadas algorítmicamente, ya sea para fines de indexación académica o para periodismo científico. Como siempre, son esas malditas personas que se interponen en el camino.
Requisitos para el escritor científico automatizado
Consideremos el desafío de automatizar la informática científica sobre la investigación académica más reciente. Para ser justos, nos limitaremos principalmente a las categorías de CS del muy popular dominio no protegido por pago Arxiv de la Universidad de Cornell, que al menos tiene una serie de características sistemáticas y templadas que se pueden conectar a una tubería de extracción de datos.
Supongamos también que la tarea en cuestión, como con el nuevo artículo de Brasil, es iterar a través de los títulos, resúmenes, metadatos y (si está justificado) el contenido del cuerpo de los nuevos artículos científicos en busca de constantes, parámetros confiables, tokens y información de dominio reducible y procesable.
Esto es, después de todo, el principio en el que se basan los nuevos marcos que están ganando terreno en las áreas de informes de terremotos, redacción deportiva, periodismo financiero y cobertura de salud, y un punto de partida razonable para el periodista científico con capacidad de IA.

El flujo de trabajo de la nueva oferta brasileña. El artículo científico en PDF se convierte en texto plano UTF-8 (aunque esto eliminará las énfasis en cursiva que pueden tener un significado semántico), y las secciones del artículo se etiquetan y extraen antes de pasar por un filtro de texto. El texto descompuesto se divide en oraciones como marcos de datos, y los marcos de datos se fusionan antes de la identificación de tokens y la generación de dos matrices de tokens de documento Fuente: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf
Complicando el modelo
Una capa alentadora de conformidad y regularización es que Arxiv impone un modelo bastante bien aplicado para las presentaciones, y proporciona directrices detalladas para los autores que presentan.
Por lo tanto, los sistemas de preprocesamiento de IA para el escritor científico automatizado pueden tratar generalmente estas secciones como subdominios: resumen, introducción, trabajo relacionado/anterior, metodología/datos, resultados/hallazgos, estudios de ablación, discusión, conclusión.
Sin embargo, en la práctica, algunas de estas secciones pueden faltar, estar renombradas, o contener contenido que, estrictamente hablando, pertenece a una sección diferente. Además, los autores naturalmente incluirán títulos y subtítulos que no se ajustan al modelo. Por lo tanto, corresponderá a NLP/NLU identificar el contenido relacionado con la sección desde el contexto.
Rumbo a la dificultad
Una jerarquía de encabezados es una forma fácil para que los sistemas de NLP inicialmente categoricen bloques de contenido. Muchas de las presentaciones de Arxiv se exportan desde Microsoft Word (como se evidencia en los PDF de Arxiv mal manejados que dejan ‘Microsoft Word’ en el título del encabezado – ver imagen a continuación). Si se utilizan encabezados de sección adecuados en Word, una exportación a PDF los recreará como encabezados jerárquicos que son útiles para los procesos de extracción de datos de una máquina informadora.
Sin embargo, esto supone que los autores están utilizando realmente estas características en Word, o en otros marcos de creación de documentos, como TeX y derivados (rara vez proporcionados como formato nativo alternativo en las presentaciones de Arxiv, con la mayoría de las ofertas limitadas a PDF y, ocasionalmente, el aún más opaco PostScript).
Basado en años de lectura de artículos de Arxiv, he notado que la gran mayoría de ellos no contienen ninguna metadatos estructurales interpretables, con el título informado en el lector (es decir, un navegador web o un lector de PDF) como el título completo (incluyendo la extensión), del documento en sí.
En este caso, la interpretabilidad semántica del documento es limitada, y un sistema de escritor científico basado en IA necesitará relinkar programáticamente el documento a sus metadatos asociados en el dominio de Arxiv. La convención de Arxiv dicta que los metadatos básicos también se insertan lateralmente en gran tipo gris en la página 1 de un PDF presentado (ver imagen a continuación). Desafortunadamente – no menos porque este es el único lugar confiable donde se puede encontrar una fecha de publicación o número de versión – a menudo se excluye.

Muchos autores no utilizan estilos en absoluto, o solo el estilo de encabezado H1 (título), dejando que NLU extraiga encabezados ya sea desde el contexto (probablemente no tan difícil), o analizando el número de referencia que comprende el título en la ruta del documento (es decir, https://arxiv.org/pdf/2110.00168.pdf) y aprovechándose de los metadatos basados en la red (en lugar de locales) para la presentación.
Aunque lo último no resolverá los encabezados ausentes, al menos establecerá a qué sección de Ciencias de la Computación se aplica la presentación, y proporcionará información de fecha y versión.

Texto pegado en retornos de párrafo
Con PDF y postscript como los formatos más comunes disponibles en las presentaciones de Arxiv, el sistema de NLP necesitará una rutina para dividir las palabras de fin de línea de las palabras de inicio de la línea siguiente que se “adjuntan” a ellas bajo los métodos de optimización predeterminados de PDF.

La desconcatenación (y desguionización) de palabras se puede lograr en Perl y muchas otras rutinas recursivas simples, aunque un enfoque basado en Python podría ser menos tiempo-consumidor y más adaptado a un marco de ML. Adobe, el originador del formato PDF, también ha desarrollado un sistema de conversión habilitado por IA llamado Liquid Mode, capaz de “refluir” texto horneado en PDF, aunque su implementación más allá del espacio móvil ha demostrado ser lenta.
Inglés deficiente
El inglés sigue siendo el estándar científico global para presentar artículos científicos, aunque esto es controvertido. Por lo tanto, los artículos interesantes y dignos de mención a veces contienen estándares de inglés apabullantes, de investigadores no ingleses. Si el uso hábil del inglés se incluye como una métrica de valor cuando un sistema de máquina evalúa el trabajo, entonces no solo se perderán buenas historias, sino que la producción de menor valor será calificada más alta simplemente porque dice muy poco muy bien.
Los sistemas de NLP que son inflexibles en este respecto probablemente experimentarán una capa adicional de obstáculos en la extracción de datos, excepto en las ciencias más rígidas y parametrizadas, como la química y la física teórica, donde los gráficos y las tablas se ajustan más uniformemente en las comunidades científicas globales. Aunque los artículos de aprendizaje automático frecuentemente presentan fórmulas, estas pueden no representar el valor definitorio de la presentación en ausencia del consenso científico establecido sobre la metodología que disfrutan las ciencias más antiguas.
Selección: determinar los requisitos del público
Regresaremos a los muchos problemas de descomponer artículos científicos excéntricos en puntos de datos discretos pronto. Ahora, consideremos nuestro público y objetivos, ya que estos serán esenciales para ayudar al escritor científico de IA a filtrar miles de artículos por semana. Predecir el éxito de las posibles historias de noticias es ya un área activa en el aprendizaje automático.
Si, por ejemplo, el tráfico científico de alto volumen es el único objetivo en un sitio web donde la escritura científica es solo una parte de una oferta periodística más amplia (como es el caso con la sección de ciencia del Daily Mail del Reino Unido), un IA puede ser requerido para determinar los temas de mayor tráfico y optimizar su selección hacia eso. Este proceso probablemente priorizará (relativamente) frutos de baja altura como robots, drones, deepfakes, privacidad y vulnerabilidades de seguridad.
En línea con el estado actual de la técnica en los sistemas de recomendación, esta cosecha de alto nivel probablemente conducirá a problemas de ‘burbuja de filtro’ para nuestro escritor científico de IA, ya que el algoritmo presta mayor atención a una serie de artículos científicos más espurios que presentan ‘palabras clave y frases deseables’ de alta frecuencia en estos temas (de nuevo, porque hay dinero que ganar en ellos, tanto en términos de tráfico, para los medios de comunicación, como en financiamiento, para los departamentos académicos), mientras ignora algunos de los ‘huevos de Pascua’ (ver a continuación) más escribibles que se pueden encontrar en muchos de los rincones menos frecuentados de Arxiv.
¡Uno y listo!
La buena información científica puede provenir de lugares extraños y poco esperados, y de sectores y temas previamente infructuosos. Para confundir aún más a nuestro IA escritor científico, que esperaba crear un índice productivo de fuentes de noticias ‘fructíferas’, la fuente de un ‘éxito’ inusual (como un servidor de Discord, un departamento de investigación académica o un startup de tecnología) a menudo nunca producirá material procesable de nuevo, mientras sigue produciendo una corriente de información ruidosa y de menor valor.
¿Qué puede deducir una arquitectura de aprendizaje automático iterativa de esto? ¿Que los miles de fuentes de noticias ‘atípicas’ que identificó y excluyó anteriormente deben ser priorizadas de nuevo (aunque hacerlo crearía una relación señal-ruido ingobernable, considerando el alto volumen de artículos publicados cada año)? ¿Que el tema en sí es más digno de una capa de activación que la fuente de noticias de la que provino (lo cual, en el caso de un tema popular, es una acción redundante)..?
Más útilmente, el sistema podría aprender que tiene que moverse hacia arriba o hacia abajo en la jerarquía de dimensionalidad de datos en busca de patrones – si es que realmente los hay – que constituyen lo que mi abuelo periodista llamaba ‘olfato para las noticias’, y definir la característica digno de mención como una calidad itinerante y abstracta que no se puede predecir con precisión en función de la procedencia sola, y que se puede esperar que mute diariamente.
Identificación de fracaso de hipótesis
Debido a la presión de la cuota, los departamentos académicos a veces publican trabajos donde la hipótesis central ha fallado completamente (o casi completamente) en las pruebas, incluso si los métodos y hallazgos del proyecto son no obstante dignos de un poco de interés por derecho propio.
Estos desengaños a menudo no se señalan en los resúmenes; en los peores casos, las hipótesis desacreditadas son discernibles solo leyendo los gráficos de resultados. Esto no solo implica inferir una comprensión detallada de la metodología a partir de la información selecta y limitada que puede proporcionar el artículo, sino que también requiere algoritmos de interpretación de gráficos hábiles que puedan interpretar significativamente todo, desde un gráfico de pie hasta un gráfico de dispersión, en contexto.
Un sistema de NLP que confía en los resúmenes pero no puede interpretar los gráficos y las tablas puede emocionarse mucho con un nuevo artículo, al principio. Desafortunadamente, ejemplos anteriores de ‘fracaso oculto’ en artículos académicos son (para fines de entrenamiento) difíciles de generalizar en patrones, ya que este ‘crimen académico’ es principalmente uno de omisión o subestimación, y por lo tanto es esquivo.
En un caso extremo, nuestro escritor de IA puede necesitar localizar y probar datos de repositorio (es decir, desde GitHub), o analizar cualquier material suplementario disponible, para comprender qué significan los resultados en términos de los objetivos de los autores. Por lo tanto, un sistema de aprendizaje automático necesitaría atravesar las múltiples fuentes y formatos no mapeados involucrados en esto, lo que hace que la automatización de los procesos de verificación sea un desafío arquitectónico.
Casos ‘de caja blanca’
Algunas de las afirmaciones más escandalosas hechas en los artículos de seguridad centrados en IA resultan requerir niveles extraordinarios y muy poco probables de acceso al código fuente o infraestructura de origen – ‘ataques de caja blanca’. Si bien esto es útil para extrapolar rarezas desconocidas en las arquitecturas de los sistemas de IA, casi nunca representa una superficie de ataque realista.
Por lo tanto, el escritor científico automatizado necesitará una rutina de NLU capaz para aislar las menciones de ‘caja blanca’ en un contexto significativo (es decir, para distinguir las menciones de las implicaciones centrales del artículo), y la capacidad de deducir la metodología de caja blanca en los casos en que la frase nunca aparece en el artículo.
Otros ‘problemas’
Otros lugares donde la inviabilidad y el fracaso de la hipótesis pueden terminar bastante enterrados son en los estudios de ablación, que sistemáticamente eliminan elementos clave de una nueva fórmula o método para ver si los resultados se ven afectados negativamente, o si un ‘descubrimiento central’ es resistente. En la práctica, los artículos que incluyen estudios de ablación generalmente están bastante seguros de sus hallazgos, aunque una lectura cuidadosa puede a menudo descubrir un ‘farol’. En la investigación de IA, ese farol con frecuencia se convierte en sobreajuste, donde un sistema de aprendizaje automático funciona admirablemente en los datos de investigación originales, pero no se generaliza a nuevos datos, o opera bajo otras restricciones no reproducibles.
Otra sección de título útil para la extracción sistemática es Limitaciones. Esta es la primera sección a la que cualquier escritor científico (IA o humano) debería saltar, ya que puede contener información que anula la hipótesis completa del artículo, y saltar hacia adelante puede ahorrar horas de trabajo (al menos, para los humanos). Un escenario peor aquí es que un artículo en realidad tiene una sección Limitaciones, pero los ‘hechos comprometedores’ se incluyen en otra parte en el trabajo, y no aquí (o se subestiman aquí).
A continuación, está Trabajo previo. Esto ocurre al comienzo del modelo de Arxiv, y con frecuencia revela que el artículo actual representa solo un avance menor sobre un proyecto mucho más innovador, generalmente de los 12-18 meses anteriores. En este punto, el escritor de IA necesitará la capacidad de establecer si el trabajo previo logró tracción; ¿hay una historia aquí? ¿El trabajo previo pasó injustificadamente desapercibido en el momento de su publicación? ¿O el nuevo artículo es solo un poscriptum perfunctorio para un proyecto anterior bien cubierto?
Evaluación de reiteraciones y ‘frescura’
Además de corregir erratas en una versión anterior, la versión 2 de un artículo a menudo representa poco más que los autores que claman por la atención que no recibieron cuando se publicó la versión 1. Con frecuencia, sin embargo, un artículo en realidad merece una segunda oportunidad, ya que la atención de los medios puede haber sido desviada en otro lugar en el momento de la publicación original, o el trabajo fue oscurecido por el tráfico alto de presentaciones en períodos de ‘simposio’ y conferencia concurridos (como el otoño y el invierno tardío).
Una característica útil en Arxiv para distinguir una reiteración es la etiqueta [ACTUALIZADO] agregada a los títulos de las presentaciones. El sistema de recomendación interno de nuestro escritor de IA necesitará considerar cuidadosamente si [ACTUALIZADO] == ‘Jugado’ o no, particularmente desde que (presumiblemente) puede evaluar el artículo re calentado muchas más rápido que un escritor científico apurado, gracias a una convención de nomenclatura que probablemente perdure, al menos en Arxiv.
Arxiv también proporciona información en la página de resumen sobre si el artículo ha sido identificado como teniendo ‘cruce significativo’ de texto con otro artículo (a menudo del mismo autor), y esto también se puede analizar potencialmente en un estado de ‘duplicado/reiteración’ por un sistema de escritor de IA en ausencia de la etiqueta [ACTUALIZADO].
Determinación de difusión
Al igual que la mayoría de los periodistas, nuestro proyectado escritor científico de IA está buscando noticias no informadas o subinformadas, con el fin de agregar valor a la corriente de contenido que apoya. En la mayoría de los casos, volver a informar sobre avances científicos que se presentaron por primera vez en importantes medios como TechCrunch, The Verge y EurekaAlert et al es inútil, ya que dichas plataformas grandes apoyan su contenido con máquinas de publicidad exhaustivas, garantizando virtualmente la saturación de los medios para el artículo.
Por lo tanto, nuestro escritor de IA debe determinar si la historia es lo suficientemente fresca como para ser digna de perseguir.
La forma más fácil, en teoría, sería identificar enlaces entrantes recientes a las páginas de investigación básicas (resumen, PDF, sección de noticias del sitio web del departamento académico, etc.). En general, los marcos que pueden proporcionar información de enlaces entrantes actualizados no son de código abierto ni de bajo costo, pero los principales editores presumiblemente podrían soportar el gasto de SaaS como parte de un marco de evaluación de newsworthiness.
Suponiendo tal acceso, nuestro escritor de IA se enfrenta al problema de que un gran número de medios de informes científicos no citan los artículos que están escribiendo, incluso en los casos en que esa información está disponible gratuitamente. Después de todo, un medio de comunicación quiere que los informes secundarios enlacen con ellos, en lugar del origen. Dado que, en muchos casos, en realidad han obtenido acceso privilegiado o semi-privilegiado a un artículo de investigación (ver El escritor científico social de IA a continuación), tienen un pretexto poco sincero para esto.
Por lo tanto, nuestro escritor de IA necesitará extraer palabras clave procesables del artículo y realizar búsquedas limitadas en el tiempo para establecer dónde, si es que hay, la historia ya ha roto – y luego evaluar si cualquier difusión previa se puede descartar, o si la historia está agotada.
A veces, los artículos proporcionan material de video suplementario en YouTube, donde el ‘recuento de vistas’ puede servir como un índice de difusión. Además, nuestro IA puede extraer imágenes del artículo y realizar búsquedas de imágenes sistemáticas, para establecer si, cuándo y dónde se han republicado algunas de las imágenes.
Huevos de Pascua
A veces un artículo ‘seco’ revela hallazgos que tienen implicaciones profundas y dignas de mención, pero que se pasan por alto (o incluso se descuidan o descartan) por los autores, y solo se revelarán leyendo todo el artículo y haciendo las matemáticas.
En casos raros, creo, esto se debe a que los autores están mucho más preocupados por la recepción en la academia que en el público en general, quizás porque sienten (no siempre incorrectamente) que los conceptos centrales involucrados simplemente no pueden simplificarse lo suficiente para el consumo general, a pesar de los esfuerzos a menudo hiperbólicos de los departamentos de relaciones públicas de sus instituciones.
Pero más o menos con la misma frecuencia, los autores pueden descuidar o no ver o no reconocer las implicaciones de su trabajo, operando oficialmente bajo ‘distancia científica’. A veces estos ‘huevos de Pascua’ no son indicadores positivos del trabajo, como se mencionó anteriormente, y pueden estar cínica y deliberadamente ocultos en tablas complejas de hallazgos.
Más allá de Arxiv
Debería considerarse que parametrizar artículos sobre ciencias de la computación en tokens y entidades discretas será mucho más fácil en un dominio como Arxiv, que proporciona una serie de ‘ganchos’ consistentes y templados para analizar, y no requiere inicio de sesión para la mayoría de la funcionalidad.
No todo el acceso a las publicaciones científicas es de código abierto, y queda por ver si (desde un punto de vista práctico o legal) nuestro escritor científico de IA puede o hará evadir los muros de pago a través de Sci-Hub; para usar sitios de archivado para evitar los muros de pago; y si es factible construir arquitecturas de minería de dominio similares para una amplia variedad de otras plataformas de publicación científica, muchas de las cuales son estructuralmente resistentes a la exploración sistemática.
También debería considerarse que incluso Arxiv tiene límites de velocidad que probablemente ralentizarán las rutinas de evaluación de noticias de un escritor de IA a una velocidad más ‘humana’.
El escritor científico social de IA
Más allá del ámbito abierto y accesible de Arxiv y plataformas de publicación científica ‘abiertas’ similares, incluso obtener acceso a un artículo de investigación interesante puede ser un desafío, que implica localizar un canal de contacto para un autor y acercarse a él para solicitar leer el trabajo, y incluso para obtener citas (donde la presión del tiempo no es un factor abrumador – un caso raro para los informadores científicos humanos estos días).
Esto puede implicar la travesía automática de dominios científicos y la creación de cuentas (necesitas iniciar sesión para revelar la dirección de correo electrónico de un autor de un artículo, incluso en Arxiv). La mayoría de las veces, LinkedIn es la forma más rápida de obtener una respuesta, pero los sistemas de IA actualmente están prohibidos para contactar a los miembros.
En cuanto a cómo los investigadores recibirían solicitudes de correo electrónico de un escritor científico de IA – bueno, como en el mundo de los informes científicos de carne y hueso, probablemente depende de la influencia de la publicación. Si un escritor de IA putativo de Wired contactara a un autor que estuviera ansioso por difundir su trabajo, es razonable asumir que no encontraría una respuesta hostil.
En la mayoría de los casos, se puede imaginar que el autor estaría esperando que estos intercambios semiautomáticos eventualmente convocaran a un humano al bucle, pero no está más allá del ámbito de lo posible que las entrevistas de seguimiento de VOIP se faciliten a través de un IA, al menos donde la viabilidad del artículo se prevé que esté por debajo de un cierto umbral, y donde la publicación tiene suficiente tracción para atraer la participación humana en una conversación con un ‘investigador de IA’.
Identificación de noticias con IA
Muchos de los principios y desafíos descritos aquí se aplican al potencial de automatización en otros sectores del periodismo, y, como siempre ha sido, identificar una historia potencial es el desafío central. La mayoría de los periodistas humanos admitirán que en realidad escribir la historia es solo el 10% final del esfuerzo, y que una vez que la tecla está sonando, el trabajo está principalmente terminado.
El desafío principal, entonces, es desarrollar sistemas de IA que puedan detectar, investigar y autenticar una historia, basándose en las muchas vicisitudes arcana del juego de las noticias, y atravesando una amplia gama de plataformas que ya están endurecidas contra la exploración y la extracción, humana o de otra manera.
En el caso de los informes científicos, los autores de nuevos artículos tienen una agenda de auto-servicio tan profunda como cualquier otra fuente primaria potencial de una historia de noticias, y descomponer su producción implicará incorporar conocimiento previo sobre motivaciones sociológicas, psicológicas y económicas. Por lo tanto, un escritor científico automatizado putativo necesitará más que rutinas de NLP reductivas para establecer dónde está la noticia hoy, a menos que el dominio de las noticias sea particularmente estratificado, como es el caso de las acciones, los números de la pandemia, los resultados deportivos, la actividad sísmica y otras fuentes de noticias puramente estadísticas.













