Inteligencia Artificial

Hacia la escritura científica automatizada

Publicado 10 de Octubre de 2021

Actualizado 9 de diciembre de 2022

Martin anderson

Esta mañana, al rastrear las secciones de Ciencias de la Computación de Arxiv, como hago la mayoría de las mañanas, me encontré con un reciente de la Universidad Federal de Ceará en Brasil, que ofrece un nuevo marco de procesamiento del lenguaje natural para automatizar el resumen y la extracción de datos centrales de artículos científicos.

Como esto es más o menos lo que hago todos los días, el artículo me hizo recordar un comentario en un hilo de escritores de Reddit a principios de este año: un pronóstico en el sentido de que la redacción científica será uno de los primeros trabajos periodísticos en ser reemplazados por el aprendizaje automático.

Déjame ser claro: yo absolutamente creer que el escritor científico automatizado está llegando, y que todos los desafíos que describo en este artículo son solucionables ahora, o eventualmente lo serán. Siempre que sea posible, doy ejemplos de esto. Además, no me refiero a si las IA de escritura científica actuales o del futuro cercano podrán o no escribir contundentemente; basado en el nivel actual de interés En este sector de la PNL, supongo que este desafío eventualmente se resolverá.

Más bien, me pregunto si una IA que escriba sobre ciencia será capaz de... Identificar historias científicas relevantes de acuerdo con los resultados deseados (muy variados) de los editores.

No creo que sea inminente; tras revisar los titulares y/o textos de alrededor de 2000 nuevos artículos científicos sobre aprendizaje automático cada semana, tengo una visión bastante más cínica sobre hasta qué punto las publicaciones académicas pueden desglosarse algorítmicamente, ya sea para fines de indexación académica o para el periodismo científico. Como siempre, son esos malditos... de personas que se interponen en el camino.

Requisitos para el escritor científico automatizado

Consideremos el desafío de automatizar la elaboración de informes científicos sobre las últimas investigaciones académicas. Para ser justos, lo limitaremos principalmente a las categorías de informática de las muy populares plataformas sin muro de pago. dominio arxiv de la Universidad de Cornell, que al menos tiene una serie de características sistemáticas con plantillas que se pueden conectar a una canalización de extracción de datos.

Supongamos también que la tarea en cuestión, como en el caso del nuevo artículo de Brasil, es iterar a través de los títulos, resúmenes, metadatos y (si está justificado) el contenido del cuerpo de nuevos artículos científicos en busca de constantes, parámetros confiables, tokens e información de dominio procesable y reducible.

Este es, después de todo, el principio sobre el que se basan nuevos marcos están ganando terreno en las áreas de informes de terremotos, escritura deportiva, periodismo financiero y cobertura de salud, y un punto de partida razonable para el periodista científico impulsado por IA.

El flujo de trabajo de la nueva oferta brasileña. El documento científico en PDF se convierte a texto sin formato UTF-8 (aunque esto eliminará el énfasis en cursiva que puede tener un significado semántico), y las secciones del artículo se etiquetan y extraen antes de pasarlas para el filtrado de texto. El texto deconstruido se divide en oraciones como marcos de datos, y los marcos de datos se fusionan antes de la identificación del token y la generación de dos matrices de doc-token Fuente: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

Complicando la plantilla

Una capa alentadora de conformidad y regularización es que Arxiv impone una plantilla bastante bien aplicada para las presentaciones, y proporciona pautas detalladas para los autores que envían. Por lo tanto, los documentos generalmente se ajustan a las partes del protocolo que se aplican al trabajo que se describe.

Por lo tanto, el sistema de preprocesamiento de IA para el supuesto escritor científico automatizado generalmente puede tratar dichas secciones como subdominios: resumen, introducción, trabajo anterior/relacionado, metodología/datos, resultados/descubrimientos, estudios de ablación, discusión, conclusión.

Sin embargo, en la práctica, algunas de estas secciones pueden faltar, haber cambiado de nombre o contener contenido que, en sentido estricto, pertenece a otra sección. Además, es natural que los autores incluyan encabezados y subtítulos que no se ajusten a la plantilla. Por lo tanto, corresponderá a la PNL/PLN identificar el contenido pertinente a la sección a partir del contexto.

Rumbo al problema

Una jerarquía de encabezados es una forma sencilla para que los sistemas de PLN categoricen inicialmente bloques de contenido. Muchos envíos de Arxiv se exportan desde Microsoft Word (como se evidencia en los PDF de Arxiv mal gestionados que dejan "Microsoft Word" en el encabezado del título; vea la imagen a continuación). Si usa correctamente... encabezados de sección en Word, una exportación a PDF los recreará como encabezados jerárquicos que son útiles para los procesos de extracción de datos de una máquina reportera.

Sin embargo, esto supone que los autores en realidad están utilizando dichas funciones en Word u otros marcos de creación de documentos, como TeX y derivados (rara vez se proporcionan como formatos alternativos nativos en los envíos de Arxiv, con la mayoría de las ofertas limitadas a PDF y, ocasionalmente, el aún más opaco Posdata).

Basándome en años de lectura de artículos de Arxiv, he notado que la gran mayoría de ellos no contienen cualquier metadatos estructurales interpretables, con el título informado en el lector (es decir, un navegador web o un lector de PDF) como el título completo (incluida la extensión), del documento mismo.

En este caso, la interpretabilidad semántica del artículo es limitada, y un sistema de redacción científica basado en IA deberá vincularlo programáticamente a sus metadatos asociados en el dominio Arxiv. La convención de Arxiv dicta que los metadatos básicos también se insertan lateralmente en letra gris grande en la página 1 del PDF enviado (véase la imagen a continuación). Lamentablemente, sobre todo porque este es el único lugar fiable donde se puede encontrar la fecha de publicación o el número de versión, a menudo se excluyen.

Muchos autores no usan estilos en absoluto, o solo usan el estilo H1 (encabezado/título más alto), dejando que NLU extraiga los encabezados una vez más. del contexto (probablemente no tan difícil), o analizando el número de referencia que comprende el título en la ruta del documento (es decir, https://arxiv.org/pdf/2110.00168.pdf) y valiéndose de metadatos basados en la red (en lugar de locales) para la presentación.

Aunque este último no resolverá los encabezados ausentes, al menos establecerá a qué sección de Informática se aplica la presentación y proporcionará información sobre la fecha y la versión.

Texto pegado en ParagraphReturns

Dado que PDF y PostScript son los formatos de Arxiv más comunes disponibles enviados por los autores, el sistema NLP necesitará una rutina para separar las palabras de final de línea de las palabras de inicio de línea subsiguientes que se "adjuntan" a ellas mediante los desafortunados métodos de optimización predeterminados del formato PDF.

Desconcatenar (y quitar guiones) las palabras se pueden lograr en Perl y muchas otras rutinas recursivas simples, aunque un Enfoque basado en Python podría consumir menos tiempo y estar más adaptado a un marco de ML. Adobe, el creador del formato PDF, también ha desarrollado un sistema de conversión habilitado para IA llamado Modo líquido, capaz de 'refluir' texto horneado en archivos PDF, aunque su implementación más allá del espacio móvil ha resultado lenta.

Inglés pobre

El inglés sigue siendo el estándar científico mundial para enviar artículos científicos, aunque esto es polémico. Por lo tanto, los periódicos interesantes y de interés periodístico a veces contienen pésimas normas de inglés, de investigadores no ingleses. Si el uso hábil del inglés se incluye como una métrica de valor cuando un sistema de máquina evalúa el trabajo, entonces no solo se perderán las buenas historias, sino que la producción pedante de menor valor se calificará más alto simplemente porque dice muy poco muy bien.

Es probable que los sistemas de PNL que son inflexibles en este sentido experimenten una capa adicional de obstáculos en la extracción de datos, excepto en las ciencias más rígidas y parametrizadas, como la química y la física teórica, donde los gráficos y tablas se ajustan de manera más uniforme en las comunidades científicas globales. Aunque los artículos sobre aprendizaje automático suelen presentar fórmulas, es posible que estas no representen el valor definitorio de la presentación en ausencia del consenso científico plenamente establecido sobre la metodología que disfrutan las ciencias más antiguas.

Selección: Determinación de los requisitos de la audiencia

En breve volveremos a los numerosos problemas que plantea la descomposición de artículos científicos excéntricos en datos discretos. Ahora, consideremos nuestra audiencia y objetivos, ya que estos serán esenciales para ayudar a la IA del escritor científico a filtrar miles de artículos por semana. Predecir el éxito de posibles noticias ya es... un área activa en aprendizaje automático.

Si, por ejemplo, el tráfico científico de gran volumen es el único objetivo de un sitio web donde la redacción científica es solo un elemento de una oferta periodística más amplia (como es el caso del sitio web del Reino Unido) Correo diario sección de ciencia), se puede requerir una IA para determinar los temas más taquilleros en términos de tráfico y optimizar su selección hacia eso. Este proceso probablemente priorizará (relativamente) las frutas maduras como los robots, drones, deepfakes, política de privacidad y vulnerabilidades de seguridad.

De acuerdo con el estado actual de la técnica en los sistemas de recomendación, es probable que esta recolección de alto nivel conduzca a 'burbuja de filtro' problemas para nuestra IA escritora científica, ya que el algoritmo presta mayor atención a una serie de artículos científicos más espurios que presentan palabras clave y frases de alta frecuencia "deseables" sobre estos temas (de nuevo, porque hay dinero de por medio en ellos, tanto en términos de tráfico, para los medios de comunicación, y financiación, para los departamentos académicos), mientras ignora algunos de los "huevos de Pascua" mucho más escribibles (ver más abajo) que se pueden encontrar en muchos de los rincones menos frecuentados de Arxiv.

¡Uno y Listo!

Las buenas noticias científicas pueden surgir de lugares extraños e inesperados, y de sectores y temas previamente infructuosos. Para mayor confusión de nuestro escritor de ciencia de IA, que esperaba crear un índice productivo de fuentes de noticias "fructíferas", la fuente de un éxito inusual (como un servidor de Discord, un departamento de investigación académica o una startup tecnológica) a menudo... nunca más producir material procesable, mientras continúa generando un flujo de información voluminoso y ruidoso de menor valor.

¿Qué puede deducir de esto una arquitectura iterativa de aprendizaje automático? ¿Que las miles de fuentes de noticias atípicas que identificó y excluyó ahora deben priorizarse (aunque esto generaría una relación señal-ruido incontrolable, considerando el alto volumen de artículos publicados anualmente)? ¿Que el tema en sí mismo merece una capa de activación más que la fuente de noticias de la que proviene (lo cual, en el caso de un tema popular, es una acción redundante)?

Más útil aún, el sistema podría aprender que tiene que moverse hacia arriba o hacia abajo en la jerarquía de dimensionalidad de los datos en busca de patrones –si realmente hay alguno– que constituyan lo que mi difunto abuelo periodista llamó “nariz para las noticias” y definan la característica de interés periodístico como una cualidad itinerante y abstracta que no puede predecirse con precisión basándose solo en su procedencia y que se puede esperar que mute a diario.

Identificación del fracaso de la hipótesis

Debido a el presión de cuotaEn ocasiones, los departamentos académicos publican trabajos en los que la hipótesis central ha fracasado completamente (o casi completamente) al ser puesta a prueba, aun cuando los métodos y hallazgos del proyecto merezcan un poco de interés por sí mismos.

Tales decepciones a menudo no se señalan en los resúmenes; en el peor de los casos, las hipótesis refutadas son discernibles solo mediante la lectura de los gráficos de resultados. Esto no solo implica inferir una comprensión detallada de la metodología a partir de la información limitada y altamente selecta que el documento puede proporcionar, sino que también requeriría algoritmos de interpretación de gráficos expertos que puedan interpretar de manera significativa todo, desde un gráfico circular hasta un diagrama de dispersión, en contexto.

Un sistema basado en PNL que confía en los resúmenes, pero no puede interpretar los gráficos y tablas, podría entusiasmarse bastante con un nuevo artículo en su primera lectura. Desafortunadamente, los ejemplos previos de "fallas ocultas" en artículos académicos son (para fines de formación) difíciles de generalizar en patrones, ya que este "delito académico" se debe principalmente a la omisión o al énfasis insuficiente, y por lo tanto, es difícil de detectar.

En un caso extremo, nuestro escritor de IA puede necesitar ubicar y probar los datos del repositorio (es decir, de GitHub), o analizar cualquier material complementario disponible, para comprender qué significan los resultados en términos de los objetivos de los autores. Por lo tanto, un sistema de aprendizaje automático necesitaría atravesar las múltiples fuentes y formatos no mapeados involucrados en esto, lo que hace que la automatización de los procesos de verificación sea un desafío arquitectónico.

Escenarios de 'caja blanca'

Algunas de las afirmaciones más escandalosas en artículos sobre seguridad centrados en la IA requieren niveles de acceso extraordinarios y muy improbables al código fuente o a la infraestructura fuente: ataques de "caja blanca". Si bien esto es útil para extrapolar peculiaridades previamente desconocidas en las arquitecturas de los sistemas de IA, casi nunca representa una superficie de ataque explotable de forma realista. Por lo tanto, el autor de artículos científicos sobre IA necesitará un buen detector de mentiras para descomponer las afirmaciones sobre seguridad en probabilidades para una implementación efectiva.

El escritor científico automatizado necesitará una rutina NLU capaz de aislar las menciones de "caja blanca" en un contexto significativo (es decir, para distinguir las menciones de las implicaciones centrales para el artículo) y la capacidad de deducir la metodología de caja blanca en casos donde la frase nunca aparece en el artículo.

Otras 'trampas'

Otros lugares donde la inviabilidad y el fracaso de la hipótesis pueden terminar bastante enterrados son en el estudios de ablación, que eliminan sistemáticamente elementos clave de una nueva fórmula o método para comprobar si los resultados se ven afectados negativamente o si un descubrimiento fundamental es resiliente. En la práctica, los artículos que incluyen estudios de ablación suelen estar bastante seguros de sus hallazgos, aunque una lectura atenta a menudo puede descubrir un engaño. En la investigación de IA, ese engaño a menudo equivale a... sobreajuste, donde un sistema de aprendizaje automático funciona admirablemente con los datos de investigación originales, pero no logra generalizar a nuevos datos, o bien opera bajo otras restricciones no reproducibles.

Otro título de sección útil para la posible extracción sistemática es LimitacionesEsta es la primera sección que cualquier escritor científico (IA o humano) debería saltar, ya que puede contener información que anule la hipótesis del artículo por completo, y saltar a ella puede ahorrar horas de trabajo perdidas (al menos, para el humano). En el peor de los casos, un artículo realmente tiene... Limitaciones sección, pero se incluyen los hechos "comprometedores" en otra parte en el trabajo, y no aquí (o se minimizan aquí).

El siguiente es Trabajo prioritario. Esto ocurre al principio de la plantilla de Arxiv y, con frecuencia, revela que el documento actual representa solo un avance menor en un proyecto mucho más innovador, generalmente de los 12 a 18 meses anteriores. En esta etapa, el escritor de IA necesitará la capacidad de establecer si el trabajo anterior logró tracción; ¿Todavía hay una historia aquí? ¿Pasó inmerecidamente el trabajo anterior más allá de la atención pública en el momento de la publicación? ¿O es el nuevo documento solo una posdata superficial de un proyecto anterior bien cubierto?

Evaluación de recauchutados y frescura

Además de corregir erratas en una versión anterior, con frecuencia la V.2 de un artículo representa poco más que la reivindicación de los autores por la atención que no recibieron cuando se publicó la V.1. Sin embargo, con frecuencia, un artículo merece una segunda oportunidad, ya que la atención de los medios pudo haberse desviado a otras áreas en el momento de la publicación original, o el trabajo quedó eclipsado por el alto volumen de envíos en periodos de simposios y congresos concurridos (como otoño y finales de invierno).

Una función útil de Arxiv para distinguir una repetición es la etiqueta [ACTUALIZADO] que se añade a los títulos de los envíos. El sistema de recomendación interno de nuestro escritor de IA deberá considerar cuidadosamente si... [ACTUALIZADO]=='Se acabó', particularmente porque puede (presumiblemente) evaluar el papel recalentado mucho mas rápido que un hacker científico bajo presión. En este sentido, tiene una ventaja notable sobre los humanos, gracias a una convención de nomenclatura que probablemente perdure, al menos en Arxiv.

Arxiv también brinda información en la página de resumen sobre si se ha identificado que el artículo tiene un "cruce significativo" de texto con otro artículo (a menudo de los mismos autores), y esto también puede analizarse potencialmente en un estado de "duplicado/reencuadernado" por un sistema de escritura de IA en ausencia de la etiqueta [ACTUALIZADO].

Determinación de la difusión

Como la mayoría de los periodistas, nuestro escritor científico de IA proyectado está buscando noticias no reportadas o no reportadas, para agregar valor al flujo de contenido que admite. En la mayoría de los casos, volver a informar sobre los avances científicos apareció por primera vez en los principales medios, como TechCrunch, The Verge y EurekaAlert. et al no tiene sentido, ya que plataformas tan grandes sustentan sus contenidos con exhaustivas máquinas publicitarias, que prácticamente garantizan la saturación mediática del diario.

Por lo tanto, nuestro escritor de IA debe determinar si la historia es lo suficientemente fresca como para que valga la pena seguirla.

La forma más fácil, en teoría, sería identificar los últimos enlaces entrantes a las páginas principales de investigación (resumen, PDF, sección de noticias del sitio web del departamento académico, etc.). En general, los marcos que pueden proporcionar información actualizada de enlaces entrantes no son de código abierto ni de bajo costo, pero los principales editores presumiblemente podrían asumir los gastos de SaaS como parte de un marco de evaluación de interés periodístico.

Suponiendo tal acceso, nuestra IA de escritor científico se enfrenta al problema de que una gran cantidad de medios de información científica no citar Los artículos sobre los que escriben, incluso en casos donde esa información está disponible gratuitamente. Después de todo, un medio busca que los reportajes secundarios los vinculen a ellos, en lugar de a la fuente. Dado que, en muchos casos, han obtenido acceso privilegiado o semiprivilegiado a un artículo de investigación (véase El escritor de ciencias sociales abajo), tienen un pretexto falso para esto.

Por lo tanto, nuestro escritor de IA deberá extraer palabras clave accionables de un documento y realizar búsquedas con tiempo limitado para establecer dónde, si es que en algún lugar, la historia ya se ha publicado, y luego evaluar si se puede descartar alguna difusión previa o si la historia se desarrolla. .

En ocasiones, los artículos incluyen material de video complementario en YouTube, donde el recuento de visualizaciones puede servir como índice de difusión. Además, nuestra IA puede extraer imágenes del artículo y realizar búsquedas sistemáticas basadas en imágenes para determinar si alguna de ellas se ha republicado, dónde y cuándo.

Huevos de Pascua

A veces, un artículo "seco" revela hallazgos que tienen implicaciones profundas y dignas de mención, pero que los autores minimizan (o incluso pasan por alto o descartan), y que solo se revelarán al leer el artículo completo y hacer los cálculos.

En casos excepcionales, creo, esto se debe a que los autores están mucho más preocupados por la recepción en el ámbito académico que en el público en general, tal vez porque sienten (no siempre incorrectamente) que los conceptos centrales involucrados simplemente no se pueden simplificar lo suficiente para el consumo general, a pesar de los esfuerzos a menudo hiperbólicos de los departamentos de relaciones públicas de sus instituciones.

Pero con la misma frecuencia, los autores pueden desestimar o, de lo contrario, ignorar o reconocer las implicaciones de su trabajo, operando oficialmente bajo una estricta discreción científica. En ocasiones, estos "huevos de Pascua" no son indicadores positivos del trabajo, como se mencionó anteriormente, y pueden quedar cínicamente ocultos en complejas tablas de hallazgos.

Más allá de Arxiv

Se debe tener en cuenta que parametrizar artículos sobre ciencias de la computación en tokens y entidades discretos será mucho más fácil en un dominio como Arxiv, que proporciona una serie de "ganchos" consistentes y con plantillas para analizar, y no requiere inicios de sesión para la mayoría de las funciones.

No todo el acceso a publicaciones científicas es de código abierto, y queda por ver si (desde un punto de vista práctico o legal) nuestro escritor científico de IA puede o recurrirá a evadir los muros de pago a través de Sci-Hub; al uso de sitios de archivo para obviar los muros de pago; y si es factible construir arquitecturas de minería de dominio similares para una amplia variedad de otras plataformas de publicación científica, muchas de las cuales son estructuralmente resistentes al sondeo sistemático.

Debe considerarse además que incluso Arxiv tiene límites de velocidad que probablemente ralentizarán las rutinas de evaluación de noticias de un escritor de IA a una velocidad más "humana".

El escritor científico de IA "social"

Más allá del ámbito abierto y accesible de Arxiv y otras plataformas de publicación científica "abiertas" similares, incluso obtener acceso a un artículo nuevo e interesante puede ser un desafío, ya que implica localizar un canal de contacto para un autor y acercarse a él para solicitar leer el trabajo e incluso obtener citas (donde la presión del tiempo no es un factor primordial, un caso raro para los periodistas de ciencias humanas en estos días).

Esto puede implicar la navegación automatizada de dominios científicos y la creación de cuentas (es necesario iniciar sesión para revelar la dirección de correo electrónico del autor de un artículo, incluso en Arxiv). La mayoría de las veces, LinkedIn es la forma más rápida de obtener una respuesta, pero los sistemas de IA actualmente... prohibido contactar a los miembros.

En cuanto a cómo los investigadores recibirían solicitudes por correo electrónico de un escritor científico AI, bueno, al igual que con el mundo de la escritura científica de la carne, probablemente dependa de la influencia del medio. Si un supuesto escritor basado en IA de Con conexión de cable Si me puse en contacto con un autor que estaba deseoso de difundir su trabajo, es razonable suponer que no recibiría una respuesta hostil.

En la mayoría de los casos, uno puede imaginar que el autor estaría esperando que estos intercambios semiautomatizados eventualmente pudieran convocar a un humano al proceso, pero no está fuera del ámbito de la posibilidad que las entrevistas de seguimiento por VOIP puedan ser facilitadas por una IA, al menos cuando se prevé que la viabilidad del artículo esté por debajo de un cierto umbral y cuando la publicación tenga suficiente tracción para atraer la participación humana en una conversación con un "investigador de IA".

Identificación de noticias con IA

Muchos de los principios y desafíos descritos aquí se aplican al potencial de la automatización en otros sectores del periodismo y, como siempre, identificar una historia potencial es el desafío principal. La mayoría de los periodistas humanos admitirán que, en realidad, escribir la historia es solo el último 10% del esfuerzo, y que para cuando el teclado suena, la mayor parte del trabajo ha terminado.

El mayor desafío, entonces, es desarrollar sistemas de IA que puedan detectar, investigar y autenticar una historia, basándose en las muchas vicisitudes arcanas del juego de noticias, y atravesando una amplia gama de plataformas que ya están reforzadas contra el sondeo y la exfiltración, humanos o de lo contrario.

En el caso de los reportajes científicos, los autores de nuevos artículos tienen una agenda de autoservicio tan profunda como cualquier otra fuente principal potencial de una noticia, y deconstruir su producción implicará incrustar conocimientos previos sobre motivaciones sociológicas, psicológicas y económicas. Por lo tanto, un escritor científico supuestamente automatizado necesitará más que rutinas reductivas de PNL para establecer dónde están las noticias hoy, a menos que el dominio de las noticias esté particularmente estratificado, como es el caso de las acciones, las cifras de pandemias, los resultados deportivos, la actividad sísmica y otras fuentes de noticias puramente estadísticas. .