Connect with us

Inteligencia artificial

Abordar la montaña de PDF del gobierno de EE. UU. con visión por computadora

mm

El formato de PDF de Adobe se ha arraigado tan profundamente en las tuberías de documentos del gobierno de EE. UU. que el número de documentos estatales actualmente en existencia se estima conservadoramente en cientos de millones. A menudo opacos y carecientes de metadatos, estos PDF – muchos creados por sistemas automatizados – colectivamente no cuentan historias o sagas; si no sabes exactamente lo que estás buscando, probablemente nunca encontrarás un documento pertinente. Y si lo sabes, probablemente no necesitabas la búsqueda. Sin embargo, un nuevo proyecto está utilizando visión por computadora y otros enfoques de aprendizaje automático para cambiar esta casi inaccesible montaña de datos en un recurso valioso y explorable para investigadores, historiadores, periodistas y académicos.

Cuando el gobierno de EE. UU. descubrió el formato de documento portátil de Adobe (PDF) en la década de 1990, decidió que le gustaba. A diferencia de los documentos de Word editables, los PDF podían ser “cocidos” de diversas maneras que los hacían difíciles o incluso imposibles de modificar más adelante; las fuentes podían incrustarse, garantizando la compatibilidad entre plataformas; y la impresión, la copia y incluso la apertura podían controlarse de manera granular.

Más importante aún, estas características básicas estaban disponibles en algunas de las especificaciones “base” más antiguas del formato, prometiendo que el material de archivo no necesitaría ser reprocesado o revisitado más adelante para garantizar la accesibilidad. Casi todo lo que el gobierno necesitaba para publicar estaba en su lugar para 1996.

Con la tecnología de blockchain y NFT décadas por delante, el PDF era lo más cercano que la era digital emergente podía obtener a un documento analógico “muerto”, a solo un concepto de distancia de un fax. Esto era exactamente lo que se quería.

Disentimiento interno sobre PDF

La medida en que los PDF son herméticos, intractables y “no sociales” se caracteriza en la documentación sobre el formato en la Biblioteca del Congreso, que favorece el PDF como su “formato preferido”:

‘El propósito principal del formato PDF/A es representar documentos electrónicos de una manera que preserve su apariencia visual estática con el tiempo, independientemente de las herramientas y sistemas utilizados para crear, almacenar o renderizar los archivos. Con este fin, PDF/A intenta maximizar la independencia del dispositivo, la autocontención y la autodocumentación.’

La entusiasta continuación del formato PDF, los estándares para la accesibilidad y los requisitos para una versión mínima varían a través de los departamentos del gobierno de EE. UU. Por ejemplo, mientras que la Agencia de Protección Ambiental tiene políticas estrictas pero de apoyo en este respecto, el sitio web oficial del gobierno de EE. UU. plainlanguage.gov reconoce que ‘los usuarios odian los PDF’, e incluso enlaza directamente a un informe de 2020 del Nielsen Norman Group titulado PDF: todavía no apto para el consumo humano, 20 años después.

Mientras tanto, irs.gov, creado en 1995 específicamente para transitar la documentación de la agencia de impuestos a digital, adoptó inmediatamente el PDF y sigue siendo un defensor entusiasta.

La propagación viral de los PDF

Desde que las especificaciones básicas para PDF se lanzaron a código abierto por Adobe, una parte de herramientas de procesamiento de servidor y bibliotecas han surgido, muchas de las cuales ahora son venerables y arraigadas como las especificaciones de PDF de la era de 1996, y tan confiables y resistentes a errores, mientras que los vendedores de software se apresuraron a integrar la funcionalidad de PDF en herramientas de bajo costo.

En consecuencia, amados o odiados por sus departamentos anfitriones, los PDF siguen siendo ubicuos en los marcos de comunicación y documentación a través de una gran cantidad de departamentos del gobierno de EE. UU.

En 2015, el VP de Ingeniería de Adobe para Document Cloud, Phil Ydens estimó que existen 2,5 billones de documentos PDF en el mundo, mientras que se cree que el formato representa entre el 6-11% de todo el contenido web. En una cultura tecnológica adicta a interrumpir tecnologías antiguas, el PDF se ha convertido en un “óxido” inerradicable, una parte central de la estructura que lo alberga.

Desde 2018. No hay evidencia de un desafío formidable todavía.

Desde 2018. No hay evidencia de un desafío formidable todavía. Fuente: https://twitter.com/trbrtc/status/980407663690502145

Según un estudio reciente de investigadores de la Universidad de Washington y la Biblioteca del Congreso, ‘cientos de millones de documentos gubernamentales únicos de EE. UU. publicados en la web en forma de PDF han sido archivados por bibliotecas hasta la fecha’.

Sin embargo, los investigadores sostienen que esto es solo la “punta del iceberg”:

‘Como el destacado académico de historia digital Roy Rosenzweig había señalado ya en 2003, cuando se trata de fuentes primarias de nacimiento digital para la erudición, es esencial desarrollar métodos y enfoques que se escalen a decenas y cientos de millones e incluso miles de millones de recursos digitales. Ahora hemos llegado al punto en que desarrollar enfoques para esta escala es necesario.

‘Por ejemplo, los archivos web de la Biblioteca del Congreso ahora contienen más de 20 mil millones de recursos digitales individuales.’

PDF: Resistentes al análisis

El proyecto de los investigadores de Washington aplica una serie de métodos de aprendizaje automático a un conjunto de datos público y anotado corpus de 1,000 documentos seleccionados de la Biblioteca del Congreso, con la intención de desarrollar sistemas capaces de recuperación multimodal de texto e imágenes rápidas en marcos que puedan escalarse hasta las alturas de los volúmenes actuales (y en crecimiento) de PDF, no solo en el gobierno, sino en una multiplicidad de sectores.

Como observa el documento, el ritmo acelerado de digitalización en una serie de departamentos gubernamentales de EE. UU. en la década de 1990 condujo a políticas y prácticas divergentes, y con frecuencia a la adopción de métodos de publicación de PDF que no contenían la misma calidad de metadatos que fue una vez el estándar de oro de los servicios de biblioteca gubernamental, o incluso metadatos nativos de PDF básicos, que podrían haber sido de alguna ayuda para hacer que las colecciones de PDF sean más accesibles y amigables para la indexación.

Al discutir este período de interrupción, los autores señalan:

‘Estos esfuerzos llevaron a un crecimiento explosivo de la cantidad de publicaciones gubernamentales, lo que a su vez resultó en un colapso del enfoque general por el cual se producían metadatos consistentes para dichas publicaciones y por el cual las bibliotecas adquirían copias de ellas.’

En consecuencia, una montaña de PDF típica existe sin ningún contexto excepto las URL que enlazan directamente a ella. Además, los documentos en la montaña están encerrados, autoreferenciales y no forman parte de ninguna “saga” o narrativa que los métodos de búsqueda actuales probablemente discernirían, aunque tales conexiones ocultas sin duda existen.

En la escala que se considera, la anotación o curación manual es una perspectiva imposible. El corpus de datos del que se derivaron los 1000 documentos de la Biblioteca del Congreso del proyecto contiene más de 40 millones de PDF, que los investigadores pretenden abordar como un desafío direccional en el futuro cercano.

Visión por computadora para el análisis de PDF

La mayor parte de la investigación previa que citan los autores utiliza métodos basados en texto para extraer características y conceptos de alto nivel del material de PDF; en cambio, su proyecto se centra en derivar características y tendencias examinando los PDF a nivel visual, en línea con la investigación actual en análisis multimodal de contenido de noticias.

Aunque el aprendizaje automático también se ha aplicado de esta manera al análisis de PDF a través de esquemas específicos de sector como Semantic Scholar, los autores pretenden crear tuberías de extracción de alto nivel que sean ampliamente aplicables en una serie de publicaciones, en lugar de ajustarse a las restricciones de la publicación científica o de otros sectores igualmente estrechos.

Abordar datos desequilibrados

Al crear un esquema de métricas, los investigadores han tenido que considerar cómo están sesgados los datos, al menos en términos de tamaño por elemento.

De los 1000 PDF en el conjunto de datos seleccionado (que los autores presumen que son representativos de los 40 millones de los que se derivaron), el 33% tiene solo una página de largo, y el 39% tiene de 2 a 5 páginas de largo. Esto coloca al 72% de los documentos en cinco páginas o menos.

Después de esto, hay un salto considerable: el 18% de los documentos restantes tienen de 6 a 20 páginas, el 6% de 20 a 100 páginas y el 3% más de 100 páginas. Esto significa que los documentos más largos comprenden la mayoría de las páginas individuales extraídas, mientras que un enfoque menos granular que considere los documentos solos sesgaría la atención hacia los documentos más numerosos y más cortos.

Sin embargo, estas son métricas reveladoras, ya que los documentos de una sola página tienden a ser esquemas técnicos o mapas; los documentos de 2 a 5 páginas tienden a ser comunicados de prensa y formularios; y los documentos muy largos son generalmente informes y publicaciones de libro, aunque, en términos de longitud, se mezclan con vastos volcados de datos automatizados que contienen desafíos completamente diferentes para la interpretación semántica.

Por lo tanto, los investigadores están tratando este desequilibrio como una propiedad semántica significativa en sí misma. Sin embargo, los PDF todavía necesitan procesarse y cuantificarse en una base por página.

Arquitectura

Al comienzo del proceso, los metadatos del PDF se analizan en datos tabulares. Estos metadatos no van a faltar, porque consisten en cantidades conocidas como el tamaño del archivo y la URL de origen.

El PDF se divide luego en páginas, con cada página convertida a un formato JPEG a través de ImageMagick. La imagen se alimenta entonces a una red ResNet-50 que deriva un vector de 2,048 dimensiones de la segunda capa más baja.

La tubería para la extracción de PDF.

La tubería para la extracción de PDF. Fuente: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf

Al mismo tiempo, la página se convierte en un archivo de texto mediante pdf2text, y se obtienen featurizaciones TF-IDF a través de scikit-learn.

TF-IDF significa Frecuencia de término – Frecuencia inversa de documento, que mide la prevalencia de cada frase dentro del documento en relación con su frecuencia en todo el conjunto de datos anfitrión, en una escala fina de 0 a 1. Los investigadores han utilizado palabras individuales (unigramas) como la unidad más pequeña en la configuración de TF-IDF del sistema.

Aunque reconocen que el aprendizaje automático tiene métodos más sofisticados para ofrecer que TF-IDF, los autores argumentan que nada más complejo es innecesario para la tarea enunciada.

El hecho de que cada documento tenga una URL de origen asociada permite que el sistema determine la procedencia de los documentos en todo el conjunto de datos.

Esto puede parecer trivial para mil documentos, pero será bastante revelador para 40 millones o más.

Nuevos enfoques para la búsqueda de texto

Uno de los objetivos del proyecto es hacer que los resultados de búsqueda para consultas de texto sean más significativos, permitiendo una exploración fructífera sin la necesidad de conocimiento previo excesivo. Los autores declaran:

‘Si bien la búsqueda de palabras clave es un método de búsqueda intuitivo y altamente extensible, también puede ser limitante, ya que los usuarios son responsables de formular consultas de palabras clave que recuperen resultados relevantes.’

Una vez que se obtienen los valores de TF-IDF, es posible calcular las palabras más comúnmente presentadas y estimar un “documento promedio” en el corpus. Los investigadores sostienen que, dado que estas palabras clave entre documentos suelen ser significativas, este proceso forma relaciones útiles para que los académicos exploren, que no podrían obtenerse únicamente mediante la indexación individual del texto de cada documento.

Visualmente, el proceso facilita un “tablero de estado de ánimo” de palabras que emanan de varios departamentos gubernamentales:

Palabras clave TF-IDF para varios departamentos gubernamentales de EE. UU., obtenidas mediante TF-IDF.

Palabras clave TF-IDF para varios departamentos gubernamentales de EE. UU., obtenidas mediante TF-IDF.

Estas palabras clave y relaciones extraídas se pueden utilizar más adelante para formar matrices dinámicas en los resultados de búsqueda, con el corpus de PDF comenzando a “contar historias”, y las relaciones de palabras clave entretejiendo documentos (posiblemente incluso a lo largo de cientos de años), para esbozar una “saga” explorable multi-partes para un tema o tema.

Los investigadores utilizan el agrupamiento k-means para identificar documentos relacionados, incluso cuando los documentos no comparten una fuente común. Esto permite el desarrollo de metadatos de frase clave aplicables en todo el conjunto de datos, que se manifestarían como clasificaciones para términos en una búsqueda de texto estricta, o como nodos cercanos en un entorno de exploración más dinámico:

Análisis visual

La verdadera novedad del enfoque de los investigadores de Washington es aplicar técnicas de análisis visual basadas en aprendizaje automático a la apariencia rasterizada de los PDF en el conjunto de datos.

De esta manera, es posible generar una etiqueta “REDACTADO” sobre una base visual, donde nada en el texto en sí proporcionaría una base común lo suficientemente común.

Un grupo de páginas de PDF frontales redactadas identificadas por visión por computadora en el nuevo proyecto.

Un grupo de páginas de PDF frontales redactadas identificadas por visión por computadora en el nuevo proyecto.

Además, los mapas y esquemas pueden identificarse y categorizarse de la misma manera, y los autores comentan sobre esta funcionalidad potencial:

‘Para los académicos interesados en divulgaciones de información clasificada o sensible, puede ser de particular interés aislar exactamente este tipo de grupo de material para análisis e investigación.’

El documento señala que una amplia variedad de indicadores visuales comunes a tipos específicos de PDF gubernamental pueden utilizarse de la misma manera para clasificar documentos y crear “sagas”. Tales “tokens” podrían ser el sello del Congreso, o otros logotipos o características visuales recurrentes que no tienen existencia semántica en una búsqueda de texto pura.

Además, los documentos que desafían la clasificación, o donde el documento proviene de una fuente no común, pueden identificarse a partir de su diseño, como columnas, tipos de fuente y otros aspectos distintivos.

El diseño solo puede proporcionar agrupaciones y clasificaciones en un espacio de búsqueda visual.

El diseño solo puede proporcionar agrupaciones y clasificaciones en un espacio de búsqueda visual.

Aunque los autores no han descuidado el texto, es evidente que el espacio de búsqueda visual es lo que ha impulsado este trabajo.

‘La capacidad de buscar y analizar PDF según sus características visuales es así un enfoque capaz: no solo aumenta los esfuerzos existentes que rodean el análisis textual, sino que también reimagina lo que la búsqueda y el análisis pueden ser para el contenido nacido digital.’

Los autores pretenden desarrollar su marco para acomodar conjuntos de datos mucho, mucho más grandes, incluyendo el Archivo web presidencial de fin de mandato de 2008 conjunto de datos, que contiene más de 10 millones de elementos. Inicialmente, sin embargo, pretenden escalar el sistema para abordar “decenas de miles” de PDF gubernamentales.

El sistema está destinado a ser evaluado inicialmente con usuarios reales, incluidos bibliotecarios, archivistas, abogados, historiadores y otros académicos, y evolucionará en función de la retroalimentación de estos grupos.

 

Lidiar con la escala de publicaciones gubernamentales de nacimiento digital: Hacia tuberías para el procesamiento y la búsqueda de millones de PDF está escrito por Benjamin Charles Germain Lee (en la Escuela de Ciencias e Ingeniería de Computación Paul G. Allen) y Trevor Owens, Historiador Público Residente y Jefe de Gestión de Contenido Digital en la Biblioteca del Congreso en Washington, D.C..

 

* Mi conversión de citas en línea a hipervínculos.

Publicado originalmente el 28 de diciembre de 2021

 

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.