Künstliche Intelligenz

Die US-Regierung bei der Bewältigung des PDF-Berges mit Computer-Vision

Published December 28, 2021

Updated April 26, 2026

Martin Anderson

Adobes PDF-Format hat sich so tief in die Dokumentenpipelines der US-Regierung verankert, dass die Anzahl der von den Bundesstaaten ausgestellten Dokumente, die derzeit existieren, auf Hunderte von Millionen geschätzt wird. Oft undurchsichtig und ohne Metadaten, erzählen diese PDFs – viele von automatisierten Systemen erstellt – kollektiv keine Geschichten oder Sagen; wenn Sie nicht genau wissen, wonach Sie suchen, werden Sie wahrscheinlich nie ein relevantes Dokument finden. Und wenn Sie es wussten, brauchten Sie wahrscheinlich keine Suche.Ein neues Projekt verwendet jedoch Computer-Vision und andere maschinelle Lernalgorithmen, um diesen fast unzugänglichen Berg von Daten in eine wertvolle und erforschbare Ressource für Forscher, Historiker, Journalisten und Gelehrte zu verwandeln.

Als die US-Regierung Adobes Portable Document Format (PDF) in den 1990er Jahren entdeckte, entschied sie, dass ihr das gefiel. Im Gegensatz zu bearbeitbaren Word-Dokumenten konnten PDFs auf verschiedene Weise “gebacken” werden, die es schwierig oder sogar unmöglich machten, sie später zu ändern; Schriftarten konnten eingebettet werden, um die Kompatibilität über verschiedene Plattformen hinweg zu gewährleisten; und Drucken, Kopieren und sogar Öffnen konnten auf granularer Basis gesteuert werden.

Wichtiger noch, waren diese Kernfunktionen in einigen der ältesten “Baseline”-Spezifikationen des Formats verfügbar, was versprach, dass archivierte Materialien nicht später noch einmal verarbeitet oder überarbeitet werden mussten, um die Zugänglichkeit zu gewährleisten. Fast alles, was die Regierungspublikation benötigte, war bereits 1996 vorhanden by 1996.

Mit Blockchain-Herkunfts- und NFT-Technologien, die noch Jahrzehnte entfernt waren, war das PDF so nah wie möglich an einem “toten” analogen Dokument, nur ein konzeptionelles Hindernis von einem Fax entfernt. Genau das war gewollt.

Interne Meinungsverschiedenheiten über PDF

Das Ausmaß, in dem PDFs hermetisch, unzugänglich und “nicht-sozial” sind, wird in der Dokumentation zum Format in der Library of Congress charakterisiert, die PDF als ihr “bevorzugtes Format” bevorzugt:

‘Der Hauptzweck des PDF/A-Formats ist es, elektronische Dokumente auf eine Weise darzustellen, die ihr statisches visuelles Erscheinungsbild über die Zeit hinweg unabhängig von den Werkzeugen und Systemen, die für die Erstellung, Speicherung oder Darstellung der Dateien verwendet werden, bewahrt. Zu diesem Zweck versucht PDF/A, die Geräteunabhängigkeit, Selbstenthaltung und Selbstbeschreibung zu maximieren.’

Die anhaltende Begeisterung für das PDF-Format, die Standards für die Zugänglichkeit und die Anforderungen an eine Mindestversion variieren innerhalb der US-Regierungsbehörden. So hat die Umweltschutzbehörde beispielsweise strenge, aber unterstützende Richtlinien in dieser Hinsicht, während die offizielle US-Regierungswebsite plainlanguage.gov anerkennt, dass ‘Benutzer PDF hassen’, und sogar direkt auf einen Bericht von Nielsen Norman Group aus dem Jahr 2020 verweist, der den Titel PDF: Immer noch nicht für den menschlichen Verzehr geeignet, 20 Jahre später trägt.

Währenddessen ist irs.gov, das 1995 speziell zur Umstellung der Dokumentation der Steuerbehörde auf digitale Formate gegründet wurde, sofort zum PDF übergegangen und ist immer noch ein begeisterter Befürworter.

Die virale Verbreitung von PDFs

Seit die Kernspezifikationen für PDF von Adobe als Open Source veröffentlicht wurden, ist eine Reihe von Server-seitigen Verarbeitungstools und Bibliotheken entstanden, von denen viele jetzt als angesehene und etablierte PDF-Spezifikationen aus dem Jahr 1996 sind und als zuverlässig und fehlerresistent gelten, während Softwarehersteller sich beeilten, PDF-Funktionen in günstige Tools zu integrieren.

Folglich bleiben PDFs, ob geliebt oder verhasst von ihren Gastbehörden, in den Kommunikations- und Dokumentationsframeworks über eine enorme Anzahl von US-Regierungsbehörden hinweg ubiquitär.

… (rest of the content remains the same, following the exact same structure and translation rules)

Related Topics:big data data science Government research

Martin Anderson

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.

Unite.AI

Die US-Regierung bei der Bewältigung des PDF-Berges mit Computer-Vision

Interne Meinungsverschiedenheiten über PDF

Die virale Verbreitung von PDFs

You may like