KĂŒnstliche Intelligenz
DocLang zielt darauf ab, die universelle Sprache fĂŒr AI-fĂ€hige Dokumente zu werden

Seit Jahrzehnten verlassen sich Unternehmen auf Dokumentformate, die für menschliche Leser und nicht für KI-Systeme entwickelt wurden. Verträge, Rechnungen, Berichte, Präsentationen, Formulare und unzählige andere Geschäftsdokumente enthalten wertvolle Informationen, doch das Extrahieren dieser Kenntnisse für KI-Anwendungen erfordert oft komplexe Verarbeitungspipelines, die Kosten, Latenz und Fehlermöglichkeiten hinzufügen.
Da Unternehmen zunehmend generative KI und autonome Agenten einsetzen, ist diese Trennung zu einer wachsenden Herausforderung geworden. Um dies zu bewältigen, hat ABBYY sich mit IBM, NVIDIA, Red Hat, HumanSignal und der Linux Foundation’s LF AI & Data Foundation zusammengetan, um DocLang zu starten, einen neuen offenen Standard, der darauf abzielt, eine KI-natürliche Darstellung von Dokumenten zu schaffen. Die Unterstützer dieser Initiative glauben, dass sie eine ähnliche Rolle wie die Standardisierung von Web-Inhalten durch HTML spielen könnte, indem sie eine gemeinsame Sprache schaffen, die es KI-Systemen ermöglicht, Dokumente konsistenter und effizienter zu verstehen.
Warum Dokumente zu einem KI-Problem geworden sind
Die meisten Geschäftskennnisse der Welt existieren in Formaten wie PDFs, gescannten Bildern, Tabellenkalkulationen und Präsentationen. Obwohl diese Formate für den menschlichen Verbrauch geeignet sind, wurden sie nie für die maschinelle Verarbeitung entwickelt.
Menschen können sofort Überschriften, Tabellen, Beziehungen zwischen Abschnitten und die Bedeutung von Informationen basierend auf ihrer Position innerhalb eines Dokuments erkennen. KI-Systeme hingegen erfordern oft mehrere Schichten von OCR, Layoutanalyse, Dokumentenanalyse und Nachbearbeitung, bevor sie den gleichen Inhalt zuverlässig interpretieren können.
Diese Herausforderung wird noch bedeutender, da Unternehmen KI-Agenten einsetzen, die in der Lage sind, über große Sammlungen von Unternehmensdaten zu verfügen. Jedes Dokument muss zunächst in eine strukturierte Darstellung umgewandelt werden, bevor es von Sprachmodellen, Abrufsystemen oder automatisierten Workflows effektiv genutzt werden kann.
Das Ergebnis ist ein fragmentiertes Ökosystem, in dem verschiedene Tools oft ihre eigenen Dokumentendarstellungen erstellen, was die Interoperabilität erschwert und die Wahrscheinlichkeit von Inkonsistenzen erhöht.
Wie ABBYY die Vision mitgestaltet hat
ABBYY ist als einer der wichtigsten Beiträger hinter der DocLang-Initiative hervorgegangen. Das Unternehmen hat Jahrzehnte damit verbracht, Dokumentenintelligenz, OCR und Automatisierungstechnologien zu entwickeln, was ihm eine einzigartige Perspektive auf die Herausforderungen gibt, mit denen Unternehmen konfrontiert sind, wenn sie versuchen, die Lücke zwischen traditionellen Dokumenten und modernen KI-Systemen zu überbrücken.
Laut Maxime Vermeir, Vice President of AI Strategy bei ABBYY, entstand die Idee für DocLang aus Gesprächen innerhalb der Dokumenten-KI-Gemeinschaft über die Notwendigkeit einer gemeinsamen Darstellungsebene, die zwischen rohen Dokumenten und KI-Anwendungen liegen könnte.
“DocLang ist darauf ausgelegt, eines der grundlegenden Probleme im Unternehmens-KI-Bereich zu lösen: Dokumente wurden für Menschen und nicht für Maschinen entwickelt”, erklärte Vermeir.
Statt jedes KI-System zu zwingen, Dokumentenlayouts, Tabellen, Beziehungen, Metadaten und Strukturen unabhängig zu interpretieren, zielt DocLang darauf ab, einen standardisierten Rahmen zu schaffen, der über Plattformen und Anwendungen hinweg geteilt werden kann.
Das Ziel ist es, das Dokumentenverständnis zuverlässiger zu machen, Halluzinationen zu reduzieren, die durch fehlenden Kontext verursacht werden, und die Rechenkosten zu senken, die mit der wiederholten Verarbeitung der gleichen Informationen verbunden sind.
Was genau ist DocLang?
DocLang ist eine offene Spezifikation für die Darstellung von Dokumenten in einem Format, das speziell für KI-Systeme optimiert ist.
Im Gegensatz zu herkömmlichen Formaten, die sich hauptsächlich auf die visuelle Präsentation konzentrieren, ist DocLang darauf ausgelegt, mehrere Schichten von Informationen gleichzeitig zu bewahren, einschließlich:
- Semantische Bedeutung
- Dokumentenstruktur und Hierarchie
- Geometrische Layout und Positionierung
- Tabellen und komplexe Dokumentenelemente
- Metadaten
- Governance und Nutzungssteuerung
Dieser Ansatz ermöglicht es KI-Systemen, nicht nur zu verstehen, welche Informationen in einem Dokument enthalten sind, sondern auch, wie diese Informationen organisiert und miteinander in Beziehung stehen.
Beispielsweise trägt ein Wert, der in einer finanziellen Tabelle enthalten ist, Bedeutung nicht nur aufgrund der Zahl selbst, sondern auch aufgrund seiner Beziehung zu umliegenden Zeilen, Spalten, Überschriften und Kontextinformationen. Die Bewahrung dieser Beziehungen in einem standardisierten Format kann KI-Systemen helfen, genauer über den Inhalt von Dokumenten zu urteilen.
DocLang umfasst auch Governance-Steuerungen, die es Organisationen ermöglichen, festzulegen, wie Dokumenteninhalte verwendet werden dürfen, einschließlich Richtlinien im Zusammenhang mit Datenschutz, Extraktion und KI-Modelltraining.
Der HTML-Vergleich
Die Unterstützer der Initiative vergleichen DocLang häufig mit der Rolle von HTML bei der Evolution des Webs.
Bevor HTML weit verbreitet war, gab es keine universelle Möglichkeit für Browser, Inhalte konsistent zu interpretieren und anzuzeigen. HTML führte eine gemeinsame Struktur ein, die es Webseiten ermöglichte, über verschiedene Systeme und Plattformen hinweg verstanden zu werden.
DocLang zielt darauf ab, eine ähnliche Standardisierung für Unternehmensdokumente zu erreichen. Statt dass jedes KI-Plattform seine eigene Interpretation der Dokumentenstruktur entwickelt, könnte ein gemeinsames Format eine gemeinsame Grundlage für das Dokumentenverständnis im breiteren KI-Ökosystem bieten.
Da die KI-Adoption beschleunigt wird, argumentieren die Befürworter, dass standardisierte Dokumentendarstellungen immer wichtiger für die Gewährleistung der Interoperabilität zwischen Modellen, Anwendungen und autonomen Agenten werden könnten.
Wie DocLang und Docling zusammenarbeiten
Die Initiative baut auch auf Docling auf, dem Open-Source-Dokumentenverarbeitungstoolkit, das ursprünglich von IBM Research Zurich entwickelt und 2024 als Open Source veröffentlicht wurde.
Docling konzentriert sich auf die Dokumenteneingabe und -umwandlung. Es kann PDFs, Word-Dokumente, Tabellenkalkulationen, Präsentationen, HTML-Dateien und Bilder verarbeiten und sie in strukturierte Darstellungen umwandeln, indem es fortschrittliche Layoutanalyse und Dokumentenverständnismodelle verwendet.
DocLang ergänzt diese Fähigkeit, indem es ein standardisiertes Format für die Darstellung und den Austausch der strukturierten Ausgabe bereitstellt, die durch Tools wie Docling generiert wird.
Zusammen schaffen die Projekte einen umfassenderen Dokumenten-KI-Stack:
- Docling übernimmt die Eingabe und Dokumentenverständnis
- DocLang bietet eine universelle Darstellungsebene
- KI-Modelle und -Agenten nutzen die resultierenden strukturierten Informationen
Diese Trennung hilft, Fragmentierung zu reduzieren, während sie einen gemeinsamen Rahmen schafft, den verschiedene Anbieter und Entwickler übernehmen können.
Warum offene Standards für Unternehmens-KI wichtig sind
Da Unternehmens-KI-Einsätze von Experimenten zu Produktionsumgebungen übergehen, wird die Interoperabilität immer wichtiger.
Unternehmen verlassen sich selten auf ein einzelnes KI-Modell, Dokumentenplattform oder Softwareanbieter. Stattdessen betreiben sie komplexe Ökosysteme, die eine nahtlose Informationsübertragung zwischen Systemen erfordern.
Offene Standards haben historisch eine entscheidende Rolle bei der Ermöglichung der Technologieadoption gespielt, indem sie gemeinsame Rahmenbedingungen schufen, die die Integrationskomplexität und die Anbieterabhängigkeit reduzieren. Kubernetes half, cloud-nativen Infrastrukturen zu standardisieren, während HTML die Grundlage des modernen Webs bildete.
Die Unterstützer von DocLang glauben, dass KI-natürliche Dokumentenstandards eine ähnliche Funktion für die Dokumentenintelligenz und die agentenbasierten KI-Workflows spielen könnten.
Blick in die Zukunft
Die KI-Branche hat enorme Anstrengungen unternommen, um Maschinen zu lehren, Dokumente zu interpretieren, die nie für die maschinelle Verarbeitung entwickelt wurden. DocLang stellt einen Versuch dar, diese Herausforderung an ihrer Wurzel zu bekämpfen, indem es eine Dokumentsprache schafft, die speziell für KI entwickelt wurde.
Wenn die Initiative erfolgreich ist, könnte sie dazu beitragen, die Dokumenteninterpretation zu verbessern, Halluzinationen zu reduzieren, die durch fehlenden Kontext verursacht werden, die Verarbeitungskosten zu senken und es KI-Systemen zu ermöglichen, Informationen über Plattformen hinweg auszutauschen.
Zu einer Zeit, in der Unternehmen zunehmend auf KI-Agenten angewiesen sind, um große Sammlungen von Geschäftskennnissen zu navigieren, könnte die Standardisierung der Dokumentenrepräsentation genauso wichtig sein wie die Weiterentwicklung der Modelle selbst. Für ABBYY und seine Kollaborateure ist DocLang ein Versuch, die Grundlage zu schaffen, die diese Zukunft möglich machen könnte.












