Kunstmatige intelligentie

DocLang Streeft ernaar om de Universele Taal voor AI-klare Documenten te Worden

mm

Decennialang hebben bedrijven documentformaten gebruikt die zijn ontworpen voor menselijke lezers in plaats van AI-systemen. Overeenkomsten, facturen, rapporten, presentaties, formulieren en talloze andere bedrijfsdocumenten bevatten waardevolle informatie, maar het extraheren van die kennis voor AI-toepassingen vereist vaak complexe verwerkingpijpleidingen die kosten, latentie en foutmogelijkheden toevoegen.

Naarmate organisaties steeds vaker generatieve AI en autonome agenten inzetten, is die disconnect een groeiende uitdaging geworden. Om dit aan te pakken, heeft ABBYY zich aangesloten bij IBM, NVIDIA, Red Hat, HumanSignal en de Linux Foundation’s LF AI & Data Foundation om DocLang te lanceren, een nieuwe open standaard die is ontworpen om een AI-natieve weergave van documenten te creëren. Aanhangers van de initiatief geloven dat het een rol kan spelen die vergelijkbaar is met de standaardisatie van webinhoud door HTML, waardoor een gemeenschappelijke taal ontstaat die het AI-systemen mogelijk maakt om documenten meer consistent en efficiënt te begrijpen.

Waarom Documenten een AI-probleem Zijn Geworden

Het grootste deel van de wereldwijde bedrijfskennis bestaat in formaten zoals PDF’s, gescande afbeeldingen, spreadsheets en presentaties. Hoewel deze formaten goed werken voor menselijke consumptie, zijn ze nooit ontworpen voor machinebegrip.

Mensen kunnen onmiddellijk koppen, tabellen, relaties tussen secties en de betekenis van informatie herkennen op basis van de plaatsing binnen een document. AI-systemen daarentegen vereisen vaak meerdere lagen van OCR, lay-outanalyse, documentparsing en post-processing voordat ze de inhoud betrouwbaar kunnen interpreteren.

Deze uitdaging wordt nog groter als organisaties AI-agenten inzetten die in staat zijn om over grote collecties van ondernemingsgegevens te redeneren. Elk document moet eerst worden getransformeerd in een gestructureerde weergave voordat het effectief kan worden gebruikt door taalmodellen, opvragingsystemen of geautomatiseerde workflows.

Het resultaat is een gefragmenteerd ecosysteem waarin verschillende tools vaak hun eigen documentweergaven creëren, waardoor interoperabiliteit moeilijk wordt en de kans op inconsistenties toeneemt.

Hoe ABBYY het Visie heeft Helpen Vormgeven

ABBYY is een van de sleutelbijdragers achter de DocLang-initiatief geworden. Het bedrijf heeft decennialang documentintelligentie, OCR en automatiseringstechnologieën ontwikkeld, waardoor het een uniek perspectief heeft op de uitdagingen waar bedrijven mee te maken krijgen bij het overbruggen van de kloof tussen traditionele documenten en moderne AI-systemen.

Volgens Maxime Vermeir, Vice President of AI Strategy bij ABBYY, is het idee voor DocLang ontstaan uit gesprekken binnen de document AI-gemeenschap over de noodzaak van een gemeenschappelijke weergavelaag die tussen ruwe documenten en AI-toepassingen kan zitten.

“DocLang is ontworpen om een van de fundamentele problemen in ondernemings-AI op te lossen: documenten zijn gebouwd voor mensen, niet voor machines,” legde Vermeir uit.

In plaats van elke AI-systeem te dwingen om onafhankelijk documentlay-outs, tabellen, relaties, metadata en structuur te interpreteren, streeft DocLang ernaar om een gestandaardiseerd kader te creëren dat kan worden gedeeld over platforms en toepassingen.

Het doel is om documentbegrip meer betrouwbaar te maken, hallucinaties veroorzaakt door ontbrekende context te verminderen en de computationele kosten te verlagen die zijn gemoeid met het herhaaldelijk verwerken van dezelfde informatie.

Wat is DocLang Precies?

DocLang is een open specificatie voor het weergeven van documenten in een formaat dat specifiek is geoptimaliseerd voor AI-systemen.

In tegenstelling tot traditionele formaten die zich voornamelijk richten op visuele presentatie, is DocLang ontworpen om meerdere lagen van informatie tegelijk te behouden, waaronder:

  • semantische betekenis
  • documentstructuur en hiërarchie
  • geometrische lay-out en positionering
  • tabellen en complexe documentelementen
  • metadata
  • governance en gebruikscontroles

Deze aanpak stelt AI-systemen in staat om niet alleen te begrijpen welke informatie binnen een document bestaat, maar ook hoe die informatie is georganiseerd en gerelateerd.

Als voorbeeld kan een waarde die is opgenomen in een financiële tabel betekenis hebben, niet alleen vanwege het getal zelf, maar vanwege de relatie met omliggende rijen, kolommen, koppen en contextuele informatie. Het behouden van die relaties in een gestandaardiseerd formaat kan AI-systemen helpen om meer nauwkeurig over documentinhoud te redeneren.

DocLang omvat ook governance-controles die organisaties in staat stellen om te specificeren hoe documentinhoud kan worden gebruikt, inclusief beleid met betrekking tot privacy, extractie en AI-modeltraining.

De HTML-Vergelijking

Aanhangers van de initiatief vergelijken DocLang vaak met de rol van HTML in de evolutie van het web.

Voordat HTML breed werd geadopteerd, was er geen universele manier voor browsers om consistent inhoud te interpreteren en weer te geven. HTML introduceerde een gemeenschappelijke structuur die het mogelijk maakte voor websites om te worden begrepen over verschillende systemen en platforms.

DocLang streeft ernaar om een soortgelijk niveau van standaardisatie te brengen aan ondernemingsdocumenten. In plaats van dat elke AI-platform zijn eigen interpretatie van documentstructuur ontwikkelt, kan een gedeeld formaat een gemeenschappelijke basis bieden voor documentbegrip over het bredere AI-ecosysteem.

Naarmate de adoptie van AI versnelt, betogen voorstanders dat gestandaardiseerde documentweergaven steeds belangrijker kunnen worden voor het waarborgen van interoperabiliteit tussen modellen, toepassingen en autonome agenten.

Hoe DocLang en Docling Samenwerken

Het initiatief bouwt voort op Docling, de open-source documentverwerkingskit die oorspronkelijk is ontwikkeld door IBM Research Zurich en in 2024 als open source is uitgebracht.

Docling richt zich op documentinname en conversie. Het kan PDF’s, Word-documenten, spreadsheets, presentaties, HTML-bestanden en afbeeldingen verwerken en transformeren in gestructureerde weergaven met behulp van geavanceerde lay-outanalyse en documentbegripsmodellen.

DocLang vult die capaciteit aan door een gestandaardiseerd formaat te bieden voor het weergeven en uitwisselen van de gestructureerde output die wordt gegenereerd door tools zoals Docling.

Samen creëren de projecten een meer complete document AI-stack:

  • Docling behandelt inname en documentbegrip
  • DocLang biedt een universele weergavelaag
  • AI-modellen en -agenten consumeren de resulterende gestructureerde informatie

Deze scheiding helpt bij het verminderen van fragmentatie en creëert een gemeenschappelijk kader dat verschillende leveranciers en ontwikkelaars kunnen aannemen.

Waarom Open Standaarden Ertoe Doen voor Ondernemings-AI

Naarmate ondernemings-AI-implementaties van experimenten naar productie gaan, wordt interoperabiliteit steeds belangrijker.

Organisaties vertrouwen zelden op één AI-model, documentplatform of softwareleverancier. In plaats daarvan opereren ze complexe ecosystemen die informatie vereisen om naadloos tussen systemen te bewegen.

Open standaarden hebben historisch een kritieke rol gespeeld bij het mogelijk maken van technologieadoptie door het creëren van gemeenschappelijke kaders die integratiecomplexiteit en leverancierslock-in verminderen. Kubernetes heeft cloud-native infrastructuur gestandaardiseerd, terwijl HTML de basis is geworden van het moderne web.

De aanhangers van DocLang geloven dat AI-natieve documentstandaarden een soortgelijke functie kunnen vervullen voor documentintelligentie en agente AI-workflows.

Naar de Toekomst

De AI-industrie heeft enorme inspanningen geleverd om machines te leren hoe ze documenten kunnen interpreteren die nooit zijn ontworpen voor machineconsumptie. DocLang vertegenwoordigt een poging om die uitdaging aan te pakken bij de bron door een documenttaal te creëren die specifiek is ontworpen voor AI.

Als het initiatief succesvol is, kan het helpen om documentinterpretatie te verbeteren, hallucinaties te verminderen die worden veroorzaakt door ontbrekende structuurcontext, verwerkingstijden te verlagen en het gemakkelijker maken voor AI-systemen om informatie uit te wisselen over platforms.

Op een moment waarop organisaties steeds vaker vertrouwen op AI-agenten om grote collecties van bedrijfskennis te navigeren, kan het standaardiseren van hoe documenten worden weergegeven net zo belangrijk blijken als het verbeteren van de modellen zelf. Voor ABBYY en zijn medewerkers is DocLang een inspanning om de basis te bouwen die die toekomst mogelijk kan maken.

Antoine is een visionaire leider en oprichter van Unite.AI, gedreven door een onwankelbare passie voor het vormgeven en promoten van de toekomst van AI en robotica. Een serieondernemer, hij gelooft dat AI net zo disruptief voor de samenleving zal zijn als elektriciteit, en wordt vaak betrapt op het prijzen van de potentie van disruptieve technologieën en AGI.

Als een futurist, hij is toegewijd aan het onderzoeken van hoe deze innovaties onze wereld zullen vormgeven. Bovendien is hij de oprichter van Securities.io, een platform dat zich richt op het investeren in cutting-edge technologieën die de toekomst herdefiniëren en hele sectoren herschikken.