Kunstig intelligens

DocLang har som mål å bli det universelle språket for AI-klare dokumenter

mm

I flere tiår har bedrifter avhengig av dokumentformater designet for menneskelige lesere fremfor AI-systemer. Kontrakter, fakturaer, rapporter, presentasjoner, skjemaer og utallige andre forretningsdokumenter inneholder verdifull informasjon, men å trekke ut denne kunnskapen for AI-applikasjoner krever ofte komplekse prosesseringspipeliner som legger til kostnader, forsinkelser og muligheter for feil.

Ettersom organisasjoner i økende grad setter i gang generativ AI og autonome agenter, har denne frakoblingen blitt en voksende utfordring. For å møte denne utfordringen, har ABBYY gått sammen med IBM, NVIDIA, Red Hat, HumanSignal og Linux Foundation’s LF AI & Data Foundation for å lansere DocLang, en ny åpen standard designet for å skape en AI-nativ representasjon av dokumenter. Tilhengerne av initiativet tror at det kan spille en rol lik HTML’s standardisering av webinnhold, og skape en felles språk som tillater AI-systemer å forstå dokumenter mer konsekvent og effektivt.

Hvorfor dokumenter har blitt et AI-problem

Det meste av verdens forretningskunnskap eksisterer i formater som PDF-er, skannede bilder, regneark og presentasjoner. Disse formatene fungerer godt for menneskelig forbruk, men de ble aldri designet for maskinforståelse.

Mennesker kan umiddelbart gjenkjenne overskrifter, tabeller, relasjoner mellom seksjoner og betydningen av informasjon basert på dens plassering i et dokument. AI-systemer, på den andre siden, krever ofte flere lag med OCR, layoutanalyse, dokumentparsning og etterbehandling før de kan pålitelig tolke samme innhold.

Dette problemet blir enda mer betydelig når organisasjoner adopterer AI-agenter i stand til å resonere over store samlinger av bedriftsdata. Hvert dokument må først transformeres til en strukturert representasjon før det kan bli effektivt brukt av språkmodeller, innhentingssystemer eller automatiserte arbeidsflyter.

Resultatet er et fragmentert økosystem hvor ulike verktøy ofte skaper sine egne dokumentrepresentasjoner, noe som gjør det vanskelig å oppnå sammenheng og øker sannsynligheten for inkonsistenser.

Hvordan ABBYY hjalp til å forme visjonen

ABBYY har kommet frem som en av de viktigste bidragsyterne bak DocLang-initiativet. Selskapet har brukt tiår på å utvikle dokumentintelligens, OCR og automatiseringsteknologier, noe som har gitt dem en unik perspektiv på utfordringene bedrifter møter når de prøver å brygge gapet mellom tradisjonelle dokumenter og moderne AI-systemer.

Ifølge Maxime Vermeir, Vice President of AI Strategy i ABBYY, vokste ideen om DocLang frem fra samtaler innen dokument-AI-samfunnet om behovet for et felles representasjonslag som kunne plasseres mellom rådokumenter og AI-applikasjoner.

“DocLang er designet for å løse ett av de grunnleggende problemene i bedrifts-AI: dokumenter ble bygget for mennesker, ikke maskiner,” forklarte Vermeir.

I stedet for å tvinge hver AI-system til å uavhengig tolke dokumentlayout, tabeller, relasjoner, metadata og struktur, søker DocLang å etablere en standardisert ramme som kan deles over plattformer og applikasjoner.

Målet er å gjøre dokumentforståelse mer pålitelig, redusere hallusinasjoner forårsaket av manglende kontekst og senke de komputasjonelle kostnadene forbundet med gjentakende prosessering av samme informasjon.

Hva er DocLang nøyaktig?

DocLang er en åpen spesifikasjon for å representere dokumenter i et format som er optimalt for AI-systemer.

I motsetning til tradisjonelle formater som fokuserer primært på visuell presentasjon, er DocLang designet for å bevare flere lag med informasjon samtidig, inkludert:

  • semantisk mening
  • dokumentstruktur og hierarki
  • geometrisk layout og plassering
  • tabeller og komplekse dokumentelementer
  • metadata
  • styring og brukerkontroll

Dette tilnærmingen tillater AI-systemer å forstå ikke bare hva informasjonen er innenfor et dokument, men også hvordan denne informasjonen er organisert og relatert.

For eksempel bærer en verdi innholdt i en finansiell tabell mening ikke bare på grunn av tallet selv, men på grunn av dens relasjon til omgivende rader, kolonner, overskrifter og kontekstuell informasjon. Å bevare disse relasjonene i et standardisert format kan hjelpe AI-systemer å resonere mer nøyaktig om dokumentinnhold.

DocLang inkorporerer også styringskontroller som tillater organisasjoner å spesifisere hvordan dokumentinnhold kan brukes, inkludert politikker relatert til personvern, uttrekk og AI-modelltrening.

HTML-sammenligningen

Tilhengerne av initiativet sammenligner ofte DocLang med HTML’s rolle i utviklingen av weben.

Før HTML ble vidt akseptert, var det ingen universell måte for nettlesere å tolke og vise innhold på en konsekvent måte. HTML innførte en felles struktur som tillot nettsider å bli forstått over ulike systemer og plattformer.

DocLang har som mål å bringe en lignende standardisering til bedriftsdokumenter. I stedet for at hver AI-plattform utvikler sin egen tolkning av dokumentstruktur, kan et delt format gi en felles grunnlag for dokumentforståelse over det bredere AI-økosystemet.

Ettersom AI-tilpasning akselererer, argumenterer tilhengerne for at standardiserte dokumentrepresentasjoner kan bli stadig viktigere for å sikre sammenheng mellom modeller, applikasjoner og autonome agenter.

Hvordan DocLang og Docling samarbeider

Initiativet bygger også på Docling, den åpne kildekoden dokumentbehandlingsverktøyet som opprinnelig ble utviklet av IBM Research Zurich og sluppet som åpen kilde i 2024.

Docling fokuserer på dokumentinntak og konvertering. Det kan prosessere PDF-er, Word-dokumenter, regneark, presentasjoner, HTML-filer og bilder, og omgjøre dem til strukturerte representasjoner ved hjelp av avansert layoutanalyse og dokumentforståelsesmodeller.

DocLang komplementerer denne evnen ved å tilby et standardisert format for å representere og utveksle den strukturerte utdata generert av verktøy som Docling.

Sammen skaper prosjektene en mer komplett dokument-AI-stakk:

  • Docling håndterer inntak og dokumentforståelse
  • DocLang tilbyr et universelt representasjonslag
  • AI-modeller og agenter konsumerer den resulterende strukturerte informasjonen

Denne separasjonen hjelper med å redusere fragmentering samtidig som den skaper en felles ramme som ulike leverandører og utviklere kan adoptere.

Hvorfor åpne standarder betyr mye for bedrifts-AI

Ettersom bedrifts AI-utsteder går fra eksperimentering til produksjon, blir sammenheng stadig viktigere.

Organisasjoner avhenger sjelden av en enkelt AI-modell, dokumentplattform eller programvareleverandør. I stedet opererer de komplekse økosystemer som krever at informasjon flyttes sømløst mellom systemer.

Åpne standarder har historisk spilt en kritisk rolle i å muliggjøre teknologiadopsjon ved å skape felles rammer som reduserer integreringskompleksitet og leverandør-lås. Kubernetes hjalp med å standardisere sky-nativ infrastruktur, mens HTML ble grunnlaget for det moderne web.

DocLangs tilhengere tror at AI-nativ dokumentstandard kan tjene en lignende funksjon for dokumentintelligens og agentic AI-arbeidsflyter.

Se fremover

AI-industrien har investert enormt i å lære maskiner hvordan de kan tolke dokumenter som aldri var designet for maskinforbruk. DocLang representerer et forsøk på å møte denne utfordringen ved å skape et dokument-språk bygget spesifikt for AI.

Hvis det lykkes, kan initiativet hjelpe med å forbedre dokumenttolkning, redusere hallusinasjoner forårsaket av manglende strukturkontekst, senke prosesseringskostnadene og gjøre det enklere for AI-systemer å utveksle informasjon over plattformer.

I en tid når organisasjoner i økende grad avhenger av AI-agenter for å navigere store samlinger av forretningskunnskap, kan standardisering av hvordan dokumenter representeres vise seg like viktig som å fremme modellene selv. For ABBYY og deres samarbeidspartnere er DocLang et forsøk på å bygge grunnlaget som kan gjøre denne fremtiden mulig.

ations er stadig mer avhengig av AI-agenter for å navigere store samlinger av forretningskunnskap, kan standardisering av hvordan dokumenter representeres vise seg like viktig som å fremme modellene selv. For ABBYY og deres samarbeidspartnere er DocLang et forsøk på å bygge grunnlaget som kan gjøre denne fremtiden mulig.

Antoine er en visjonær leder og medstifter av Unite.AI, drevet av en urokkelig lidenskap for å forme og fremme fremtiden for AI og robotikk. En serial entrepreneur, han tror at AI vil være like disruptiv for samfunnet som elektrisitet, og blir ofte fanget i å prise potensialet for disruptive teknologier og AGI.

Som en futurist, er han dedikert til å utforske hvordan disse innovasjonene vil forme vår verden. I tillegg er han grunnlegger av Securities.io, en plattform fokusert på å investere i banebrytende teknologier som omdefinerer fremtiden og omformer hele sektorer.