Artificiell intelligens
DocLang syftar till att bli det universella sprÄket för AI-klara dokument

Under årtionden har företag använt dokumentformat som är utformade för mänskliga läsare snarare än AI-system. Kontrakt, fakturor, rapporter, presentationer, blanketter och otaliga andra affärsdokument innehåller värdefull information, men att extrahera den kunskapen för AI-tillämpningar kräver ofta komplexa bearbetningspipelines som lägger till kostnader, latens och möjligheter till fel.
När organisationer alltmer använder generativ AI och autonoma agenter har den här kopplingen blivit en växande utmaning. För att tackla den har ABBYY gått samman med IBM, NVIDIA, Red Hat, HumanSignal och Linux Foundation’s LF AI & Data Foundation för att lansera DocLang, en ny öppen standard som syftar till att skapa en AI-nativ representation av dokument. Initiativets anhängare tror att det kan spela en roll liknande HTML:s standardisering av webbinnehåll, och skapa ett gemensamt språk som tillåter AI-system att förstå dokument mer konsekvent och effektivt.
Varför dokument har blivit ett AI-problem
Större delen av världens affärskunskap existerar i format som PDF:er, skannade bilder, kalkylblad och presentationer. Medan dessa format fungerar bra för mänsklig konsumtion, var de aldrig utformade för maskinell förståelse.
Människor kan omedelbart känna igen rubriker, tabeller, relationer mellan avsnitt och betydelsen av information baserat på dess placering inom ett dokument. AI-system, å andra sidan, kräver ofta flera lager av OCR, layoutanalys, dokumentparsning och efterbearbetning innan de kan tillförlitligt tolka samma innehåll.
Den här utmaningen blir ännu mer betydande när organisationer antar AI-agenter som kan resonera över stora samlingar av företagsdata. Varje dokument måste först omvandlas till en strukturerad representation innan det kan användas effektivt av språkmodeller, återvinningssystem eller automatiserade arbetsflöden.
Resultatet är ett fragmenterat ekosystem där olika verktyg ofta skapar sina egna dokumentrepresentationer, vilket gör interoperabilitet svår och ökar sannolikheten för inkonsekvenser.
Hur ABBYY bidrog till visionen
ABBYY har framträtt som en av de viktigaste bidragsgivarna bakom DocLang-initiativet. Företaget har tillbringat årtionden med att utveckla dokumentintelligens, OCR och automatiseringsteknologier, vilket ger dem en unik perspektiv på de utmaningar företag möter när de försöker överbrygga gapet mellan traditionella dokument och moderna AI-system.
Enligt Maxime Vermeir, Vice President of AI Strategy på ABBYY, växte idén till DocLang fram ur samtal inom dokument-AI-gemenskapen om behovet av ett gemensamt representationslager som kunde ligga mellan råa dokument och AI-tillämpningar.
“DocLang är utformat för att lösa ett av de grundläggande problemen i företags-AI: dokument byggdes för människor, inte maskiner”, förklarade Vermeir.
Istället för att tvinga varje AI-system att oberoende tolka dokumentlayouter, tabeller, relationer, metadata och struktur, syftar DocLang till att etablera en standardiserad ram som kan delas över plattformar och tillämpningar.
Målet är att göra dokumentförståelse mer tillförlitlig, minska hallucinationer orsakade av saknad kontext och minska de beräkningskostnader som är förknippade med upprepad bearbetning av samma information.
Vad är DocLang?
DocLang är en öppen specifikation för att representera dokument i ett format som är specifikt optimerat för AI-system.
Till skillnad från traditionella format som fokuserar primärt på visuell presentation, är DocLang utformat för att bevara flera lager av information samtidigt, inklusive:
- semantisk betydelse
- dokumentstruktur och hierarki
- geometrisk layout och positionering
- tabeller och komplexa dokumentelement
- metadata
- styrning och användningskontroller
Detta tillvägagångssätt tillåter AI-system att förstå inte bara vilken information som finns inom ett dokument, utan också hur den informationen är organiserad och relaterad.
Till exempel bär ett värde inom en finansiell tabell betydelse inte bara på grund av själva talet, utan också på grund av dess relation till omgivande rader, kolumner, rubriker och kontextuell information. Att bevara dessa relationer i ett standardiserat format kan hjälpa AI-system att resonera mer exakt om dokumentinnehåll.
DocLang innehåller också styrningskontroller som tillåter organisationer att specificera hur dokumentinnehåll kan användas, inklusive policyer relaterade till sekretess, extrahering och AI-modellträning.
HTML-jämförelsen
Initiativets anhängare jämför ofta DocLang med HTML:s roll i webbens utveckling.
Innan HTML blev allmänt antaget, fanns det inget universellt sätt för webbläsare att konsekvent tolka och visa innehåll. HTML introducerade en gemensam struktur som tillät webbplatser att förstås över olika system och plattformar.
DocLang syftar till att bringa en liknande nivå av standardisering till företagsdokument. Istället för att varje AI-plattform utvecklar sin egen tolkning av dokumentstruktur, kan ett delat format tillhandahålla en gemensam grund för dokumentförståelse över det bredare AI-ekosystemet.
När AI-användningen accelererar, hävdar förespråkare att standardiserade dokumentrepresentationer kan bli allt viktigare för att säkerställa interoperabilitet mellan modeller, tillämpningar och autonoma agenter.
Hur DocLang och Docling samarbetar
Initiativet bygger också på Docling, den öppna källkods-dokumentbearbetningsverktyget som ursprungligen utvecklades av IBM Research Zurich och släpptes som öppen källkod 2024.
Docling fokuserar på dokumentinmatning och omvandling. Det kan bearbeta PDF:er, Word-dokument, kalkylblad, presentationer, HTML-filer och bilder, och omvandla dem till strukturerade representationer med hjälp av avancerad layoutanalys och dokumentförståelsemodeller.
DocLang kompletterar den funktionen genom att tillhandahålla ett standardiserat format för att representera och utbyta den strukturerade utdata som genereras av verktyg som Docling.
Tillsammans skapar projekten ett mer komplett dokument-AI-stöd:
- Docling hanterar inmatning och dokumentförståelse
- DocLang tillhandahåller ett universellt representationslager
- AI-modeller och agenter konsumerar den resulterande strukturerade informationen
Den här separationen hjälper till att minska fragmentering medan den skapar en gemensam ram som olika leverantörer och utvecklare kan anta.
Varför öppna standarder är viktiga för företags-AI
När företags AI-distributioner går från experiment till produktion, blir interoperabilitet allt viktigare.
Organisationer förlitar sig sällan på en enda AI-modell, dokumentplattform eller programvaruleverantör. Istället opererar de komplexa ekosystem som kräver att information flyttas sömlöst mellan system.
Öppna standarder har historiskt spelat en kritisk roll i att möjliggöra teknikutveckling genom att skapa gemensamma ramar som minskar integrationskomplexitet och leverantörsbunden. Kubernetes hjälpte till att standardisera molnbaserad infrastruktur, medan HTML blev grunden för det moderna webben.
DocLangs anhängare tror att AI-nativa dokumentstandarder kan tjäna en liknande funktion för dokumentintelligens och agenter-AI-arbetsflöden.
Blickar framåt
AI-branschen har lagt ned enorma ansträngningar för att lära maskiner att tolka dokument som aldrig var utformade för maskinell konsumtion. DocLang representerar ett försök att tackla den utmaningen vid dess källa genom att skapa ett dokumentformat som är specifikt utformat för AI.
Om det är framgångsrikt, kan initiativet hjälpa till att förbättra dokumenttolkning, minska hallucinationer orsakade av saknad strukturerad kontext, minska bearbetningskostnader och göra det lättare för AI-system att utbyta information över plattformar.
När organisationer alltmer förlitar sig på AI-agenter för att navigera i stora samlingar av affärs kunskap, kan standardisering av hur dokument representeras visa sig vara lika viktigt som att förbättra modellerna själva. För ABBYY och dess samarbetspartner är DocLang ett försök att bygga grunden som kan göra den framtiden möjlig.












