Umělá inteligence

DocLang usiluje stát se univerzálním jazykem pro dokumenty připravené pro umělou inteligenci

mm

Po desetiletí se podniky spoléhaly na formáty dokumentů navržené pro lidské čtenáře spíše než pro systémy umělé inteligence. Smlouvy, faktury, zprávy, prezentace, formuláře a mnoho dalších obchodních dokumentů obsahují cenné informace, ale extrakce těchto znalostí pro aplikace umělé inteligence často vyžaduje komplexní procesní řetězce, které přidávají náklady, latenci a příležitosti pro chyby.

Jak organizace stále více nasazují generativní umělou inteligenci a autonomní agenty, tato disproporce se stala rostoucím problémem. Aby se tomu zabránilo, ABBYY se připojila k IBM, NVIDIA, Red Hat, HumanSignal a Linux Foundation’s LF AI & Data Foundation, aby spustila DocLang, novou otevřenou normu navrženou pro vytvoření AI-nativní reprezentace dokumentů. Přívrženci této iniciativy věří, že by mohla sehrát roli podobnou standardizaci webového obsahu pomocí HTML, vytvořit společný jazyk, který by umožnil systémům umělé inteligence pochopit dokumenty konzistentněji a efektivněji.

Proč se dokumenty staly problémem umělé inteligence

Většina světových obchodních znalostí existuje ve formátech, jako jsou PDF, skenované obrázky, tabulky a prezentace. Zatímco tyto formáty fungují dobře pro lidskou spotřebu, nebyly nikdy navrženy pro pochopení strojů.

Lidé mohou okamžitě rozpoznat nadpisy, tabulky, vztahy mezi sekцами a význam informací na základě jejich umístění v dokumentu. Systémy umělé inteligence však často vyžadují několik vrstev OCR, analýzy rozložení, zpracování dokumentů a post-processingu, než mohou spolehlivě interpretovat stejný obsah.

Tento problém se stává ještě významnějším, jak organizace přijímají agenty umělé inteligence schopné rozumět velkým sbírkám podnikových dat. Každý dokument musí být nejprve transformován do strukturované reprezentace, než může být efektivně použit jazykovými modely, systémy načtení nebo automatizovanými pracovními postupy.

Výsledkem je fragmentovaný ekosystém, ve kterém různé nástroje často vytvářejí své vlastní reprezentace dokumentů, což ztěžuje interoperabilitu a zvyšuje pravděpodobnost nesrovnalostí.

Jak ABBYY pomohla vytvořit vizi

ABBYY se stala jedním z hlavních přispěvatelů iniciativy DocLang. Společnost strávila desetiletí vývojem inteligence dokumentů, OCR a automatizačních technologií, což jí dalo jedinečný pohled na problémy, kterým čelí podniky při pokusu o most mezi tradičními dokumenty a moderními systémy umělé inteligence.

Podle Maxime Vermeira, viceprezidenta pro strategii umělé inteligence v ABBYY, myšlenka DocLangu vznikla z diskusí v komunitě umělé inteligence dokumentů o potřebě společné reprezentativní vrstvy, která by mohla být umístěna mezi surovými dokumenty a aplikacemi umělé inteligence.

“DocLang je navržen pro řešení jednoho ze základních problémů v podnikové umělé inteligenci: dokumenty byly vytvořeny pro lidi, ne pro stroje,” vysvětlil Vermeir.

Místo toho, aby každý systém umělé inteligence musel nezávisle interpretovat rozložení dokumentů, tabulky, vztahy, metadata a strukturu, DocLang usiluje o stanovení standardizovaného rámce, který může být sdílen napříč platformami a aplikacemi.

Cílem je učinit pochopení dokumentů spolehlivějším, snížit halucinace způsobené chybějícím kontextem a snížit výpočetní náklady spojené s opakovaným zpracováním stejné informace.

Co je vlastně DocLang?

DocLang je otevřená specifikace pro reprezentaci dokumentů ve formátu speciálně optimalizovaném pro systémy umělé inteligence.

Naproti tomu tradiční formáty se zaměřují primárně na vizuální prezentaci, DocLang je navržen pro uchování několika vrstev informací současně, včetně:

  • semantického významu
  • struktury a hierarchie dokumentu
  • geometrického rozložení a umístění
  • tabulek a složitých dokumentových prvků
  • metadata
  • řízení a kontrolní mechanismy

Tento přístup umožňuje systémům umělé inteligence pochopit nejen to, jaké informace existují v dokumentu, ale také jak jsou tyto informace organizovány a související.

Příklad: hodnota obsažená ve finančních tabulkách má význam nejen kvůli samotnému číslu, ale také kvůli vztahu k okolním řádkům, sloupcům, nadpisům a kontextovým informacím. Uchování těchto vztahů ve standardizovaném formátu může pomoci systémům umělé inteligence rozumět dokumentům přesněji.

DocLang také zahrnuje mechanismy řízení, které umožňují organizacím specifikovat, jak může být dokumentový obsah použit, včetně politik souvisejících s ochranou soukromí, extrakcí a školením modelů umělé inteligence.

Porovnání s HTML

Přívrženci iniciativy často srovnávají DocLang s rolí HTML v evoluci webu.

Předtím, než se HTML stalo široce přijímaným, neexistoval univerzální způsob, jak prohlížeče mohly konzistentně interpretovat a zobrazovat obsah. HTML zavedlo společnou strukturu, která umožnila webovým stránkám být pochopitelné napříč různými systémy a platformami.

DocLang usiluje o přinesení podobné úrovně standardizace do podnikových dokumentů. Místo toho, aby každý systém umělé inteligence vyvíjel svou vlastní interpretaci dokumentové struktury, sdílený formát by mohl poskytnout společný základ pro pochopení dokumentů v širším ekosystému umělé inteligence.

Jako přijetí umělé inteligence zrychluje, zastánci argumentují, že standardizované reprezentace dokumentů mohou být stále důležitější pro zajištění interoperability mezi modely, aplikacemi a autonomními agenty.

Jak DocLang a Docling spolupracují

Iniciativa také staví na Docling, otevřeném dokumentovém zpracování toolkitu původně vyvinutém IBM Research Zurich a vydáném jako otevřený zdroj v roce 2024.

Docling se zaměřuje na ingestaci a konverzi dokumentů. Může zpracovat PDF, Word dokumenty, tabulky, prezentace, HTML soubory a obrázky, transformuje je do strukturovaných reprezentací pomocí pokročilé analýzy rozložení a modelů pochopení dokumentů.

DocLang doplňuje tuto schopnost poskytováním standardizovaného formátu pro reprezentaci a výměnu strukturovaného výstupu generovaného nástroji, jako je Docling.

Společně vytvářejí komplexnější dokument AI stack:

  • Docling zpracovává ingestaci a pochopení dokumentů
  • DocLang poskytuje univerzální reprezentativní vrstvu
  • Modely a agenti umělé inteligence spotřebovávají výsledné strukturované informace

Toto rozdělení pomáhá snižovat fragmentaci a vytváří společný rámec, který mohou přijmout různé dodavatelé a vývojáři.

Proč otevřené normy záleží pro podnikovou umělou inteligenci

Jako podnikové nasazení umělé inteligence přechází z experimentů do produkce, interoperabilita se stává stále důležitější.

Organizace zřídka spoléhají na jeden model umělé inteligence, platformu dokumentů nebo softwarového dodavatele. Místo toho fungují v komplexních ekosystémech, které vyžadují, aby informace plynuly hladce mezi systémy.

Otevřené normy historicky sehrály kritickou roli při umožnění technologického přijetí vytvořením společných rámců, které snižují složitost integrace a uzamčení dodavatele. Kubernetes pomohl standardizovat cloud-nativní infrastrukturu, zatímco HTML se stalo základem moderního webu.

Přívrženci DocLangu věří, že AI-nativní dokumentové normy by mohly sloužit podobné funkci pro inteligenci dokumentů a agenticí pracovní postupy umělé inteligence.

Pohled do budoucna

Průmysl umělé inteligence vynaložil enormní úsilí na to, aby učil stroje, jak interpretovat dokumenty, které nebyly nikdy navrženy pro spotřebu strojů. DocLang představuje pokus o řešení této výzvy u jejího zdroje vytvořením dokumentového jazyka speciálně navrženého pro umělou inteligenci.

Pokud bude úspěšný, tato iniciativa by mohla pomoci zlepšit interpretaci dokumentů, snížit halucinace způsobené chybějícím kontextem, snížit náklady na zpracování a usnadnit výměnu informací mezi systémy umělé inteligence.

V době, kdy organizace stále více spoléhají na agenty umělé inteligence, aby procházeli rozsáhlé sbírky obchodních znalostí, standardizace toho, jak jsou dokumenty reprezentovány, může být stejně důležitá jako pokroky v modelech samých. Pro ABBYY a její spolupracovníky je DocLang úsilím o vytvoření základny, která by mohla učinit tuto budoucnost možnou.

Antoine je vizionářský líder a spoluzakladatel Unite.AI, který je poháněn neotřesitelnou vášní pro formování a propagaci budoucnosti umělé inteligence a robotiky. Jako sériový podnikatel věří, že umělá inteligence bude mít na společnost stejně disruptivní vliv jako elektřina, a často je chycen při tom, že vypráví o potenciálu disruptivních technologií a AGI.

As a futurist, je zasvěcen zkoumání toho, jak tyto inovace budou tvarovat náš svět. Kromě toho je také zakladatelem Securities.io, platformy zaměřené na investice do špičkových technologií, které předefinují budoucnost a přetvarují celé sektory.