Sztuczna inteligencja

DocLang ma na celu stać się uniwersalnym językiem dla dokumentów gotowych do AI

mm

Przez dziesięciolecia przedsiębiorstwa opierały się na formatach dokumentów zaprojektowanych dla czytelników ludzkich, a nie systemów AI. Umowy, faktury, raporty, prezentacje, formularze i niezliczona liczba innych dokumentów biznesowych zawierają cenne informacje, jednak wyodrębnianie tej wiedzy dla aplikacji AI często wymaga złożonych procesów przetwarzania, które dodają koszty, opóźnienia i możliwości błędów.

W miarę jak organizacje coraz częściej wdrażają generatywne AI i autonomiczne agenty, ta rozłąka stała się coraz większym wyzwaniem. Aby rozwiązać ten problem, ABBYY dołączył do IBM, NVIDIA, Red Hat, HumanSignal i Linux Foundation’s LF AI & Data Foundation w celu uruchomienia DocLang, nowego otwartego standardu zaprojektowanego w celu stworzenia AI-natywnego przedstawienia dokumentów. Zwolennicy inicjatywy wierzą, że może ona odegrać rolę podobną do standardyzacji zawartości sieciowej przez HTML, tworząc wspólny język, który pozwoli systemom AI na lepsze zrozumienie dokumentów w sposób bardziej spójny i efektywny.

Dlaczego dokumenty stały się problemem AI

Większość światowej wiedzy biznesowej istnieje w formatach takich jak PDF, zeskanowane obrazy, arkusze kalkulacyjne i prezentacje. Chociaż te formaty działają dobrze dla ludzkiej konsumpcji, nie zostały one zaprojektowane z myślą o zrozumieniu przez maszyny.

Ludzie mogą natychmiast rozpoznać nagłówki, tabele, relacje między sekcjami i znaczenie informacji na podstawie ich umiejscowienia w dokumencie. Systemy AI, jednak, często wymagają wielu warstw OCR, analizy układu, parsowania dokumentów i przetwarzania pośredniego, zanim będą mogły niezawodnie interpretować tę samą treść.

Wyzwanie to staje się jeszcze bardziej znaczące, gdy organizacje przyjmują agenty AI zdolne do wnioskowania na podstawie dużych zbiorów danych przedsiębiorstwa. Każdy dokument musi zostać najpierw przekształcony w ustrukturyzowaną reprezentację, zanim będzie mógł być skutecznie wykorzystany przez modele językowe, systemy odzyskiwania lub automatyczne przepływy pracy.

Wynikiem jest fragmentaryzowany ekosystem, w którym różne narzędzia często tworzą własne reprezentacje dokumentów, co utrudnia interoperacyjność i zwiększa prawdopodobieństwo niezgodności.

Jak ABBYY pomogło ukształtować wizję

ABBYY wyłonił się jako jeden z kluczowych współtwórców inicjatywy DocLang. Firma spędziła dziesięciolecia na rozwijaniu inteligencji dokumentów, OCR i technologii automatyzacji, co daje jej unikalną perspektywę na wyzwania, z którymi przedsiębiorstwa spotykają się, próbując zmostkować lukę między tradycyjnymi dokumentami a nowoczesnymi systemami AI.

Zdaniem Maxime Vermeir, wiceprezesa ds. strategii AI w ABBYY, pomysł na DocLang powstał z rozmów w społeczności AI dokumentów na temat potrzeby wspólnej warstwy reprezentacji, która mogłaby znajdować się między surowymi dokumentami a aplikacjami AI.

“DocLang jest zaprojektowany, aby rozwiązać jeden z podstawowych problemów w przedsiębiorstwach AI: dokumenty zostały zbudowane dla ludzi, a nie maszyn”, wyjaśnił Vermeir.

Zamiast zmuszać każdy system AI do niezależnej interpretacji układu dokumentu, tabel, relacji, metadanych i struktury, DocLang stara się ustanowić standaryzowany framework, który może być udostępniony na platformach i aplikacjach.

Celem jest uczynienie zrozumienia dokumentów bardziej niezawodnym, zmniejszenie halucynacji spowodowanych brakiem kontekstu i obniżenie kosztów obliczeniowych związanych z wielokrotnym przetwarzaniem tej samej informacji.

Czym dokładnie jest DocLang?

DocLang to otwarta specyfikacja reprezentowania dokumentów w formacie zoptymalizowanym specjalnie dla systemów AI.

W przeciwieństwie do tradycyjnych formatów, które koncentrują się głównie na prezentacji wizualnej, DocLang jest zaprojektowany, aby zachować wiele warstw informacji jednocześnie, w tym:

  • znaczenie semantyczne
  • strukturę dokumentu i hierarchię
  • układ geometryczny i położenie
  • tabele i złożone elementy dokumentu
  • metadane
  • kontrolę i zarządzanie

To podejście pozwala systemom AI zrozumieć nie tylko, jakie informacje istnieją w dokumencie, ale także, jak te informacje są zorganizowane i powiązane.

Na przykład wartość zawarta w tabeli finansowej ma znaczenie nie tylko ze względu na samą liczbę, ale także ze względu na jej relację z otaczającymi wierszami, kolumnami, nagłówkami i kontekstowymi informacjami. Zachowanie tych relacji w standaryzowanym formacie może pomóc systemom AI wnioskować bardziej dokładnie o treści dokumentu.

DocLang zawiera również kontrolę zarządzania, która pozwala organizacjom określić, w jaki sposób zawartość dokumentu może być używana, w tym polityki związane z prywatnością, ekstrakcją i szkoleniem modeli AI.

Porównanie z HTML

Zwolennicy inicjatywy często porównują DocLang do roli HTML w ewolucji sieci.

Przed tym, jak HTML stał się powszechnie przyjęty, nie było uniwersalnego sposobu, aby przeglądarki mogły spójnie interpretować i wyświetlać treść. HTML wprowadził wspólną strukturę, która pozwoliła stronom internetowym być zrozumianymi na różnych systemach i platformach.

DocLang ma na celu wprowadzenie podobnego poziomu standaryzacji do dokumentów przedsiębiorstw. Zamiast każdej platformy AI rozwijać własną interpretację struktury dokumentu, wspólny format mógłby zapewnić wspólną podstawę dla zrozumienia dokumentów w szerszym ekosystemie AI.

W miarę jak przyjęcie AI przyspiesza, zwolennicy argumentują, że standaryzowane reprezentacje dokumentów mogą stać się coraz bardziej ważne dla zapewnienia interoperacyjności między modelami, aplikacjami i autonomicznymi agentami.

Jak DocLang i Docling współpracują

Inicjatywa opiera się również na Docling, otwartym narzędziu do przetwarzania dokumentów, które zostało pierwotnie opracowane przez IBM Research Zurich i wydane jako otwarte oprogramowanie w 2024 roku.

Docling koncentruje się na pobieraniu i konwersji dokumentów. Może przetwarzać pliki PDF, dokumenty Word, arkusze kalkulacyjne, prezentacje, pliki HTML i obrazy, przekształcając je w ustrukturyzowane reprezentacje przy użyciu zaawansowanej analizy układu i modeli zrozumienia dokumentów.

DocLang uzupełnia tę funkcjonalność, zapewniając standaryzowany format reprezentowania i wymiany ustrukturyzowanej zawartości wygenerowanej przez narzędzia takie jak Docling.

Razem, projekty tworzą bardziej kompletny stos AI dokumentów:

  • Docling zajmuje się pobieraniem i zrozumieniem dokumentów
  • DocLang zapewnia uniwersalną warstwę reprezentacji
  • Modele AI i agenci konsumują wynikającą ustrukturyzowaną informację

To rozdzielenie pomaga zmniejszyć fragmentację, tworząc wspólny framework, który różni dostawcy i deweloperzy mogą przyjąć.

Dlaczego otwarte standardy mają znaczenie dla przedsiębiorstw AI

W miarę jak wdrożenia AI w przedsiębiorstwach przechodzą od eksperymentów do produkcji, interoperacyjność staje się coraz bardziej ważna.

Organizacje rzadko polegają na jednym modelu AI, platformie dokumentów lub oprogramowaniu dostawcy. Zamiast tego, działają one w złożonych ekosystemach, które wymagają, aby informacje płynęły bezproblemowo między systemami.

Otwarte standardy historycznie odegrały kluczową rolę w umożliwieniu przyjęcia technologii, tworząc wspólne ramy, które redukują złożoność integracji i zamykanie dostawców. Kubernetes pomógł standaryzować infrastrukturę chmurową, podczas gdy HTML stał się podstawą współczesnej sieci.

Zwolennicy DocLang wierzą, że standardy AI-natywne dla dokumentów mogą spełniać podobną funkcję dla inteligencji dokumentów i agentywnych przepływów pracy AI.

Spójrzmy w przyszłość

Przemysł AI zainwestował ogromne wysiłki w nauczanie maszyn, jak interpretować dokumenty, które nie zostały zaprojektowane do konsumpcji przez maszyny. DocLang reprezentuje próbę rozwiązania tego wyzwania u jego źródła, tworząc język dokumentu zaprojektowany specjalnie dla AI.

Jeśli się powiedzie, inicjatywa może pomóc poprawić interpretację dokumentów, zmniejszyć halucynacje spowodowane brakiem kontekstu strukturalnego, obniżyć koszty przetwarzania i ułatwić systemom AI wymianę informacji między platformami.

W czasie, gdy organizacje coraz częściej polegają na agentach AI, aby nawigować po ogromnych zbiorach wiedzy biznesowej, standaryzowanie sposobu reprezentacji dokumentów może okazać się równie ważne, jak rozwijanie samych modeli. Dla ABBYY i jego współpracowników DocLang jest próbą zbudowania podstawy, która mogłaby umożliwić tę przyszłość.

ations są coraz częściej uzależnione od agentów AI, aby nawigować po ogromnych zbiorach wiedzy biznesowej, standaryzowanie sposobu reprezentacji dokumentów może okazać się równie ważne, jak rozwijanie samych modeli. Dla ABBYY i jego współpracowników DocLang jest próbą zbudowania podstawy, która mogłaby umożliwić tę przyszłość.

Antoine jest wizjonerskim liderem i współzałożycielem Unite.AI, który jest zmotywowany niezachwianą pasją do kształtowania i promowania przyszłości sztucznej inteligencji i robotyki. Jako serialowy przedsiębiorca, wierzy, że sztuczna inteligencja będzie tak samo przełomowa dla społeczeństwa, jak elektryczność, i często jest złapany na tym, że zachwala potencjał przełomowych technologii i AGI.

Jako futurysta, jest poświęcony badaniu, jak te innowacje ukształtują nasz świat. Ponadto, jest założycielem Securities.io, platformy skupiającej się na inwestowaniu w najnowocześniejsze technologie, które przedefiniują przyszłość i zmienią całe sektory.