Штучний інтелект
DocLang Аims to Become the Universal Language for AI-Ready Documents

Тривалий час підприємства використовували формати документів, призначені для людей, а не для систем штучного інтелекту. Контракти, рахунки, звіти, презентації, форми та безліч інших документів бізнесу містять цінну інформацію, однак витягування цієї інформації для застосувань штучного інтелекту часто вимагає складних процесів обробки, які додають вартість, затримку та можливості для помилок.
Відповідно до зростаючої кількості організацій, які розгортають генеративний штучний інтелект та автономні агенти, ця роз’єднаність стала все більшим викликом. Для вирішення цієї проблеми ABBYY приєдналася до IBM, NVIDIA, Red Hat, HumanSignal та фундації Linux Foundation’s LF AI & Data Foundation для запуску DocLang, нового відкритого стандарту, призначеного для створення штучного інтелекту-родного представлення документів. Підтримувачі цієї ініціативи вважають, що вона може відіграти роль, подібну до ролі HTML у стандартизації веб-контенту, створивши спільну мову, яка дозволить системам штучного інтелекту зрозуміти документи більш послідовно та ефективно.
Чому документи стали проблемою штучного інтелекту
Більшість світових знань бізнесу існує у форматах, таких як PDF, зображення, електронні таблиці та презентації. Хоча ці формати добре працюють для людського споживання, вони ніколи не були призначені для розуміння машин.
Люди можуть миттєво розпізнавати заголовки, таблиці, відносини між розділами та значення інформації на основі її місця у документі. Системи штучного інтелекту, однак, часто потребують декількох шарів OCR, аналізу макету, парсингу документів та постобробки, перш ніж вони можуть надійно інтерпретувати той самий контент.
Цей виклик стає ще більш значимим, оскільки організації приймають агентів штучного інтелекту, здатних мислити над великими колекціями даних підприємства. Кожен документ повинен бути перетворений на структуроване представлення, перш ніж він може бути ефективно використаний мовними моделями, системами пошуку або автоматизованими робочими процесами.
Результатом є фрагментована екосистема, у якій різні інструменти часто створюють自己的 представлення документів, що робить взаємодію між ними складною та збільшує ймовірність несумісностей.
Як ABBYY допомогла сформувати бачення
ABBYY виросла у одного з ключових учасників ініціативи DocLang. Компанія витратила десятиліття на розвиток інтелекту документів, технологій OCR та автоматизації, що дало їй унікальну перспективу на виклики, з якими підприємства зіштовхуються при спробі зв’язати традиційні документи з сучасними системами штучного інтелекту.
За словами Максіма Вермеєра, віце-президента з стратегії штучного інтелекту в ABBYY, ідея DocLang виникла з розмов у спільноті штучного інтелекту документів про необхідність спільного представницького шару, який міг би розміститися між сирими документами та застосунками штучного інтелекту.
“DocLang призначений для вирішення однієї з фундаментальних проблем у сфері штучного інтелекту підприємства: документи були створені для людей, а не для машин”, – пояснив Вермеєр.
Натомість ніж примушувати кожну систему штучного інтелекту самостійно інтерпретувати макет документів, таблиці, відносини, метадані та структуру, DocLang намагається створити стандартизовану основу, яку можна буде спільно використовувати на різних платформах та застосунках.
Мета полягає у тому, щоб зробити розуміння документів більш надійним, зменшити галюцинації, викликані відсутністю контексту, та знизити обчислювальні витрати, пов’язані з повторною обробкою однієї й тієї ж інформації.
Що таке DocLang?
DocLang – це відкрита специфікація для представлення документів у форматі, оптимізованому спеціально для систем штучного інтелекту.
На відміну від традиційних форматів, які фокусуються в основному на візуальному представленні, DocLang призначений для збереження декількох шарів інформації одночасно, включаючи:
- семантичне значення
- структуру документів та ієрархію
- геометричний макет та позиціонування
- таблиці та складні елементи документів
- метадані
- керування та використання документів
Цей підхід дозволяє системам штучного інтелекту зрозуміти не тільки те, яка інформація існує у документі, але й як ця інформація організована та пов’язана.
Наприклад, значення, яке міститься у фінансовій таблиці, має значення не тільки через саму цифру, але й через її відносини з навколишніми рядами, колонками, заголовками та контекстною інформацією. Збереження цих відносин у стандартизованому форматі може допомогти системам штучного інтелекту більш точно мислити про вміст документів.
DocLang також включає засоби керування, які дозволяють організаціям вказувати, як вміст документів може бути використаний, включаючи політики, пов’язані з конфіденційністю, витягуванням інформації та навчанням моделей штучного інтелекту.
Порівняння з HTML
Підтримувачі ініціативи часто порівнюють DocLang з роллю HTML у розвитку вебу.
До того, як HTML став широко прийнятим, не існувало універсального способу для браузерів послідовно інтерпретувати та відображати вміст. HTML ввів спільну структуру, яка дозволила веб-сайтам бути зрозумілими на різних системах та платформах.
DocLang намагається привнести подібний рівень стандартизації до документів підприємства. Замість того, щоб кожна платформа штучного інтелекту розробляла свою інтерпретацію структури документів, спільний формат міг би забезпечити спільну основу для розуміння документів у всьому екосистемі штучного інтелекту.
При прискоренні прийняття штучного інтелекту прихильники вважають, що стандартизовані представлення документів можуть стати все більш важливими для забезпечення взаємодії між моделями, застосунками та автономними агентами.
Як DocLang та Docling працюють разом
Ініціатива також будується на основі Docling, відкритого інструменту обробки документів, який спочатку був розроблений IBM Research Zurich та випущений як відкритий у 2024 році.
Docling фокусується на інгестії документів та конвертації. Він може обробляти PDF, Word-документи, електронні таблиці, презентації, HTML-файли та зображення, перетворюючи їх у структуровані представлення за допомогою передових моделей аналізу макету та розуміння документів.
DocLang доповнює цю можливість, забезпечуючи стандартизований формат для представлення та обміну структурованим виводом, згенерованим інструментами, такими як Docling.
Разом ці проекти створюють більш повний стек штучного інтелекту документів:
- Docling обробляє інгестію документів та розуміння документів
- DocLang забезпечує універсальний шар представлення
- моделі штучного інтелекту та агенти споживають результатуючу структуровану інформацію
Цей поділ допомагає зменшити фрагментацію, створюючи спільну основу, яку різні виробники та розробники можуть прийняти.
Чому відкриті стандарти важливі для штучного інтелекту підприємства
При розгортанні штучного інтелекту у підприємствах з експериментального етапу до виробництва взаємодія між системами стає все більш важливою.
Організації рідко покладаються на одну модель штучного інтелекту, платформу документів або постачальника програмного забезпечення. Замість цього вони працюють у складних екосистемах, які вимагають руху інформації між системами.
Відкриті стандарти історично відігравали важливу роль у сприянні прийняттю технологій, створюючи спільні основи, які зменшують складність інтеграції та залежність від постачальників. Kubernetes допоміг стандартизувати інфраструктуру, орієнтовану на хмарні технології, тоді як HTML став основою сучасного вебу.
Підтримувачі DocLang вважають, що стандартизовані документи, орієнтовані на штучний інтелект, можуть виконувати подібну функцію для інтелекту документів та агентських робочих процесів штучного інтелекту.
Погляд у майбутнє
Промисловість штучного інтелекту вклала величезні зусилля у навчання машин інтерпретувати документи, які ніколи не були призначені для споживання машинами. DocLang представляє собою спробу вирішити цю проблему на її джерелі, створюючи мову документів, спеціально розроблену для штучного інтелекту.
Якщо ця ініціатива буде успішною, вона може допомогти покращити інтерпретацію документів, зменшити галюцинації, викликані відсутністю контексту, знизити витрати на обробку та полегшити обмін інформацією між системами.
У час, коли організації все частіше покладаються на агентів штучного інтелекту для навігації у величезних колекціях знань бізнесу, стандартизація представлення документів може виявитися такою ж важливою, як і розвиток самих моделей. Для ABBYY та її колег DocLang – це спроба створити основу, яка могла б зробити це майбутнє можливим.












