Искусственный интеллект

DocLang Стремится Стать Универсальным Языком для Документов, Готовых к ИИ

mm

Десятилетиями предприятия полагались на форматы документов, разработанные для человеческих читателей, а не для систем ИИ. Контракты, счета, отчеты, презентации, формы и бесчисленные другие деловые документы содержат ценные сведения, но извлечение этих знаний для приложений ИИ часто требует сложных процессов обработки, что добавляет стоимость, задержку и возможности для ошибок.

По мере того, как организации все чаще развертывают генеративный ИИ и автономные агенты, эта разъединенность стала все более серьезной проблемой. Чтобы решить эту проблему, ABBYY присоединился к IBM, NVIDIA, Red Hat, HumanSignal и фонду LF AI & Data Foundation Linux Foundation для запуска DocLang, нового открытого стандарта, разработанного для создания ИИ-родной представления документов. Сторонники этой инициативы считают, что она может сыграть роль, аналогичную стандартизации веб-контента HTML, создав общий язык, который позволит системам ИИ понимать документы более последовательно и эффективно.

Почему Документы Стали Проблемой для ИИ

Большая часть деловых знаний существует в форматах, таких как PDF, сканированные изображения, электронные таблицы и презентации. Хотя эти форматы хорошо подходят для человеческого потребления, они никогда не были разработаны для понимания машин.

Люди могут мгновенно распознавать заголовки, таблицы, отношения между разделами и значение информации на основе ее размещения в документе. Системы ИИ, однако, часто требуют нескольких слоев OCR, анализа макета, парсинга документов и постобработки, прежде чем они смогут надежно интерпретировать тот же контент.

Эта проблема становится еще более значительной, поскольку организации принимают агентов ИИ, способных рассуждать на основе больших коллекций корпоративных данных. Каждый документ должен быть сначала преобразован в структурированное представление, прежде чем он может быть эффективно использован языковыми моделями, системами извлечения или автоматизированными рабочими процессами.

В результате получается фрагментированная экосистема, в которой разные инструменты часто создают свои собственные представления документов, что затрудняет взаимодействие и увеличивает вероятность несоответствий.

Как ABBYY Содействовал Формированию Видения

ABBYY стал одним из ключевых участников инициативы DocLang. Компания десятилетиями разрабатывала интеллект документов, технологии OCR и автоматизации, что дает ей уникальную точку зрения на проблемы, с которыми сталкиваются предприятия при попытке преодолеть разрыв между традиционными документами и современными системами ИИ.

По словам Максима Вермеера, вице-президента по стратегии ИИ в ABBYY, идея DocLang возникла из разговоров в сообществе документов ИИ о необходимости общего представления слоя, который мог бы располагаться между сырыми документами и приложениями ИИ.

“DocLang предназначен для решения одной из фундаментальных проблем корпоративного ИИ: документы были созданы для людей, а не для машин”, – объяснил Вермеер.

Вместо того, чтобы заставлять каждую систему ИИ независимо интерпретировать макеты документов, таблицы, отношения, метаданные и структуру, DocLang стремится создать стандартизированную основу, которую можно будет использовать на разных платформах и приложениях.

Цель состоит в том, чтобы сделать понимание документов более надежным, уменьшить галлюцинации, вызванные отсутствием контекста, и снизить вычислительные затраты, связанные с повторной обработкой одной и той же информации.

Что Такое DocLang?

DocLang – это открытый стандарт для представления документов в формате, оптимизированном специально для систем ИИ.

В отличие от традиционных форматов, которые в первую очередь фокусируются на визуальном представлении, DocLang разработан для сохранения нескольких слоев информации одновременно, включая:

  • Семантическое значение
  • Структура и иерархия документа
  • Геометрический макет и размещение
  • Таблицы и сложные элементы документов
  • Метаданные
  • Управление и контроль использования

Этот подход позволяет системам ИИ понимать не только то, какая информация существует в документе, но и как эта информация организована и связана.

Например, значение, содержащееся в финансовой таблице, имеет смысл не только потому, что самого числа, но и потому, что его отношения к окружающим строкам, столбцам, заголовкам и контекстной информации. Сохранение этих отношений в стандартизированном формате может помочь системам ИИ более точно рассуждать о содержании документа.

DocLang также включает в себя механизмы управления, которые позволяют организациям указывать, как содержание документа может быть использовано, включая политики, связанные с конфиденциальностью, извлечением и обучением моделей ИИ.

Сравнение с HTML

Сторонники инициативы часто сравнивают DocLang с ролью HTML в эволюции веба.

До того, как HTML стал широко принят, не было универсального способа для браузеров последовательно интерпретировать и отображать контент. HTML ввел общую структуру, которая позволила сайтам быть понятыми на разных системах и платформах.

DocLang стремится принести аналогичный уровень стандартизации к корпоративным документам. Вместо того, чтобы каждая платформа ИИ разрабатывала свою собственную интерпретацию структуры документа, общий формат мог бы обеспечить основу для понимания документов на более широкой экосистеме ИИ.

По мере того, как принятие ИИ ускоряется, сторонники утверждают, что стандартизированные представления документов могут стать все более важными для обеспечения взаимодействия между моделями, приложениями и автономными агентами.

Как DocLang и Docling Работают Вместе

Инициатива также основана на Docling, открытом инструменте обработки документов, первоначально разработанном IBM Research Zurich и выпущенном как открытое программное обеспечение в 2024 году.

Docling фокусируется на приеме и преобразовании документов. Он может обрабатывать PDF, документы Word, электронные таблицы, презентации, файлы HTML и изображения, преобразуя их в структурированные представления с помощью передовых моделей анализа макета и понимания документов.

DocLang дополняет эту возможность, обеспечивая стандартизированный формат для представления и обмена структурированным выводом, генерируемым инструментами, такими как Docling.

Вместе проекты создают более полный стек ИИ-документов:

  • Docling обрабатывает прием и понимание документов
  • DocLang обеспечивает универсальный слой представления
  • Модели и агенты ИИ потребляют полученную структурированную информацию

Этот раздел помогает уменьшить фрагментацию, создавая общую основу, которую могут принять разные поставщики и разработчики.

Почему Открытые Стандарты Важны для Корпоративного ИИ

По мере того, как корпоративные развертывания ИИ переходят от экспериментов к производству, взаимодействие становится все более важным.

Организации редко полагаются на одну модель ИИ, платформу документов или программного обеспечения. Вместо этого они работают в сложных экосистемах, которые требуют того, чтобы информация могла перемещаться без проблем между системами.

Открытые стандарты исторически играли решающую роль в облегчении принятия технологий, создавая общие основы, которые уменьшают сложность интеграции и привязку к поставщикам. Kubernetes помог стандартизировать инфраструктуру, основанную на облаке, в то время как HTML стал основой современного веба.

Сторонники DocLang считают, что стандарты документов, родные для ИИ, могут служить аналогичной функции для интеллекта документов и рабочих процессов агентского ИИ.

Взгляд Вперед

Отрасль ИИ вложила огромные усилия в обучение машин интерпретации документов, которые никогда не были разработаны для потребления машин. DocLang представляет собой попытку решить эту проблему в ее основе, создав язык документов, специально разработанный для ИИ.

Если это будет успешно, инициатива может помочь улучшить интерпретацию документов, уменьшить галлюцинации, вызванные отсутствием структурного контекста, снизить затраты на обработку и сделать более легким для систем ИИ обмениваться информацией между платформами.

В то время, когда организации все чаще полагаются на агентов ИИ для навигации по огромным коллекциям деловых знаний, стандартизация представления документов может оказаться столь же важной, как и развитие самих моделей. Для ABBYY и его сотрудников DocLang – это усилие по созданию основы, которая могла бы сделать это будущее возможным.

Антуан - видный лидер и сооснователь Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Как серийный предприниматель, он считает, что ИИ будет столь же разрушительным для общества, как электричество, и часто увлеченно рассказывает о потенциале разрушительных технологий и ИИ.

Как футуролог, он посвящает себя изучению того, как эти инновации будут формировать наш мир. Кроме того, он является основателем Securities.io, платформы, ориентированной на инвестиции в передовые технологии, которые переопределяют будущее и меняют целые сектора.