Inteligencia artificial

DocLang tiene como objetivo convertirse en el lenguaje universal para documentos listos para la inteligencia artificial

mm

Durante décadas, las empresas han confiado en formatos de documentos diseñados para lectores humanos en lugar de sistemas de inteligencia artificial. Contratos, facturas, informes, presentaciones, formularios y muchos otros documentos comerciales contienen información valiosa, sin embargo, extraer ese conocimiento para aplicaciones de inteligencia artificial a menudo requiere complejas tuberías de procesamiento que agregan costo, latencia y oportunidades de error.

A medida que las organizaciones despliegan cada vez más inteligencia artificial generativa y agentes autónomos, esa desconexión se ha convertido en un desafío creciente. Para abordarlo, ABBYY se ha unido a IBM, NVIDIA, Red Hat, HumanSignal y la Fundación LF AI & Data de la Linux Foundation para lanzar DocLang, un nuevo estándar abierto diseñado para crear una representación nativa de inteligencia artificial de los documentos. Los partidarios de la iniciativa creen que podría desempeñar un papel similar al de la estandarización del contenido web de HTML, creando un lenguaje común que permita a los sistemas de inteligencia artificial comprender los documentos de manera más consistente y eficiente.

Por qué los documentos se han convertido en un problema de inteligencia artificial

La mayoría del conocimiento empresarial del mundo existe en formatos como PDF, imágenes escaneadas, hojas de cálculo y presentaciones. Si bien estos formatos funcionan bien para el consumo humano, nunca fueron diseñados para la comprensión de máquinas.

Los humanos pueden reconocer instantáneamente títulos, tablas, relaciones entre secciones y la importancia de la información en función de su ubicación dentro de un documento. Los sistemas de inteligencia artificial, sin embargo, a menudo requieren múltiples capas de OCR, análisis de diseño, análisis de documentos y posprocesamiento antes de que puedan interpretar de manera confiable el mismo contenido.

Este desafío se vuelve aún más significativo a medida que las organizaciones adoptan agentes de inteligencia artificial capaces de razonar a través de grandes colecciones de datos empresariales. Cada documento debe transformarse primero en una representación estructurada antes de que pueda ser utilizado de manera efectiva por modelos de lenguaje, sistemas de recuperación o flujos de trabajo automatizados.

El resultado es un ecosistema fragmentado en el que diferentes herramientas a menudo crean sus propias representaciones de documentos, lo que dificulta la interoperabilidad y aumenta la probabilidad de inconsistencias.

Cómo ABBYY ayudó a dar forma a la visión

ABBYY ha surgido como uno de los principales contribuyentes detrás de la iniciativa DocLang. La empresa ha pasado décadas desarrollando inteligencia de documentos, tecnologías de OCR y automatización, lo que le ha dado una perspectiva única sobre los desafíos que enfrentan las empresas al intentar cerrar la brecha entre los documentos tradicionales y los sistemas de inteligencia artificial modernos.

Según Maxime Vermeir, Vicepresidente de Estrategia de Inteligencia Artificial de ABBYY, la idea de DocLang surgió de conversaciones dentro de la comunidad de inteligencia artificial de documentos sobre la necesidad de una capa de representación común que pudiera estar entre los documentos sin procesar y las aplicaciones de inteligencia artificial.

“DocLang está diseñado para resolver uno de los problemas fundamentales de la inteligencia artificial empresarial: los documentos se crearon para humanos, no para máquinas”, explicó Vermeir.

En lugar de obligar a cada sistema de inteligencia artificial a interpretar de forma independiente los diseños de documentos, tablas, relaciones, metadatos y estructura, DocLang busca establecer un marco estandarizado que pueda compartirse en plataformas y aplicaciones.

El objetivo es hacer que la comprensión de los documentos sea más confiable, reducir las alucinaciones causadas por la falta de contexto y reducir los costos computacionales asociados con el procesamiento repetido de la misma información.

¿Qué es exactamente DocLang?

DocLang es una especificación abierta para representar documentos en un formato específicamente optimizado para sistemas de inteligencia artificial.

A diferencia de los formatos tradicionales que se centran principalmente en la presentación visual, DocLang está diseñado para conservar múltiples capas de información simultáneamente, incluyendo:

  • Significado semántico
  • Estructura y jerarquía del documento
  • Diseño geométrico y posición
  • Tablas y elementos de documento complejos
  • Metadatos
  • Controles de gobernanza y uso

Este enfoque permite que los sistemas de inteligencia artificial comprendan no solo qué información existe dentro de un documento, sino también cómo se organiza y relaciona esa información.

Por ejemplo, un valor contenido en una tabla financiera lleva un significado no solo porque del número en sí, sino también porque de su relación con las filas, columnas, títulos y la información contextual que lo rodea. Conservar esas relaciones en un formato estandarizado puede ayudar a los sistemas de inteligencia artificial a razonar de manera más precisa sobre el contenido del documento.

DocLang también incorpora controles de gobernanza que permiten a las organizaciones especificar cómo se puede utilizar el contenido del documento, incluidas las políticas relacionadas con la privacidad, la extracción y la capacitación de modelos de inteligencia artificial.

La comparación con HTML

Los partidarios de la iniciativa comparan frecuentemente a DocLang con el papel de HTML en la evolución de la web.

Antes de que HTML se adoptara ampliamente, no había una forma universal para que los navegadores interpretaran y mostraran contenido de manera consistente. HTML introdujo una estructura común que permitió a los sitios web ser entendidos en diferentes sistemas y plataformas.

DocLang tiene como objetivo aportar un nivel similar de estandarización a los documentos empresariales. En lugar de que cada plataforma de inteligencia artificial desarrolle su propia interpretación de la estructura del documento, un formato compartido podría proporcionar una base común para la comprensión de los documentos en todo el ecosistema de inteligencia artificial más amplio.

A medida que la adopción de la inteligencia artificial se acelera, los defensores argumentan que las representaciones de documentos estandarizadas pueden volverse cada vez más importantes para garantizar la interoperabilidad entre modelos, aplicaciones y agentes autónomos.

Cómo funcionan juntos DocLang y Docling

La iniciativa también se basa en Docling, la herramienta de procesamiento de documentos de código abierto originalmente desarrollada por IBM Research Zurich y lanzada como código abierto en 2024.

Docling se centra en la ingesta y conversión de documentos. Puede procesar PDF, documentos de Word, hojas de cálculo, presentaciones, archivos HTML e imágenes, transformándolos en representaciones estructuradas utilizando modelos avanzados de análisis de diseño y comprensión de documentos.

DocLang complementa esa capacidad al proporcionar un formato estandarizado para representar y intercambiar la salida estructurada generada por herramientas como Docling.

Juntos, los proyectos crean una pila de inteligencia artificial de documentos más completa:

  • Docling maneja la ingesta y la comprensión de los documentos
  • DocLang proporciona una capa de representación universal
  • Los modelos y agentes de inteligencia artificial consumen la información estructurada resultante

Esta separación ayuda a reducir la fragmentación al tiempo que crea un marco común que diferentes proveedores y desarrolladores pueden adoptar.

Por qué las normas abiertas son importantes para la inteligencia artificial empresarial

A medida que las implementaciones de inteligencia artificial empresarial pasan de la experimentación a la producción, la interoperabilidad se está volviendo cada vez más importante.

Las organizaciones rara vez confían en un solo modelo de inteligencia artificial, plataforma de documentos o proveedor de software. En lugar de eso, operan ecosistemas complejos que requieren que la información se mueva de manera fluida entre los sistemas.

Las normas abiertas han desempeñado históricamente un papel crítico al permitir la adopción de tecnología al crear marcos comunes que reducen la complejidad de integración y el bloqueo del proveedor. Kubernetes ayudó a estandarizar la infraestructura nativa de la nube, mientras que HTML se convirtió en la base de la web moderna.

Los partidarios de DocLang creen que los estándares de documentos nativos de inteligencia artificial podrían servir una función similar para la inteligencia de documentos y los flujos de trabajo de inteligencia artificial agente.

Mirando hacia adelante

La industria de la inteligencia artificial ha invertido un esfuerzo enorme en enseñar a las máquinas a interpretar documentos que nunca fueron diseñados para el consumo de máquinas. DocLang representa un intento de abordar ese desafío en su fuente al crear un lenguaje de documentos construido específicamente para la inteligencia artificial.

Si tiene éxito, la iniciativa podría ayudar a mejorar la interpretación de los documentos, reducir las alucinaciones causadas por la falta de contexto estructural, reducir los costos de procesamiento y hacer que sea más fácil para los sistemas de inteligencia artificial intercambiar información entre plataformas.

En un momento en que las organizaciones están cada vez más confiando en agentes de inteligencia artificial para navegar vastas colecciones de conocimiento empresarial, estandarizar cómo se representan los documentos puede ser tan importante como avanzar en los modelos en sí. Para ABBYY y sus colaboradores, DocLang es un esfuerzo por construir la base que podría hacer que ese futuro sea posible.

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un emprendedor serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI.

Como futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.