Intelligence artificielle

DocLang vise Ă  devenir le langage universel pour les documents prĂȘts pour l’IA

mm

Pendant des décennies, les entreprises ont reposé sur des formats de documents conçus pour les lecteurs humains plutôt que pour les systèmes d’IA. Les contrats, les factures, les rapports, les présentations, les formulaires et d’innombrables autres documents commerciaux contiennent des informations précieuses, mais l’extraction de ces connaissances pour les applications d’IA nécessite souvent des pipelines de traitement complexes qui ajoutent du coût, de la latence et des opportunités d’erreur.

Alors que les organisations déployent de plus en plus l’IA générative et les agents autonomes, cette déconnexion est devenue un défi croissant. Pour y répondre, ABBYY a rejoint IBM, NVIDIA, Red Hat, HumanSignal et la Fondation Linux pour lancer DocLang, une nouvelle norme ouverte conçue pour créer une représentation native d’IA des documents. Les partisans de l’initiative estiment qu’elle pourrait jouer un rôle similaire à celui de la standardisation du contenu Web par HTML, en créant un langage commun qui permet aux systèmes d’IA de comprendre les documents de manière plus cohérente et efficace.

Pourquoi les documents sont-ils devenus un problème d’IA

La plupart des connaissances commerciales du monde existent sous des formats tels que les PDF, les images scannées, les tableurs et les présentations. Même si ces formats conviennent bien à la consommation humaine, ils n’ont jamais été conçus pour la compréhension des machines.

Les humains peuvent instantanément reconnaître les en-têtes, les tableaux, les relations entre les sections et l’importance des informations en fonction de leur placement dans un document. Les systèmes d’IA, cependant, nécessitent souvent plusieurs couches d’OCR, d’analyse de disposition, d’analyse de documents et de post-traitement avant de pouvoir interpréter de manière fiable le même contenu.

Ce défi devient encore plus important à mesure que les organisations adoptent des agents d’IA capables de raisonnement sur de grandes collections de données d’entreprise. Chaque document doit d’abord être transformé en une représentation structurée avant de pouvoir être utilisé efficacement par les modèles de langage, les systèmes de récupération ou les flux de travail automatisés.

Le résultat est un écosystème fragmenté dans lequel différents outils créent souvent leurs propres représentations de documents, rendant l’interopérabilité difficile et augmentant la probabilité d’incohérences.

Comment ABBYY a contribué à façonner la vision

ABBYY est apparu comme l’un des principaux contributeurs derrière l’initiative DocLang. L’entreprise a passé des décennies à développer l’intelligence documentaire, l’OCR et les technologies d’automatisation, lui donnant une perspective unique sur les défis que les entreprises rencontrent lorsqu’elles tentent de combler le fossé entre les documents traditionnels et les systèmes d’IA modernes.

Selon Maxime Vermeir, vice-président de la stratégie d’IA chez ABBYY, l’idée de DocLang est née de conversations au sein de la communauté d’IA documentaire sur la nécessité d’une couche de représentation commune qui pourrait se situer entre les documents bruts et les applications d’IA.

“DocLang est conçu pour résoudre l’un des problèmes fondamentaux de l’IA d’entreprise : les documents ont été conçus pour les humains, pas pour les machines”, a expliqué Vermeir.

Au lieu de forcer chaque système d’IA à interpréter de manière indépendante la disposition des documents, les tableaux, les relations, les métadonnées et la structure, DocLang vise à établir un cadre standardisé qui peut être partagé entre les plateformes et les applications.

L’objectif est de rendre la compréhension des documents plus fiable, de réduire les hallucinations causées par le manque de contexte et de diminuer les coûts de calcul associés au traitement répétitif de la même information.

Qu’est-ce que DocLang exactement ?

DocLang est une spécification ouverte pour représenter les documents dans un format spécifiquement optimisé pour les systèmes d’IA.

Contrairement aux formats traditionnels qui se concentrent principalement sur la présentation visuelle, DocLang est conçu pour préserver plusieurs couches d’informations simultanément, notamment :

  • La signification sémantique
  • La structure et la hiérarchie des documents
  • La disposition géométrique et la position
  • Les tableaux et les éléments de document complexes
  • Les métadonnées
  • Les contrôles de gouvernance et d’utilisation

Cette approche permet aux systèmes d’IA de comprendre non seulement quelles informations existent dans un document, mais également comment ces informations sont organisées et liées.

Par exemple, une valeur contenue dans un tableau financier porte un sens non seulement en raison du nombre lui-même, mais en raison de sa relation avec les lignes, les colonnes, les en-têtes et les informations contextuelles environnantes. La préservation de ces relations dans un format standardisé peut aider les systèmes d’IA à raisonner de manière plus précise sur le contenu des documents.

DocLang intègre également des contrôles de gouvernance qui permettent aux organisations de spécifier comment le contenu des documents peut être utilisé, y compris les politiques relatives à la confidentialité, à l’extraction et à la formation des modèles d’IA.

La comparaison avec HTML

Les partisans de l’initiative comparent fréquemment DocLang au rôle d’HTML dans l’évolution du Web.

Avant que HTML ne devienne largement adopté, il n’y avait pas de moyen universel pour les navigateurs d’interpréter et d’afficher le contenu de manière cohérente. HTML a introduit une structure commune qui a permis aux sites Web d’être compris entre les différents systèmes et plateformes.

DocLang vise à apporter un niveau similaire de standardisation aux documents d’entreprise. Au lieu de chaque plateforme d’IA développant sa propre interprétation de la structure des documents, un format partagé pourrait fournir une base commune pour la compréhension des documents dans l’écosystème d’IA plus large.

Alors que l’adoption de l’IA s’accélère, les partisans soutiennent que les représentations standardisées des documents pourraient devenir de plus en plus importantes pour assurer l’interopérabilité entre les modèles, les applications et les agents autonomes.

Comment DocLang et Docling travaillent ensemble

L’initiative s’appuie également sur Docling, l’outil de traitement de documents open source initialement développé par IBM Research Zurich et publié en open source en 2024.

Docling se concentre sur l’ingestion et la conversion des documents. Il peut traiter les PDF, les documents Word, les tableurs, les présentations, les fichiers HTML et les images, les transformant en représentations structurées à l’aide d’analyses de disposition et de modèles de compréhension de documents avancés.

DocLang complète cette capacité en fournissant un format standardisé pour représenter et échanger la sortie structurée générée par des outils tels que Docling.

Ensemble, les projets créent une pile d’IA documentaire plus complète :

  • Docling gère l’ingestion et la compréhension des documents
  • DocLang fournit une couche de représentation universelle
  • Les modèles et les agents d’IA consomment les informations structurées résultantes

Cette séparation aide à réduire la fragmentation tout en créant un cadre commun que les différents fournisseurs et développeurs peuvent adopter.

Pourquoi les normes ouvertes sont importantes pour l’IA d’entreprise

Alors que les déploiements d’IA d’entreprise passent de l’expérimentation à la production, l’interopérabilité devient de plus en plus importante.

Les organisations ne reposent rarement sur un seul modèle d’IA, une seule plateforme de documents ou un seul fournisseur de logiciels. Au lieu de cela, elles exploitent des écosystèmes complexes qui nécessitent que les informations se déplacent sans heurt entre les systèmes.

Les normes ouvertes ont historiquement joué un rôle critique dans la facilitation de l’adoption technologique en créant des cadres communs qui réduisent la complexité d’intégration et le verrouillage des fournisseurs. Kubernetes a aidé à standardiser l’infrastructure cloud-native, tandis que HTML est devenu la fondation du Web moderne.

Les partisans de DocLang estiment que les normes d’IA natives pour les documents pourraient jouer un rôle similaire pour l’intelligence documentaire et les flux de travail d’IA agentic.

Regard vers l’avenir

L’industrie de l’IA a investi des efforts considérables pour enseigner aux machines comment interpréter les documents qui n’ont jamais été conçus pour la consommation des machines. DocLang représente une tentative pour relever ce défi à sa source en créant un langage de document spécifiquement conçu pour l’IA.

Si l’initiative est couronnée de succès, elle pourrait aider à améliorer l’interprétation des documents, à réduire les hallucinations causées par le manque de contexte structurel, à diminuer les coûts de traitement et à faciliter l’échange d’informations entre les plateformes pour les systèmes d’IA.

À une époque où les organisations s’appuient de plus en plus sur les agents d’IA pour naviguer dans d’immenses collections de connaissances commerciales, la standardisation de la représentation des documents peut s’avérer tout aussi importante que l’amélioration des modèles eux-mêmes. Pour ABBYY et ses collaborateurs, DocLang est un effort pour construire la base qui pourrait rendre cet avenir possible.

Antoine est un leader visionnaire et associé fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et on le surprend souvent en train de vanter le potentiel des technologies perturbatrices et de l'AGI.

En tant que futuriste, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.