Intelligenza artificiale
DocLang Miriadi Diventare il Linguaggio Universale per Documenti Pronti all’Intelligenza Artificiale

Per decenni, le imprese hanno fatto affidamento su formati di documenti progettati per lettori umani piuttosto che per sistemi di intelligenza artificiale. Contratti, fatture, rapporti, presentazioni, moduli e innumerevoli altri documenti aziendali contengono informazioni preziose, tuttavia estrarre quelle conoscenze per applicazioni di intelligenza artificiale spesso richiede pipeline di elaborazione complesse che aggiungono costi, latenza e opportunità di errore.
Mentre le organizzazioni aumentano sempre più l’adozione di intelligenza artificiale generativa e agenti autonomi, quella disconnessione è diventata una sfida crescente. Per affrontarla, ABBYY ha unito le forze con IBM, NVIDIA, Red Hat, HumanSignal e la Linux Foundation’s LF AI & Data Foundation per lanciare DocLang, un nuovo standard aperto progettato per creare una rappresentazione nativa di intelligenza artificiale dei documenti. I sostenitori dell’iniziativa ritengono che potrebbe svolgere un ruolo simile a quello della standardizzazione del contenuto web da parte di HTML, creando un linguaggio comune che consente ai sistemi di intelligenza artificiale di comprendere i documenti in modo più coerente ed efficiente.
Perché i Documenti Sono Diventati un Problema di Intelligenza Artificiale
La maggior parte delle conoscenze aziendali esiste in formati come PDF, immagini scansionate, fogli di calcolo e presentazioni. Mentre questi formati funzionano bene per il consumo umano, non sono mai stati progettati per la comprensione delle macchine.
Gli esseri umani possono riconoscere istantaneamente titoli, tabelle, relazioni tra sezioni e l’importanza delle informazioni in base alla loro posizione all’interno di un documento. I sistemi di intelligenza artificiale, tuttavia, spesso richiedono più livelli di OCR, analisi della disposizione, analisi dei documenti e post-elaborazione prima di poter interpretare in modo affidabile lo stesso contenuto.
Questa sfida diventa ancora più significativa mentre le organizzazioni adottano agenti di intelligenza artificiale in grado di ragionare su grandi raccolte di dati aziendali. Ogni documento deve essere trasformato in una rappresentazione strutturata prima di poter essere utilizzato efficacemente da modelli linguistici, sistemi di recupero o flussi di lavoro automatizzati.
Il risultato è un ecosistema frammentato in cui strumenti diversi spesso creano le proprie rappresentazioni di documenti, rendendo difficile l’interoperabilità e aumentando la probabilità di incongruenze.
Come ABBYY Ha Contribuito a Plasmare la Visione
ABBYY è emersa come uno dei principali contributori dell’iniziativa DocLang. L’azienda ha trascorso decenni sviluppando intelligenza dei documenti, tecnologie OCR e automazione, dandole una prospettiva unica sulle sfide che le imprese affrontano nel tentativo di colmare il divario tra documenti tradizionali e sistemi di intelligenza artificiale moderni.
Secondo Maxime Vermeir, Vice President of AI Strategy di ABBYY, l’idea di DocLang è nata da conversazioni all’interno della comunità di intelligenza artificiale dei documenti sulla necessità di un livello di rappresentazione comune che potesse essere collocato tra documenti grezzi e applicazioni di intelligenza artificiale.
“DocLang è progettato per risolvere uno dei problemi fondamentali dell’intelligenza artificiale aziendale: i documenti sono stati costruiti per gli esseri umani, non per le macchine”, ha spiegato Vermeir.
Al posto di costringere ogni sistema di intelligenza artificiale a interpretare in modo indipendente la disposizione dei documenti, le tabelle, le relazioni, i metadati e la struttura, DocLang cerca di stabilire un quadro standardizzato che possa essere condiviso tra piattaforme e applicazioni.
L’obiettivo è rendere la comprensione dei documenti più affidabile, ridurre le allucinazioni causate dal contesto mancante e ridurre i costi computazionali associati all’elaborazione ripetuta della stessa informazione.
Che Cos’è Esattamente DocLang?
DocLang è una specifica aperta per la rappresentazione di documenti in un formato specificamente ottimizzato per sistemi di intelligenza artificiale.
A differenza dei formati tradizionali che si concentrano principalmente sulla presentazione visiva, DocLang è progettato per preservare più livelli di informazione contemporaneamente, tra cui:
- Significato semantico
- Struttura e gerarchia del documento
- Disposizione geometrica e posizionamento
- Tabelle ed elementi di documento complessi
- Metadati
- Controlli di governance e utilizzo
Questo approccio consente ai sistemi di intelligenza artificiale di comprendere non solo quali informazioni esistono all’interno di un documento, ma anche come quelle informazioni sono organizzate e correlate.
Ad esempio, un valore contenuto all’interno di una tabella finanziaria porta significato non solo a causa del numero stesso, ma a causa della sua relazione con le righe, le colonne, i titoli e le informazioni di contesto circostanti. Preservare quelle relazioni in un formato standardizzato può aiutare i sistemi di intelligenza artificiale a ragionare in modo più preciso sul contenuto del documento.
DocLang incorpora anche controlli di governance che consentono alle organizzazioni di specificare come il contenuto del documento possa essere utilizzato, comprese le politiche relative alla privacy, all’estrazione e all’addestramento dei modelli di intelligenza artificiale.
Il Confronto con HTML
I sostenitori dell’iniziativa confrontano frequentemente DocLang con il ruolo di HTML nell’evoluzione del web.
Prima che HTML diventasse ampiamente adottato, non c’era un modo universale per i browser di interpretare e visualizzare il contenuto in modo coerente. HTML ha introdotto una struttura comune che ha consentito ai siti web di essere compresi attraverso diversi sistemi e piattaforme.
DocLang mira a portare un livello simile di standardizzazione ai documenti aziendali. Invece di sviluppare ogni piattaforma di intelligenza artificiale con la propria interpretazione della struttura del documento, un formato condiviso potrebbe fornire una base comune per la comprensione dei documenti nell’ecosistema più ampio di intelligenza artificiale.
Mentre l’adozione di intelligenza artificiale accelera, i sostenitori sostengono che le rappresentazioni standardizzate dei documenti potrebbero diventare sempre più importanti per garantire l’interoperabilità tra modelli, applicazioni e agenti autonomi.
Come DocLang e Docling Lavorano Insieme
L’iniziativa si basa anche su Docling, il toolkit di elaborazione dei documenti open source originariamente sviluppato da IBM Research Zurich e rilasciato come open source nel 2024.
Docling si concentra sull’ingestione e sulla conversione dei documenti. Può elaborare PDF, documenti Word, fogli di calcolo, presentazioni, file HTML e immagini, trasformandoli in rappresentazioni strutturate utilizzando modelli avanzati di analisi della disposizione e comprensione dei documenti.
DocLang complementa quella capacità fornendo un formato standardizzato per la rappresentazione e lo scambio dell’output strutturato generato da strumenti come Docling.
Insieme, i progetti creano uno stack di intelligenza artificiale dei documenti più completo:
- Docling gestisce l’ingestione e la comprensione dei documenti
- DocLang fornisce un livello di rappresentazione universale
- I modelli e gli agenti di intelligenza artificiale consumano le informazioni strutturate risultanti
Questa separazione aiuta a ridurre la frammentazione mentre crea un quadro comune che diversi vendor e sviluppatori possono adottare.
Perché Gli Standard Aperti Contano per l’Intelligenza Artificiale Aziendale
Mentre i dispiegamenti di intelligenza artificiale aziendale si spostano dall’esperimento alla produzione, l’interoperabilità sta diventando sempre più importante.
Le organizzazioni raramente si affidano a un singolo modello di intelligenza artificiale, piattaforma di documenti o fornitore di software. Invece, operano ecosistemi complessi che richiedono che le informazioni si muovano senza problemi tra i sistemi.
Gli standard aperti hanno storicamente svolto un ruolo critico nell’abilitare l’adozione tecnologica creando quadri comuni che riducono la complessità di integrazione e il blocco del fornitore. Kubernetes ha aiutato a standardizzare l’infrastruttura cloud nativa, mentre HTML è diventato la base del web moderno.
I sostenitori di DocLang ritengono che gli standard di documenti nativi di intelligenza artificiale potrebbero svolgere una funzione simile per l’intelligenza dei documenti e i flussi di lavoro di intelligenza artificiale agente.
Guardando Avanti
L’industria dell’intelligenza artificiale ha investito enormi sforzi per insegnare alle macchine come interpretare documenti che non sono stati progettati per il consumo delle macchine. DocLang rappresenta un tentativo di affrontare quella sfida alla sua fonte creando un linguaggio di documenti costruito specificamente per l’intelligenza artificiale.
Se ha successo, l’iniziativa potrebbe aiutare a migliorare l’interpretazione dei documenti, ridurre le allucinazioni causate dal contesto strutturale mancante, ridurre i costi di elaborazione e rendere più facile per i sistemi di intelligenza artificiale scambiare informazioni tra piattaforme.
In un momento in cui le organizzazioni stanno sempre più facendo affidamento su agenti di intelligenza artificiale per navigare vasti archivi di conoscenze aziendali, standardizzare come vengono rappresentati i documenti potrebbe risultare altrettanto importante quanto avanzare i modelli stessi. Per ABBYY e i suoi collaboratori, DocLang è uno sforzo per costruire la base che potrebbe rendere quel futuro possibile.












