Inteligență artificială

DocLang Își Propune să Devină Limbajul Universal pentru Documente Gata pentru Inteligența Artificială

mm

Pentru decenii, întreprinderile au depins de formate de documente proiectate pentru cititori umani, nu pentru sisteme de inteligență artificială. Contracte, facturi, rapoarte, prezentări, formulare și nenumărate alte documente de afaceri conțin informații valoroase, dar extragerea cunoștințelor pentru aplicații de inteligență artificială necesită adesea procese complexe de prelucrare care adaugă costuri, întârzieri și oportunități de eroare.

Pe măsură ce organizațiile implementează din ce în ce mai mult inteligența artificială generativă și agenți autonomi, această disconecție a devenit o provocare tot mai mare. Pentru a aborda această problemă, ABBYY a colaborat cu IBM, NVIDIA, Red Hat, HumanSignal și Fundația LF AI & Data a Linux pentru a lansa DocLang, un nou standard deschis proiectat pentru a crea o reprezentare nativă pentru inteligență artificială a documentelor. Susținătorii inițiativei cred că acesta ar putea juca un rol similar cu standardizarea conținutului web de către HTML, creând un limbaj comun care permite sistemelor de inteligență artificială să înțeleagă documentele în mod mai coerent și eficient.

De Ce Documentele Au Devenit o Problemă pentru Inteligența Artificială

Majoritatea cunoștințelor de afaceri din lume există în formate precum PDF-uri, imagini scanate, foi de calcul și prezentări. Deși aceste formate funcționează bine pentru consumul uman, nu au fost niciodată proiectate pentru înțelegerea mașinilor.

Oamenii pot recunoaște instantaneu titlurile, tabelele, relațiile dintre secțiuni și importanța informațiilor în funcție de poziționarea lor într-un document. Sistemele de inteligență artificială, însă, necesită adesea multiple straturi de recunoaștere optică a caracterelor, analiză a layout-ului, parsare a documentelor și post-procesare înainte de a putea interpreta în mod fiabil același conținut.

Această provocare devine și mai semnificativă pe măsură ce organizațiile adoptă agenți de inteligență artificială capabili să raționeze pe baza unor colecții vaste de date de întreprindere. Fiecare document trebuie transformat mai întâi într-o reprezentare structurată înainte de a putea fi utilizat eficient de modele de limbaj, sisteme de recuperare sau fluxuri de lucru automatizate.

Rezultatul este un ecosistem fragmentat în care diferitele unelte creează adesea reprezentări proprii ale documentelor, fapt care face interoperabilitatea dificilă și crește probabilitatea incoerențelor.

Cum ABBYY a Contribuit la Dezvoltarea Viziunii

ABBYY a devenit unul dintre principalii contribuitori ai inițiativei DocLang. Compania a petrecut decenii dezvoltând inteligență pentru documente, tehnologii de recunoaștere optică a caracterelor și automatizare, ceea ce i-a oferit o perspectivă unică asupra provocărilor cu care se confruntă întreprinderile atunci când încearcă să pună capăt decalajului dintre documentele tradiționale și sistemele moderne de inteligență artificială.

Conform spuselor lui Maxime Vermeir, Vicepreședinte pentru Strategia Inteligenței Artificiale la ABBYY, ideea DocLang a apărut din conversațiile din cadrul comunității de inteligență artificială pentru documente despre nevoia unui strat de reprezentare comun care să poată sta între documentele brute și aplicațiile de inteligență artificială.

“DocLang este proiectat pentru a rezolva una dintre problemele fundamentale ale inteligenței artificiale de întreprindere: documentele au fost create pentru oameni, nu pentru mașini,” a explicat Vermeir.

În loc să forțeze fiecare sistem de inteligență artificială să interpreteze în mod independent layout-urile documentelor, tabelele, relațiile, metadatele și structura, DocLang își propune să stabilească un cadru standardizat care poate fi partajat pe platforme și aplicații.

Scopul este de a face înțelegerea documentelor mai fiabilă, de a reduce halucinațiile cauzate de lipsa contextului și de a reduce costurile computaționale asociate cu prelucrarea repetată a aceleiași informații.

Ce Este Exact DocLang?

DocLang este o specificație deschisă pentru reprezentarea documentelor într-un format special optimizat pentru sisteme de inteligență artificială.

Spre deosebire de formatele tradiționale care se concentrează în primul rând pe prezentarea vizuală, DocLang este proiectat pentru a păstra multiple straturi de informații simultan, inclusiv:

  • semnificația semantică
  • structura și ierarhia documentului
  • layout-ul geometric și poziționarea
  • tabele și elemente complexe de document
  • metadate
  • guvernanță și controale de utilizare

Acest abordaj permite sistemelor de inteligență artificială să înțeleagă nu numai ce informații există într-un document, ci și cum aceste informații sunt organizate și relaționate.

De exemplu, o valoare conținută într-o tabelă financiară are sens nu numai din cauza numărului în sine, ci și din cauza relației sale cu rândurile și coloanele înconjurătoare, titlurile, informațiile contextuale. Păstrarea acestor relații într-un format standardizat poate ajuta sistemele de inteligență artificială să raționeze mai precis despre conținutul documentului.

DocLang incorporează, de asemenea, controale de guvernanță care permit organizațiilor să specifice cum poate fi utilizat conținutul documentului, inclusiv politici legate de confidențialitate, extragere și antrenament de modele de inteligență artificială.

Comparația cu HTML

Susținătorii inițiativei compară frecvent DocLang cu rolul standardizării conținutului web de către HTML.

Înainte ca HTML să devină larg adoptat, nu exista o modalitate universală prin care browserele să interpreteze și să afișeze conținutul în mod coerent. HTML a introdus o structură comună care a permis site-urilor web să fie înțelese pe diferite sisteme și platforme.

DocLang își propune să aducă un nivel similar de standardizare documentelor de întreprindere. În loc ca fiecare platformă de inteligență artificială să dezvolte propria interpretare a structurii documentului, un format partajat ar putea oferi o bază comună pentru înțelegerea documentelor în întregul ecosistem de inteligență artificială.

Pe măsură ce adoptarea inteligenței artificiale se accelerează, susținătorii inițiativei susțin că reprezentările standardizate ale documentelor ar putea deveni din ce în ce mai importante pentru asigurarea interoperabilității între modele, aplicații și agenți autonomi.

Cum Funcționează DocLang și Docling Împreună

Inițiativa se bazează, de asemenea, pe Docling, kit-ul de procesare a documentelor cu sursă deschisă, inițial dezvoltat de IBM Research Zurich și lansat ca sursă deschisă în 2024.

Docling se concentrează pe ingestia și conversia documentelor. Acesta poate procesa PDF-uri, documente Word, foi de calcul, prezentări, fișiere HTML și imagini, transformându-le în reprezentări structurate utilizând analiza avansată a layout-ului și modele de înțelegere a documentelor.

DocLang completează această capacitate prin furnizarea unui format standardizat pentru reprezentarea și schimbul informațiilor structurate generate de unelte precum Docling.

Împreună, proiectele creează un stivă de inteligență artificială pentru documente mai completă:

  • Docling gestionează ingestia și înțelegerea documentelor
  • DocLang oferă un strat de reprezentare universal
  • Modelele și agenții de inteligență artificială consumă informațiile structurate rezultate

Acestă separare ajută la reducerea fragmentării, în timp ce creează un cadru comun pe care diferiți furnizori și dezvoltatori îl pot adopta.

De Ce Standardele Deschise Sunt Importante pentru Inteligența Artificială de Întreprindere

Pe măsură ce implementările de inteligență artificială de întreprindere trec de la experimentare la producție, interoperabilitatea devine din ce în ce mai importantă.

Organizațiile rareori se bazează pe un singur model de inteligență artificială, o singură platformă de documente sau un singur furnizor de software. În schimb, ele operează ecosisteme complexe care necesită ca informațiile să se deplaseze fără probleme între sisteme.

Standardele deschise au jucat istoric un rol critic în facilitarea adoptării tehnologiei prin crearea unor cadre comune care reduc complexitatea integrării și blocajul furnizorului. Kubernetes a ajutat la standardizarea infrastructurii cloud-native, în timp ce HTML a devenit baza web-ului modern.

Susținătorii DocLang cred că standardele native de inteligență artificială pentru documente ar putea îndeplini o funcție similară pentru inteligența documentelor și fluxurile de lucru agenților de inteligență artificială.

Privind Înainte

Industria inteligenței artificiale a investit eforturi uriașe pentru a învăța mașinile să interpreteze documente care nu au fost niciodată proiectate pentru consumul mașinilor. DocLang reprezintă o încercare de a aborda această provocare la sursă, creând un limbaj de documente special proiectat pentru inteligența artificială.

Dacă va fi de succes, inițiativa ar putea ajuta la îmbunătățirea interpretării documentelor, la reducerea halucinațiilor cauzate de lipsa contextului structural, la scăderea costurilor de prelucrare și la facilitarea schimbului de informații între platforme pentru sistemele de inteligență artificială.

Într-un moment în care organizațiile se bazează din ce în ce mai mult pe agenți de inteligență artificială pentru a naviga în colecții vaste de cunoștințe de afaceri, standardizarea modului în care documentele sunt reprezentate ar putea dovedi a fi la fel de importantă ca și dezvoltarea în continuare a modelelor însele. Pentru ABBYY și colaboratorii săi, DocLang este o încercare de a construi fundația care ar putea face posibil acest viitor.

Antoine este un lider vizionar și partener fondator al Unite.AI, condus de o pasiune neclintită pentru modelarea și promovarea viitorului inteligenței artificiale și roboticii. Antreprenor serial, el crede că inteligența artificială va fi la fel de disruptivă pentru societate ca și electricitatea și este adesea prins vorbind despre potențialul tehnologiilor disruptiv și AGI.

Ca futurist, el este dedicat explorării modului în care aceste inovații vor modela lumea noastră. În plus, el este fondatorul Securities.io, o platformă axată pe investiții în tehnologii de ultimă generație care redefinesc viitorul și reshapă întregi sectoare.