Τεχνητή νοημοσύνη
Το DocLang στοχεύει να γίνει η καθολική γλώσσα για έγγραφα που είναι έτοιμα για το AI

Για δεκαετίες, οι επιχειρήσεις έχουν βασιστεί σε μορφές εγγράφων που σχεδιάστηκαν για ανθρώπινους αναγνώστες και όχι για συστήματα AI. Συμβάσεις, τιμολόγια, αναφορές, παρουσιάσεις, φόρμες και άπειρα άλλα επιχειρηματικά έγγραφα περιέχουν πολύτιμη πληροφορία, ωστόσο η εξαγωγή αυτής της γνώσης για εφαρμογές AI συχνά απαιτεί σύνθετες διαδικασίες επεξεργασίας που προστίθενται στο κόστος, την καθυστέρηση και τις ευκαιρίες για λάθη.
Όσο οι οργανισμοί αναπτύσσουν όλο και περισσότερο γεννητικά AI και αυτόνομους πράκτορες, αυτή η αποσύνδεση έχει γίνει μια αυξανόμενη πρόκληση. Για να αντιμετωπίσουν αυτό, η ABBYY έχει ενταχθεί στην IBM, NVIDIA, Red Hat, HumanSignal και το LF AI & Data Foundation του Linux Foundation για την εκκίνηση του DocLang, einem νέου ανοιχτού προτύπου που σχεδιάστηκε για τη δημιουργία μιας απεικόνισης εγγράφων που είναι εγγενής για το AI. Οι υποστηρικτές της πρωτοβουλίας πιστεύουν ότι θα μπορούσε να παίξει ένα ρόλο παρόμοιο με τον προτυποποίηση του HTML για το περιεχόμενο του web, δημιουργώντας μια κοινή γλώσσα που επιτρέπει στα συστήματα AI να κατανοούν τα έγγραφα με πιο συνεπή και αποτελεσματικό τρόπο.
Γιατί τα έγγραφα έχουν γίνει ένα πρόβλημα AI
Το μεγαλύτερο μέρος της επιχειρηματικής γνώσης του κόσμου υπάρχει σε μορφές όπως PDF, σκαναρισμένες εικόνες,电子 υπολογιστές και παρουσιάσεις. Αν και αυτές οι μορφές λειτουργούν καλά για την ανθρώπινη κατανάλωση, δεν σχεδιάστηκαν ποτέ για την κατανόηση της μηχανής.
Οι άνθρωποι μπορούν να αναγνωρίσουν άμεσα τις επικεφαλίδες, τους πίνακες, τις σχέσεις μεταξύ των τμημάτων και τη σημασία της πληροφορίας με βάση τη θέση της μέσα στο έγγραφο. Τα συστήματα AI, ωστόσο, συχνά απαιτούν πολλαπλά στρώματα OCR, ανάλυσης διάταξης, ανάλυσης εγγράφου και μετα-επεξεργασίας πριν μπορέσουν να ερμηνεύσουν με αξιοπιστία το ίδιο περιεχόμενο.
Αυτή η πρόκληση γίνεται ακόμη πιο σημαντική καθώς οι οργανισμοί υιοθετούν πράκτορες AI που μπορούν να συλλογιστούν σε μεγάλες συλλογές επιχειρηματικών δεδομένων. Κάθε έγγραφο πρέπει πρώτα να μετατραπεί σε μια δομημένη αναπαράσταση πριν μπορέσει να χρησιμοποιηθεί αποτελεσματικά από μοντέλα γλωσσών, συστήματα ανάκτησης ή αυτόνομες διαδικασίες.
Το αποτέλεσμα είναι ένα κατακερματισμένο οικοσύστημα στο οποίο τα διαφορετικά εργαλεία συχνά δημιουργούν τις δικές τους αναπαραστάσεις εγγράφων, καθιστώντας τη διαλειτουργικότητα δύσκολη και αυξάνοντας την πιθανότητα ασυνεπειών.
Πώς η ABBYY βοήθησε να διαμορφώσει την οπτική
Η ABBYY έχει αναδυθεί ως ένας από τους βασικούς συντελεστές πίσω από την πρωτοβουλία DocLang. Η εταιρεία έχει δαπανήσει δεκαετίες αναπτύσσοντας νοημοσύνη εγγράφων, OCR και αυτόματες τεχνολογίες, δίνοντάς της μια μοναδική προοπτική στις προκλήσεις που αντιμετωπίζουν οι επιχειρήσεις όταν προσπαθούν να γεφυρώσουν το χάσμα μεταξύ των παραδοσιακών εγγράφων και των σύγχρονων συστημάτων AI.
Σύμφωνα με τον Maxime Vermeir, Αντιπρόεδρο της στρατηγικής AI της ABBYY, η ιδέα για το DocLang αναπτύχθηκε από συζητήσεις μέσα στην κοινότητα AI εγγράφων σχετικά με την ανάγκη για ένα κοινό επίπεδο αναπαράστασης που θα μπορούσε να βρεθεί μεταξύ των ακατέργαστων εγγράφων και των εφαρμογών AI.
“Το DocLang σχεδιάστηκε για να λύσει ένα από τα θεμελιώδη προβλήματα της επιχειρηματικής AI: τα έγγραφα κατασκευάστηκαν για τους ανθρώπους, όχι για τις μηχανές”, εξήγησε ο Vermeir.
Αντί να αναγκάζουν κάθε σύστημα AI να ερμηνεύσει ανεξάρτητα τη διάταξη εγγράφων, τους πίνακες, τις σχέσεις, τα μετα-δεδομένα και τη δομή, το DocLang επιδιώκει να καθιερώσει ένα стандαρδικό πλαίσιο που μπορεί να μοιραστεί σε διαφορετικές πλατφόρμες και εφαρμογές.
Ο στόχος είναι να κάνει την κατανόηση εγγράφων πιο αξιόπιστη, να μειώσει τις ψευδείς ερμηνείες που προκαλούνται από την έλλειψη контекστού και να μειώσει το κόστος υπολογισμού που συνδέεται με την επανεπεξεργασία της ίδιας πληροφορίας.
Τι είναι ακριβώς το DocLang;
Το DocLang είναι ένα ανοιχτό πρότυπο για την αναπαράσταση εγγράφων σε μια μορφή που είναι ειδικά βελτιστοποιημένη για συστήματα AI.
Σε αντίθεση με τις παραδοσιακές μορφές που εστιάζουν κυρίως στην οπτική παρουσίαση, το DocLang σχεδιάστηκε για να διατηρεί πολλαπλά στρώματα πληροφορίας ταυτόχρονα, συμπεριλαμβανομένων:
- Σημαντική σημασία
- Δομή εγγράφου και ιεραρχία
- Γεωμετρική διάταξη και τοποθέτηση
- Πίνακες και σύνθετα στοιχεία εγγράφου
- Μετα-δεδομένα
- Διοίκηση και έλεγχος χρήσης
Αυτή η προσέγγιση επιτρέπει στα συστήματα AI να κατανοούν όχι μόνο ποια πληροφορία υπάρχει μέσα σε ένα έγγραφο, αλλά και πώς αυτή η πληροφορία είναι οργανωμένη και σχετίζεται.
Για παράδειγμα, μια τιμή που περιέχεται σε einen οικονομικό πίνακα έχει σημασία όχι μόνο λόγω του αριθμού خود, αλλά και λόγω της σχέσης του με τις γύρω γραμμές, στήλες, επικεφαλίδες και контекστού πληροφορίας. Η διατήρηση αυτών των σχέσεων σε μια стандαρδική μορφή μπορεί να βοηθήσει τα συστήματα AI να συλλογιστούν με μεγαλύτερη ακρίβεια σχετικά με το περιεχόμενο εγγράφου.
Το DocLang περιλαμβάνει επίσης ελέγχους διοίκησης που επιτρέπουν στις οργανώσεις να καθορίσουν πώς μπορεί να χρησιμοποιηθεί το περιεχόμενο εγγράφου, συμπεριλαμβανομένων των πολιτικών που σχετίζονται με την ιδιωτικότητα, την εξαγωγή και την εκπαίδευση μοντέλων AI.
Η σύγκριση με το HTML
Οι υποστηρικτές της πρωτοβουλίας συχνά συγκρίνουν το DocLang με τον ρόλο του HTML στην εξέλιξη του web.
Πριν το HTML γίνει ευρέως αποδεκτό, δεν υπήρχε καθολικός τρόπος για τους браουζέρ να ερμηνεύσουν και να εμφανίσουν το περιεχόμενο με συνέπεια. Το HTML εισήγαγε μια κοινή δομή που επέτρεψε στους ιστότοπους να κατανοηθούν σε διαφορετικά συστήματα και πλατφόρμες.
Το DocLang στοχεύει να φέρει ένα παρόμοιο επίπεδο προτυποποίησης στα επιχειρηματικά έγγραφα. Αντί να αναπτύσσουν κάθε πλατφόρμα AI την δική της ερμηνεία της δομής εγγράφου, μια κοινή μορφή θα μπορούσε να παρέχει μια κοινή βάση για την κατανόηση εγγράφων σε ολόκληρο το οικοσύστημα AI.
Καθώς η υιοθέτηση του AI επιταχύνεται, οι υποστηρικτές της πρωτοβουλίας υποστηρίζουν ότι οι стандαρδικές αναπαραστάσεις εγγράφων μπορεί να γίνουν όλο και πιο σημαντικές για την διασφάλιση της διαλειτουργικότητας μεταξύ μοντέλων, εφαρμογών και αυτόνομων πρακτόρων.
Πώς το DocLang και το Docling συνεργάζονται
Η πρωτοβουλία αυτή βασίζεται επίσης στο Docling, το ανοιχτό εργαλείο επεξεργασίας εγγράφων που αρχικά αναπτύχθηκε από την IBM Research Zurich και κυκλοφόρησε ως ανοιχτό κώδικας το 2024.
Το Docling επικεντρώνεται στην κατάποση και μετατροπή εγγράφων. Μπορεί να επεξεργαστεί αρχεία PDF, έγγραφα Word, ηλεκτρονικούς υπολογιστές, παρουσιάσεις, αρχεία HTML και εικόνες, μετατρέποντάς τα σε δομημένες αναπαραστάσεις χρησιμοποιώντας προηγμένα μοντέλα ανάλυσης διάταξης και κατανόησης εγγράφου.
Το DocLang συμπληρώνει αυτή τη δυνατότητα παρέχοντας μια стандαρδική μορφή για την αναπαράσταση και ανταλλαγή του δομημένου εξόδου που παράγεται από εργαλεία όπως το Docling.
Μαζί, τα προγράμματα δημιουργούν ένα πιο ολοκληρωμένο στάδιο AI εγγράφων:
- Το Docling χειρίζεται την κατάποση και την κατανόηση εγγράφου
- Το DocLang παρέχει ένα καθολικό επίπεδο αναπαράστασης
- Τα μοντέλα AI και οι πράκτορες καταναλώνουν την απαραιτήτως δομημένη πληροφορία
Αυτή η διαίρεση βοηθά στη μείωση της κατακερματισμένης δομής ενώ δημιουργεί μια κοινή βάση που μπορούν να υιοθετήσουν διαφορετικοί προμηθευτές και αναπτυξιακοί.
Γιατί οι ανοιχτές προδιαγραφές έχουν σημασία για την επιχειρηματική AI
Καθώς οι επιχειρηματικές αναπτύξεις AI μετακινούνται από την πειραματική στη παραγωγή, η διαλειτουργικότητα γίνεται όλο και πιο σημαντική.
Οι οργανισμοί σπάνια βασίζονται σε ένα μόνο μοντέλο AI, πλατφόρμα εγγράφων ή λογισμικό. Αντίθετα, λειτουργούν σε σύνθετα οικοσυστήματα που απαιτούν την πληροφορία να μετακινείται ομαλά μεταξύ συστημάτων.
Οι ανοιχτές προδιαγραφές έχουν ιστορικά παίξει einen κρίσιμο ρόλο στην ενεργοποίηση της τεχνολογικής υιοθέτησης, δημιουργώντας κοινά πλαίσια που μειώνουν την πολυπλοκότητα της ενσωμάτωσης και τον κλειδωμό προμηθευτή. Το Kubernetes βοήθησε να стандαρδικοποιηθεί η υποδομή cloud-φιλική, ενώ το HTML έγινε η βάση του σύγχρονου web.
Οι υποστηρικτές του DocLang πιστεύουν ότι οι προδιαγραφές AI-εγγράφων θα μπορούσαν να έχουν παρόμοιο ρόλο για την νοημοσύνη εγγράφων και τις εργασίες AI.
Ματιά στο Μέλλον
Η βιομηχανία AI έχει επενδύσει τεράστια προσπάθεια στην διδασκαλία των μηχανών πώς να ερμηνεύουν έγγραφα που δεν σχεδιάστηκαν ποτέ για κατανάλωση μηχανής. Το DocLang αντιπροσωπεύει μια προσπάθεια να αντιμετωπίσουν αυτή την πρόκληση στην πηγή της, δημιουργώντας μια γλώσσα εγγράφων που είναι ειδικά σχεδιασμένη για το AI.
Εάν είναι επιτυχημένο, η πρωτοβουλία θα μπορούσε να βοηθήσει στην βελτίωση της ερμηνείας εγγράφων, να μειώσει τις ψευδείς ερμηνείες που προκαλούνται από την έλλειψη δομικού контекστού, να μειώσει το κόστος επεξεργασίας και να κάνει πιο εύκολη την ανταλλαγή πληροφορίας μεταξύ συστημάτων AI.
Σε μια εποχή που οι οργανισμοί βασίζονται όλο και περισσότερο σε πράκτορες AI για να πλοηγηθούν σε τεράστιες συλλογές επιχειρηματικής γνώσης, η τυποποίηση του τρόπου με τον οποίο αντιπροσωπεύονται τα έγγραφα μπορεί να αποδειχθεί εξίσου σημαντική όσο και η προώθηση των μοντέλων themselves. Για την ABBYY και τους συνεργάτες της, το DocLang είναι μια προσπάθεια να δημιουργηθεί η βάση που θα μπορούσε να κάνει αυτό το μέλλον δυνατό.












