Connect with us

Αντιμετώπιση του Βουνού των PDF της Κυβέρνησης των ΗΠΑ με Υπολογιστική Όραση

Τεχνητή νοημοσύνη

Αντιμετώπιση του Βουνού των PDF της Κυβέρνησης των ΗΠΑ με Υπολογιστική Όραση

mm

Το формάτ PDF της Adobe έχει εδραιωθεί τόσο βαθιά στις πipelines εγγράφων της κυβέρνησης των ΗΠΑ, ώστε ο αριθμός των εγγράφων που εκδίδονται από την πολιτεία και υπάρχουν σήμερα, υπολογίζεται συντηρητικά να είναι εκατοντάδες εκατομμύρια. Συχνά αδιαφανή και χωρίς μεταδεδομένα, αυτά τα PDF – πολλά από τα οποία δημιουργούνται από αυτοματοποιημένα συστήματα – δεν λένε συλλογικά keine ιστορίες ή σαγές· αν δεν ξέρετε ακριβώς τι ψάχνετε, είναι πιθανό να μην βρείτε ποτέ ένα σχετικό έγγραφο. Και αν το ήξερε, είναι πιθανό ότι δεν χρειαζόταν την αναζήτηση.Ωστόσο, ένα νέο έργο χρησιμοποιεί υπολογιστική όραση και άλλες προσεγγίσεις μάθησης με μηχανές για να μετατρέψει αυτό το几乎 ακατόρθωτο βουνό δεδομένων σε một πολύτιμο και εξερεύνησιμο πόρο για ερευνητές, ιστορικούς, δημοσιογράφους και μελετητές.

Όταν η κυβέρνηση των ΗΠΑ ανακάλυψε το φορητό φορμάτ εγγράφων (PDF) της Adobe στη δεκαετία του 1990, αποφάσισε ότι του άρεσε. Σε αντίθεση με τα επεξεργάσιμα έγγραφα Word, τα PDF μπορούσαν να “ψηθούν” με διάφορους τρόπους που τα έκαναν δύσκολα ή ακόμη και αδύνατο να τροποποιηθούν αργότερα· οι γραμματοσειρές μπορούσαν να ενσωματωθούν, εξασφαλίζοντας την συμβατότητα μεταξύ πλατφορμών· και η εκτύπωση, η αντιγραφή και ακόμη και η άνοιγμα μπορούσαν όλες να ελεγχθούν σε λεπτομερή βάση.

ΜUCH περισσότερο σημαντικά, αυτά τα βασικά χαρακτηριστικά ήταν διαθέσιμα σε einige από τις παλαιότερες “baseline” προδιαγραφές του φορματ, υποσχόμενα ότι το αρχειοθετημένο υλικό δεν θα χρειαζόταν να επεξεργαστεί ή να επανεξεταστεί αργότερα για να διασφαλιστεί η προσβασιμότητα.几乎 όλα όσα χρειαζόταν η κυβέρνηση για την έκδοση, ήταν στη θέση τους το 1996.

Με την απόδειξη προέλευσης blockchain και τις τεχνολογίες NFTหลาย δεκαετίες μακριά, το PDF ήταν τόσο κοντά όσο η αναδυόμενη ψηφιακή εποχή μπορούσε να φτάσει σε ένα “νεκρό” αναλογικό έγγραφο, μόνο ένα концептуαλικό σκαλί μακριά από ένα φαξ. Αυτό ήταν ακριβώς ό,τι ήθελαν.

Εσωτερική Διαφωνία για το PDF

Το βαθμό στο οποίο τα PDF είναι ερμητικά, ακατάλληλα και “μη κοινωνικά” χαρακτηρίζεται στην τεκμηρίωση για το φορμάτ στη Βιβλιοθήκη του Κογκρέσου, η οποία προτιμά το PDF ως “προτιμώμενο φορμάτ”:

‘Ο κύριος σκοπός του φορματ PDF/A είναι να αντιπροσωπεύει ηλεκτρονικά έγγραφα με τρόπο που να διατηρεί την στατική οπτική τους εμφάνιση με την πάροδο του χρόνου, ανεξάρτητα από τα εργαλεία και τα συστήματα που χρησιμοποιούνται για τη δημιουργία, αποθήκευση ή απόδοση των αρχείων. Για αυτόν τον σκοπό, το PDF/A προσπαθεί να μεγιστοποιήσει την ανεξαρτησία της συσκευής, την αυτοπεριέχουσα και την αυτοτεκμηρίωση.’

Η συνεχιζόμενη ενθουσιασμός για το φορμάτ PDF, τα πρότυπα για την προσβασιμότητα και οι απαιτήσεις για μια ελάχιστη έκδοση, ποικίλλουν μεταξύ των τμημάτων της κυβέρνησης των ΗΠΑ. Για παράδειγμα, ενώ η Υπηρεσία Προστασίας του Περιβάλλοντος έχει αυστηρές αλλά υποστηρικτικές πολιτικές σε αυτόν τον τομέα, η επίσημη ιστοσελίδα της κυβέρνησης plainlanguage.gov αναγνωρίζει ότι ‘οι χρήστες μισούν τα PDF’, και ακόμη και συνδέεται απευθείας με μια αναφορά του 2020 της Nielsen Norman Group με τίτλο PDF: Ακόμη Ακατάλληλο για Ανθρώπινη Κατανάλωση, 20 Χρόνια Αργότερα.

Εν τω μεταξύ, το irs.gov, δημιουργήθηκε το 1995 ειδικά για τη μετάβαση της τεκμηρίωσης του φορολογικού οργανισμού σε ψηφιακή μορφή και είναι ακόμη ενθουσιώδης υποστηρικτής.

Η Ιογενής Διάδοση των PDF

Από τότε που κυκλοφόρησαν οι βασικές προδιαγραφές του PDF από την Adobe με ανοικτό κώδικα, μια σειρά εργαλείων επεξεργασίας διακομιστή και βιβλιοθηκών έχει εμφανιστεί, πολλά από τα οποία είναι πλέον σεβαστή και εδραιωμένη όπως οι προδιαγραφές PDF του 1996, και τόσο αξιόπιστα και ανθεκτικά σε σφάλματα, ενώ οι προμηθευτές λογισμικού βιάστηκαν να ενσωματώσουν τη λειτουργικότητα του PDF σε φθηνά εργαλεία.

Συsequently, τα PDF παραμένουν πανταχού παρόντα στις πipelines επικοινωνίας και τεκμηρίωσης σε ένα τεράστιο αριθμό τμημάτων της κυβέρνησης των ΗΠΑ.

Το 2015, ο Αντιπρόεδρος Μηχανικής της Adobe για το Document Cloud, Phil Ydens εκτίμησε ότι 2,5 τρισεκατομμύρια έγγραφα PDF υπάρχουν στον κόσμο, ενώ το φορμάτ πιστεύεται ότι αντιπροσωπεύει κάπου μεταξύ 6-11% του συνολικού περιεχομένου του ιντερνέτ. Σε μια τεχνολογική κουλτούρα που είναι εθισμένη στο να διαταράσσει τις παλιές τεχνολογίες, το PDF έχει γίνει αδιαγράφτητο “σκουριά” – ένα κεντρικό μέρος της δομής που το φιλοξενεί.

Από το 2018. Δεν υπάρχει κανένα σοβαρό αντίπαλο ακόμη.

Από το 2018. Δεν υπάρχει κανένα σοβαρό αντίπαλο ακόμη. Source: https://twitter.com/trbrtc/status/980407663690502145

Σύμφωνα με μια πρόσφατη μελέτη από ερευνητές στο Πανεπιστήμιο του Вашิงτον και τη Βιβλιοθήκη του Κογκρέσου, ‘εκατοντάδες εκατομμύρια μοναδικά έγγραφα της κυβέρνησης των ΗΠΑ που έχουν αναρτηθεί στο διαδίκτυο σε μορφή PDF έχουν αρχειοθετηθεί από βιβλιοθήκες μέχρι σήμερα’.

Ωστόσο, οι ερευνητές υποστηρίζουν ότι αυτό είναι μόνο η “ακίδα του παγοberg”:

‘Όπως ο ηγέτης ιστορικός Roy Rosenzweig είχε σημειώσει ήδη από το 2003, όταν πρόκειται για ψηφιακά πρωτογενή πηγές για μελέτη, είναι απαραίτητο να αναπτύξουμε μεθόδους και προσεγγίσεις που θα κλιμακωθούν σε δεκάδες και εκατοντάδες εκατομμύρια και ακόμη και δισεκατομμύρια ψηφιακών πόρων. Τώρα έχουμε φτάσει στο σημείο όπου η ανάπτυξη προσεγγίσεων για αυτή την κλίμακα είναι απαραίτητη.

‘Ως παράδειγμα, οι ιστοσελίδες της Βιβλιοθήκης του Κογκρέσου περιέχουν πλέον περισσότερες από 20 δισεκατομμύρια ψηφιακούς πόρους.’

PDF: Ανθεκτικά στην Ανάλυση

Το έργο των ερευνητών του Вашิงτον εφαρμόζει eine σειρά μεθόδων μάθησης με μηχανές σε ένα δημόσια διαθέσιμο και τεκμηριωμένο σώμα 1.000 επιλεγμένων εγγράφων από τη Βιβλιοθήκη του Κογκρέσου, με σκοπό την ανάπτυξη συστημάτων που είναι ικανά για αστραπιαία, πολυμορφική ανάκτηση κειμένου και εικόνας σε ερωτήματα που μπορούν να κλιμακωθούν σε ύψη τρεχούμενων (και αυξανόμενων) όγκων PDF, όχι μόνο στην κυβέρνηση, αλλά και σε πολλαπλούς τομείς.

Όπως παρατηρεί το έγγραφο, ο ταχύτατος ρυθμός ψηφιοποίησης σε eine σειρά από αποσυνδεδεμένα τμήματα της κυβέρνησης των ΗΠΑ στη δεκαετία του 1990 οδήγησε σε διαφορετικές πολιτικές και πρακτικές, και συχνά στην υιοθέτηση μεθόδων δημοσίευσης PDF που δεν περιείχαν την ίδια ποιότητα μεταδεδομένων που ήταν κάποτε το χρυσό πρότυπο των υπηρεσιών βιβλιοθήκης της κυβέρνησης – ή ακόμη και βασικά εγγενή μεταδεδομένα PDF, που θα μπορούσαν να ήταν κάποιας χρήσης για να κάνουν τις συλλογές PDF πιο προσιτές και φιλικές zur indeksierung.

Συζητώντας αυτή την περίοδο διαταραχής, οι συγγραφείς σημειώνουν:

‘Αυτές οι προσπάθειες οδήγησαν σε μια εκρηκτική αύξηση της ποσότητας των κυβερνητικών δημοσιεύσεων, η οποία με τη σειρά της οδήγησε σε μια διάλυση της γενικής προσέγγισης με την οποία παράγονταν συνεπή μεταδεδομένα για αυτές τις δημοσιεύσεις και με την οποία οι βιβλιοθήκες αποκτούσαν αντίγραφα τους.’

Συsequently, ένα τυπικό βουνό PDF υπάρχει χωρίς κανένα άλλο контекст εκτός από τις URLs που συνδέονται απευθείας με αυτό. Περαιτέρω, τα έγγραφα στο βουνό είναι κλειστά, αυτοαναφορικά και δεν αποτελούν μέρος κανένας “σαγάς” ή αφηγήματος που οι τρέχουσες μεθόδους αναζήτησης είναι πιθανό να διακρίνουν, παρόλο που τέτοιες κρυφές συνδέσεις υπάρχουν σίγουρα.

Σε αυτή την κλίμακα, η χειροκίνητη αναnotation ή κούραση είναι ένα ακατόρθωτο προοπτικό. Ο σώμα δεδομένων από τον οποίο τα 1000 έγγραφα της Βιβλιοθήκης του Κογκρέσου προέρχονται, περιέχει πάνω από 40 εκατομμύρια PDF, τα οποία οι ερευνητές σκοπεύουν να τα κάνουν μια διεύθυνση πρόκληση στο προσεχές μέλλον.

Υπολογιστική Όραση για Ανάλυση PDF

Η περισσότερη από τις προηγούμενες έρευνες που οι συγγραφείς αναφέρουν χρησιμοποιούν κειμενοβασισμένες μεθόδους για την εξαγωγή χαρακτηριστικών και υψηλού επιπέδου εννοιών από υλικό PDF· σε αντίθεση, το έργο τους επικεντρώνεται στην εξαγωγή χαρακτηριστικών και τάσεων εξετάζοντας τα PDF σε οπτικό επίπεδο, σύμφωνα με τρέχουσα έρευνα για πολυμορφική ανάλυση περιεχομένου ειδήσεων.

Αν και η μάθηση με μηχανές έχει επίσης εφαρμοστεί με αυτόν τον τρόπο στην ανάλυση PDF μέσω τομεατικών schemata όπως Semantic Scholar, οι συγγραφείς στοχεύουν να δημιουργήσουν πιο υψηλά εξαγωγικά pipelines που είναι ευρέως εφαρμόσιμα σε eine σειρά από δημοσιεύσεις, και όχι ρυθμισμένα στις αυστηρότητες της επιστημονικής δημοσίευσης ή άλλων ισοδύναμων τομέων.

Αντιμετώπιση των Ασυντόνιστων Δεδομένων

Στη δημιουργία eines μετρητικού σχήματος, οι ερευνητές έχουν πρέπει να λάβουν υπόψη το πόσο είναι σκεωμένα τα δεδομένα, τουλάχιστον σε όρους μεγέθους-αντικειμένου.

Từ των 1000 PDF στο επιλεγμένο σύνολο δεδομένων (το οποίο οι συγγραφείς υποθέτουν ότι είναι αντιπροσωπευτικό των 40 εκατομμυρίων από τα οποία προέρχονται), το 33% είναι μόνο μια σελίδα μακρύ, και το 39% είναι 2-5 σελίδες μακρύ. Αυτό τοποθετεί το 72% των εγγράφων σε πέντε σελίδες ή λιγότερες.

Μετά από αυτό, υπάρχει ένα αρκετά άλμα: το 18% των εγγράφων που παραμένουν τρέχουν σε 6-20 σελίδες, το 6% σε 20-100 σελίδες και το 3% σε 100+ σελίδες. Αυτό σημαίνει ότι τα μακρύτερα έγγραφα αποτελούν την πλειοψηφία των ατομικών σελίδων που εξάγονται, ενώ μια λιγότερο γρανιτένια προσέγγιση που λαμβάνει υπόψη τα έγγραφα μόνο θα στρέψει την προσοχή προς τα πολύ πιο πολυάριθμα μικρότερα έγγραφα.

Ωστόσο, αυτά είναι ενημερωτικά μετρικά, поскольку τα έγγραφα μιας σελίδας τείνουν να είναι τεχνικά σχήματα ή χάρτες· τα έγγραφα 2-5 σελίδων τείνουν να είναι δελτία τύπου και φόρμες· και τα πολύ μακρά έγγραφα είναι γενικά βιβλία-μεγέθους αναφορές και δημοσιεύσεις, αν και, σε όρους μήκους, είναι αναμεμιγμένα με τεράστιες αυτοματοποιημένες αποθέσεις δεδομένων που περιέχουν εντελώς διαφορετικές προκλήσεις για σημασιολογική ερμηνεία.

Επομένως, οι ερευνητές αντιμετωπίζουν αυτή την ανισότητα ως μια σημαντική σημασιολογική ιδιότητα από μόνη της. Ωστόσο, τα PDF πρέπει ακόμη να επεξεργαστούν και να ποσοτικοποιηθούν σε μια ανά σελίδα βάση.

Αρχιτεκτονική

Στην αρχή της διαδικασίας, τα μεταδεδομένα του PDF αναλύονται σε πίνακες δεδομένων. Αυτά τα μεταδεδομένα δεν θα λείπουν, επειδή αποτελούνται από γνωστές ποσότητες όπως το μέγεθος αρχείου και η πηγή URL.

Το PDF χωρίζεται στη συνέχεια σε σελίδες, με κάθε σελίδα να μετατρέπεται σε μορφή JPEG μέσω ImageMagick. Η εικόνα στη συνέχεια τροφοδοτείται σε ένα δίκτυο ResNet-50 που εξάγει einen 2.048 διαστατικό διανυσμα από το δεύτερο-τελευταίο επίπεδο.

Η πipeline για εξαγωγή από PDF.

Η πipeline για εξαγωγή από PDF. Source: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf

Την ίδια στιγμή, η σελίδα μετατρέπεται σε αρχείο κειμένου από το pdf2text, και TF-IDF featurizations λαμβάνονται μέσω scikit-learn.

TF-IDF σημαίνει Συχνότητα Όρου Αντίστροφη Συχνότητα Εγγράφου, η οποία μετρά την επικράτηση κάθε φράσης μέσα στο έγγραφο με τη συχνότητά του σε ολόκληρο το σύνολο δεδομένων, σε μια λεπτομερή κλίμακα από 0 έως 1. Οι ερευνητές έχουν χρησιμοποιήσει đơnες λέξεις (μονοσύλλαβες) ως το μικρότερο μονάδα στο σύστημα TF-IDF.

Αν και αναγνωρίζουν ότι η μάθηση με μηχανές έχει πιο sophistikated μεθόδους να προσφέρει από το TF-IDF, οι συγγραφείς υποστηρίζουν ότι τίποτα πιο σύνθετο δεν είναι απαραίτητο για το αναφερθέν έργο.

Το γεγονός ότι κάθε έγγραφο έχει μια συσχετιζόμενη πηγή URL επιτρέπει στο σύστημα να καθορίσει την προέλευση εγγράφων σε ολόκληρο το σύνολο δεδομένων.

Αυτό μπορεί να φαίνεται ελαφρό για 1.000 έγγραφα, αλλά θα είναι khá ένα ανοιχτό μάτι για 40 εκατομμύρια+.

Νέες Προσεγγίσεις για Αναζήτηση Κειμένου

Ένα από τα στόχοι του έργου είναι να κάνει τα αποτελέσματα αναζήτησης για ερωτήματα κειμένου πιο σημαντικά, επιτρέποντας την ευηρέα εξερεύνηση χωρίς την ανάγκη για υπερβολική προηγούμενη γνώση. Οι συγγραφείς δηλώνουν:

‘Ενώ η αναζήτηση με λέξεις-κλειδιά είναι μια εύκολη και εξαιρετικά επεκτάσιμη μέθοδος αναζήτησης, μπορεί επίσης να είναι περιοριστική, поскольку οι χρήστες είναι υπεύθυνοι για τη διατύπωση ερωτημάτων λέξεων-κλειδιών που λαμβάνουν σχετικά αποτελέσματα.’

Όταν οι τιμές TF-IDF λαμβάνονται, είναι δυνατό να υπολογιστεί η πιο συχνά εμφανιζόμενη λέξη και να εκτιμηθεί ένα “μέσο” έγγραφο στο σύνολο δεδομένων. Οι ερευνητές υποστηρίζουν ότι既然 αυτές οι δια-εγγράφου λέξεις-κλειδιά είναι συνήθως σημαντικές, αυτή η διαδικασία σχηματίζει χρήσιμες σχέσεις για τους μελετητές να εξερευνήσουν, οι οποίες δεν θα μπορούσαν να ληφθούν μόνο με ατομική indeksierung του κειμένου κάθε εγγράφου.

Οπτικά, η διαδικασία διευκολύνει ένα “πίνακα στοιχείων” λέξεων που προέρχονται από διάφορα τμήματα της κυβέρνησης:

Λέξεις-κλειδιά TF-IDF για διάφορα τμήματα της κυβέρνησης των ΗΠΑ, που λαμβάνονται από TF-IDF.

Λέξεις-κλειδιά TF-IDF για διάφορα τμήματα της κυβέρνησης των ΗΠΑ, που λαμβάνονται από TF-IDF.

Αυτά τα εξαγόμενα λέξεις-κλειδιά και σχέσεις μπορούν αργότερα να χρησιμοποιηθούν για τη διαμόρφωση δυναμικών πινάκων σε αποτελέσματα αναζήτησης, με το σύνολο εγγράφων PDF να αρχίζει να “λέει ιστορίες”, και σχέσεις λέξεων-κλειδιών που συνδέουν έγγραφα (ίσως ακόμη και για εκατοντάδες χρόνια), για να περιγράψουν ένα εξερεύνησιμο multi-μέρος “σαγάς” για ένα θέμα ή θέμα.

Οι ερευνητές χρησιμοποιούν k-means clustering για να αναγνωρίσουν έγγραφα που σχετίζονται, ακόμη και όταν τα έγγραφα δεν μοιράζονται μια κοινή πηγή. Αυτό επιτρέπει την ανάπτυξη μετρητών λέξεων-κλειδιών που εφαρμόζονται σε ολόκληρο το σύνολο δεδομένων, τα οποία θα εκφραστούν είτε ως βαθμολογίες για όρους σε μια αυστηρή αναζήτηση κειμένου, είτε ως κοντινά σημεία σε ένα πιο δυναμικό περιβάλλον εξερεύνησης:

Οπτική Ανάλυση

Η αληθινή καινοτομία της προσεγγίσεως των ερευνητών του Вашิงτον είναι να εφαρμόσουν τεχνικές οπτικής ανάλυσης με βάση τη μάθηση με μηχανές στην οπτική εμφάνιση των PDF στο σύνολο δεδομένων.

Με αυτόν τον τρόπο, είναι δυνατό να γεννήσει ένα “REDACTED” tag σε οπτική βάση, όπου τίποτα στο κείμενο δεν θα παρέχει μια κοινή βάση.

Ένας cluster από redacted PDF πρώτες σελίδες που αναγνωρίζονται από υπολογιστική όραση στο νέο έργο.

Ένας cluster από redacted PDF πρώτες σελίδες που αναγνωρίζονται από υπολογιστική όραση στο νέο έργο.

Επιπλέον, χάρτες και σχήματα μπορούν να αναγνωριστούν και να κατηγοριοποιηθούν, και οι συγγραφείς σχολιάζουν σε αυτήν την δυνατότητα:

‘Για τους μελετητές που ενδιαφέρονται για αποκαλύψεις ταξινομημένης ή άλλως ευαίσθητης πληροφορίες, μπορεί να είναι ιδιαίτερα ενδιαφέρον να απομονώσουν ακριβώς αυτόν τον τύπο cluster υλικού για ανάλυση και έρευνα.’

Το έγγραφο σημειώνει ότι μια ευρεία ποικιλία οπτικών δεικτών κοινών σε συγκεκριμένους τύπους κυβερνητικών PDF μπορεί επίσης να χρησιμοποιηθεί για να ταξινομήσει έγγραφα και να δημιουργήσει “σαγές”. Τέτοιες “tokens” θα μπορούσαν να είναι το σήμα του Κογκρέσου, ή άλλα λογότυπα ή επαναλαμβανόμενα οπτικά χαρακτηριστικά που δεν έχουν σημασιολογική ύπαρξη σε μια καθαρή αναζήτηση κειμένου.

Επιπλέον, έγγραφα που αντιστέκονται στην ταξινόμηση, ή όπου το έγγραφο προέρχεται από μια μη κοινή πηγή, μπορούν να αναγνωριστούν από το σχήμα τους, όπως στήλες, τύποι γραμματοσειρών και άλλα διακριτά χαρακτηριστικά.

Το σχήμα μόνο μπορεί να προσφέρει ομαδοποιήσεις και ταξινομήσεις σε einen οπτικό χώρο αναζήτησης.

Το σχήμα μόνο μπορεί να προσφέρει ομαδοποιήσεις και ταξινομήσεις σε einen οπτικό χώρο αναζήτησης.

Αν και οι συγγραφείς δεν έχουν παραμελήσει το κείμενο, είναι σαφές ότι ο οπτικός χώρος αναζήτησης είναι αυτό που έχει οδηγήσει αυτήν την εργασία.

‘Η ικανότητα αναζήτησης και ανάλυσης PDF σύμφωνα με τα οπτικά χαρακτηριστικά τους είναι έτσι μια capacious προσέγγιση: δεν μόνο ενισχύει τις υφιστάμενες προσπάθειες που περιβάλλουν την κειμενογραφική ανάλυση, αλλά και επανεξετάζει τι μπορεί να είναι η αναζήτηση και η ανάλυση για ψηφιακό περιεχόμενο.’

Οι συγγραφείς σκοπεύουν να αναπτύξουν το πλαίσιο τους για να διευθετήσουν πολύ μεγαλύτερα σύνολα δεδομένων, συμπεριλαμβανομένου του 2008 End of Term Presidential Web Archive σύνολο δεδομένων, το οποίο περιέχει πάνω από 10 εκατομμύρια αντικείμενα. Αρχικά, ωστόσο, σκοπεύουν να κλιμακώσουν το σύστημα για να αντιμετωπίσουν “δεκάδες χιλιάδες” κυβερνητικών PDF.

Το σύστημα προορίζεται να αξιολογηθεί αρχικά με πραγματικούς χρήστες, συμπεριλαμβανομένων βιβλιοθηκονόμων, αρχειονόμων, δικηγόρων, ιστορικών και άλλων μελετητών, και θα εξελιχθεί με βάση τις αντιδράσεις από αυτές τις ομάδες.

 

Grappling with the Scale of Born-Digital Government Publications: Toward Pipelines for Processing and Searching Millions of PDFs γράφτηκε από Benjamin Charles Germain Lee (στην Paul G. Allen School for Computer Science & Engineering) και Trevor Owens, Public Historian in Residence and Head of Digital Content Management στη Βιβλιοθήκη του Κογκρέσου στη Washington, D.C..

 

* Η μετατροπή μου των εσωτερικών αναφορών σε υπερσυνδέσμους.

Δημοσιεύθηκε αρχικά στις 28 Δεκεμβρίου 2021

 

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]