Ηγέτες σκέψης

Χρήση OCR για Συμπλέξεις Μηχανικών Σχεδίων

mm

Η Οπτική Αναγνώριση Χαρακτήρων (OCR) έχει επανακαθορίσει τον τρόπο που οι επιχειρήσεις αυτοματοποιούν την επεξεργασία εγγράφων. Ωστόσο, η ποιότητα και η ακρίβεια της τεχνολογίας δεν είναι αρκετά καλές για κάθε εφαρμογή. Όσο πιο σύνθετο είναι το έγγραφο που επεξεργάζεται, τόσο λιγότερο ακριβής γίνεται. Αυτό είναι ιδιαίτερα αληθινό για τα μηχανικά σχέδια. Αν και οι τεχνολογίες OCR out of the box μπορεί να μην είναι κατάλληλες για αυτήν την εργασία, υπάρχουν άλλες τρόποι για να επιτύχετε τους στόχους επεξεργασίας εγγράφων σας με OCR. Στο τι ακολουθεί, θα εξερευνήσω beberapa βιώσιμες λύσεις για να σας δώσω μια γενική ιδέα χωρίς να đi vào πολύ τεχνικές λεπτομέρειες.

Προκλήσεις Αναγνώρισης Μηχανικών Σχεδίων

Όταν πρόκειται για τεχνικά σχέδια, η OCR δυσκολεύεται να κατανοήσει τη σημασία των μεμονωμένων στοιχείων κειμένου. Η τεχνολογία μπορεί να διαβάσει το κείμενο, αλλά δεν κατανοεί τη σημασία του. Υπάρχουν πολλές ευκαιρίες για μηχανικούς και κατασκευαστές να εξετάσουν αν η αυτόματη αναγνώριση του τεχνικού εγγράφου είναι ρυθμισμένη σωστά. Δείτε τις πιο σημαντικές από αυτές παρακάτω.

Πηγή εικόνας: Mobidev

Για να επιτύχετε την ανάλυση συμπλεγμάτων τεχνικής τεκμηρίωσης, οι μηχανικοί χρειάζεται να εκπαιδεύσουν μοντέλα AI. Όπως και οι άνθρωποι, τα μοντέλα AI χρειάζονται εμπειρία και εκπαίδευση για να κατανοήσουν αυτά τα σχέδια.

Μια πρόκληση της αναγνώρισης蓝πρίντ και μηχανικών σχεδίων είναι ότι το λογισμικό πρέπει να κατανοήσει πώς να διαχωρίσει τις διαφορετικές απόψεις του σχεδίου. Αυτές είναι διαφορετικά μέρη του σχεδίου που δίνουν μια βασική ιδέα για το σχήμα του. Διαχωρίζοντας τις απόψεις και κατανοώντας πώς σχετίζονται μεταξύ τους, το λογισμικό μπορεί να υπολογίσει το bounding box.

Αυτή η διαδικασία μπορεί να περιλαμβάνει beberapa προκλήσεις:

  • Οι απόψεις μπορεί να перекrýνονται
  • Οι απόψεις μπορεί να είναι κατεστραμμένες
  • Οι ετικέτες μπορεί να είναι ισοδύναμες με δύο απόψεις
  • Οι απόψεις μπορεί να είναι εμβυθισμένες

Η σχέση μεταξύ απόψεων είναι ένα άλλο πιθανό ζήτημα. Πρέπει να εξετάσετε αν η άποψη είναι ένα επίπεδο μέρος του διαγράμματος, ένα στρεφόμενο μέρος, ένα μπλοκ ή κάτι άλλο. Επιπλέον, μπορεί να υπάρχουν άλλα προβλήματα όπως αλυσίδες μετρήσεων, λείπουσες αναφορές, ρητά ορισμένες υψόμετρα μέσω αναφοράς σε ένα πρότυπο ή άλλα προβλήματα.

Σημαντικά, η γενική OCR δεν μπορεί να κατανοήσει με αξιοπιστία το κείμενο στα σχέδια που περιβάλλεται από γραφικά στοιχεία όπως γραμμές, σύμβολα και αναφορές. Λόγω αυτού του γεγονότος, πρέπει να διεισδύσουμε πιο sâuτα στην OCR με machine learning η οποία θα είναι πιο χρήσιμη για αυτήν την εφαρμογή.

Προ-εκπαιδευμένα και.CustomButton OCR Μοντέλα

Δεν υπάρχει έλλειψη λογισμικού OCR στην αγορά, αλλά όλο το λογισμικό αυτό δεν μπορεί να εκπαιδευτεί ή να τροποποιηθεί από τον χρήστη. Όπως έχουμε μάθει, η εκπαίδευση μπορεί να είναι αναγκαία για την ανάλυση των μηχανικών σας σχεδίων. Ωστόσο, εργαλεία OCR για αυτά τα είδη σχεδίων υπάρχουν.

Προ-εκπαιδευμένα OCR Εργαλεία

Εδώ είναι einige κοινές επιλογές για OCR αναγνώριση μηχανικών σχεδίων:

  • ABBYY FineReader: αυτό το ευέλικτο λογισμικό ερμηνείας μπλεπρίντ προσφέρει τεχνολογία OCR με δυνατότητες αναγνώρισης κειμένου. Υποστηρίζει διάφορους τύπους εικόνων, διατήρηση διάταξης, εξαγωγή δεδομένων και ενσωματώσεις.
  • Adobe Acrobat Pro:除了 την παροχή επεξεργασίας, προβολής και διαχείρισης PDF, το Acrobat επιτρέπει να σκανάρετε έγγραφα OCR και μπλεπρίντ, να εξάγετε κείμενο και να εκτελέσετε αναζητήσεις. Υποστηρίζει διάφορες γλώσσες και επιτρέπει στους χρήστες να ρυθμίσουν επιλογές.
  • Bluebeam Revu: μια άλλη δημοφιλής εφαρμογή PDF, το Bluebeam Revu προσφέρει τεχνολογίες OCR για εξαγωγή κειμένου από μηχανικά σχέδια.
  • AutoCAD: που σημαίνει Computer Aided Design, το AutoCAD υποστηρίζει πρόσθετα OCR για ερμηνεία μπλεπρίντ και μετατροπή τους σε editable CAD στοιχεία.
  • PlanGrid: αυτό το λογισμικό περιλαμβάνει ερμηνεία μπλεπρίντ OCR out of the box. Με αυτήν τη λειτουργία, μπορείτε να ανεβάσετε εικόνες μπλεπρίντ και στη συνέχεια να εξάγετε, να οργανώσετε, να ευρετηριάζετε και να αναζητήσετε το κείμενο.
  • Textract: αυτή η cloud- आधαρη λειτουργία AWS επιτρέπει την ανάλυση εγγράφων OCR και μπορεί να εξάγει στοιχεία όπως πίνακες από έγγραφα. Επίσης, μπορεί να αναγνωρίσει στοιχεία από μπλεπρίντ και παρέχει APIs για ενσωμάτωση με άλλες εφαρμογές.
  • Butler OCR: παρέχοντας στους développers APIs εξαγωγής εγγράφων, το Butler OCR συνδυάζει machine learning με ανθρώπινη αναθεώρηση για να βελτιώσει την ακρίβεια της αναγνώρισης εγγράφων.

Προσαρμοσμένες Λύσεις OCR

Αν ψάχνετε για προσαρμοσμένες λύσεις OCR που μπορούν να εκπαιδευτούν για να επιτύχουν καλύτερη αυτόματη εξαγωγή δεδομένων από μηχανικά σχέδια και να τις προσαρμόσουν στο συγκεκριμένο σας φορμά δεδομένων, εδώ είναι einige δημοφιλείς επιλογές:

  • Tesseract: αυτό το ευέλικτο, ανοικτό κώδικα OCR μηχανή που διατηρείται από την Google μπορεί να εκπαιδευτεί σε προσαρμοσμένα δεδομένα για να αναγνωρίσει χαρακτήρες και σύμβολα που σχετίζονται με μπλεπρίντ.
  • OpenCV: το Open-Source Computer Vision Library μπορεί να συνδυαστεί με εργαλεία OCR όπως το Tesseract για να δημιουργήσει προσαρμοσμένες λύσεις ερμηνείας. Οι λειτουργίες επεξεργασίας και ανάλυσης εικόνων possono να βελτιώσουν την ακρίβεια του OCR στα μηχανικά σχέδια όταν χρησιμοποιούνται σωστά.

Εκτός από αυτά τα εργαλεία, είναι επίσης δυνατό να αναπτύξετε ανεξάρτητα προσαρμοσμένα μοντέλα machine learning. Χρησιμοποιώντας μοντέλα εκπαίδευσης σε ετικετεμένα σύνολα δεδομένων, πλαίσια όπως το TensorFlow ή το PyTorch, αυτές οι λύσεις μπορούν να ρυθμιστούν για να αναγνωρίσουν συγκεκριμένα στοιχεία μπλεπρίντ και να επιτύχουν υψηλότερη ακρίβεια για τις ανάγκες ενός οργανισμού.

Οι προ-εκπαιδευμένες λύσεις προσφέρουν ευκολία και ευκολία χρήσης αλλά μπορεί να μην είναι τόσο αποτελεσματικές στην ερμηνεία μηχανικών σχεδίων όσο οι προσαρμοσμένες λύσεις. Αυτές οι προσαρμοσμένες λύσεις απαιτούν επίσης πρόσθετους πόρους και εμπειρογνωσία για να αναπτυχθούν και να διατηρηθούν.

Οι προσαρμοσμένες λύσεις απαιτούν πρόσθετους οικονομικούς πόρους και εργασία για να αναπτυχθούν. Θα σας συνιστούσα να ξεκινήσετε με ένα proof of concept (PoC) για να επικυρώσετε τις τεχνικές ικανότητες και ένα ελάχιστο βιώσιμο προϊόν (MVP) για να ελέγξετε την αντίληψη της αγοράς για το έργο πριν να επενδύσετε πολύ σε μια προσαρμοσμένη λύση OCR.

Η Διαδικασία Εφαρμογής ενός Μοδούλου OCR για Ανάγνωση Μηχανικών Σχεδίων

Ο καλύτερος τρόπος για να ξεκινήσετε να κατασκευάζετε λογισμικό OCR για μηχανικά σχέδια θα ήταν να αναλύσετε διαθέσιμα ανοικτού κώδικα εργαλεία. Αν εξαντλήσετε τις επιλογές ανοικτού κώδικα, μπορεί να χρειαστεί να στραφείτε σε κλειστές επιλογές με API ενσωματώσεις.

Η κατασκευή μιας λύσης OCR από την αρχή είναι ακατάλληλη επειδή απαιτεί ένα τεράστιο σύνολο δεδομένων για εκπαίδευση. Αυτό είναι δύσκολο και ακριβό να συλλεχθεί και απαιτεί πολλούς πόρους για την εκπαίδευση του μοντέλου. Σε meisten περιπτώσεις, η ρύθμιση υπαρχόντων μοντέλων πρέπει να καλύψει τις ανάγκες σας.

Η διαδικασία από εδώ μοιάζει κάπως così:

  1. Εξέταση απαιτήσεων: πρέπει να κατανοήσετε ποια μηχανικά σχέδια η εφαρμογή σας πρέπει να συνεργαστεί και ποια χαρακτηριστικά και λειτουργίες απαιτούνται για να επιτύχετε αυτόν τον στόχο.
  2. Καταγραφή εικόνας και προ-επεξεργασία: σκεφτείτε ποια συσκευές σκοπεύετε να χρησιμοποιήσετε για την καταγραφή εικόνων. Πρόσθετοι βήματα προ-επεξεργασίας μπορεί να απαιτούνται για να βελτιώσουν την ποιότητα των αποτελεσμάτων σας. Αυτό μπορεί να περιλαμβάνει περικοπή, αναδιαμόρφωση, αποσύνδεση θορύβου και άλλα.
  3. Ενσωμάτωση OCR: εξετάστε το OCR μηχανή που θα λειτουργήσει καλύτερα με την εφαρμογή σας. Οι βιβλιοθήκες OCR έχουν APIs που επιτρέπουν στην εφαρμογή σας να εξάγει κείμενο από καταγεγραμμένες εικόνες. Είναι σημαντικό να εξετάσετε ανοικτού κώδικα λύσεις OCR για οικονομία. Τρίτες APIs μπορούν να είναι ασταθείς όσον αφορά την τιμολόγηση με την πάροδο του χρόνου ή να χάσουν την υποστήριξη.
  4. Αναγνώριση και επεξεργασία κειμένου: στη συνέχεια, είναι ώρα να εφαρμόσετε λογική για να επεξεργαστείτε και να αναγνωρίσετε το κείμενο. Κάποιες δυνατές εργασίες που μπορεί να εξετάσετε να προσθέσετε σε αυτό το βήμα είναι καθαρισμός κειμένου, αναγνώριση γλώσσας ή οποιαδήποτε άλλη τεχνική που μπορεί να παρέχει καθαρότερα αποτελέσματα αναγνώρισης κειμένου.
  5. Διεπαφή χρήστη και εμπειρία: μια εύχρηστη διεπαφή για την εφαρμογή είναι σημαντική ώστε ο χρήστης να μπορεί να την χρησιμοποιήσει αποτελεσματικά για να καταγράψει εικόνες και να ξεκινήσει το OCR. Τα αποτελέσματα πρέπει να παρουσιαστούν στον χρήστη με έναν τρόπο που είναι εύκολο να κατανοηθεί.
  6. Δοκιμή: δοκιμάστε την εφαρμογή σας για να διασφαλίσετε την ακρίβεια και την ευχρηστία της. Η ανατροφοδότηση του χρήστη είναι απαραίτητη σε αυτήν τη διαδικασία.

Συμπέρασμα

Αντιμέτωποι με τις προκλήσεις της δημιουργίας λογισμικού OCR για συμπλέξεις μηχανικών σχεδίων, οι οργανισμοί έχουν πολλές επιλογές διαθέσιμες για να αντιμετωπίσουν το ζήτημα. Από μια σειρά προ-εκπαιδευμένων μοντέλων και προσαρμοσμένων εργαλείων για να δημιουργήσουν πιο προσωπικές λύσεις, οι επιχειρήσεις μπορούν να βρουν τρόπους για να αναλύσουν, να ευρετηριάσουν και να αναζητήσουν αποτελεσματικά τα μπλεπρίντ και άλλα σύνθετα έγγραφα. Όλο που χρειάζεται είναι λίγη ευστροφία, δημιουργικότητα και χρόνος για να δημιουργήσετε μια λύση που ανταποκρίνεται στις ανάγκες τους.

Ηγέτης Ομάδας AI στη MobiDev, μια εταιρεία ανάπτυξης λογισμικού που βοηθά τις εταιρείες σε όλο τον κόσμο να καινοτομούν με προηγμένα τεχνολογικά μέσα όπως η τεχνητή νοημοσύνη, η επιστήμη δεδομένων, η εικονική πραγματικότητα και το Διαδίκτυο των Πραγμάτων. Ο επαγγελματικός της εστιασμός είναι η ανάλυση δεδομένων, η πρόβλεψη, η NLP και τα chatbots. Συγγραφέας άρθρων για την τεχνητή νοημοσύνη για το AiiotTalk, Hackernoon, DevTo. Ομιλητής σε διάφορες συνεδρίες και τεχνολογικές συζητήσεις για την τεχνητή νοημοσύνη.