Leader di pensiero
Utilizzo di OCR per Disegni Tecnici Complessi

Il riconoscimento ottico dei caratteri (OCR) ha rivoluzionato il modo in cui le aziende automatizzano l’elaborazione dei documenti. Tuttavia, la qualità e l’accuratezza della tecnologia non sono sufficienti per ogni applicazione. Più il documento da elaborare è complesso, meno precisa diventa la tecnologia. Ciò è particolarmente vero per i disegni tecnici. Sebbene le tecnologie OCR standard non siano adatte a questo compito, esistono altri modi per raggiungere i propri obiettivi di elaborazione dei documenti con l’OCR. In quanto segue, esplorerò diverse soluzioni valide per fornire un’idea generale senza addentrarmi troppo nei dettagli tecnici.
Sfide del Riconoscimento dei Disegni Tecnici
Quando si tratta di disegni tecnici, l’OCR fatica a comprendere il significato degli elementi di testo individuali. La tecnologia può leggere il testo, ma non ne comprende il significato. Esistono numerose opportunità per gli ingegneri e i produttori da considerare se il riconoscimento automatico del documento tecnico è configurato correttamente. Vedere le più significative di seguito.

Image source: Mobidev
Per raggiungere l’analisi della documentazione tecnica complessa, gli ingegneri devono addestrare modelli di intelligenza artificiale. Come gli esseri umani, i modelli di intelligenza artificiale necessitano di esperienza e addestramento per comprendere questi disegni.
Una delle sfide del riconoscimento dei disegni tecnici e dei progetti è che il software deve comprendere come separare le diverse viste del disegno. Queste sono diverse parti del disegno che forniscono un’idea di base della sua disposizione. Separando le viste e comprendendo come si relazionano tra loro, il software può calcolare il bounding box.
Questo processo può includere diverse sfide:
- Le viste potrebbero sovrapporsi
- Le viste potrebbero essere danneggiate
- I label potrebbero essere equidistanti da due viste
- Le viste potrebbero essere annidate
La relazione tra le viste è un altro possibile problema. È necessario considerare se la vista è una parte piatta del diagramma, una parte ruotata, un blocco o qualcos’altro. Inoltre, potrebbero esserci altri problemi come misure concatenate, annotazioni mancanti, altezze definite implicitamente tramite riferimento a uno standard o altri problemi.
Importante, l’OCR generico non può comprendere in modo affidabile il testo nei disegni che è circondato da elementi grafici come linee, simboli e annotazioni. A causa di questo fatto, è necessario approfondire l’OCR con machine learning che sarà più utile per questa applicazione.
Modelli OCR Pre-addestrati e Personalizzati
Non c’è carenza di software OCR sul mercato, ma non tutti questi software possono essere addestrati o modificati dall’utente. Come abbiamo imparato, l’addestramento può essere una necessità per l’analisi dei disegni tecnici. Tuttavia, esistono strumenti OCR per questo tipo di disegni.
Strumenti OCR Pre-addestrati
Ecco alcune opzioni comuni per il riconoscimento OCR dei disegni tecnici:
- ABBYY FineReader: questo software di interpretazione dei progetti versatile offre tecnologia OCR con capacità di riconoscimento del testo. Supporta diversi formati di immagine, conservazione del layout, esportazione dei dati e integrazioni.
- Adobe Acrobat Pro: oltre a fornire la modifica, la visualizzazione e la gestione dei PDF, Acrobat consente di scansionare documenti e progetti OCR, estrarre il testo e eseguire ricerche. Supporta diversi linguaggi e consente agli utenti di configurare le opzioni.
- Bluebeam Revu: un’altra applicazione PDF popolare, Bluebeam Revu offre tecnologie OCR per l’estrazione del testo dei disegni tecnici.
- AutoCAD: che sta per Computer Aided Design, AutoCAD supporta plugin OCR per l’interpretazione dei progetti e la conversione in elementi CAD modificabili.
- PlanGrid: questo software include l’interpretazione OCR dei progetti come funzionalità predefinita. Con questa funzionalità, è possibile caricare immagini dei progetti e quindi estrarre, organizzare, indicizzare e cercare il testo.
- Textract: questa funzionalità cloud-based di AWS consente l’analisi OCR dei documenti e può estrarre elementi come tabelle dai documenti. Può anche riconoscere elementi dai progetti e fornisce API per l’integrazione con altre applicazioni.
- Butler OCR: fornendo agli sviluppatori API di estrazione dei documenti, Butler OCR combina il machine learning con la revisione umana per migliorare l’accuratezza del riconoscimento dei documenti.
Soluzioni OCR Personalizzate
Se si sta cercando soluzioni OCR personalizzate che possono essere addestrate per raggiungere una migliore estrazione automatica dei dati dai disegni tecnici e adattarla al proprio formato di dati specifico, ecco alcune opzioni popolari:
- Tesseract: questo motore OCR flessibile e open-source mantenuto da Google può essere addestrato su dati personalizzati per riconoscere caratteri e simboli specifici dei progetti.
- OpenCV: la libreria open-source di visione artificiale può essere combinata con strumenti OCR come Tesseract per costruire soluzioni interpretative personalizzate. Le sue funzioni di elaborazione e analisi delle immagini possono migliorare l’accuratezza dell’OCR sui disegni tecnici quando utilizzate correttamente.
Oltre a questi strumenti, è anche possibile sviluppare in modo indipendente modelli di machine learning personalizzati. Utilizzando modelli di addestramento su set di dati etichettati, framework come TensorFlow o PyTorch, queste soluzioni possono essere ottimizzate per riconoscere elementi specifici dei progetti e raggiungere una maggiore accuratezza per le esigenze di un’organizzazione.
I modelli pre-addestrati offrono comodità e facilità d’uso, ma potrebbero non essere così efficaci nell’interpretazione dei disegni tecnici come le soluzioni personalizzate. Queste soluzioni personalizzate richiedono inoltre risorse e competenze aggiuntive per essere sviluppate e mantenute.
Le soluzioni personalizzate richiedono risorse finanziarie e lavoro aggiuntivi per essere sviluppate. Consiglio di iniziare con un proof of concept (PoC) per convalidare le capacità tecniche e un prodotto minimo viable (MVP) per verificare la percezione del mercato del progetto prima di investire eccessivamente in una soluzione OCR personalizzata.
Il Processo di Implementazione di un Modulo OCR per la Lettura dei Disegni Tecnici
Il miglior punto di partenza per costruire un software OCR per disegni tecnici sarebbe analizzare gli strumenti open-source disponibili. Se si esauriscono le opzioni open-source, potrebbe essere necessario rivolgersi a opzioni closed-source con integrazioni API.
Costruire una soluzione OCR da zero è impraticabile perché richiede un enorme set di dati per l’addestramento. Ciò è difficile e costoso da raccogliere e richiede molte risorse per l’addestramento del modello. Nella maggior parte dei casi, l’ottimizzazione dei modelli esistenti dovrebbe soddisfare le proprie esigenze.
Il processo da qui in poi assomiglia a questo:
- Considerare i requisiti: è necessario comprendere con quali tipi di disegni tecnici l’applicazione deve funzionare e quali funzionalità sono necessarie per raggiungere quell’obiettivo.
- Cattura e pre-elaborazione dell’immagine: pensare a quali dispositivi si intendono utilizzare per catturare le immagini. Potrebbero essere necessari passaggi di pre-elaborazione aggiuntivi per migliorare la qualità dei risultati. Ciò può includere ritaglio, ridimensionamento, denoising e altro.
- Integrazione OCR: considerare il motore OCR che funzionerà meglio con l’applicazione. Le librerie OCR hanno API che consentono all’applicazione di estrarre il testo dalle immagini catturate. È importante considerare soluzioni OCR open-source per risparmiare sui costi. Le API di terze parti possono essere incerte in termini di prezzi nel tempo o perdere il supporto.
- Riconoscimento e elaborazione del testo: successivamente, è il momento di implementare la logica per elaborare e riconoscere il testo. Alcuni compiti possibili che si potrebbero considerare di aggiungere in questo passaggio sono la pulizia del testo, il riconoscimento della lingua o altre tecniche che possono fornire risultati di riconoscimento del testo più chiari.
- Interfaccia utente e esperienza: un’interfaccia utente facile da usare per l’app è importante in modo che l’utente possa utilizzarla efficacemente per catturare immagini e avviare l’OCR. I risultati devono essere presentati all’utente in un modo facile da comprendere.
- Test: testare accuratamente l’applicazione per assicurarsi della sua accuratezza e usabilità. Il feedback degli utenti è essenziale per questo processo.
Riepilogo
Di fronte alle sfide della creazione di software OCR per disegni tecnici complessi, le organizzazioni hanno diverse opzioni a disposizione per affrontare il problema. Dall’ampia gamma di modelli pre-addestrati e strumenti personalizzabili per creare soluzioni più personalizzate, le aziende possono trovare modi per analizzare, indicizzare e cercare efficacemente progetti e altri documenti complessi. Tutto ciò che serve è un po’ di ingegno, creatività e tempo per creare una soluzione che soddisfi le proprie esigenze.












