mozzicone Utilizzo dell'OCR per disegni tecnici complessi - Unite.AI
Seguici sui social

Leader del pensiero

Utilizzo dell'OCR per disegni tecnici complessi

mm

Pubblicato il

 on

Il riconoscimento ottico dei caratteri (OCR) ha rivoluzionato il modo in cui le aziende automatizzano l'elaborazione dei documenti. Tuttavia, la qualità e l'accuratezza della tecnologia non sono sufficienti per ogni applicazione. Più il documento da elaborare è complesso, meno accurato diventa. Ciò è particolarmente vero per i disegni tecnici. Anche se le tecnologie OCR predefinite potrebbero non essere adatte a questa attività, esistono altri modi per raggiungere gli obiettivi di elaborazione dei documenti con l'OCR. Di seguito esplorerò diverse soluzioni praticabili per darti un'idea generale senza entrare troppo nei dettagli tecnici.

Sfide del riconoscimento dei disegni tecnici

Quando si tratta di disegni tecnici, l’OCR fatica a comprendere il significato dei singoli elementi di testo. La tecnologia può leggere il testo, ma non ne comprende il significato. Ci sono una serie di opportunità che ingegneri e produttori possono considerare se il riconoscimento automatico del documento tecnico è configurato correttamente. Vedi i più significativi di seguito.

Immagine sorgente: Mobidev

Per ottenere analisi complesse della documentazione tecnica, gli ingegneri devono addestrare modelli di intelligenza artificiale. Proprio come gli esseri umani, i modelli di intelligenza artificiale necessitano di esperienza e formazione per comprendere questi disegni.

Una sfida nel riconoscimento di progetti e disegni tecnici è che il software deve capire come separare le diverse viste del disegno. Queste sono diverse parti del disegno che danno un'idea di base del suo layout. Separando le viste e comprendendo come si relazionano tra loro, il software può calcolare il riquadro di delimitazione.

Questo processo può comportare diverse sfide:

  • Le visualizzazioni potrebbero sovrapporsi
  • Le viste potrebbero essere danneggiate
  • Le etichette potrebbero essere equidistanti tra due visualizzazioni
  • Le viste potrebbero essere nidificate

La relazione tra le opinioni è un altro possibile problema. È necessario considerare se la vista è una parte piana del diagramma, una parte ruotata, un blocco o qualcos'altro. Inoltre, potrebbero esserci altri problemi come misure concatenate, annotazioni mancanti, altezze definite implicitamente tramite riferimento a uno standard o altri problemi.

È importante sottolineare che l'OCR generico non è in grado di comprendere in modo affidabile il testo nei disegni circondato da elementi grafici come linee, simboli e annotazioni. Per questo motivo dobbiamo approfondire OCR con apprendimento automatico che sarà più utile per questa applicazione.

Modelli OCR preaddestrati e personalizzati

Sul mercato non mancano i software OCR, ma non tutti questi software possono essere addestrati o modificati dall'utente. Come abbiamo appreso, la formazione potrebbe essere necessaria per analizzare i disegni tecnici. Tuttavia, esistono strumenti OCR per questo tipo di disegni.

Strumenti OCR pre-addestrati

Di seguito sono riportate alcune opzioni comuni per il riconoscimento OCR dei disegni tecnici:

  • ABBYY FineReader: questo versatile software di interpretazione dei progetti offre la tecnologia OCR con funzionalità di riconoscimento del testo. Supporta vari formati di immagine, conservazione del layout, esportazione di dati e integrazioni.
  • Adobe Acrobat Pro: oltre a fornire la modifica, la visualizzazione e la gestione dei PDF, Acrobat consente di scansionare documenti e progetti OCR, estrarre testo ed eseguire ricerche. Supporta varie lingue e consente agli utenti di configurare le opzioni.
  • Bluebeam Revu: un'altra popolare applicazione PDF, Bluebeam Revu offre tecnologie OCR per l'estrazione del testo dei disegni tecnici.
  • AutoCAD: sta per Computer Aided Design, AutoCAD supporta i plugin OCR per interpretare i progetti e convertirli in elementi CAD modificabili.
  • Griglia di Piano: questo software include l'interpretazione OCR del progetto pronta all'uso. Con questa funzione puoi caricare immagini di progetti e quindi estrarre, organizzare, indicizzare e cercare il testo.
  • Testo: questa funzionalità AWS basata su cloud consente l'analisi OCR dei documenti e può estrarre elementi come tabelle dai documenti. Può anche riconoscere elementi dai progetti e fornire API per l'integrazione con altre applicazioni.
  • Butler OCR: fornendo agli sviluppatori API per l'estrazione dei documenti, Butler OCR combina l'apprendimento automatico con la revisione umana per migliorare l'accuratezza del riconoscimento dei documenti.

Soluzioni OCR personalizzate

Se stai cercando soluzioni OCR personalizzate che possano essere addestrate per ottenere una migliore estrazione automatica dei dati dai disegni tecnici e adattarli al tuo formato dati specifico, ecco alcune opzioni popolari:

  • Tesserato: questo motore OCR flessibile e open source gestito da Google può essere addestrato su dati personalizzati per riconoscere caratteri e simboli specifici del progetto.
  • Apri CV: La libreria di visione artificiale open source può essere combinata con strumenti OCR come Tesseract per creare soluzioni interpretative personalizzate. Le sue funzioni di elaborazione e analisi delle immagini possono migliorare la precisione dell'OCR sui disegni tecnici se utilizzate correttamente.

Oltre a questi strumenti, è anche possibile sviluppare in modo indipendente modelli di machine learning personalizzati. Utilizzando modelli di formazione su set di dati etichettati e framework come TensorFlow o PyTorch, queste soluzioni possono essere ottimizzate per riconoscere elementi specifici del progetto e ottenere una maggiore precisione per le esigenze di un'organizzazione.

I modelli preaddestrati offrono praticità e facilità d'uso, ma potrebbero non essere altrettanto efficaci nell'interpretare i disegni tecnici come soluzioni personalizzate. Queste soluzioni personalizzate richiedono inoltre risorse e competenze aggiuntive per lo sviluppo e la manutenzione.

Le soluzioni personalizzate richiedono risorse finanziarie e manodopera aggiuntive per essere sviluppate. Consiglierei di iniziare con a prova di concetto (PoC) per convalidare le capacità tecniche e un prodotto minimo vitale (MVP) per verificare la percezione del progetto da parte del mercato prima di investire troppo pesantemente in una soluzione OCR personalizzata.

Il processo di implementazione di un modulo OCR per la lettura di disegni tecnici

Il punto migliore per iniziare a creare software OCR per i disegni tecnici sarebbe analizzare i dati disponibili strumenti open source. Se esaurisci le tue opzioni open source, potresti dover passare a opzioni closed source con integrazioni API.

Costruire una soluzione OCR da zero non è pratico perché richiede un enorme set di dati per la formazione. Questa raccolta è difficile e costosa e richiede molte risorse per l'addestramento del modello. Nella maggior parte dei casi, la messa a punto dei modelli esistenti dovrebbe soddisfare le tue esigenze.

Il processo da qui assomiglia a questo:

  1. Considera i requisiti: devi capire con quale tipo di disegni tecnici dovrebbe funzionare la tua applicazione e quali tipi di caratteristiche e funzionalità sono necessarie per raggiungere tale obiettivo.
  2. Acquisizione e pre-elaborazione delle immagini: pensa a quali dispositivi intendi utilizzare per acquisire le immagini. Potrebbero essere necessari ulteriori passaggi di pre-elaborazione per migliorare la qualità dei risultati. Ciò può includere il ritaglio, il ridimensionamento, la rimozione del rumore e altro ancora.
  3. Integrazione OCR: considera il motore OCR che funzionerà meglio con la tua applicazione. Le librerie OCR dispongono di API che consentono alla tua applicazione di estrarre testo dalle immagini acquisite. È importante considerare soluzioni OCR open source per risparmiare sui costi. Le API di terze parti possono essere mutevoli per quanto riguarda i prezzi nel tempo o perdere il supporto.
  4. Riconoscimento ed elaborazione del testo: successivamente, è il momento di implementare la logica per elaborare e riconoscere il testo. Alcune possibili attività che potresti considerare di aggiungere in questo passaggio sono la pulizia del testo, il riconoscimento della lingua o qualsiasi altra tecnica che possa fornire risultati di riconoscimento del testo più chiari.
  5. Interfaccia utente ed esperienza: un'interfaccia utente facile da usare per l'app è importante affinché l'utente possa utilizzarla in modo efficace per acquisire immagini e avviare l'OCR. I risultati dovrebbero essere presentati all'utente in un modo che sia facile da comprendere.
  6. Testing: testare accuratamente l'applicazione per garantirne l'accuratezza e l'usabilità. Il feedback degli utenti è essenziale per questo processo.

Avvolgere Up

Di fronte alle sfide legate alla creazione di software OCR per disegni tecnici complessi, le organizzazioni hanno a disposizione una serie di opzioni per affrontare il problema. Da una gamma di modelli pre-addestrati e strumenti personalizzabili per creare soluzioni più personalizzate, le aziende possono trovare modi per analizzare, indicizzare ed effettuare ricerche in modo efficace attraverso progetti e altri documenti complessi. Tutto ciò che serve è un po’ di ingegno, creatività e tempo per creare una soluzione che soddisfi le loro esigenze.

Caposquadra AI presso MobiDev, una società di sviluppo software che aiuta le aziende di tutto il mondo a innovare con tecnologie all'avanguardia come l'intelligenza artificiale, la scienza dei dati, la realtà aumentata e l'Internet delle cose. Il suo focus professionale è l'analisi dei dati, le previsioni, la PNL e i chatbot. Autore di articoli sull'intelligenza artificiale per AiiotTalk, Hackernoon, DevTo. Relatore in varie conferenze sull'intelligenza artificiale e discorsi tecnologici.