Líders del pensament
Ús d'OCR per a dibuixos d'enginyeria complexos
El reconeixement òptic de caràcters (OCR) ha revolucionat la manera en què les empreses automatitzen el processament de documents. Tanmateix, la qualitat i precisió de la tecnologia no la redueixen a totes les aplicacions. Com més complex sigui el document que s'està processant, menys precís serà. Això és especialment cert per als dibuixos d'enginyeria. Tot i que les tecnologies OCR originals poden no ser adequades per a aquesta tasca, hi ha altres maneres d'assolir els vostres objectius de processament de documents amb OCR. A continuació, exploraré diverses solucions viables per donar-vos una idea general sense entrar en massa detalls tècnics.
Reptes del reconeixement del dibuix d'enginyeria
Quan es tracta de dibuixos tècnics, l'OCR té dificultats per entendre el significat dels elements de text individuals. La tecnologia pot llegir el text, però no entén el significat. Hi ha una sèrie d'oportunitats perquè els enginyers i fabricants considerin si el reconeixement automàtic del document tècnic està configurat correctament. Vegeu el més significatiu d'ells a continuació.
Per aconseguir una anàlisi complexa de la documentació tècnica, els enginyers han d'entrenar models d'IA. Igual que els humans, els models d'IA necessiten experiència i formació per entendre aquests dibuixos.
Un repte del reconeixement de plànols i dibuixos d'enginyeria és que el programari ha d'entendre com separar les diferents vistes del dibuix. Són diferents parts del dibuix que donen una idea bàsica de la seva disposició. En separar les vistes i entendre com es relacionen entre si, el programari pot calcular el quadre delimitador.
Aquest procés pot incloure diversos reptes:
- Les vistes es poden solapar
- Les vistes poden estar danyades
- Les etiquetes poden ser equidistants a dues vistes
- Les vistes poden estar imbricades
La relació entre punts de vista és un altre tema possible. Heu de considerar si la vista és una part plana del diagrama, una part girada, un bloc o una altra cosa. A més, pot haver-hi altres problemes com ara mesures encadenades, anotacions que falten, alçades definides implícitament mitjançant referència a un estàndard o altres problemes.
És important destacar que l'OCR genèric no pot entendre de manera fiable el text dels dibuixos envoltats d'elements gràfics com ara línies, símbols i anotacions. Per aquest fet, ens hem d'aprofundir OCR amb aprenentatge automàtic que serà més útil per a aquesta aplicació.
Models OCR pre-entrenats i personalitzats
No hi ha escassetat de programari OCR al mercat, però no tot aquest programari pot ser entrenat o modificat per l'usuari. Com hem après, la formació pot ser una necessitat per analitzar els vostres dibuixos d'enginyeria. Tanmateix, existeixen eines OCR per a aquest tipus de dibuixos.
Eines OCR preformades
A continuació es mostren algunes opcions habituals per al reconeixement OCR dels dibuixos d'enginyeria:
- ABBYY FineReader: aquest versàtil programari d'interpretació de plànols ofereix tecnologia OCR amb capacitats de reconeixement de text. Admet diversos formats d'imatge, retenció de disseny, exportació de dades i integracions.
- Adobe Acrobat Pro: a més de proporcionar edició, visualització i gestió de PDF, Acrobat us permet escanejar documents i plànols OCR, extreure text i fer cerques. Admet diversos idiomes i permet als usuaris configurar opcions.
- Bluebeam Revu: una altra aplicació PDF popular, Bluebeam Revu ofereix tecnologies OCR per a l'extracció de text de dibuix d'enginyeria.
- AutoCAD: AutoCAD, que significa Disseny assistit per ordinador, admet connectors OCR per interpretar plànols i convertir-los en elements CAD editables.
- PlanGrid: aquest programari inclou una interpretació OCR de plànols fora de la caixa. Amb aquesta funció, podeu carregar imatges de plànols i després extreure, organitzar, indexar i cercar el text.
- Text: aquesta funció d'AWS basada en núvol permet l'anàlisi OCR dels documents i pot extreure elements com ara taules dels documents. També pot reconèixer elements dels plànols i proporciona API per a la integració amb altres aplicacions.
- Butler OCR: proporciona als desenvolupadors API d'extracció de documents, Butler OCR combina l'aprenentatge automàtic amb la revisió humana per millorar la precisió del reconeixement de documents.
Solucions OCR personalitzades
Si busqueu solucions d'OCR personalitzades que es puguin entrenar per aconseguir una millor extracció automàtica de dades dels dibuixos d'enginyeria i adoptar-les al vostre format de dades específic, aquí teniu algunes opcions populars:
- Tesseract: aquest motor OCR flexible i de codi obert que Google es pot entrenar amb dades personalitzades per reconèixer caràcters i símbols específics del plànol.
- OpenCV: La biblioteca de visió per ordinador de codi obert es pot combinar amb eines OCR com Tesseract per crear solucions interpretatives personalitzades. Les seves funcions de processament i anàlisi d'imatges poden millorar la precisió de l'OCR en dibuixos d'enginyeria quan s'utilitzen correctament.
A part d'aquestes eines, també és possible desenvolupar de manera independent models d'aprenentatge automàtic personalitzats. Mitjançant l'ús de models d'entrenament en conjunts de dades etiquetats, marcs com TensorFlow o PyTorch, aquestes solucions es poden ajustar per reconèixer elements específics del pla i aconseguir una major precisió per a les necessitats d'una organització.
Els models pre-entrenats ofereixen comoditat i facilitat d'ús, però poden no ser tan eficaços per interpretar dibuixos d'enginyeria com les solucions personalitzades. Aquestes solucions personalitzades també requereixen recursos i experiència addicionals per desenvolupar i mantenir.
Les solucions personalitzades requereixen recursos econòmics i mà d'obra addicionals per desenvolupar-se. Recomano començar amb a prova de concepte (PoC) validar les capacitats tècniques i un producte mínim viable (MVP) per comprovar la percepció del mercat del projecte abans d'invertir massa en una solució OCR personalitzada.
El procés d'implementació d'un mòdul OCR per a la lectura de dibuixos d'enginyeria
El millor lloc per començar a crear programari OCR per a dibuixos d'enginyeria seria analitzar els disponibles eines de codi obert. Si esgoteu les vostres opcions de codi obert, potser haureu de recórrer a opcions de codi tancat amb integracions d'API.
Crear una solució OCR des de zero és poc pràctic perquè requereix un conjunt de dades enorme per a la formació. Això és difícil i costós de reunir i requereix molts recursos per a la formació de models. En la majoria dels casos, ajustar els models existents hauria d'adaptar-se a les vostres necessitats.
El procés a partir d'aquí sembla una cosa així:
- Considereu els requisits: heu d'entendre amb quin tipus de dibuixos d'enginyeria hauria de funcionar la vostra aplicació i quins tipus de característiques i funcionalitats es necessiten per aconseguir aquest objectiu.
- Captura i preprocessament d'imatges: penseu en quins dispositius voleu utilitzar per capturar les imatges. És possible que calguin passos addicionals de preprocessament per millorar la qualitat dels resultats. Això pot incloure retallar, canviar la mida, eliminar el soroll i molt més.
- Integració OCR: considereu el motor d'OCR que funciona millor amb la vostra aplicació. Les biblioteques OCR tenen API que permeten a la vostra aplicació extreure text de les imatges capturades. És important tenir en compte solucions OCR de codi obert per estalviar costos. Les API de tercers poden ser volubles pel que fa als preus amb el pas del temps o perdre suport.
- Reconeixement i tractament de textos: a continuació, és el moment d'implementar la lògica per processar i reconèixer el text. Algunes tasques possibles que podeu considerar afegir en aquest pas són la neteja de text, el reconeixement d'idiomes o qualsevol altra tècnica que pugui proporcionar resultats de reconeixement de text més clars.
- Interfície d'usuari i experiència: és important una interfície d'usuari fàcil d'utilitzar per a l'aplicació perquè l'usuari pugui utilitzar-la de manera efectiva per capturar imatges i iniciar l'OCR. Els resultats s'han de presentar a l'usuari d'una manera que sigui fàcil d'entendre.
- Proves: prova a fons l'aplicació per garantir la seva precisió i usabilitat. Els comentaris dels usuaris són essencials per a aquest procés.
Ajustar cap amunt
Davant els reptes de crear programari OCR per a dibuixos d'enginyeria complexos, les organitzacions tenen diverses opcions disponibles per abordar el problema. Des d'una gamma de models pre-entrenats i eines personalitzables per crear solucions més personalitzades, les empreses poden trobar maneres d'analitzar, indexar i cercar de manera eficaç a través de plànols i altres documents complexos. Només cal una mica d'enginy, creativitat i temps per elaborar una solució que s'adapti a les seves necessitats.