taló Ús d'OCR per a dibuixos d'enginyeria complexos - Unite.AI
Connecteu-vos amb nosaltres

Líders del pensament

Ús d'OCR per a dibuixos d'enginyeria complexos

mm

publicat

 on

El reconeixement òptic de caràcters (OCR) ha revolucionat la manera en què les empreses automatitzen el processament de documents. Tanmateix, la qualitat i precisió de la tecnologia no la redueixen a totes les aplicacions. Com més complex sigui el document que s'està processant, menys precís serà. Això és especialment cert per als dibuixos d'enginyeria. Tot i que les tecnologies OCR originals poden no ser adequades per a aquesta tasca, hi ha altres maneres d'assolir els vostres objectius de processament de documents amb OCR. A continuació, exploraré diverses solucions viables per donar-vos una idea general sense entrar en massa detalls tècnics.

Reptes del reconeixement del dibuix d'enginyeria

Quan es tracta de dibuixos tècnics, l'OCR té dificultats per entendre el significat dels elements de text individuals. La tecnologia pot llegir el text, però no entén el significat. Hi ha una sèrie d'oportunitats perquè els enginyers i fabricants considerin si el reconeixement automàtic del document tècnic està configurat correctament. Vegeu el més significatiu d'ells a continuació.

Font de la imatge: Mobidev

Per aconseguir una anàlisi complexa de la documentació tècnica, els enginyers han d'entrenar models d'IA. Igual que els humans, els models d'IA necessiten experiència i formació per entendre aquests dibuixos.

Un repte del reconeixement de plànols i dibuixos d'enginyeria és que el programari ha d'entendre com separar les diferents vistes del dibuix. Són diferents parts del dibuix que donen una idea bàsica de la seva disposició. En separar les vistes i entendre com es relacionen entre si, el programari pot calcular el quadre delimitador.

Aquest procés pot incloure diversos reptes:

  • Les vistes es poden solapar
  • Les vistes poden estar danyades
  • Les etiquetes poden ser equidistants a dues vistes
  • Les vistes poden estar imbricades

La relació entre punts de vista és un altre tema possible. Heu de considerar si la vista és una part plana del diagrama, una part girada, un bloc o una altra cosa. A més, pot haver-hi altres problemes com ara mesures encadenades, anotacions que falten, alçades definides implícitament mitjançant referència a un estàndard o altres problemes.

És important destacar que l'OCR genèric no pot entendre de manera fiable el text dels dibuixos envoltats d'elements gràfics com ara línies, símbols i anotacions. Per aquest fet, ens hem d'aprofundir OCR amb aprenentatge automàtic que serà més útil per a aquesta aplicació.

Models OCR pre-entrenats i personalitzats

No hi ha escassetat de programari OCR al mercat, però no tot aquest programari pot ser entrenat o modificat per l'usuari. Com hem après, la formació pot ser una necessitat per analitzar els vostres dibuixos d'enginyeria. Tanmateix, existeixen eines OCR per a aquest tipus de dibuixos.

Eines OCR preformades

A continuació es mostren algunes opcions habituals per al reconeixement OCR dels dibuixos d'enginyeria:

  • ABBYY FineReader: aquest versàtil programari d'interpretació de plànols ofereix tecnologia OCR amb capacitats de reconeixement de text. Admet diversos formats d'imatge, retenció de disseny, exportació de dades i integracions.
  • Adobe Acrobat Pro: a més de proporcionar edició, visualització i gestió de PDF, Acrobat us permet escanejar documents i plànols OCR, extreure text i fer cerques. Admet diversos idiomes i permet als usuaris configurar opcions.
  • Bluebeam Revu: una altra aplicació PDF popular, Bluebeam Revu ofereix tecnologies OCR per a l'extracció de text de dibuix d'enginyeria.
  • AutoCAD: AutoCAD, que significa Disseny assistit per ordinador, admet connectors OCR per interpretar plànols i convertir-los en elements CAD editables.
  • PlanGrid: aquest programari inclou una interpretació OCR de plànols fora de la caixa. Amb aquesta funció, podeu carregar imatges de plànols i després extreure, organitzar, indexar i cercar el text.
  • Text: aquesta funció d'AWS basada en núvol permet l'anàlisi OCR dels documents i pot extreure elements com ara taules dels documents. També pot reconèixer elements dels plànols i proporciona API per a la integració amb altres aplicacions.
  • Butler OCR: proporciona als desenvolupadors API d'extracció de documents, Butler OCR combina l'aprenentatge automàtic amb la revisió humana per millorar la precisió del reconeixement de documents.

Solucions OCR personalitzades

Si busqueu solucions d'OCR personalitzades que es puguin entrenar per aconseguir una millor extracció automàtica de dades dels dibuixos d'enginyeria i adoptar-les al vostre format de dades específic, aquí teniu algunes opcions populars:

  • Tesseract: aquest motor OCR flexible i de codi obert que Google es pot entrenar amb dades personalitzades per reconèixer caràcters i símbols específics del plànol.
  • OpenCV: La biblioteca de visió per ordinador de codi obert es pot combinar amb eines OCR com Tesseract per crear solucions interpretatives personalitzades. Les seves funcions de processament i anàlisi d'imatges poden millorar la precisió de l'OCR en dibuixos d'enginyeria quan s'utilitzen correctament.

A part d'aquestes eines, també és possible desenvolupar de manera independent models d'aprenentatge automàtic personalitzats. Mitjançant l'ús de models d'entrenament en conjunts de dades etiquetats, marcs com TensorFlow o PyTorch, aquestes solucions es poden ajustar per reconèixer elements específics del pla i aconseguir una major precisió per a les necessitats d'una organització.

Els models pre-entrenats ofereixen comoditat i facilitat d'ús, però poden no ser tan eficaços per interpretar dibuixos d'enginyeria com les solucions personalitzades. Aquestes solucions personalitzades també requereixen recursos i experiència addicionals per desenvolupar i mantenir.

Les solucions personalitzades requereixen recursos econòmics i mà d'obra addicionals per desenvolupar-se. Recomano començar amb a prova de concepte (PoC) validar les capacitats tècniques i un producte mínim viable (MVP) per comprovar la percepció del mercat del projecte abans d'invertir massa en una solució OCR personalitzada.

El procés d'implementació d'un mòdul OCR per a la lectura de dibuixos d'enginyeria

El millor lloc per començar a crear programari OCR per a dibuixos d'enginyeria seria analitzar els disponibles eines de codi obert. Si esgoteu les vostres opcions de codi obert, potser haureu de recórrer a opcions de codi tancat amb integracions d'API.

Crear una solució OCR des de zero és poc pràctic perquè requereix un conjunt de dades enorme per a la formació. Això és difícil i costós de reunir i requereix molts recursos per a la formació de models. En la majoria dels casos, ajustar els models existents hauria d'adaptar-se a les vostres necessitats.

El procés a partir d'aquí sembla una cosa així:

  1. Considereu els requisits: heu d'entendre amb quin tipus de dibuixos d'enginyeria hauria de funcionar la vostra aplicació i quins tipus de característiques i funcionalitats es necessiten per aconseguir aquest objectiu.
  2. Captura i preprocessament d'imatges: penseu en quins dispositius voleu utilitzar per capturar les imatges. És possible que calguin passos addicionals de preprocessament per millorar la qualitat dels resultats. Això pot incloure retallar, canviar la mida, eliminar el soroll i molt més.
  3. Integració OCR: considereu el motor d'OCR que funciona millor amb la vostra aplicació. Les biblioteques OCR tenen API que permeten a la vostra aplicació extreure text de les imatges capturades. És important tenir en compte solucions OCR de codi obert per estalviar costos. Les API de tercers poden ser volubles pel que fa als preus amb el pas del temps o perdre suport.
  4. Reconeixement i tractament de textos: a continuació, és el moment d'implementar la lògica per processar i reconèixer el text. Algunes tasques possibles que podeu considerar afegir en aquest pas són la neteja de text, el reconeixement d'idiomes o qualsevol altra tècnica que pugui proporcionar resultats de reconeixement de text més clars.
  5. Interfície d'usuari i experiència: és important una interfície d'usuari fàcil d'utilitzar per a l'aplicació perquè l'usuari pugui utilitzar-la de manera efectiva per capturar imatges i iniciar l'OCR. Els resultats s'han de presentar a l'usuari d'una manera que sigui fàcil d'entendre.
  6. Proves: prova a fons l'aplicació per garantir la seva precisió i usabilitat. Els comentaris dels usuaris són essencials per a aquest procés.

Ajustar cap amunt

Davant els reptes de crear programari OCR per a dibuixos d'enginyeria complexos, les organitzacions tenen diverses opcions disponibles per abordar el problema. Des d'una gamma de models pre-entrenats i eines personalitzables per crear solucions més personalitzades, les empreses poden trobar maneres d'analitzar, indexar i cercar de manera eficaç a través de plànols i altres documents complexos. Només cal una mica d'enginy, creativitat i temps per elaborar una solució que s'adapti a les seves necessitats.

Cap d'equip d'IA a MobiDev, una empresa de desenvolupament de programari que ajuda les empreses de tot el món a innovar amb tecnologies d'avantguarda com la intel·ligència artificial, la ciència de dades, la realitat augmentada i l'Internet de les coses. El seu enfocament professional és l'anàlisi de dades, la previsió, la PNL i els chatbots. Autor d'articles sobre intel·ligència artificial per a AiotTalk, Hackernoon, DevTo. Ponent en diverses conferències d'IA i xerrades tecnològiques.