Tankeledere

Bruke OCR for komplekse tekniske tegninger

Publisert September 14, 2023

Liubov Zatolokina

Optical Character Recognition (OCR) har revolusjonert måten bedrifter automatiserer dokumentbehandling på. Kvaliteten og nøyaktigheten til teknologien avskjærer den imidlertid ikke for alle bruksområder. Jo mer komplekst dokumentet som behandles, jo mindre nøyaktig blir det. Dette gjelder spesielt for tekniske tegninger. Selv om ut av esken OCR-teknologier kanskje ikke er egnet for denne oppgaven, er det andre måter å oppnå dokumentbehandlingsmålene dine med OCR. I det følgende skal jeg utforske flere levedyktige løsninger for å gi deg en generell idé uten å gå inn for mye tekniske detaljer.

Utfordringer ved ingeniørtegningsgjenkjenning

Når det kommer til tekniske tegninger, sliter OCR med å forstå betydningen av individuelle tekstelementer. Teknologien kan lese teksten, men den forstår ikke betydningen. Det er en rekke muligheter for ingeniører og produsenter å vurdere om den automatiske gjenkjenningen av det tekniske dokumentet er riktig konfigurert. Se de viktigste av dem nedenfor.

Bildekilde: Mobidev

For å oppnå kompleks teknisk dokumentasjonsanalyse, må ingeniører trene AI-modeller. Akkurat som mennesker trenger AI-modeller erfaring og opplæring for å forstå disse tegningene.

En utfordring med gjenkjennelse av tegninger og tekniske tegninger er at programvaren må forstå hvordan man skiller de forskjellige visningene av tegningen. Dette er forskjellige deler av tegningen som gir en grunnleggende idé om layouten. Ved å skille visningene og forstå hvordan de forholder seg til hverandre, kan programvaren beregne avgrensningsrammen.

Denne prosessen kan omfatte flere utfordringer:

Visninger kan overlappe
Utsikten kan være skadet
Etiketter kan være like langt fra to visninger
Visninger kan være nestet

Forholdet mellom synspunkter er en annen mulig problemstilling. Du må vurdere om utsikten er en flat del av diagrammet, en dreid del, en blokk eller noe annet. I tillegg kan det være andre problemer som lenkede mål, manglende merknader, implisitt definerte høyder gjennom referanse til en standard, eller andre problemer.

Viktigere, generisk OCR kan ikke pålitelig forstå tekst i tegninger som er omgitt av grafiske elementer som linjer, symboler og merknader. På grunn av dette faktum må vi dykke dypere inn OCR med maskinlæring som vil være mer nyttig for denne applikasjonen.

Forhåndsutdannede og tilpassede OCR-modeller

Det er ingen mangel på OCR-programvare på markedet, men ikke all denne programvaren kan trenes eller modifiseres av brukeren. Som vi har lært, kan opplæring være en nødvendighet for å analysere tekniske tegninger. Imidlertid eksisterer OCR-verktøy for denne typen tegninger.

Forhåndsutdannede OCR-verktøy

Her er noen vanlige alternativer for OCR-gjenkjenning av tekniske tegninger:

ABBYY FineReader: denne allsidige programvaren for blåkopitolkning tilbyr OCR-teknologi med gjenkjenningsmuligheter for tekst. Den støtter ulike bildeformater, oppbevaring av layout, dataeksport og integrasjoner.
Adobe Acrobat Pro: i tillegg til å gi PDF-redigering, visning og administrasjon, lar Acrobat deg skanne OCR-dokumenter og tegninger, trekke ut tekst og utføre søk. Den støtter ulike språk og lar brukere konfigurere alternativer.
Bluebeam Revu: et annet populært PDF-program, Bluebeam Revu, tilbyr OCR-teknologier for teknisk utvinning av tegnetekst.
AutoCAD: AutoCAD, som står for Computer Aided Design, støtter OCR-plugins for å tolke tegninger og konvertere dem til redigerbare CAD-elementer.
PlanGrid: denne programvaren inkluderer blåkopi OCR-tolking rett ut av esken. Med denne funksjonen kan du laste opp blåkopibilder og deretter trekke ut, organisere, indeksere og søke i teksten.
Tekstutdrag: denne skybaserte AWS-funksjonen muliggjør OCR-analyse av dokumenter og kan trekke ut elementer som tabeller fra dokumenter. Den kan også gjenkjenne elementer fra tegninger og gir APIer for integrasjon med andre applikasjoner.
Butler OCR: Butler OCR gir utviklere API-er for dokumentutvinning, og kombinerer maskinlæring med menneskelig gjennomgang for å forbedre nøyaktigheten av dokumentgjenkjenningen.

Tilpassede OCR-løsninger

Hvis du ser etter tilpassede OCR-løsninger som kan trenes opp for å oppnå bedre automatisk datautvinning fra tekniske tegninger og tilpasse det til ditt spesifikke dataformat, her er noen populære alternativer:

Tesseract: denne fleksible, åpen kildekode OCR-motoren vedlikeholdt av Google kan trenes på tilpassede data for å gjenkjenne tegningsspesifikke tegn og symboler.
OpenCV: Open-Source Computer Vision Library kan kombineres med OCR-verktøy som Tesseract for å bygge tilpassede tolkningsløsninger. Bildebehandlings- og analysefunksjonene kan forbedre nøyaktigheten til OCR på tekniske tegninger når de brukes riktig.

Bortsett fra disse verktøyene, er det også mulig å uavhengig utvikle tilpassede maskinlæringsmodeller. Ved å bruke opplæringsmodeller på merkede datasett, rammeverk som TensorFlow eller PyTorch, kan disse løsningene finjusteres for å gjenkjenne spesifikke blåkopielementer og oppnå høyere nøyaktighet for behovene til en organisasjon.

Forhåndsutdannede modeller tilbyr bekvemmelighet og brukervennlighet, men er kanskje ikke like effektive til å tolke tekniske tegninger som tilpassede løsninger. Disse tilpassede løsningene krever også ekstra ressurser og ekspertise for å utvikle og vedlikeholde.

Tilpassede løsninger krever ekstra økonomiske ressurser og arbeidskraft for å utvikle. Jeg vil anbefale å starte med en proof of concept (PoC) å validere tekniske evner og et minimum levedyktig produkt (MVP) for å sjekke markedets oppfatning av prosjektet før det investeres for mye i en tilpasset OCR-løsning.

Prosessen med å implementere en OCR-modul for lesing av tekniske tegninger

Det beste stedet å begynne å bygge OCR-programvare for tekniske tegninger vil være å analysere tilgjengelig åpen kildekode-verktøy. Hvis du bruker åpen kildekode-alternativene dine, må du kanskje gå til lukket kildekode-alternativer med API-integrasjoner.

Å bygge en OCR-løsning fra bunnen av er upraktisk fordi det krever et stort datasett for opplæring. Dette er vanskelig og dyrt å samle og krever mye ressurser til modelltrening. I de fleste tilfeller bør finjustering av eksisterende modeller passe dine behov.

Prosessen herfra ser omtrent slik ut:

Vurder krav: du må forstå hva slags tekniske tegninger applikasjonen din skal fungere med og hva slags funksjoner og funksjoner som trengs for å nå dette målet.
Bildefangst og forhåndsbehandling: tenk på hvilke enheter du planlegger å bruke for å ta bildene. Ekstra forbehandlingstrinn kan være nødvendig for å forbedre kvaliteten på resultatene. Dette kan inkludere beskjæring, endring av størrelse, forringing av støy og mer.
OCR-integrasjon: vurder OCR-motoren som vil fungere best med applikasjonen din. OCR-biblioteker har APIer som lar applikasjonen din trekke ut tekst fra bilder som er tatt. Det er viktig å vurdere åpen kildekode OCR-løsninger for kostnadsbesparelser. Tredjeparts API-er kan være ustadige med hensyn til prissetting over tid eller miste støtte.
Tekstgjenkjenning og bearbeiding: Deretter er det på tide å implementere logikk for å behandle og gjenkjenne tekst. Noen mulige oppgaver du kan vurdere å legge til i dette trinnet er tekstopprydding, språkgjenkjenning eller andre teknikker som kan gi klarere tekstgjenkjenningsresultater.
Brukergrensesnitt og erfaring: et brukervennlig brukergrensesnitt for appen er viktig slik at brukeren effektivt kan bruke den til å ta bilder og starte OCR. Resultatene skal presenteres for brukeren på en måte som er lett å forstå.
Testing: test applikasjonen grundig for å sikre nøyaktigheten og brukervennligheten. Tilbakemeldinger fra brukere er avgjørende for denne prosessen.

Innpakning Up

I møte med utfordringene med å lage OCR-programvare for komplekse tekniske tegninger, har organisasjoner en rekke alternativer tilgjengelig for dem for å nærme seg problemet. Fra en rekke forhåndsopplærte modeller og tilpassbare verktøy for å skape mer personlige løsninger, kan bedrifter finne måter å effektivt analysere, indeksere og søke gjennom skisser og andre komplekse dokumenter. Alt som trengs er litt oppfinnsomhet, kreativitet og tid for å lage en løsning som dekker deres behov.

Relaterte temaer:OCR tenkte ledere

Neste

AI og AR driver etterspørselen etter data – maskinvare med åpen kildekode møter utfordringen

Ikke gå glipp av

Generativ kunstig intelligens i helsesektoren trenger en dose med forklaring