Tankeledare
AnvÀndning av OCR för komplexa tekniska ritningar

Optisk teckenigenkänning (OCR) har revolutionerat sättet företag automatiserar dokumentbearbetning. Men kvaliteten och noggrannheten i tekniken räcker inte för alla tillämpningar. Ju mer komplexa dokumenten som bearbetas är, desto mindre exakta blir de. Detta gäller särskilt för tekniska ritningar. Även om OCR-teknik “out of the box” kanske inte är lämplig för denna uppgift, finns det andra sätt att uppnå dina mål för dokumentbearbetning med OCR. I det följande kommer jag att undersöka flera möjliga lösningar för att ge dig en allmän idé utan att gå in för djupt i tekniska detaljer.
Utmaningar med teknisk ritningsigenkänning
När det gäller tekniska ritningar kämpar OCR med att förstå betydelsen av enskilda textelement. Tekniken kan läsa texten, men den förstår inte dess betydelse. Det finns ett antal möjligheter för ingenjörer och tillverkare att överväga om den automatiska igenkänningen av det tekniska dokumentet konfigureras korrekt. Se de mest betydande av dem nedan.

Bildkälla: Mobidev
För att uppnå komplex teknisk dokumentanalys behöver ingenjörer träna AI-modeller. Liksom människor behöver AI-modeller erfarenhet och utbildning för att förstå dessa ritningar.
En utmaning med blåkopior och tekniska ritningsigenkänning är att programvaran måste förstå hur man separerar de olika vyerna av ritningen. Dessa är olika delar av ritningen som ger en grundläggande idé om dess layout. Genom att separera vyerna och förstå hur de relaterar till varandra kan programvaran beräkna begränsningsrutan.
Denna process kan innehålla flera utmaningar:
- Vyerna kan överlappa varandra
- Vyerna kan vara skadade
- Etiketter kan vara ekvidistanta till två vyerna
- Vyerna kan vara inbäddade
Förhållandet mellan vyerna är ett annat möjligt problem. Du måste överväga om vyn är en platt del av diagrammet, en vänd del, en block eller något annat. Dessutom kan det finnas andra problem som kedjade mått, saknade annoteringar, implicit definierade höjder via referens till en standard eller andra problem.
Viktigt är att generisk OCR inte tillförlitligt kan förstå text i ritningar som omges av grafiska element som linjer, symboler och annoteringar. På grund av denna faktum måste vi dyka djupare in i OCR med maskinlärning som kommer att vara mer hjälpsam för denna tillämpning.
Förtränade och anpassade OCR-modeller
Det finns inget underskott på OCR-programvara på marknaden, men inte all denna programvara kan tränas eller modifieras av användaren. Som vi har lärt oss kan utbildning vara en nödvändighet för att analysera dina tekniska ritningar. Men OCR-verktyg för dessa typer av ritningar finns.
Förtränade OCR-verktyg
Här är några vanliga alternativ för OCR-igenkänning av tekniska ritningar:
- ABBYY FineReader: denna mångsidiga blåkopia-tolkningprogramvara erbjuder OCR-teknik med igenkänningsförmåga för text. Den stöder olika bildformat, layoutbevarande, dataexport och integreringar.
- Adobe Acrobat Pro: utöver att tillhandahålla PDF-redigering, visning och hantering, tillåter Acrobat dig att skanna OCR-dokument och blåkopior, extrahera text och utföra sökningar. Den stöder olika språk och tillåter användare att konfigurera alternativ.
- Bluebeam Revu: ett annat populärt PDF-program, Bluebeam Revu erbjuder OCR-teknik för extrahering av text från tekniska ritningar.
- AutoCAD: som står för Computer Aided Design, stöder AutoCAD OCR-pluginprogram för tolkning av blåkopior och omvandling till redigerbara CAD-element.
- PlanGrid: denna programvara innehåller blåkopia-OCR-tolkning som standard. Med den här funktionen kan du ladda upp blåkopia-bilder och sedan extrahera, organisera, indexera och söka texten.
- Textract: den här molnbaserade AWS-funktionen möjliggör OCR-analys av dokument och kan extrahera element som tabeller från dokument. Den kan också känna igen element från blåkopior och tillhandahåller API:er för integration med andra program.
- Butler OCR: som tillhandahåller utvecklare med dokumentextraherings-API:er, kombinerar Butler OCR maskinlärning med mänsklig granskning för att förbättra noggrannheten i dokumentigenkänning.
Anpassade OCR-lösningar
Om du letar efter anpassade OCR-lösningar som kan tränas för att uppnå bättre automatisk dataextrahering från tekniska ritningar och anpassa dem till din specifika dataformat, här är några populära alternativ:
- Tesseract: den här flexibla, öppen källkods-OCR-motorn som underhålls av Google kan tränas på anpassad data för att känna igen blåkopia-specifika tecken och symboler.
- OpenCV: Open-Source Computer Vision Library kan kombineras med OCR-verktyg som Tesseract för att bygga anpassade tolkningslösningar. Dess bildbehandlings- och analysfunktioner kan förbättra noggrannheten i OCR på tekniska ritningar när de används korrekt.
Förutom dessa verktyg är det också möjligt att oberoende utveckla anpassade maskinlärningsmodeller. Genom att använda utbildningsmodeller på märkta dataset, ramverk som TensorFlow eller PyTorch, kan dessa lösningar finjusteras för att känna igen specifika blåkopia-element och uppnå högre noggrannhet för organisationens behov.
Förtränade modeller erbjuder bekvämlighet och enkelhet, men kan inte vara lika effektiva för att tolka tekniska ritningar som anpassade lösningar. Dessa anpassade lösningar kräver också extra resurser och expertis för att utveckla och underhålla.
Anpassade lösningar kräver extra ekonomiska resurser och arbete för att utveckla. Jag skulle rekommendera att börja med en bevis för koncept (PoC) för att validera tekniska förmågor och en minimum viable product (MVP) för att kontrollera marknadens uppfattning om projektet innan du investerar för mycket i en anpassad OCR-lösning.
Processen för att implementera en OCR-modul för att läsa tekniska ritningar
Det bästa stället att börja bygga OCR-programvara för tekniska ritningar vore att analysera tillgängliga öppen källkodsverktyg. Om du uttömt dina öppen källkodsalternativ kan du behöva vända dig till slutna källkodsalternativ med API-integrationer.
Att bygga en OCR-lösning från scratch är opraktiskt eftersom det kräver en enorm dataset för utbildning. Detta är svårt och dyrt att samla in och kräver många resurser för modellutbildning. I de flesta fall bör finjustering av befintliga modeller uppfylla dina behov.
Processen från här ser ut så här:
- Överväg kraven: du behöver förstå vilken typ av tekniska ritningar din applikation ska fungera med och vilka funktioner och funktioner som behövs för att uppnå det målet.
- Bildinsamling och förbearbetning: tänk på vilka enheter du planerar att använda för att samla in bilderna. Extra förbearbetningssteg kan behövas för att förbättra kvaliteten på dina resultat. Detta kan inkludera beskärning, omstorleksändring, brusreducering och mer.
- OCR-integration: överväg vilken OCR-motor som kommer att fungera bäst med din applikation. OCR-bibliotek har API:er som tillåter din applikation att extrahera text från inspelade bilder. Det är viktigt att överväga öppen källkods-OCR-lösningar för kostnadsbesparingar. Tredjeparts-API:er kan vara oberäkneliga när det gäller prissättning över tiden eller förlora stöd.
- Textigenkänning och bearbetning: nästa steg är att implementera logik för att bearbeta och känna igen text. Några möjliga uppgifter du kan överväga att lägga till i detta steg är textrengöring, språkigenkänning eller andra tekniker som kan ge tydligare textigenkänningresultat.
- Användargränssnitt och upplevelse: ett användarvänligt gränssnitt för appen är viktigt så att användaren kan effektivt använda den för att samla in bilder och initiera OCR. Resultaten ska presenteras för användaren på ett sätt som är lätt att förstå.
- Testning: testa noggrant applikationen för att säkerställa dess noggrannhet och användbarhet. Användarfeedback är avgörande för denna process.
Sammanfattning
Inför utmaningarna med att skapa OCR-programvara för komplexa tekniska ritningar har organisationer ett antal alternativ tillgängliga för att närma sig problemet. Från ett urval av förtränade modeller och anpassningsbara verktyg för att skapa mer personliga lösningar, kan företag hitta sätt att effektivt analysera, indexera och söka genom blåkopior och andra komplexa dokument. Allt det kräver är lite uppfinningsrikedom, kreativitet och tid för att skapa en lösning som uppfyller deras behov.












